Sunteți pe pagina 1din 182

1

SERIA PSIHOLOGIE




AUREL ION CLINCIU








S T A T I S T I C
A P L I C A T N
P S I H O L O G I E









Editura Universitii Transilvania din Braov

2013
2

































3
C u p r i n s
Cuvnt nainte .................................................................................................................
7

Capitolul 1. Introducere
1.1. Scurt istoric al statisticii .................................................................................... 10
1.2. Obiectivele statisticii . 12
1.3. Cteva concepte cheie ale demersului statistic ................................................. 13
1.4. Exerciii i aplicaii practice .............................................................................. 17

Capitolul 2. Msurarea. Organizarea coleciei de date
2.1. Msurarea n tiinele socio-umane ................................................................... 19
2.2. Proprieti ale scalelor ....................................................................................... 20
2.2.1. Magnitudinea ........................................................................................ 20
2.2.2. Intervale egale ....................................................................................... 20
2.2.3. Zero absolut ........................................................................................... 21
2.3. Tipuri de scale ................................................................................................... 21
2.3.1. Scalele nominale ................................................................................... 21
2.3.2. Scalele ordinale ..................................................................................... 22
2.3.3. Scalele de interval ............................................................................... 23
2.3.4. Scalele de raport ................................................................................ 24
2.4. Organizarea datelor brute .................................................................................. 25
2.5. Exerciii i aplicaii practice .............................................................................. 26
2.6. Quiz ................................................................................................................... 27
Capitolul 3. Distribuii i frecvene
3.1. Ordonarea i gruparea datelor ........................................................................... 28
3.1.1. Limitele de grupare ............................................................................... 31
3.1.2. Centrele intervalelor ............................................................................. 31
3.2. Histograma i poligonul frecvenelor ................................................................ 31
3.3. Frecvenele cumulate ......................................................................................... 34
3.4. Histograma i poligonul frecvenelor cumulate ................................................ 35
3.5. Criterii de evaluare vizual a formei distribuiilor ............................................ 37
3.6. Exerciii i aplicaii practice .............................................................................. 39
4
Capitolul 4. Indicatori ai tendinei centrale
4.1. Media aritmetic ................................................................................................ 40
4.2. Mediana ............................................................................................................. 44
4.3. Modul ............................................................................................................... 47
4.4. Comparaie ntre medie, median i mod n funcie de distribuie .................... 48
4.5. Cteva concluzii relative la indicatorii distribuiei univariate .......................... 50
4.6. Exerciii i aplicaii practice .............................................................................. 51
4.7. Quiz ................................................................................................................... 52

Capitolul 5. Msuri ale variabilitii
5.1. Amplitudinea mprtierii ................................................................................. 56
5.2. Abaterea intercuartilic ..................................................................................... 57
5.3. Abaterea medie absolut ................................................................................... 59
5.4. Abaterea standard i variana/ dispersia ............................................................ 60
5.4.1. Semnificaia abaterii standard .............................................................. 63
5.5. Coeficientul de variaie ..................................................................................... 64
5.6. Indicatori ai formei distribuiei ......................................................................... 65
5.6.1. Coeficientul de simetrie (skewness) i boltirea (kurtosis) ..................... 65
5.7. Exerciii i aplicaii practice .............................................................................. 66

Capitolul 6. Inferena statistic
6.1. Introducere ........................................................................................................ 68
6.2. nelesul conceptului de semnificaie statistic ................................................. 69
6.3. Eroarea standard a unei medii de selecie i semnificaia ei ............................. 70
6.4. Eroarea standard a unui cuantum procentual i semnificaia ei ........................ 71
6.5. Sarcini i probleme de comparaie. Ipoteza de nul ............................................ 71
6.6. Eantioane necorelate de volum mare. Ipoteza de nul ...................................... 72
6.7. Eantioane de volumm mare, corelate ............................................................... 75
6.8. Semnificaia diferenei dintre dou cuantumuri procentuale ............................ 76
6.9. Teste de semnificaie pentru selecii de volum mic .......................................... 76
6.10. Semnificaia diferenei mediilor a dou eantioane de volum mic corelate .... 77
6.11. Semnificaia diferenei mediilor a dou eantioane de volum mic necorelate 80
6.12. Exerciii i aplicaii practice ............................................................................ 82
5

Capitolul 7. Studiul asocierii dintre variabile prin corelaie
7.1. Introducere ........................................................................................................ 85
7.2. Calculul coeficientului de corelaie ................................................................... 88
7.2.1. Interpretarea orientativ a coeficientului de corelaie ......................... 90
7.3. Coeficientul de corelaie a rangurilor ................................................................ 92
7.4. Limitele de ncredere ale unui coeficient de corelaie ....................................... 94
7.5. Interpretarea unui coeficient de corelaie ....................................................... 94
7.6. Interpretarea varianei unui coeficient de corelaie prin coeficientul de
determinare ...............................................................................................................
95
7.7. Ali coeficieni de corelaie ............................................................................... 97
7.7.1. Coeficienii de corelaie biseriali i triseriali ....................................... 97
7.7.2. Ali coeficieni de corelaie ................................................................... 98
7.8. Utilizrile coeficientului de corelaie ................................................................ 100
7.9. Exerciii i aplicaii practice ............................................................................ 101
7.10. Quiz ................................................................................................................. 103

Capitolul 8. Utilizarea predictiv a asocierii dintre variabile
Regresia liniar simpl i multipl
8.1. Introducere ........................................................................................................ 104
8.2. Predicia determinist i probabilist ................................................................ 106
8.3. Regresia bivariat .............................................................................................. 107
8.3.1. Regresie versus corelaie ...................................................................... 112
8.4. Regresia liniar multipl (multivariat) ............................................................ 112
8.4.1. Probleme speciale implicate n regresie ............................................... 114
8.4.2. Validarea modelului regresiv ............................................................... 116
8.4.3. Glosar de termeni cheie ai regresiei liniare ......................................... 116
8.5. Exerciii i aplicaii practice .............................................................................. 117

Capitolul 9. Testare ipotezelor prin tehnica chi-ptrat
9.1. Teste nonparametrice, distribuii binomiale i multinomiale ............................ 119
9.2. Termeni cheie i definiii implicate n testul chi-ptrat ..................................... 120
9.3. Condiii i restricii pentru efectuarea lui chi-ptrat .......................................... 122
9.4. Utiliarea practic a testului chi-ptrat ............................................................... 122
6
9.5. Exemple de aplicare practic a testului chi-ptrat de potrivire i de asociere ... 124
9.6. Mrimea efectului pentru testul chi-ptrat al asocierii dintre variabile ............. 130
9.7. Exerciii i aplicaii practice .............................................................................. 131

Capitolul 10. Metode nonparametrice de testare a ipotezelor statistice.
10.1. Teste de semnificaie parametrice i neparametrice ......................................... 133
10.2. Testul U Mann-Whitney pentru eantioane independente .............................. 134
10.3. Exerciii i aplicaii practice ............................................................................ 137
10.4. Testul semnului T al lui Wilcoxon pentru eantioane corelate ... 138
10.5. Exerciii i aplicaii practice ............................................................................ 141
10.6. ANOVA pe o cale prin testul Kruskal-Wallis ................................................. 142
10.7. Exerciii i aplicaii practice ............................................................................ 145
10.8. Testul rsngurilor Friedman pentru msurtori repetate ................................... 146
10.9. Exerciii i aplicaii practice ............................................................................ 147

Test pentru verificarea de sintez .

149
Bibliografie ................................................................................................................. 152
Anexe cu utiliti statistice . 155
Glosar de simboluri i formule de calcul ..................................................................... 175
Rspunsuri la exerciiile i aplicaiile practice propuse . 182











7
Cuvnt nainte

Prezena Statisticii ca materie obligatorie la tiinele socio-umane, n spe la
specializarea Psihologie, este justificat printre altele de faptul c eafodarea acesteia ca
tiin a depins n mod esenial de ncorporarea experimentului - i implicit a msurtorii - ca
metod de baz n constituirea corpului su de cunotine i legi. Pe de alt parte, naterea
psihologiei aplicate i extinderea sa pervaziv spre toate domeniile socialului nu ar fi fost
posibil fr apelul la cuantificare, msurtoare i cifr. Deci att psihologul practician, care
colecteaz, stocheaz i prelucreaz n mod constant date cantitative, ct i cel din spaiul
academic, care trebuie s fie la zi cu cercetarea tiinific din domeniul su, ca i din cele
conexe (medicin, biologie, sociologie au tiinele educaiei), trebuie s aib cel puin o
iniiere, dac nu chiar o formare solid n domeniul Statisticii, fr de care nu se poate pstra
contactul cu progresele tiinei.
Apare astfel ca inexplicabil rezistena activ i rezerva aproape ostil a studentului de
la tiinele socio-umane fa de Statistic, care vede adesea n acest obiect de studiu ceva ce ar
contraveni chiar dimensiunii umaniste a tiinei n care el se iniiaz. Exist multe explicaii
plauzibile pentru faptul semnalat. Una dintre cele mai plauzibile ar fi aceea c studenii de la
Psihologie, Pedagogie, Sociologie sau Asisten social au o formaie iniial umanist, cu un
grad de elaborare i consolidare mai sczute a conceptelor i deprinderilor intelectuale de tip
matematic. Acest fapt poate produce din start o rezerv fa de abordrile de tip cantitativ. Pe
de alt parte, progresele incredibile din ultimele decenii n domeniile metodologiei i al
prelucrrii datelor fac ca centrarea pe metodele statistice elementare s nu mai fie deloc
suficient pentru a ine pasul cu evoluiile din domeniu, ceea ce transform n mod obligatoriu
Statistica ntr-un obiect de studiu al nvrii permanente.
n cel de al treilea rnd extinderea progresiv, uneori exploziv, a arsenalului de
metode statistice genereaz tot mai mari dificulti de mai pstra unitatea intern i
perspectiva coerent asupra corpului su de cunotine. n cazul n care se nzuiete spre acest
lucru, alocarea permanent de resurs cognitiv pentru a menine n priz domeniul statistic
devine o condiie intrinsec a progresului i evoluiei n carier. Tendina la entropie a
informaiei ce intr n sistemul cognitiv uman, adic la uniformizare i la tergere a
diferenelor specifice, ca urmare a marii varieti de tehnici i procedee ce apar fr ncetare
n cadrul acestei tiine att de dinamice i evolutive, poate genera sentimentul c Statistica
este unul dintre principalii contributori la imperialismul metodologic din tiin.
8
Dincolo de cauzele enumerate exist cu siguran i elemente contextuale sau
conjuncturale care pot explica rezistena activ a studentului de la tiinele sociale fa de
Statistic, explicabil i prin stilul sau maniera de predare, prin calitatea cursurilor editate i a
aplicaiilor propuse, prin gradul de utilizare a metodelor i tehnicilor moderne de predare-
nvare-evaluare, prin numrul de ore de studiu alocate acesteia de programa universitar etc.
Pe de alt parte, exist o mulime de semnale care indic faptul c starea de fapt
analizat anterior poate fi depit cu bine de majoritatea studenilor. Astfel, n Romnia
ultimului deceniu au aprut cel puin cinci lucrri de referin n domeniul Statisticii tiinelor
sociale (pentru a face referin doar la Rotariu i colaboratorii, la Clocotici i Stan, la Sava,
Labr i Popa), la care se adaug multitudinea de lucrri de iniiere n SPSS din literatura
romna i din cea strin. Extinderea progresiv a numrului de aplicaii incluse n pachetele
de programe computerizare pentru tratarea datelor (SPSS, SAS, NCSS etc.) a fcut ca
accesarea i derularea unor foarte complicate i avansate tehnici statistice s depind efectiv
doar de o apsare de buton. Aceast facilitate i accesibilitate extraordinare nu elimin ns n
nici un fel problema crerii infrastructurii conceptuale i a deprinderilor matematice, fr de
care tehnica rmne mut n faa neiniiatului.
Lucrarea de fa este n fapt un curs de iniiere n Statistica psihologic. Prin
elaborarea sa ne-am propus s prezentm conceptele i procedeele de baz ale statisticii
descriptive i infereniale, univariate i bivariate, ntr-o manier prietenoas, inteligibil i cu
bune valene formative. Preocuparea noastr de baz a constat n selectarea informaiei utile,
lsnd n planul secundar prezentarea ntemeierii matematice a tehnicilor statistice prezentate.
De asemenea, legtura cu programele computerizate de prelucrare a datelor, acolo unde s-a
produs o revoluie nevzut la care suntem cu toii martori, este doar vag i inconstant
sugerat. Aceasta deoarece considerm c prelucrarea informatizat a datelor trebuie s se
fac ulterior n mod distinct, dup ce s-a construit eafodajul minimal de concepte i tehnici
necesare utilizrii programelor computerizate.
Cartea de fa nu este una extins ca volum, cele 10 capitole care o compun putnd fi
ntlnite, cu mici variaiuni, n toate lucrrile actuale de iniiere n Statistic. Astfel, dup
primele trei capitole introductive, relative la istoricul, obiectivele i conceptele de baz ale
domeniului statistic, despre msurare, tipuri de scale, distribuii i frecvene, sunt prezentai
indicatorii tendinei centrale, determinarea indicilor de mprtiere a datelor i ai celor relativi
la forma distribuiei. Capitolul al aptelea trateaz inferena statistic i testarea ipotezelor
bazate pe diferene ale mediilor, el continundu-se n mod firesc cu un capitol care prezint
testarea ipotezelor relative la asocierea variabilelor prin corelaie i cu un altul despre regresia
9
bivariat. Acest capitol face doar trimiteri la regresia multivariat, rmnnd cantonat
preponderent n zona regresiei simple, deoarece regresia multipl depete nivelul iniierii
statistice, fiind greu de prezentat fr cunotine avansate i fr apelul la programe puternice
de tratare a datelor. Ultimele dou capitole trimit la testarea ipotezelor statistice prin teste
neparametrice, aplicabile datelor nominale i categoriale, cum sunt testele chi-ptrat, Man-
Whitney, Wilcoxon, Kruskal-Wallis sau Friedman. Aa cum se poate cu uurin observa,
lucrarea a acordat un spaiu amplu testrii ipotezelor statistice, fiind prezentat aproape toat
gama procedeelor tehnice destinate acestui scop. Nu am inclus aici i tehnicile analizei de
varian ANOVA care, prin multitudine i complexitate, fac obligatoriu apel la un program
automat de prelucrare computerizat a datelor, fiind mai potrivit s fie incluse n volumul
destinat statisticilor multivariate. Menionm de asemenea c am preferat s prezentm toate
metodele de testare a ipotezelor incluse n acest volum fr a face n nici un fel apel la
resursele SPSS cci acest lucru face obiectul unui curs special cu aceast misiune.
Fiind destinat nceptorului, lucrarea de fa a ncercat s in cont maximal de
principiul accesibilitii, prin simplificarea discursului teoretic i prin reliefarea constant mai
ales a informaiei utile. Pe de alt parte, o lege a nvrii leag temeinicia i calitatea acesteia
de calitatea i profunzimea interaciunii cu materialul de nvat. Pentru a facilita centrarea pe
aspectele aplicative toate capitolele, inclusiv cel introductiv, sunt nsoite de exerciii i
aplicaii practice, de teste rapide de verificare a cunotinelor (quiz, pstrnd terminologia
englez) i de un test final de sintez i evaluare de ansamblu, destinat autoverificrii stadiului
atins n nvarea statisticilor introductive. Pentru majoritatea acestor aplicaii practice s-au
oferit soluiile problemelor propuse, nsoite deseori de explicaii adiionale care s contribuie
la mai buna lor nelegere. Astfel, o seciune final a lucrrii ofer soluia rezolvrii corecte a
majoritii problemelor prezentate cu scop de autoevaluare la sfritul fiecrei uniti de curs.
Lucrarea de fa i are continuarea ntr-un al doilea volum, destinat deprinderii i
perfecionrii n utilizarea procedurilor computerizate de prelucrare a datelor cu SPSS, dar i
de un al treilea volum, destinat prezentrii statisticilor avansate (Statistici multivariate pentru
psihologie). Ordinea apariiei lor editoriale nu este cea din secvena prezentat anterior, acest
volum introductiv fiind eleaborat ultimul, complexitatea i mai ales miza lui pedagogic
deosebit genernd cele mai mari probleme de elaborare i editare. n felul acesta se poate
vorbi de o trilogie statistic, ce se constituie ntr-un ghid complex de monitorizare a
formrii i perfecionrii n domeniul abordrilor de tip cantitativ. Feedback-ul primit din
partea principalului sau utilizator, studentul, va contribui la mbuntirea calitii acestui
volum, motiv pentru care sugestiile utilizatorilor sunt ateptate cu real i legitim interes.
10

CAPITOLUL 1

INTRODUCERE


1.1. Scurt istoric al statisticii
Statistica nu s-a nscut n cmpul psihologiei tiinifice, aceasta prelund i
ncorpornd procedeele ei pentru a putea depi posibilitile limitate oferite de cea mai
rspndit dintre metodele sale, observaia, care plaseaz psihologul () n domeniul
relativului empiric, adic n lumea fenomenelor, a caracteristicilor i a proprietilor care sunt
vag conturate i neasamblate n sisteme de cunotine riguros nchegate (Clocotici i Stan,
2000, p. 11).
Destinul nsui al tiinei nou aprute, psihologia, a depins de ruperea acesteia din
cmpul filosofiei i translarea spre tiinele pozitive, care i-au ncorporat experimentul ca
metod predilect de cercetare a relaiei cauz efect. Intrarea ei n laborator, separarea
variabilelor dependente i independente presupunea cu necesitate metode i tehnici statistice
de prelucrare a datelor obinute prin msurtoare.
Impactul acestei apropieri reciproce avea s fie benefic reciproc, o serie de mari
psihologi (Galton, Spearman, Pearson, Guilford sau Cattell) avnd contribuii remarcabile,
care au schimbat faa statisticii. Aceasta deoarece domeniul faptelor psihice este mai complex
dect fizica cuantic, biologia celular sau astronomia, prin aceea c el este marcat de
multicauzalitate, sau de alte aspecte caracteristice specifice ale cauzalitii.
Muli autori leag apariia statisticii de probleme pragmatice, preponderent economice
sau administrative, cum ar fi aa-numitele tabele de mortalitate ale lui Graunt (1661), prin
care ptura negustoreasc din Anglia ncerca s pun bazele unui sistem de asigurri pe via.
Graunt este considerat i printele demografiei, pe care a fundamentat-o prin aa-numita
aritmetic politic, nscut n 1662 (termenul aparine lui Petty). Analiza datelor despre
evenimentele demografice, n spe despre decese, arta o neateptat constan i
regularitate, ceea ce sugereaz posibilitatea gsirii unor legi n domeniul vieii sociale, de
consisten apropiat celor din tiinele naturii (Rotariu, 1999, p. 16).
Curiozitatea tiinific produs de o asemenea descoperire remarcabil va fi
generatoarea unei activiti sistematice de culegere, stocare, prelucrare i interpretare a unor
informaii numerice despre importante domenii ale statului, corespondentul centrelor
11
naionale de statistic din timpurile moderne. De altfel, chiar i etimologic statistic pleac de
la status, care poate fi interpretat att ca stare de fapt, ct i ca stat, deci statistica ar putea fi
considerat o tiin de stat. Aceasta corespunde i etimologiei propuse de cel considerat a fi
introdus termenul de statistic, Achenwall.
Corespondena susinut dintre Pascal i Fermat (1654) a stat la baza fundamentrii
unei teorii matematice asupra verosimilitii, n timp ce cooperarea mai tardiv dintre Gauss i
Laplace (1809-1812) s-a concretizat n conceptul de distribuie normal (clopotul lui Gauss).
Dei problemele demografice i economice au fost primordiale n conturarea
obiectului statisticii, contactul psihologiei cu aceast tiin avea s fie fundamental pentru
destinul ei. Iat cteva aspecte mai semnificative:
- Cel care a introdus psihologia n registrele de stare civil, dup inspirata expresie a
lui Pavelcu, n anii 1730 i 1732, Christian Wolff (prin lucrrile Psihologia empirica
i Psihologia rationalis) anticipa chiar de atunci necesitatea existenei unei subramuri
matematice a acesteia, pe care el a numit-o, inspirat, psihometrie. Dei termenul va
cpta o cu totul alt semnificaie la cei care au studiat fenomenele paranormale n
Anglia secolului al XIX-lea (care au i creat o Societate Regal de Psihometrie),
sensul iniial va fi cel care se va impune, prin ncercrile lui Galton i Binet de a
dezvolta domeniile aplicative ale psihologiei, indestructibil legate de un aparat
matematic de tip statistic.
- Este meritul unui astronom belgian, Qutelet (1796-1874) de a fi extins aplicarea unor
legi ale statisticii, cum ar fi legea distribuiei normale sau binomial, derivat din
luarea n considerarea distribuiilor probabiliste, spre alte domenii dect cele sociale,
aici incluzndu-se i cele psihologice.
- Galton, iniiatorul colii psihometrice engleze (al crei punct forte va fi chiar ideea de
msurtoare i cuantificare a faptului psihic) a creat metode statistice de abordare a
legilor ereditii (metoda gemenilor i a genealogiilor, de exemplu), avndu-i ca
succesori pe Pearson, teoreticianul metodei corelaiei prin metoda produselor (1896),
pe Spearman, creatorul metodei corelaiei prin metoda rangurilor i ntemeietorul
analizei factoriale (1904). Continuatorii acestora (Fisher, Burt i Vernon) vor merge
mai departe pe liniile de for ale colii engleze de statistic, considerat principala
contributoare n conturarea domeniului acesteia. n domeniul personalitii, H.J.
Eysenck i R.B. Cattell (ultimul a imigrat n America dup perioada de formare n
Anglia) vor fi exponeni strlucii ai metodelor statistice i cu precdere ai analizei
factoriale.
12
- Al doilea mare contributor a fost coala german, prin Conring (1606-1682),
Achenwall (1719-1772) i, bineneles, Gauss (1777-1785).
- n America muli matematicieni i psihologi au continuat n mod natural coala
englez, prin Thurstone, Hotelling, Guilford, Lord, Novick, Fruchter sau Cronbach.
- n psihologie, statistica a evideniat o evoluie de la distribuii spre corelaie, analiza
factorial i de cluster, teoria rspunsurilor la itemi sau a generalizabilitii, pe lng
analiza varianei simple aprnd tehnici de analiz multivariat (ANOVA, MANOVA.
ANCOVA, MANCOVA), n timp ce pentru psihologia social i sociologie, pe lng
problema analizei relaiilor dintre variabile, s-au impus tot mai mult problemele legate
de selecie, eantionare i reprezentativitate (statistica inferenial).

1.2. Obiectivele statisticii
De la o tiin global a statului (vezi Rotariu et al., 1999, pp. 15-22), care i
propunea s ofere conductorilor instrumente de aciune eficace, rezultate din investigarea
principalelor aspecte ce puteau fi nregistrate, pstrate, prelucrate i interpretate, statistica s-a
extins spre planurile psihologic, biologic, fizic, chimic, economic, politic, agricultur,
devenind un mod de gndire al viitorului (Vod). S-au nscut o multitudine de ramuri i de
abordri speciale, bazate pe proceduri ce se adapteaz la specificul domeniului investigat,
desprinse toate din trunchiul aceleeai tiine, statistica general.
Aceast tiin cuprinde un corp sistematic de cunotine i de metode statistice, care
au ca obiect colectarea, prelucrarea i interpretarea rezultatelor ce provin de la populaii i
indivizi statistici. Acetia pot fi oameni, nsuiri, plante, gene, porumbei, maimue, peti,
culturi, chiar i atomi sau electroni, pentru toate acestea legile statisticii opernd ntr-o
manier similar.
Datele statisticii provin fie de la aceleai populaii, care se comport diferit ca urmare
a faptului c asupra lor acioneaz o multitudine de cauze, fie de la acelai individ, entitate,
de-a lungul diferitelor sale manifestri pe scara timpului. Dei nu este o ramur a matematicii
(nu pleac de la axiome, pentru a deriva prin demonstraii sau teoreme enunuri sistematice),
statistica ofer un larg cmp de aplicaii matematicii, n primul rnd datorit faptului c
ambele lucreaz cu numere i reguli de calcul i, de la un anumit nivel, relaiilor dintre
entitile statistice li se substituie raporturi matematice abstracte, tipice entitilor ideale.
Aceasta face foarte dificil trasarea unei linii de demarcaie dintre matematic i statistic.
Dei nu are un referenial empiric anume (ea propundu-i s stabileasc regula general
aplicabil, indiferent de domeniul realitii de care se ocup) statistica coboar totui din
13
planul general abstract (matematica rmnnd cantonat n turnul de filde al propriilor sale
abstracii), avnd un caracter aplicativ mult mai explicit, deoarece i propune s rezolve
probleme concrete.
Mai mult, demersul statistic nu este posibil fr materia prim a datelor colectate
anterior, ntr- o direcie n care prelucrarea i interpretarea datelor este doar o parte a
secvenei, adic cea mai tehnic i mai specializat. S nu uitm totui c momentul creator al
cercetrii tiinifice, scnteia sau impulsul iniial sunt date de conturarea ipotezei specifice.
Apoi, sesizarea semnificaiei datelor prelucrate nu este posibil fr o solid cultur a
domeniului n care sunt aplicate metodele statistice. Psihologul, pedagogul, sociologul sau
economistul sunt cei care valorific rezultatele tehnice pe care le ofer statistica sau
statisticienii.

1.3. Cteva concepte cheie ale demersului statistic
Termenul de populaie statistic, alctuit din indivizi statistici, care pot fi persoane,
fapte, entiti fizice etc. a fost deja definit anterior. El nu este sinonim cu cel de populaie din
limbajul comun.
Cum tot ceea ce exist, n plan fizic sau ideal, are o mulime de determinri i de
atribute ce nu pot fi cuprinse i analizate simultan, separat sau exhaustiv, sunt selectate doar o
parte dintre acestea, limitarea fiind impus i de mijloacele de care dispunem la un moment
dat. Asfel, indivizii umani se pot diferenia n funcie de vrst, sex, mediu de provenien,
nivelul propriu de instrucie sau al prinilor, status cultural, nivel economic, religie, ras,
etnie etc. Fiecare dintre aceste criterii care opereaz diferene se numete variabil, deoarece
n absena lor oamenii ar fi identici.
Unele variabile sunt discontinue (discrete), cum ar fi sexul (masculin, feminin),
mediul (urban, suburban, rural); altele sunt continue (nlimea, greutatea, vrsta). Mulimea
valorilor pe care le poate lua o caracteristic particular constituie distribuia variabilei
respective. Fiecare populaie are propria sa distribuie pentru fiecare variabil. De exemplu
tim c la natere raportul dintre biei i fete este de aproximativ de 52 la 48 de procente,
pentru ca acesta s se inverseze dup primii ani de via din cauza vulnerabilitii, i implicit a
mortalitii mai mari n rndul sexului masculin. La vrsta a treia acest raport se
dezechilibreaz i mai mult, femeile avnd o speran de via cu aproape 10 ani mai mare
dect brbaii. Deci aceeai populaie are, n trei momente diferite ale existenei sale, trei
distribuii diferite, n funcie de aceeai caracteristic, apartenena de gen.
14
Parametrii sunt valorile fixe ce exist la un moment dat pentru o populaie, luat n
ansamblul ei, n raport cu o variabil. Ideea de variabil este strns asociat cu aceea de
cuantificare, msurtoare, ca mijloc de determinare a variabilitii. Orice msurtoare
presupune, la rndul ei, o scal de msurare. Toate aceste elemente: individ, populaie
statistic, variabil, distribuie definesc domeniul statisticii descriptive, alctuit din corpul
de metode prin care pot fi caracterizate faptele i fenomenele studiate.
Dar statistica a tins de la nceputuri spre numerele mari, spre populaiile extinse, a
cror cuprindere i descriere detaliate sunt adesea imposibile, din cauza costurilor pe care le-
ar antrena. Chiar i atunci cnd acest lucru ar fi tehnic posibil, investigaiile i prelucrrile ar
presupune perioade mari de timp, care este el nsui o mare surs de variabilitate, antrennd
modificri nsemnate ale multor variabile. Soluia gsit este statistica inferenial, un
ansamblu de tehnici i de metode (de eantionare, de selecie etc.), prin care estimrile fcute
asupra unui numr mai mic de entiti ce compun populaia de ansamblu sunt extrapolate
asupra acestei populaii, n limite de ncredere rezonabile. Acest domeniu al statisticii este
extrem de utilizat de sociologie (metoda anchetei pe baz de chestionar sau a sondajelor de
opinie fiind doar dou exemple). Dac vom lua n considerare faptul c instrumentul de baz
al psihodiagnozei, testul psihologic, este etalonat pe populaii reprezentative zonal sau
naional, vom vedea c statistica inferenial are importante utilizri i n psihologie.
Statistica inferenial presupune alte cteva concepte care o circumscriu. Eantionul
este o parte, redus ca numr, din populaia statistic de baz care, atunci cnd este extras
corect, permite estimaia parametrilor acestei populaii, adic o aproximare a valorii reale a
acestora n limite de ncredere ce pot fi determinate. O ndelung practic social a dus la
dezvoltarea cu precdere a statisticii infereniale, i aceasta din mai multe motive:
- Costurile incomparabil mai mici (s comparm costurile unui referendum naional cu
ale unui sondaj de opinie desfurat pe un eantion reprezentativ naional).
- Utilizarea ei extensiv, pentru un numr tot mai mare de beneficiari: ageni economici,
organizaii, partide, guverne etc., n scopuri diagnostice, dar i prognostice, care
fundamenteaz decizii de o mare importan social.
- Rafinarea progresiv a tehnicilor, ceea ce a fcut ca marja de eroare s fie tot mai
mic, astfel nct predicia pe eantioane mici s poat fi extrapolat la populaii
statistice foarte mari.
Statistica din tiinele socio-umane are ca i concept primar pe acela de variabilitate a
datelor, care poate fi interindividual (cel mai adesea), dar i intraindividual. Acesta
angajeaz alte concepte, cum ar fi cel de surs de variaie (previzibil sau imprevizibil,
15
sistematic sau aleatoare, determinabil sau nedeterminabil), sau cel de msurare. Dac
sursele previzibile sunt dinainte tiute i circumscrise din start de investigaia n cauz (a se
vedea controlul variabilelor de la metoda experimental, variabilele test, subiect i
examinator, la metoda testului), exist i o multitudine de surse fortuite de variaie (variabilele
externe necontrolate, n primul exemplu, i variabila situaional, n cel de al doilea). Analiza
statistic ncearc s deceleze ponderea fiecrei surse de variaie. Deoarece datele numerice
de natur statistic reprezint rezultatul amalgamrii unui mare numr de cauze, este posibil
ca statistica s fie continuarea fireasc a experimentului, pe care tinde s l nlocuiasc (Yule
i Kendall, 1969, p. 16), ntruct ea va determina care sunt cauzele cele mai importante i
care sunt rezultatele observrii ce pot fi atribuite fiecrei categorii de cauze.

Msurarea este o operaie prin care se atribuie numere unor aspecte ale obiectelor
sau evenimentelor, potrivit unei reguli (Smith, S.S., 1974). Dup cum arta i Piaget,
problema metriei este una fundamental n psihologie, deoarece puine din domeniile sau
fenomenele sale se preteaz, n sens strict, la cuantificare. Aceasta poate fi chiar una dintre
cauzele (dac nu cumva i cea mai important) pentru care psihologia are un trecut lung, dar o
istorie, c tiin, scurt (Ebbinghaus). Msurarea aduce cu sine problema scalei de msur,
care trebuie s fie corect, constant (produce date identice pentru fenomene identice, n
condiii de msurare identice), exhaustiv (ea poate msura toate entitile crora le este
destinat) i reciproc exclusiv (n urma msurtorii, fiecare entitate capt o valoare i numai
una). Principalele tipuri de scale cunoscute (nominal, ordinal, de interval i de raport)
evideniaz proprieti care dau conotaii i aplicaii specifice msurtorilor ce rezult din
fiecare tip, astfel nct cele mai complexe nglobeaz caracteristicile celor mai simple, dar
aducnd elemente noi, difereniatoare.
Caracteristicile variabilei pot fi calitative i cantitative, continue i discontinue.
Distribuiile obinute aduc n discuie problema frecvenelor (absolute i relative, simple sau
cumulate), dar i a modalitilor de a le reprezenta grafic: poligonul frecvenelor, histograme,
curbe, grafice, scatter etc.
O bun parte a statisticii descriptive urmrete definirea celor mai importante tendine
centrale, adic media, mediana i modul, dar i a tendinelor extreme, cum ar fi amplitudinea
mprtierii, abaterea medie, abaterea semiinterquartil, abaterea standard sau dispersia,
variana. Distribuia n sine poate fi judecat din punctul de vedere al formei (simetrie sau
boltire, adic skewness i kurtosis, n englez). Toate aceste noiuni, unele dintre ele derivate
din teoria probabilitilor, prin care sunt fundamentate matematic valorile tipice ale
16
variabileleor, dar i repartiiile de diverse tipuri, contureaz mai exact domeniul statisticii
descriptive.
Statistica inferenial, pe lng conceptele deja amintite (populaie, eantion
eantionare, estimare), include i testarea ipotezelor statistice. n capitole distincte, statistica
trateaz corelaia, asocierea datelor calitative i cantitative, analiza dispersional, unifactorial
sau bifactorial, analiza factorial i analiza de cluster. Cursul de fa este unul de iniiere, n
consecin el va acoperi doar o parte dintre problemele enunate, adic elementele care
fundamenteaz cunoaterea statistic n scopul aplicaiilor ei la situaii uzuale, comune.
Pentru atingerea acestui obiectiv avem n vedere dou aspecte importante:
comprimarea la minimum a prii de ntemeiere matematic a subiectelor tratate, problem
care rmne n grija teoreticienilor statisticii, adic a celor ce contureaz dimensiunea
savant, tiinific a domeniului; permanenta preocupare de a oferi situaii sau aplicaii
concrete, pentru a evidenia puterea real a procedeelor de lucru prezentate. n fond, acest curs
se adreseaz n principal studenilor de la psihologie i pedagogie, cel mai adesea avnd o
dominant umanist a formaiei i pregtirii lor. Intenia noastr a fost aceea de a nu-i inhiba
cu demonstraii abstracte, de factur matematic, ci de a-i familiariza cu cele mai des ntlnite
aplicaii statistice, prin care s fie capabili s-i valorifice cercetrile proprii. Cursul are de
asemenea n vedere practicianul din aceste domenii, cel care, dup ce acumuleaz o cantitate
de date brute prin teste sau chestionare, tinde s le valorifice sau s le gestioneze mai bine.
Aplicaiile speciale sau savante ale statisticii presupun, pe lng aceast iniiere,
stagii de pregtire mai avansate, susinute de programe computerizate (SPSS, SAS sau
NCSS). Extraordinara lor putere de lucru, precizia, elegana, multitudinea opiunilor i alte
faciliti de acerst gen par a transforma o ntreag evoluie a domeniului (i procedee de lucru
altdat extensiv utilizate) n istorie. Susinem ns opinia potrivit creia sensul acestor
aplicaii computerizate nu poate fi dedus fr o cultur a domeniului, fr un stagiu prealabil
de iniiere dup procedeele i cu mijloacele clasice (creion, caiet de matematic, rigl,
minicalculator cu panou de lucru statistic), prin care vom deslui cele mai importante aplicaii
statistice n situaiile curente. Saltul spre puternicele programe computerizate va fi astfel mult
facilitat, deoarece vom ti ce s cerem computerului, la ce tip de prelucrri s facem apel i ce
relevan vor avea datele pe care acesta ni le ofer cu generozitate.


17

1.4. Exerciii i aplicaii practice

1. V intereseaz problema abandonului colar la ciclul gimnazial din Romnia de azi.
1.1. Precizai care este populaia studiului i care eantionul.
1.2. Identificai cteva dintre variabilele de interes pentru studiul desfurat.
1.3. Evideniai cteva dintre variabilele categoriale i real numerice implicate n acest
studiu.

2. Sugerai cum s-ar putea obine obine un eantion complet randomizat (sau aproape
complet randomizat) din populaia unui micu orel (5 000 de locuitori).

3. Dac ai folosi cartea de telefon ai putea obine un eantion randomizat pentru acest ora?

4. De ci cai ai avea nevoie pentru a determina cu exactitate cte picioare are un cal? Dar
de ci cai ai avea nevoie pentru a determina precis care este greutatea medie a unui cal?
Unde avem de-a face cu o variabil i unde cu o constant i care dintre cele dou
categorii este mai informativ?

5. Cineva ar putea obiecta c a doua ntrebare de mai sus conine o capcan: caii de vrste
foarte mici (sub un an, adic mnjii) aparin i ei speciei cabaline, dar dac i-am include n
eantion ei ar putea contribui la scderea semnificativ a mediei greutii cailor ca specie.
Apoi, greutatea medie poate diferi de la ras la ras i de aceea determinarea greutii
medii a speciei cabaline s-ar putea s nu aib sens. Mai mult, ca i la oameni, caii au
oasele mai grele dect iepele i n consecin un indicator sintetic al greutii comune
ntregii specii cabaline ar fi irelevant.
5.1. Identificai n exemplul de mai sus variabilele implicate.
5.2. Identificai care sunt datele categoriale i cele real numerice (de msurtoare).
5.3. Precizai i alte variabile de interes pentru greutatea medie a cailor, indicnd tipul
acestora.
5.4. Identificai care sunt cazul, variabilele i valorile implicate n exemplul analizat.

6. Dai cte trei exemple n care interesul nostru este:
6.1. De a determina diferena dintre dou sau mai multe grupuri.
6.2. De a determina realaiile sau gradul de asociere dintre aceste variabile.
6.3. De a exemplifica cu cteva date categoriale.
6.4. De a exemplifica cu cteva date de msurtoare.

7. Precizai care este diferena dintre:
7.1. Eantion i populaie.
7.2. Statistici i parametri.
7.3. Eantioane randomizate i eantioane de convenien.

8. Explicai urmtoarele:
8.1. De ce variabilitatea este conceptul de baz al statisticii?
8.2. Ce nelegei prin faptul c genul masculin prezint mai mult variabilitate dect
cel feminin n ceea ce privete nlimea, greutatea sau inteligena?
8.3. Din ntrebarea de mai sus rezult c brbaii ca grup sunt neaprat mai nali, mai
grei sau mai inteligeni dect femeile? Pe ce v bazai afirmaia?

18
9. Explicai diferenele existente ntre statistica descriptiv i cea inferenial.

10. Facei parte din echipa care studiaz pattern-urile de dezvoltare fizic a populaiei
infantile i tinere (0 - 20 de ani) a Romniei de azi. n planificarea studiului dvs. utilizai ct
mai multe concepte, termeni (populaie, eantion, variabile etc.) i metode (eantionare)
prezentate n capitolul de fa.

11. Definii pe scurt termenii de: date, variabil, eantionare, populaie i inferen statistic.

12. Vom lua n considerare toi studenii de anul nti de la specializarea Psihologie a
Facultii de Psihologie i tiinele Educaiei. Dai cteva exemple din care s rezulte c:
12.1. Acetia reprezint populaia.
12.2. Acetia reprezint un eantion dintr-o populaie.
12.3. Cnd l considerm eantion, acesta este unul randomizat sau nealeator?
(Explicai opiunea fcut).

13. Rectorul universitii noastre este interesat de repartiia pe judee, pe sexe, pe grupuri
etnice i pe categorii de vrst a studenilor admii la aceast universitate, ca i de evoluia lor
ca rezultate academice n ultimii 10 ani.
13.1. Care este populaia studiat?
13.2. Care sunt variabilele implicate n acest studiu?
13.3. Avem de-a face cu eantioane aleatorii sau cu unele de convenien?
13.4. Identificai variabilele categoriale i pe cele real numerice prezente n studiul
invocat.

14. La un meci de fotbal sunt prezentate la final de partid urmtoarele statistici:
- uturi pe poart;
- uturi pe spaiul porii;
- goluri marcate;
- pase de gol;
- cartonae galbene i roii primite de fiecare echip;
- posesia mingii exprimat n procente pentru fiecare echip;
- numrul mediu de metri alergat de fiecare juctor pe parcursul perioadei jucate.

14.1. Care dintre aceste date sunt tipice statisticii descriptive i care celei infereniale?
14.2. Care dintre datele de mai sus sunt real numerice i care categoriale?
14.3. Argumentai care dintre datele de mai sus prezint cea mai mare variabilitate.
14.4. Care dintre aceste date provin de la variabile continue i care de la variabile
discontinue?
14.5. Ierarhizai i explicai care dintre primele patru variabile prezint mai mult
variabilitate.





19

CAPITOLUL 2

MSURAREA
ORGANIZAREA COLECIEI DE DATE


2.1. Msurarea n tiinele socioumane
Cele mai multe aspecte pe care vrem s le msurm n tiinele socioumane
(psihologie, pedagogie, sociologie) se prezint adesea sub form numeric, sau sunt aduse
ntr-o asemenea form printr-o operaie de codare. Psihologul msoar adesea date fizice
(stimuli vizuali, auditivi, tactili, kinestezici etc.), prin manifestrile lor caracteristice
(intensitate, durat, frecven, greutate), culese de aparate special elaborate, ce dispun de
propriile uniti metrice. El msoar n egal msur efectul stimulilor asupra fiinei vii i
atunci determin timpul de reacie, numrul rspunsurilor corecte, erorile. Msura poate
ajunge la niveluri de rafinare i complexitate foarte ridicate: msurm inteligena prin
componentele acesteia determinate prin intermediul unei teorii; msurm memoria prin
parametri de volum, fidelitate, numr de repetiii necesare ntipririi; msurm factorii de
personalitate de ordin primar sau secundar, dedui din complexe construcii teoretice;
msurm atitudini sau reacii interpersonale (simpatie-antipatie, atracie-respingere).
Unele caracteristici sunt foarte uor de degajat (msurtorile fizice), altele sunt
deductibile prin construcii sau montaje experimentale ingenioase, iar altele se fundamenteaz
pe soluii reieite din teorii tiinifice. De multe ori datele calitative culese prin observaie sau
experiment sunt transformate n date cantitative printr-o gril de observaie, care ofer cadrul
de referin n clasificarea datelor. Acest instrument n care faptele sunt clasificate pentru a
putea fi urmrite sub raportul intensitii i al frecvenei se cheam protocol i este alctuit
dintr-un tabel ce descrie faptele observate pe linii i frecvena de apariie a acestora pe
coloane.
Msurarea n psihologie trebuie luat n sensul ei cel mai larg, acela de atribuire de
numere datelor continue sau discontinue (discrete), pentru c psihologia nu i-a conturat
uniti metrice la fel de tari matematic ca cele din tiinele fizice. i totui, ea aspir s fac
prin operaiile de msurare mai mult dect o operaie de codare, cum este de exemplu aceea
de atribuire a notelor colare (operaie care nu poate exclude subiectivitatea).
20
Din punct de vedere matematic msurarea este o operaie prin care fiecrui element
din mulimea de obiecte (domeniul de definiie al variabilei) i se ataeaz un numr i numai
unul din mulimea n care aceasta ia valori (domeniul variabilei). Se stabilete astfel o relaie
de izomorfism ntre mulimea obiectelor i mulimea msurilor obiectelor, fiecare obiect fiind
definit de o singur msur.
Sistemul de reguli impus de teoria i practica din domeniu definete mai multe tipuri
de msurare n funcie de tipul de scal utilizat: nominal, ordinal, de interval i de raport.
Alegerea celui mai potrivit tip de scal este impus de numrul i mai ales de tipul de relaii
existente ntre elementele investigate, dar toate caracteristicile unei scale de rang inferior se
regsesc la cele de ordin superior. n plus, fiecare scal permite doar anumite operaii i
procedee matematice. Cu ct este mai sus n aceast ierarhie, cu att ea este mai precis,
permind prelucrri statistice mai complexe i implicit concluzii mai fundamentate
matematic.

2.2. Proprietile scalelor
Exist trei proprieti care fac ca scalele de msurare s difere ntre ele: magnitudinea
intervalele egale i zero absolut.

2.2.1. Magnitudinea
O scal are aceast proprietate cnd putem spune c o caracteristic a atributului
msurat reprezint mai mult, mai puin sau la fel (tot att, adic egal) o cantitate sau nsuire,
comparativ cu o alt stare a aceluiai atribut. n ceea ce privete talia, de exemplu, putem
afirma c George este mai nalt, mai scund sau la fel de nalt ca Horia, deci scala nlimii are
proprietatea magnitudinii. Numerele de pe tricourile fotbalitilor nu au n schimb aceast
nsuire, deoarece ele sunt atribuite ca nite etichete, doar pentru identificarea juctorilor.

2.2.2. I ntervalele egale
O scal are intervale egale dac diferena dintre dou puncte aflate pe oricare zon a
scalei are aceeai semnificaie, valoare, ca diferena dintre alte dou puncte care difer prin
acelai numr de uniti. De exemplu, diferena dintre anii 1200 i 1400 este egal cu
diferena dintre anii 1800 i 2000, n timp ce diferena dintre coeficienii de inteligen 50 i
100 nu are aceeai semnificaie ca diferena dintre coeficienii 100 i 150, dup cum nu putem
spune c cel cu QI de 100 este de dou ori mai inteligent dect cel cu QI de 50.
Psihometricienii au ncercat s ocoleasc aceste dificulti i, folosind tehnici matematice
21
sofisticate, au creat instrumente care se apropie de cerina unei scale de interval (adic cu
intervale de scal egale).

2.2.3. Zero absolut
Acest proprietate este posibil de evideniat cnd variabila msurat are un nivel la
care ea nu mai exist deloc: zero ca distan nseamn absena oricrei distane, zero ca ritm
cardiac nseamn moartea, dar zero ca agresivitate, emoie, curaj, inteligen (caracteristici
umane) este extrem de greu, dac nu imposibil, de evideniat sau de definit.

Tabelul 2.1. Scalele de msurare i proprietile lor (dup Kaplan si Saccuzzo, 1993, p. 32).
P r o p r i e t i
Tip de scal Magnitudine I ntervale egale Zero absolut
Nominal Nu Nu Nu
Ordinal Da Nu Nu
De interval Da Da Nu
De raport Da Da Da

2.3. Tipuri de scale

2.3.1. Scalele nominale
n sens strict, scala nominal nu este o scal, pentru c ea nu are nici una dintre cele
trei caracteristici enumerate anterior. Scopul ei este s numeasc obiectele, aa cum se
ntmpl cu numerele de pe tricourile fotbalitilor. Cu toate acestea este comod s atribuim
numerele 1, 2, 3 i 4 pentru a codifica etnia romn, maghiar, german i altele, 0 i 1 pentru
sexul masculin i feminin sau 1, 2 i 3 pentru mediul urban, suburban i rural, ntr-un studiu n
care apar astfel de variabile. Singura restricie este aceea ca numerele s fie atribuite tuturor
obiectelor care au aceleai caracteristici, i numai lor.
Fiind n fond vorba de o operaie de clasificare, singurul procedeu matematic admisibil
aici este determinarea frecvenelor de apariie, care se pot calcula fie n valori brute, fie n
valori relative, adic n procente. n acest din urm caz, dei ar fi normal ca eantionul s
depeasc 100 de cazuri (prin definiie pro-cent indic ideea de sut), se accept totui
exprimarea procentual i a numerelor de la 30 n sus, dar nu mai mici. Aceasta deoarece, prin
transformarea n procente, numerele mai mici de 100 se amplific, procedeu care, n ciuda
rigorii aparente, trdeaz superficialitatea metodologic (Chelcea, 1982, p. 158).
22
n sintez, reinem cteva aspecte mai importante pentru acest tip de scal:
- Scala nominal este mai degrab una calitativ, ea fiind de fapt o premsurare.
- Ea se preteaz foarte bine pentru datele culese prin observaie, anchet, chestionar,
care vor fi repartizate n categorii distincte, astfel nct un element s se afle numai
ntr-o categorie (clas) i numai una.
- Literele sau cifrele folosite ca etichet nu vor face obiectul calculelor statistice, ci
vor servi doar la reperarea claselor, la determinarea frecvenelor brute i a celor
relative. Fiecare element al unei clase (categorii) este considerat a fi echivalent cu
toate celelalte din aceeai clas.
- Singurul procedeu matematic de verificare este aa-numitul test chi ptrat (
2
).

2.3.2. Scalele ordinale
Reprezint, dup Favrge, nivelul cel mai rspndit de msurare din psihologie i
pedagogie, deoarece valorile din aceste domenii n majoritatea lor sunt continue i simplu
ordonate. Aceasta permite ca elementele s fie aranjate fie cresctor, fie descresctor, existnd
i posibilitatea ca mai multe elemente s ocupe acelai loc. Se stabilete astfel o relaie de
ordine total ntre elemente, dat de formula P
x
xy
, care va fi interpretat ca x este superior,
preferat sau naintea lui y (Radu, 1993, p. 49). Deoarece relaiile formulate (A B C D)
permit stabilirea unei ierarhii, nseamn c importante caracteristici umane, fizice (nlime,
greutate, perimetre), dar i psihice (capaciti, aptitudini, preferine, interese, atitudini, valori)
pot beneficia de acest tip de scal.
Numerele asociate obiectelor i fenomenelor n msurarea de tip ordinal au doar
semnificaia unui rang, adic nu indic mrimi absolute. Pentru a atribui numerele n serie
cresctoare sau descresctoare, trebuie ca i caracteristica respectiv s aib valori care cresc
sau descresc. n scalele de tip Likert, de exemplu, se pot atribui numere de la 1 la 7, 4
exprimnd neutralitatea, numerele mici (3, 2 i 1) dezacordul sau insatisfacia tot mai
accentuate, n timp ce numerele mari (5, 6 i 7) acordul sau satisfacia tot mai intense.
Creterea regulat a numerelor nu trebuie s sugereze ns c i caracteristicile
respective cresc n aceeai proporie. Exemplul clasic este cel al militarilor dintr-un pluton,
aezai ntr-o ordine ierarhic, de la mic la mare: al aselea din ir nu este de dou ori mai
mare dect al treilea, i aceasta deoarece scalele ordinale nu au o unitate de msur care s
indice i cantitatea diferenei dintre ranguri. Scala metric a inteligenei, publicat de Binet n
1905, permitea un clasament ierarhic al unor inteligene diferite care, pentru nevoile practice,
23
echivala cu un clasament. n psihodiagnoz, exemplul tipic pentru acest tip de msurare este
procedeul centilrii (ordonarea ierarhic pe o scar cu 100 de trepte), iar n pedagogie nota
colar, ca procedeu de evaluare care n acelai timp i ierarhizeaz elevii.
n concluzie pot fi reinute urmtoarele aspecte:
- Deoarece scala ordinal nu are o unitate de msur constant, ea nu permite adunarea
i scderea (nu are proprietatea aditivitii).
- Este legitim ns calcularea frecvenelor brute i a celor relative (a procentelor) i
aplicarea procedurilor statistice nonparametrice (adic exprimate calitativ, nu prin
numere): coeficientul de corelaie al rangurilor al lui Spearman, coeficientul de
corelaie Kendall, testele de semnificaie Mann-Whitney, Wilcoxon, Kolmogorov-
Smirnov etc.
- Centilarea, decilarea - n psihodiagnoz, i nota colar - n pedagogie, sunt ilustrrile
cele mai frecvente ale utilizrii acestui tip de scal n domeniile amintite.
- Cel mai important indicator al tendinei centrale este mediana.

2.3.3. Scalele de interval
Scalele de interval nu reprezint nivelul curent de msurare n tiinele socioumane,
dei se tinde spre aceasta, deorece, pe lng ordinea i ierarhia nivelurilor anterioare, trebuie
s existe specificarea mrimii exacte a intervalelor sau a distanelor care separ elementele
aflate pe toate treptele succesive ale scalei. Aceasta presupune cu necesitate prezena unitii
constante i comune de msur. Exemplul cel mai concludent l dau calendarele, unde
existena unei uniti de msur precizat i constant, anul, face posibil echivalena a 200 de
ani de la nceputul mileniului cu 200 de ani de la sfritul lui. Mai mult, dac operm cu
calendare diferite (iulian, gregorian, evreiesc sau mahomedan), deoarece unitile de msur
nu sunt diferite, transpunerea dintr-un calendar n altul nu pune nici un fel de problem
(Richelle, 1995, p. 222).
Rezumm cteva dintre nsuirile de baz ale scalei de interval:
- Specificul scalei de interval este proprietatea aditivitiii (intervalele - i nu valorile! -
pot fi adunate i sczute).
- Neexistnd un punct zero (care s exprime absena caracteristicii msurate),
intervalele pot fi deplasate, extinse sau comprimate, dac prin aceasta ele devin mai
maniabile sau mai bine adaptate realitii msurate.
24
- La acest nivel se pot aplica procedee statistice mai elaborate, cum ar fi corelaia prin
produsul momentelor a lui Pearson, testele de semnificaie t i z ale lui Fisher, ca i
analiza de regresie.
- Aceasta deoarece la acest nivel se pot determina media aritmetic, abaterea standard i
variana.

2.3.4. Scalele de raport
Acestea au toate proprietile unei scale de msur: magnitudine, intervale egale i
zero absolut. Ele sunt caracteristice mrimilor fizice (nlime sau lungime, greutate, for),
ceea ce nu se ntmpl cu fenomenele sau faptele din psihologie, sociologie sau pedagogie,
deoarece neputnd fiina fr un minimum de inteligen, coeziune, atracie etc. acestor
fenomene nu li se poate stabili starea zero. Cu temperatura lucrurile stau altfel: deoarece
scalele Celsius i Fahrenheit au un zero convenional, n timp ce sistemele Kelvin sau
Rankine au un punct zero neconvenional (absena oricrei temperaturi), doar acestea din
urm sunt scri de raport.
Elementele eseniale ale scalelor de raport sunt deci urmtoarele:
- Scalele de raport se cheam aa pentru c, pe lng toate caracteristicile scalelor de
sub ele, permit relaia de proporionalitate de tipul b/a = c/b = d/c.
- Ele permit toate tipurile de statistici, parametrice i neparametrice, toate procedeele de
verificare i toi coeficienii de corelaie cunoscui.
- Aceasta deoarece se permite calculul mediei geometrice i a coeficientului de variaie.
- n afara unor situaii de excepie (mrimi fizice de intrare, puse n legtur cu timpul
de reacie, de exemplu), psihologii, pedagogii i sociologii nu sunt ndreptii s
foloseasc un asemenea tip de scal.
Corespunztor tipurilor de scal amintite, vom avea tipuri de variabile (nominale,
ordinale sau numerice), care sunt definite de domeniul de variaie, adic de registrul de valori
pe care acestea le pot lua. Cnd lum n considerare numrul indivizilor sau al cazurilor
susceptibile de a prezenta aceast modalitate, vorbim de domeniul de definiie. De exemplu, la
o prob de motricitate, tapping, numrul de puncte btute cu mn dreapt, adunat cu numrul
punctelor btute cu mna stng ia valori diferite n funcie de vrst, sex i de lateralizare
(dreptaci sau stngaci). De pild, la 6 ani acest numr poate s ia valori de la 10 la 60, acesta
fiind domeniul de variaie, n timp ce numrul subiecilor ce nregistreaz aceste valori, pentru
fiecare punctaj, d domeniul de definiie.
25
O atitudine, considerat ca o variabil codificat pe o scar Likert, are mai multe
modaliti de manifestare, dar i o populaie care prezint toate aceste modaliti. Deci
fiecrui individ din domeniul de definiie putem face s i corespund o modalitate i numai
una n domeniul de variaie. Noiunea de variabil este ns mai general pentru c ea se poate
referi fie la o mulime de date, fie la efective observate, fie la date prezumate, ipotetice,
virtuale. Scalele descrise anterior se refer la date efectiv observate.
Ion Radu (1993, p. 51) apreciaz c n prelucrarea datelor, n funcie de cerinele
studiului i pentru a ne nscrie ntr-o schem statistic, noi introducem astfel o metric, adic
tratm datele ca i cum s-ar situa la nivelul scalei de interval (). Se comite astfel o eroare,
care practic este neglijabil. Deoarece prediciile fcute n felul acesta sunt valide,
transformarea respectiv este considerat ca fiind acceptabil.

2.4. Organizarea datelor brute
Pentru a fi posibile procedurile detaliate de tratare i de analiz statistic a datelor,
acestea trebuie culese i ordonate n tabele sau grafice. Datele brute efectiv rezultate din
anchet, testare sau evaluare nu au nici o semnificaie prin ele nsele, ci prin raportarea la un
sistem de referin. Cel mai adesea acesta rezult din comparaia scorurilor individuale cu
datele obinute de un eantion mai larg din populaia investigat, prin care se pune n eviden
poziia unui subiect n cadrul grupului mai larg. n calitatea lui de sistem de referin, grupul
ofer posibilitatea construciei unei tipologii ori a unui tabel de norme (barem sau etalon).
Acestea alctuiesc aa-numitele cote standard, ceea ce arat c investigaia individului i a
grupului sunt corelative i complementare. Extragerea informaiilor coninute de datele brute
i organizarea lor ntr-o colecie/ baz de date, presupune intrarea n funcie a unor proceduri
statistice elaborate (determinarea medianei, a mediei, a abaterii standard i a varianei,
aprecierea msurii n care cele descoperite pot fi generalizate i la ce nivel de ncredere).
Dac prin organizarea primar a datelor (ordonare i grupare) putem face o prim
inspecie vizual a acestora, cci ele se prezint ca histograme, poligoane ale frecvenelor,
scattere etc., prin calculul tendinelor aflate pe centrul distribuiei (media, mediana i modul),
ca i a celor aflate spre extreme (amplitudinea mprtierii, abaterea standard i dispersia)
putem face inferene statistice valide, pentru ca prin corelaie, analiz factorial i de cluster
s avem o nelegere mai de adncime a relaiilor i a structurilor subiacente. Analiza de
varian, regresia simpl i multipl permit, dincolo de sesizarea structurii de adncime a
datelor studiate, predicia unor legiti, aa cum reies din analiza i modelarea lor matematic.
26
2.5. Exerciii i aplicaii practice

1. Dai cte unu-dou exemple de variabile ntlnite n psihologie care apeleaz la scale de
msur nominale, ordinale, de interval i de raport.
2. Avei mai jos spectrul culorilor vizibile de ochiul uman, reprezentat pe dou tipuri de scal.
Simbol R O G V A I V
Nume Rou Oranj Galben Verde Albastru Indigo Violet
Lungime de
und
800-620 619-590 589-575 574-510 509-480 479-450 449-430
2.1. Precizai numele fiecrui tip de scal, indicnd avantajele i locul lor de utilizare.
2.2. Lumina este o variabil continu sau discontinu? (Argumentai).
3. Msurnd nlimea a 10 studente de la Psihologie s-au obinut urmtoarele valori:
165 160 168 170 156 158 163 180 155 162
Utiliznd pe X ca simbol al acestei variabile (nlimea):
3.1. Precizai care sunt X
3
, X
5
, X
8
i X
10
.
3.2. Calculai X.
3.3. Scriei formula de nsumare de la punctul anterior ntr-o form mai complet.
4. Concomitent s-a determinat i greutatea pentru cele 10 studente, obinndu-se valorile de
mai jos (n kilograme).
62 61 70 72 52 55 66 80 49 53
Utiliznd pe Y ca simbol al acestei noi variabile (greutatea):
4.1. Precizai care sunt Y
2
, Y
4
, Y
7
i Y
9
.
4.2. Calculai X din exemplul anterior.
4.3. Calculai (X)
2
i X
2
. Folosind semnele = i indicai care este relaia dintre cele
dou valori obinute.
4.4. Determinai X/N i Y/N, unde N (10) reprezint numrul de scoruri observate.
4.5. Cum numii valorile pe care tocmai le-ai calculat la punctul anterior?
4.6. n mod similar calculai pe (Y)
2
i Y
2
.
4.7. Utiliznd valorile numerice deja obinute determinai valoarea formulei de mai jos



4.8. Extragei rdcin ptratic din valoarea numeric a expresiei de mai sus.
5. Utilizai datele de mai sus pentru a arta c:
5.1. (X+Y) = X + Y
5.2. XY XY
5.3. CX = CX, n care C este o constant.
5.4. X
2
(X)
2
5.5. (X+C) = X + NC, n care N este numrul de cazuri iar C are valoarea 3.
6. Poate o variabil ordinal s fie msurat cu o scal continu (de interval sau de raport)?
Poate o variabil continu s fie msurat cu o scal ordinal? Argumentai folosind cte un
exemplu adecvat.
7. Notele colare trecute n catalog sunt msurtori tipice unei scale ordinale sau uneia de
interval? Dar mediile colare pentru fiecare obiect n parte (rotunjite)? Dar media general
(nerotunjit)?
8. Media (nerotunjit) de la Matematic i cea de la Purtare sunt msurate pe acelai tip de
scal? (Argumentai rspunsul).
( )
1
2
2

N
N
Y
Y
27
2.6. Quiz: Da Nu
1. (Exemplu) Pentru scalele de interval suntem ndreptii s utilizm frecvenele absolute
(count) i pe cele relative (procente). Rspuns: Adevrat, pentru c, dei tipice scalelor ordinale,
procedeele respective sunt prezente i la scalele de interval i de raport, tiut fiind c scalele de rang
superior ncorporeaz proprietile celor de rang inferior.
2. Magnitudinea unei scale este proprietatea matematic ce permite ierarhizarea populaiei de
date de la mic la mare sau invers.
3. Deoarece distana (n cunotine sau deprinderi) dintre nota 8 i nota 9 este egal cu distana
dintre nota 3 i nota 4, nseamn c sistemul de notare colar are proprietile scalei de interval.
4. Atunci cnd codificm genul masculin cu 1 i pe cel feminin cu 2 efectum o operaie de
msurare.
5. Inteligena nu are uniti de msur tipice scalelor de interval.
6. Scala care msoar era noastr are un zero natural naterea lui Isus fiind deci o scal de
raport.
7. IQ-ul se msoar pe o scal ordinal deoarece distana de 10 puncte dintre IQ 50 i 60 are
aceeai semnificaie psihologic ca i diatana dintre IQ 120 i 130.
8. Pentru datele de observaie, de anchet i de chestionar sunt utilizate scalele nominale, care
fac de fapt o premsurare.
9. La un chestionar s-a utilizat o scal Likert n 5 trepte cu urmtoarea semnificaie:
1=Foarte rar 2=Uneori 3=Aa i aa 4=Deseori 5=Foarte des.
Se poate determina o valoare numeric medie a rspunsurilor pentru ntregul chestionar. Argumentai.
10. Pentru datele culese pe o scal ordinal putem face media deoarece aceasta are proprietatea
aditivitii.
11. n tiinele socio-umane nivelul de msurtoare maximal este al scalelor de interval iar cel
uzual al scalelor ordinale.
12. Scala de interval permite deplasarea punctului zero (adic a originii) spre stnga sau spre
dreapta scalei i, de asemenea, permite comprimarea sau dilatarea acesteia.
13. Scalele de msurare a timpului (calendarele iulian, gregorian, iudaic, mahomedan, maya
etc.) pot fi transpuse unul n altul i obinute valori echivalente deoarece au uniti de scal egale.
14. Scalele nominale i ordinale sunt categoriale,cele de interval i raport sunt real numerice.
15. n sistemul romnesc de notare colar domeniul de definiiei al variabilei l reprezint
elevii iar domeniul ei de variaie intervalul de notare 1-10.
16. Notele colare i centilarea/decilarea nu fac dect s stabileasc ierarhii, adic s rangheze
subiecii cresctor sau descresctor.
17. n principiu notele colare nu pot fi adunate pentru a se determina media pe materii
deoarece scala de notare nu are proprietatea matematic a intervalelor egale.
18. Nu pot fi inventate uniti de msur valabile, tipice scalelor de interval, pentru iubire,
fric, simpatie sau depresie.
19. Funciile cognitive senzaiile, gndirea, memoria se bucur de scale de msur mai
tari dect funciile afective.
20. Numii tipul de scal de msurare reprezentat de categoriile de mai jos, alocnd cifrele 1, 2, 3 i 4
pentru scalele nominal, ordinal, de interval i de raport: scala Celsius, scala Kelvin,
numrul de pe uile camerelor unui hotel, ordinea de sosire la maraton, scorul la acest test QUIZ,
presiunea sanguin, genul i greutatea. (Se acord punctul pentru minimum 5 rspunsuri
corecte din cele 8 posibile.)
28

CAPITOLUL 3

DISTRIBUII I FRECVENE


Pentru determinarea celor mai importani indicatori statistici avem nevoie de
frecvene. n domeniul variabilei, fiecare mrime are un numr de reprezentani, numit
efectiv. n statistic efectivul se numete frecven sau frecven absolut. Cnd frecvena
este transformat n procente, ea se numete frecven relativ i este foarte util pentru
compararea, de exemplu, a dou colective diferite ca mrime, i aceasta pentru c
transformarea n procente pstreaz echivalena i proporia n ce privete distribuia i
caracteristicile ei.

3.1. Ordonarea i gruparea datelor
Cea mai mare parte a operaiilor i procedeelor de lucru care urmeaz a fi prezentate
mai jos sunt extrem de mult facilitate de programele de prelucrare automat a datelor pe
calculator, de tip SPSS sau SAS. Ele fac parte din abc-ul statisticii, fiind primele ordonri i
prelucrri ale datelor brute, la sfritul crora distribuiile respective i dezvluie o parte din
caracteristicile de suprafa, adic cele vizuale.
Le vom prezenta detaliat, pentru c ele reprezint moduri de lucru practice, uor de
executat ntr-o diversitate de situaii concrete, ca un preambul al unor prelucrri ulterioare mai
sofisticate. Parcurgnd aceti pai vom putea sesiza fora pe care instrumentul statistic l poate
da muncii noastre, deoarece el ordoneaz, triaz, clasific datele, forndu-le s i dezvluie
semnificaiile. De aceea operaiile iniiale de ordonare i de grupare a datelor ar trebui s
devin operaii de rutin pentru oricine este interesat s dea muncii sale rigoare tiinific. Iat
scorurile brute la un test de vocabular (Recombinare Verbal) culese la biei i fete de 14 ani
din eantionul care a fost utilizat pentru etalonarea acestui test:
Biei Fete
57 56 48 36 24 23 28 23 33 26 16 57 56 45 35 36 43 26 34 46 24 25
53 34 22 34 34 42 34 25 24 29 18 53 55 55 48 43 48 35 36 27 27 26
60 33 51 40 47 36 36 29 26 22 14 60 62 44 57 70 36 38 35 28 31 19
52 34 60 61 56 34 22 28 30 23 34 52 53 56 49 46 37 48 33 27 19 29
51 64 37 33 36 28 35 19 18 15 51 58 44 51 38 48 26 36 22 25 15
29
Avem nevoie de o foaie de hrtie cu liniatur matematic, format A4, de o rigl i un
creion, la care vom putea aduga ulterior un minicalculator cu panou statistic, ca instrumente
i materiale uzuale de lucru. Foaia de hrtie va fi mprit prin 3 linii orizontale, trasate pe
lungul ei, n 3 panouri (registre) de lucru, pentru biei, fete i total. Observm c cea mai
mic valoare de scor (X
min
) este la biei 14 i la fete 15, iar cea mai mare (X
max
) 64 la biei i
70 la fete. Prin urmare fiecare ptric de pe linia de baz va fi numerotat de la 11 la 70,
avnd grij ca aceast numerotaie s fie identic pe toate cele trei registrele, pentru a le putea
nsuma ulterior pe vertical. Dup aceea descrcm primul tabel pe primul registru al foii,
sub care vom scrie Biei, al doilea tabel n al doilea registru, sub care vom scrie Fete, fcnd
un x s-au un punct n ptrica corespunznd scorurilor care se descarc, la valoarea
corespunztoare de pe linia de baz.
La sfritul operaiei vom numra frecvenele corespunztoare fiecrui scor de la 11 la
70 i numrul va fi trecut sub ptrica corespunztoare fiecrui scor, att la biei, ct i la
fete i total (care rezult din nsumarea pe vertical a frecvenelor pentru fiecare scor).
Inspecia vizual evideniaz urmtoarele aspecte:
- amplitudinea scorurilor (X
max
- X
min
) uor diferit pentru cele dou categorii: 64 - 14 = 50, la
biei i 70 - 15 = 55, la fete;
- aglomerarea datelor mai accentuat n prima jumtate (spre stnga), cu o mai mare densitate
pe zona central (34, 36 i 37), la biei; o repartiie spre dreapta a datelor fetelor;
- bieii au o singur frecven maxim (la 34 sunt 7 cazuri), n timp ce fetele au dou (la 36 i
48, cte 4 cazuri). Prima ntrebare care se pune este dac pentru anumite tratamente statistice
(alctuirea unui etalon) datele trebuie tratate separat sau mpreun, iar rspunsul l putem afla
condensnd informaia pentru a fi vizualizat, dup ce vom grupa datele.
Pentru a determima mrimea intervalului de grupare reinem cteva reguli de lucru:
- Vom prefera nu mai puin de 5 - 7 intervale i nu mai mult de 20. Pentru gruparea
datelor, uzual se folosesc ntre 9 i 15 clase.
- Pentru determinarea mrimii intervalului, amplitudinea mprtierii se mparte la
cteva din mrimile dorite ale intervalului, pentru a vedea cte clase rezult i se alege
aceea care se apropie cel mai mult de numrul de clase considerat convenabil.
- Ca mrime a intervalului este preferabil s folosim numere impare (3, 5 sau 7), pentru
a avea ca valori centrale de interval numere ntregi.
30
- Primul interval este bine s nceap cu un multiplu al mrimii lui. De exemplu
intervalele de lungime 3 pot ncepe cu 3, 6 sau 9, cele de lungimea 5 pot ncepe cu 5,
10 sau 15 etc.

n cazul nostru, dac am dori s avem intervale din 3, atunci rezult 55/3 = 15
intervale, iar dac am dori intervale de 5, atunci ar rezulta 55/5 = 11 intervale. Pentru c avem
o distribuie relativ mic, optm pentru a doua variant. Delimitm prin linii verticale clasele
astfel obinute (10-14, 15-19, 20-24,, 70-74) i n dreptul fiecreia vom trece n mijlocul
clasei i n partea ei de sus frecvenele clasei respective, rezultate prin nsumarea valorilor
individuale din interiorul fiecrui interval (1, 5, 8, 8, ..., 0, pentru biei; 0, 3, 2, 10, , 1,
pentru fete).
Trebuie inut cont c percepia noastr opereaz din ce n ce mai greu cu intervale care
depesc 20, chiar dac mrimea populaiei i lungimea spectrului de variaie ar impune-o. De
aici recomandarea de a nu avea nici prea puine intervale (prin gruparea datelor se pierde o
parte din informaia primar, pentru c nu se mai cunoate exact valoarea msurat a fiecrei
observaii), i nici prea multe (sunt mai greu de manevrat i de sesizat perceptiv), de unde
regula deja enunat a celor 9 -15 clase de grupare a datelor.
Sturges (citat de Rotariu et al.,1999, p. 33) propune o formul de lucru pentru aceast
operaie prin care se determin numrul intervalelor de grupare, lund n calcul amplitudinea
variaiei i numrul de cazuri:
(3.1)
Utiliznd formula lui Sturges, se obine urmtorul tabel orientativ pentru stabilirea numrului
de interval (clase) de grupare:
Tabel 3.1. Numrul de interval de grupare dup formula lui Sturges.
Nr. de observaii 15-24 25-44 45-89 90-179 180-359 360-719 720-1500
Nr. de clase 5 6 7 8 9 10 11

Aplicat n cazul nostru, pentru biei, i = (64-14)/(1+3,322 log54) = 50/6,755 = 7,40; pentru
fete vom avea i = (70-15)/(1+3,322 log55) = 55/7,77 = 7,21. Pentru numrul de cazuri ale
distribuiei noastre am avea teoretic nevoie de 8 intervale. S reinem i regula practic a celor
9 - 15 intervale, care realizeaz un bun echilibru ntre nevoia de condensare a datelor i aceea
de a avea pierderi de informaie ct mai mici.

N
X X
i
log 222 , 3 1
min max
+

=
31
3.1.1. Limitele de grupare
n cazul variabilelor continue, cel mai adesea raportm clasele la nite numere ntregi,
care constituie limitele de raportare a acestora. n cazul variabilei continue care este
nlimea, de exemplu, putem avea clasele 125-129, 130-134, 135-139 etc. Ce se ntmpl
ns cu nlimile de 129,54 sau 134,82, care par a cdea n golurile dintre clase? Deoarece
limitele de raportare nu acoper n ntregime domeniul variabilelor continue, trebuie s se
defineasc nite limite exacte, asfel nct, respectnd regula de rotunjire, valorile interclase s
fie uor de alocat la una dintre clase. Aceste limite au deci dou funcii: a) reconstituie
continuitatea variabilei, nemailsnd goluri i b) servesc drept baz de calcul pentru
determinarea unor puncte speciale de pe linia valorilor variabilei, numite quantile, cum ar fi
mediana, centilele, decilele sau oricare alt punct percentil.
n acest sens trebuie precizat c fiecare interval are o limit superioar (l
s
) i o limit
inferioar (l
i
). De exemplu, intervalul 125-129 se exprim matematic astfel, n funcie de cele
dou limite: [125,5; 129,5], sau 125,5-129,5.

3.1.2 Centrele intervalelor
Centrul unui interval, notat cu Ci, este valoarea situat n mijlocul intervalului
respectiv i se determin astfel Ci = (l
i
+ l
s
)/2. Aplicnd aceast formul la exemplul nostru,
intervalul 124,5-129,5 are drept centru valoarea 127, ceea ce justific preferina pentru
intervalele de numr impar, care dau o valoare ntreag pentru centrele lor. Celelalte centre de
interval se pot determina extrem de uor ulterior, pentru c ele sunt multipli ai lungimii
intervalului, deci n cazul nostru vor fi: 127, 132, 137 etc. Aproximarea prin centrele
intervalului creeaz posibilitatea ca toate valorile care aparin unui interval s fie tratate n
calcule ca egale cu centrul acestuia, de unde posibilitatea erorii pe care gruparea datelor o
introduce, lucru de care am vorbit anterior.
Se poate dovedi matematic c aceast grupare satisface criteriul matematic al celei mai
mici erori. Important de menionat este i faptul c, cu ct intervalul este mai mare, cu att
mrimea acestei erori va crete.

3.2. Histograma i poligonul frecvenelor
Dup ce am vzut modul practic de lucru pentru cele dou reprezentri grafice ale
frecvenelor, s avertizm asupra faptului c exist precauii speciale privind mrimea
diagramei rezultate n raport cu spaiul de lucru al foii (problem rezolvat corect cu ajutorul
computerului), ca i localizarea punctului de mijloc sau trasarea figurilor.
32

O problem care merit atenie o reprezint raportul dintre nlimea i limea
diagramei, care de regul este de 60%. Vom recunoate n aceasta o problem real, deoarece
ea face posibil minciuna statistic, dup expresia lui Smith: manevrnd (intenionat sau nu)
acest raport, se poate accentua sau aplatiza o pant de cretere a unui indicator pentru a sugera
ceva ce realitatea nu confirm.

Histograma d o imagine n scar a distribuiei, fiind cea mai potrivit reprezentare
a datelor ordinale, discontinue, caz n care ntre bare trebuie s existe mici spaii pentru a
sugera discontinuitatea. Ea este la fel de mult utilizat i pentru datele continue, de interval,
caz n care barele verticale apar unite ntre ele. Ca i poligonul frecvenelor, histograma este
informativ n legtur cu forma distribuiei, cu simetria ei, dar este mai puin adecvat s
exprime boltirea (aplatizarea acesteia), deoarece am vzut c raportul dintre unitile de
msur de pe abscis i de pe ordonat poate fi modificat n funcie de opiunea cercettoului.
Cea mai bun redare a datelor de interval o constituie poligonul frecvenelor, fie ele
brute, fie cumulate. Diferena este nu numai de form (scalar - la histogram, linii drepte
care unesc ntre ele puncte - la poligon), ci este dat de chiar asumpia lor de baz, aceea c la
histogram toate valorile dintr-un interval sunt egale ntre ele ca frecven, i egale cu
valoarea centrului de interval, n timp ce la poligonul frecvenelor datele tind s se grupeze de
o parte i de alta a acestei valori centrale.
Histograma ofer o imagine mai clar a numrului de cazuri din fiecare interval, dar
d o imagine cu totul confuz cnd pe aceeai linie de baz se redau, pentru comparaie, dou
sau mai multe distribuii. n acest caz este evident c poligonul frecvenelor apare ca mult mai
indicat, comparaia putndu-se face fie n valori absolute (cnd nu exist diferene prea mari
numeric ntre cele dou distribuii), fie n frecvene relative (procentuale), caz n care
comparaia devine posibil, deoarece distribuiile sunt redate proporional.
De asemenea poligonul frecvenelor poate s se refere la frecvenele brute simple sau
cumulate, dar i la cazul frecvenelor relative simple sau cumulate, cnd se obine aa-numita
ogiv a lui Galton.
33
MF_Metoda+Fisa
1
7
5
.
0
1
6
5
.
0
1
5
5
.
0
1
4
5
.
0
1
3
5
.
0
1
2
5
.
0
1
1
5
.
0
1
0
5
.
0
9
5
.
0
8
5
.
0
7
5
.
0
6
5
.
0
5
5
.
0
4
5
.
0
F
r
e
q
u
e
n
c
y
160
140
120
100
80
60
40
20
0
Std. Dev = 21.99
Mean = 132.2
N = 1408.00

Figura 3.1. Dou histograme ale frecveelor brute pentru o distribuie foarte mare i una mic.

Cnd numrul indivizilor din cele dou grupuri difer foarte mult apare o problem de
comparaie grafic: deorece disparitatea este foarte mare, se pune problema unei scale care s
le cuprind pe amndou, asfel nct s fie pe deplin perceptibil distribuia mai mic, n
condiiile n care cea mai mare nu depete nite limite rezonabile. n acest caz este foarte
util conversia frecvenelor brute n frecvene relative, situaie n care apare ca i cnd am
avea dou distribuii cu un numr egal de cazuri, i anume 100, ariile celor dou poligoane,
forma curbei i dispersia devenind pe deplin comparabile. Transformarea procentual este
extrem de simpl. Iat un exemplu preluat din Guilford (1978, p. 34).
Tabelul 3.2. Frecvenele brute i relative pentru dou grupuri.

Scoruri f
1
f
2
p
1
p
2
140-149 8 5,0
130-139 32 20,0
120-129 48 30,0
110-119 1 29 2,0 18,10
100-109 0 18 0,0 11,20
90-99 3 14 5,9 8,8
80-89 5 5 9,8 3,1
70-79 6 5 11,8 3,1
60-69 14 0 27,5 0,0
50-59 7 1 13,7 0,6
40-49 11 21,6
30-39 4 7,8
Suma N
1
= 51 N
2
= 160 = 100,1 = 99,9

RVBAIETI
65.0 60.0 55.0 50.0 45.0 40.0 35.0 30.0 25.0 20.0 15.0
20
10
0
Std. Dev = 13.20
Mean = 35.1
N = 54.00
34

Pe coloana f
1
sunt 51 de cazuri. Prin regula de trei-simpl tim c dac un 1 caz din 51
reprezint x din 100, atunci x are valoarea 1 100/51 = 1,96. Acest numr (1,96) devine
factorul de multiplicare pentru toat coloana respectiv (f
1
), ceea ce va da coloana p
1
(p de la
procente). La fel se va proceda pentru coloana f
2
(unde factorul de multiplicare este 1 100/160
= 0,625) din care se va obine coloana p
2
.
Datele din tabel se convertesc ntr-o imagine grafic prin care cele dou poligoane ale
frecvenelor devin direct comparabile. Aa cum rezult din diagram, este evident c al doilea
grup are valori medii mult mai mari dect primul, suprapunerea dintre ele find foarte mic;
forma amndurora este asimetric, primul fiind deplasat spre stnga, al doilea spre dreapta;
grupul al doilea este mai omogen dect primul (are un singur punct care concentreaz
frecvena maxim, numit mod, n jurul cruia se repartizeaz celelalte valori, n timp ce
primul grup are dou cocoae, adic dou zone de acumulare a cazurilor); frecvena
maxim este apropiat procentual la ambele grupuri. Comparaia evideniaz elocvent faptul
c acestea sunt dou grupuri foarte diferite, care trebuie tratate statistic separat.

3.3. Frecvenele cumulate
Dup ce am stabilit intervalele i le-am ntabelat astfel nct valorile inferioare s fie
amplasate jos i cele superioare sus, dup ce am stabilit limitele inferioare i superioare pentru
fiecare interval i centrul fiecrui interval (atunci cnd avem nevoie s lucrm cu aceste
coloane), urmtoarea coloan (f
b
) va fi alocat frecvenelor brute. Ele se pot obine fie printr-o
coloan special de bife, n care se descarc datele brute, fie prin procedeul de lucru cu care
am deschis acest capitol: trasarea liniei de baz, cu toate valorile i frecvenele
corespunztoare, apoi stabilirea claselor i a frecvenelor din fiecare clas.
Pe urmtoarea coloan se trec frecvenele brute cumulate (f
bc
), apoi frecvenele
relative (f
r
) i frecvenele relative cumulate (f
rc
), dup procedeul exemplificat anterior. Modul
cum apar datele ntabelate pentru bieii din eantionul de etalonare la testul de Recombinare
Verbal, dup modelul descris anterior, poate fi analizat n Tabelul 3.3 de mai jos.
Determinarea frecvenelor cumulate, fie ele brute sau relative, se obine extrem de simplu
printr-o adunare succesiv, ce pleac de jos n susul coloanei respective. Raiunea acestei
operaii este aceea de a ti numrul exact de cazuri care cad sub un anumit punct, adic
punctul care este limita de sus a intervalului (sau procentul, n cazul frecvenelor relative).

35
Tabelul 3.3. Valorile frecvenelor brute i relative, simple i cumulate, pentru biei la RV.

Scoruri
clase

Limite
exacte

Punctul
central

Frecvene
brute
Frecvene
brute
cumulate

Frecvene
relative
Frecvene
relative
cumulate

Numr
interval
fb fbc fr frc fb
65-69 64,5-69,5 67 0 54 0 100 0 12
60-64 59,5-64,5 62 4 54 7,4 100 248 11
55-59 54,5-59,5 57 3 50 5,6 92,6 171 10
50-54 49,5-54,5 52 4 47 7,4 87 208 9
45-49 44,5-49,5 47 2 43 3,7 79,6 94 8
40-44 39,5-44,5 42 2 41 3,7 75,9 84 7
35-39 34,5-39,5 37 6 39 11,1 72,2 222 6
30-34 29,5-34,5 32 11 33 20,4 61,1 352 5
25-29 24,5-29,5 27 8 22 14,8 40,7 216 4
20-24 19,5-24,5 22 8 14 14,8 25,9 176 3
15-19 14,5-19,5 17 5 6 9,3 11,1 85 2
10-14 9,5-14,5 12 1 1 1,8 1,8 12 1
N=54 =100 =1868

Se ncepe cu prima clas de pe coloana f
b
, ce are n cazul nostru frecvena 1, care va fi
trecut ca atare pe coloana f
c
; la a doua clas 1+5 = 6 (frecvena anterioar cumulat cu cea a
clasei respective), valoare care se i trece n rubrica corespunztoare. Valorile urmtoare, de
jos n sus, vor fi 6+8 = 14, apoi 14+8 = 22 i aa mai departe, pn la clasa din vrf unde,
dac operaia a fost executat corect, vom regsi numrul total al eantionului nostru (N=54),
ceea ce constituie chiar procedeul de control al acurateei calculelor.
Pentru coloana frecvenelor cumulate procedeul este similar, cu meniunea c pot
aprea i valori zecimale (care se pot rotunji la o zecimal), iar valoarea din vrf trebuie s fie
100, sau ct mai aproape de aceast valoare, acesta fiind i procedeul practic de verificare a
corectitudinii n lucru.

3.4. Histograma i poligonul frecvenelor cumulate
Histograma cumulativ arat ce adaug fiecare nou frecven celei precedente, de sub
ea. Ca i n cazul histogramei obinuite construcia ei se face tot cu bare sau dreptunghiuri,
fiecare adugat colului din dreapta sus al celui precedent, ca n imaginea de mai jos. Unind
diagonalele stnga jos - dreapta sus din fiecare dreptunghi, se obine poligonul frecvenelor
cumulate, care n cazul de fa evideniaz urmtoarele aspecte:
X X
36
- Curba este progresiv cresctoare i nu nregistreaz inversiuni sau ntoarceri, deoarece
frecvenele cumulative sunt valori pozitive progresiv cresctoare, exceptnd situaia
frecvenelor zero.
- Linia de sus nu este dreapt, dei tinde spre orizontal.
- Cnd distribuia noncumulativ (obinuit) este simetric, cea cumulativ are o form
foarte apropiat de litera S.


Figura 3.2. Poligonul frecvenelor cumulate i ogiva lui Galton.
Sursa: Guilford i Fruchter, 1978, pp. 37 i 39.

Ogiva lui Galton este de fapt o curb construit plecnd de la frecvenele relative
cumulate. n mijlocul fiecrei clase se trece un punct, corespunznd frecvenei relative
cumulate a clasei respective, iar n final se traseaz o curb care nu trece exact prin fiecare
punct, ci este ajustat astfel nct s ia forma cea mai regulat n raport cu punctele
respective (fig. 2). De aceea forma ei de S este mai bine reliefat ca n cazul precedent, iar
cnd distribuia noncumulativ este simetric, acest lucru este cu att mai evident.
n cazul nostru se remarc o bun regularitate pentru prima jumtate a ogivei i un
deficit sau lips n partea ei superioar, dat de asimetria distribuiei noncumulate. O raiune
pentru care se ajusteaz ogiva, cnd acest lucru se poate face n mod rezonabil, este aceea de a
nivela anumite iregulariti ale distribuiei ce ar rezulta dintr-un numr prea mic al cazurilor
din eantion cu scopul de a ti cum ar arta de fapt distribuia probabil a populaiei mai largi.
Deoarece pentru fiecare punct al curbei se poate determina numrul cazurilor care cad
sub el, ogiva lui Galton poate servi la construirea etaloanelor prin procedeul centilelor sau al
decilelor.

37
3.5.Criterii de evaluare vizual a formei distribuiilor
Pentru evaluarea de ansamblu a caracteristicilor unei distribuii exist o multitudine de
posibiliti, dintre care unele mai elementare, bazate pe inspecia ei vizual, iar altele mai
elaborate, care condenseaz sub form numeric precis aceste caracteristici. Acestea din
urm vor fi abordate ulterior, cnd vor fi prezentai indicatorii formei unei distribuii care sunt
simetria i boltirea.
O distribuie poate fi simetric, atunci cnd cele dou cozi ale sale se repartizeaz
simetric n raport cu tendina central care este media. Dar ea poate fi asimetric spre stnga,
situaie n care cel mai mare volum de date se aglomereaz spre latura stng, astfel c creoda
(coada) stng a distribuiei este mai scurt dect cea dreapt. O asemenea distribuie se
cheam pozitiv. Situaia invers este cea a datelor aglomerate spre dreapta, unde creoda
stng este clar mai lung dect cea dreapt. O asemenea distribuie se cheam negativ.
Exist i situaii n care anormalitatea distribuiei este mai mult dect evident, atunci
cnd ea este una trunchiat, n form de i sau de j, situaii n care modul este repartizat n
extrema stng, respectiv n cea dreapt a distribuiei, ca n exemplulal doilea de mai jos.
CEDA total
5
7
.
0
5
5
.
0
5
3
.
0
5
1
.
0
4
9
.
0
4
7
.
0
4
5
.
0
4
3
.
0
4
1
.
0
3
9
.
0
3
7
.
0
3
5
.
0
3
3
.
0
3
1
.
0
2
9
.
0
2
7
.
0
2
5
.
0
2
3
.
0
2
1
.
0
1
9
.
0
1
7
.
0
1
5
.
0
1
3
.
0
1
1
.
0
9
.
0
7
.
0
5
.
0
3
.
0
1
.
0
CEDA total
F
r
e
q
u
e
n
c
y
50
45
40
35
30
25
20
15
10
5
0
Std. Dev = 9.63
Mean = 12.8
N = 424.00 3
10
4
10
8
12
20 20
17
22
27
30
43
37
48
40
38
26

F2 Anorexie
2
1
.
5
2
0
.
5
1
9
.
5
1
8
.
5
1
7
.
5
1
6
.
5
1
5
.
5
1
4
.
5
1
3
.
5
1
2
.
5
1
1
.
5
1
0
.
5
9
.
5
8
.
5
7
.
5
6
.
5
5
.
5
4
.
5
3
.
5
2
.
5
1
.
5
.
5
F2 Anorexie
F
r
e
q
u
e
n
c
y
100
80
60
40
20
0
Std. Dev = 3.73
Mean = 3.6
N = 424.00 6 7
10
9
14
22
28
15
40
47
57
66
90

Figura 3.3. Dou distribuii asimetrice stnga dintre care cea de a doua este trunchiat (n i ).

n afar de simetrie, inspecia vizual a unei histograme ne ajut s vedem dac
boltirea (excesul) distribuiei este una normal, adic dac distribuia este suficient de nalt
(normocurtic) sau dimpotriv prea joas (prbuit, cu deficit), situaie n care ea se numete
platikurtic. Dac distribuia este prea ascuit, adic prea nalt, adic acumuleaz un exces
de frecvene pe zona central, ea se numete leptokurtic. n figurile de mai jos, ambele
distribuii sunt asimetrice, una negativ, alta pozitiv, i ambele sunt leptokurtice (cu exces), la
cea care red nlimea excesul fiind mai accentuat dect la cea care red greutatea.
38

1
4
2
.
0
1
3
8
.
0
1
3
4
.
0
1
3
0
.
0
1
2
6
.
0
1
2
2
.
0
1
1
8
.
0
1
1
4
.
0
1
1
0
.
0
1
0
6
.
0
1
0
2
.
0
9
8
.
0
9
4
.
0
9
0
.
0
8
6
.
0
8
2
.
0
7
8
.
0
Inaltime
F
r
e
q
u
e
n
c
y
350
300
250
200
150
100
50
0
Std. Dev = 9.02
Mean = 117.5
N = 1559.00 20
133
223
352
227
255
154
54 56
31
18

36.0
34.0
32.0
30.0
28.0
26.0
24.0
22.0
20.0
18.0
16.0
14.0
12.0
Greutate
F
r
e
q
u
e
n
c
y
350
300
250
200
150
100
50
0
Std. Dev = 4.33
Mean = 22.3
N = 1539.00 17
29
70
107
188
232
264
331
177
93

Figura 3.4. Dou distribuii cu asimetrii n sensuri opuse, dar ambele leptokurtice.
n unele situaii, inspecia unei reprezentri grafice a distribuiei evideniaz n mod
clar dou aglomerri de date, adic faptul c ea este bimodal (are dou moduri, modul fiind
indicatorul statistic ce indic valoarea de scor cu ceea mai mare frecven). O asemenea
situaie este prezentat n exemplul de mai jos, care este o histogram ce red grafic
distribuia pentru variabila nlime pentru un lor de biei i de fete. Prezena a dou moduri,
i implicit a dou cocoae, sugereaz eterogenitatea populaiei eantionului pentru variabila
respectiv i deci necesitatea de a identifica i trata statistic separat cele dou grupuri.
1
9
4
.
0
1
9
2
.
0
1
9
0
.
0
1
8
8
.
0
1
8
6
.
0
1
8
4
.
0
1
8
2
.
0
1
8
0
.
0
1
7
8
.
0
1
7
6
.
0
1
7
4
.
0
1
7
2
.
0
1
7
0
.
0
1
6
8
.
0
1
6
6
.
0
1
6
4
.
0
1
6
2
.
0
1
6
0
.
0
1
5
8
.
0
1
5
6
.
0
1
5
4
.
0
1
5
2
.
0
PSC Inaltimea
F
r
e
q
u
e
n
c
y
25
20
15
10
5
0
Std. Dev = 8.54
Mean = 171.7
N = 205.00
2
5
3
6
3
8
25
14 14
9
12
25
16
15
19
10
11
3 3

Figura 3.5. O distribuie bimodal (cu dou cocoae) pentru variabila nlime.

Atragem atenia asupra faptului c distribuiile cu dou sau mai multe moduri sunt cu
att mai probabile cu ct ele sunt mai reduse numeric. Bi- sau multimodalitatea nu indic
ntotdeauna necesitatea de a trata separat grupurile eterogene dintr-o distribuie, ci i nevoia
de a lrgi suficient de mult eantionul. Dac i n cazul unui eantion extins se pstreaz cele
39
dou aglomerri de date, atunci separarea grupurilor este cu att mai necesar cu ct distana
dintre moduri (i implicit eterogenitatea) este mai mare.

3.6. Exerciii i aplicaii practice
1. Trasai poligoanele frecvenelor pentru biei, fete i total, efectivele de la testul de
Recombinare Verbal din curs, lund pe linia de baz clase de interval 10, mrimea un
centimetru, de la 10 la 70, iar pe vertical din unu n unu pentru fiecare ptric de caiet de
matematic, pentru biei i fete, i din 2 n 2 pentru total.
2. Iat urmtoarele scoruri nregistrate la o prob:
25 33 35 37 55 27 40 33 39 28
34 29 44 36 22 51 29 21 28 29
33 42 15 36 41 20 25 38 47 32
15 27 27 33 46 10 16 34 18 14
46 21 19 26 19 17 24 21 27 16
Pentru prelucrarea primar a acestor date parcurgei toate etapele descrise n curs:
desenai linia de baz a scorurilor, determinai frecvenele pentru fiecare valoare individual a
variabilei, stabilii intervalele de grupare a datelor (din 5 n 5), ntabelai rezultatele cu toate
rubricile de la exemplul anterior din curs i apoi trasai poligonul frecvenelor brute (simpl i
cumulat) i poligonul frecvenelor relative (simple i cumulate). Comentai rezultatele.
3. Artai pe scurt care sunt asemnrile i deosebirile dintre histogram i poligonul
frecvenelor ca mijloace de reprezentare i vizualizare a datelor.
4. Comentai asemnrile i deosebirile dintre cele dou distribuii ale stimei de sine
pentru biei i fete aa cum rezult ele din histogramele de mai jos.
Stima de sine total
80.0
70.0
60.0
50.0
40.0
30.0
20.0
10.0
0.0
-10.0
-20.0
-30.0
-40.0
-50.0
-60.0
-70.0
Stima de sine total
Baieti
F
r
e
q
u
e
n
c
y
22
20
18
16
14
12
10
8
6
4
2
0
Std. Dev = 30.03
Mean = 28.9
N = 102.00
5 5
9
10
21
9
18
9
6
4
2 2
Stima de sine total
80.0
70.0
60.0
50.0
40.0
30.0
20.0
10.0
0.0
-10.0
-20.0
-30.0
-40.0
-50.0
-60.0
-70.0
Stima de sine total
Fete
F
r
e
q
u
e
n
c
y
22
20
18
16
14
12
10
8
6
4
2
0
Std. Dev = 30.58
Mean = 22.8
N = 104.00
7
9 9
13
11
16
14
8
6
4
2 2


40

CAPITOLUL 4

INDICATORI AI TENDINEI CENTRALE


Statistica i-a conturat un numr de indicatori, adic de valori ataate variabilelor
continue, care s exprime sintetic informaia coninut de distribuia respectiv. Unii dintre
acetia se refer la ceea ce se ntmpl pe centrul distribuiei - indicatori ai tendinei centrale,
sau de poziie -, alii la mprtiere, adic la ceea ce se ntmpl spre extremele seriei de
variaie. Exist i o a treia categorie de indicatori, mai puin importani, care se refer la
forma distribuiei.

4.1. Media aritmetic
Exist mai multe tipuri de medie (aritmetic, geometric i armonic; medie simpl i
medie ponderat), dar cea mai cunoscut i utilizat n statistic este media aritmetic.
Acesteia i se mai spune i media, sau valoarea medie i se noteaz cu un x barat ( ), pentru a
o distinge de notaia cu x a variabilei. Media este acea valoare care se obine mprind suma
tuturor indivizilor care compun populaia statistic la numrul acestora dup una din cele dou
formule echivalente de mai jos:
(4.1) adic: (4.2)

(4.3)
n care X este media, simbolul grecesc nseamn sum de (unele notaii prefer utilizarea
lui S de la Sum), X este fiecare dintre scorurile msurate, iar N este numrul acestora. Prima
formul este complet explicit matematic, deorce X
i
desemneaz o singur msur observat,
fiecare din seria de msurtori X
1
, X
2,
X
3
, , X
n
, adic prima, a doua, a treia i respectiv a n-a
msurtoare. Acest lucru este indicat de semnele de sub i de deasupra simbolului pentru a
arta c valorile nsumate (desemnate de X
i
) merg de la primul la ultimul element din irul N
de valori. Dar, deoarece formula a doua este mai uor de neles i de citit fr simboluri
adiionale, optm pe tot parcursul lucrrii de fa pentru acest al doilea tip de scriere, mai
sintetic, dar mai puin complet matematic. Formulele de mai sus i gsesc echivalentul
urmtor pentru datele ordonate:
(4.4)
x
N
X
X
N
i
i
=
=
1
N
X
X
E
=
N
X X X X
X
n
+ + + +
=
...
3 2 1
N
X k
X

=
41
formul care spune c este mai simplu s nmulim frecvenele k ale unei valori cu ea nsi de
k ori, dect s o adunm cu ea nsi de k ori. Aceasta este o formul aplicabil deci datelor
ordonate, n care variabila ia valori individuale precizate, toi indivizii statistici ai populaiei
respective contribuind la generarea mediei prin valorile lor determinate prin msurtoare. De
aceea formulele (1) i (3) dau valori exacte ale mediei, fr pierdere de informaie.
Cnd datele sunt ordonate, dar i grupate n k clase (intervale), utilizm pentru
determinarea mediei urmtoarea formul:

(4.5)

unde cu k se noteaz numrul de interval, cu f frecvena fiecrui interval, cu c centrele de
interval, iar cu N numrul de observaii, care de fapt este suma frecvenelor din fiecare
interval de clas. Deoarece n media final nu se mai regsesc exact valorile individuale, ele
fiind aproximate prin centrele de interval, pentru fiecare clas n parte, aceasta se mai numete
i media ponderat a centrelor intervalelor, fiind mai puin precis, deoarece n acest caz
exist o pierdere de informaie. De exemplu, factorul b din testul de personalitatea HSPQ
Cattell d urmtoarele valori pe lotul de eantionare:
9 6 9 9 10 8 9 9 8 8 7 7 8 10 10 9 7 7 6 8 5 6 8 6 9 7 5 8 8 6 8 7 6 3 8 7 7 8 8 6 6 3 8 5 5 6
4 7 2 5 7, la biei i:
8 10 8 9 7 8 8 7 8 10 8 7 9 8 8 10 7 10 4 8 7 5 7 6 8 9 6 7 5 8 7 6 9 7 3 4 4 7 7 5 7, la fete.
Pentru biei, N = 52, X = 363, deci media este 363/52 = 6,98. Pentru fete, N = 41,
X = 294 i media este 294/41 = 7,17. Dac vom reuni cele dou populaii, lucru posibil
deoarece diferena mediilor lor nu este statistic semnificativ (testarea semnificaiei diferenei
fiind una dintre importantele aplicaii ale mediei aritmetice, cum vom vedea ulterior), vom
obine un numr total N = 52 + 41 = 93, X = 363 + 294 = 657 i media X = 657/93 = 7,06,
adic o valoare care se afl ntre cele dou medii.
x
xx
x xx xx
xx xx xx x
xx xx xx xx xx
xx xx xx xx xx x
_____________________x xx x xx xx xx xx xx xx________________________
variabile X 0 1 2 3 4 5 6 7 8 9 10
frecvene f 0 0 1 2 1 6 9 10 13 7 3 N = 52
produsul fX 0 0 2 6 4 30 54 70 104 63 30 fX = 363
media X pentru eantionul de biei: 363/52 = 6,98
N
c f c f c f
f f f
c f c f c f
X
n n
n
n n
+ + +
=
+ + +
+ + +
=
...
...
...
2 2 1 1
2 1
2 2 1 1
42

S remarcm faptul c distribuia noastr este uor asimetric, deplasat spre dreapta
(adic negativ, cum se va vedea ulterior), valoarea central numit mod fiind 8, cu frecvena
de 13, iar media este foarte aproape de 7 (6,98). n calculul mediei este evident utilitatea
formulei 3, pentru datele ordonate. Mediana, adic valoarea de scor care mparte distribuia n
dou jumti a cte 21 de cazuri, va cdea undeva ntre 6 i 7, pentru care frecvenele
cumulate sunt 19, respectiv 29.
Not: modalitile de lucru pentru determinarea medianei i a modului, ca i indicatorii
formei distribuiei sunt tratai n partea a doua a acestui capitol.
xx x
xx xx
xx xx
x xx xx
xx x xx xx xx xx
___________________________ xx xx xx xx xx xx xx________________________
variabile X 0 1 2 3 4 5 6 7 8 9 10
frecvene f 0 0 0 0 2 5 3 12 11 4 4 N = 41
produsul fX 0 0 0 0 8 25 18 84 88 36 40 fX = 294
media X pentru eantionul de fete: 294 / 4 = 7,17

Remarcm c valorile mediei (7,17), medianei (aflat ntre 6 i 7) i modului (7) sunt
foarte apropiate pentru cele dou eantioane, singura valoare care este uor diferit fiind
amplitudinea mprtierii R (de la englezescul Range), ceva mai mare la biei dect la fete
(8, comparativ cu 6). Acestea sunt argumente suficient de puternice pentru a reuni cele dou
eantioane n unul singur i a le trata statistic n comun, determinnd principalele valori ale
tendinei centrale, ceea ce poate constitui o sarcin pentru portofoliul de evaluare.
Media aritmetic are cteva proprieti remarcabile:
- Ea este o mrime la care particip toate valorile variabilei respective.
- Media se exprim n aceleai uniti de msur n care sunt exprimate i valorile
variabilei respective.
- Suma abaterilor valorilor de la medie este ntotdeauna nul, adic (X X) = 0, ceea
ce constituie de fapt o a doua definiie a mediei aritmetice. Aceasta conduce la cea mai
remarcabil nsuire a ei, aceea de a fi centrul de greutate al ntregii serii de valori al
unei distribuii, de unde i marea sa importan ca indicator care concentreaz cel mai
bine datele. Din punct de vedere fizic putem compara irul de frecvene al unei
distribuii cu o bar gradat de lungime R (egal cu amplitudinea mprtierii) de care
43
sunt atrnate greuti la fiecare gradaie X
i
, egale ca mrime cu frecvena f. Media va fi
pivotul, punctul de sprijin care realizeaz echilibrul perfect, fiind singura valoare
relativ la o distribuie pentru care suma abaterilor de la ea este zero. De aceea
expresia (X X)/N, numit momentul de gradul nti (prin analogie cu momentul
forei din fizic), va interveni, prin ridicare la puterea a doua, a treia i a patra, n
calculul dispersiei, simetriei i a boltirii curbei.
- Aceasta datorit faptului c suma deviaiilor ptratice de la medie este cea mai mic
prin comparaie cu deviaia de la oricare alt indicator ca mediana, de exemplu
(Guilford i Fruchter, 1978, p. 54).
- Din acest motiv media este considerat indicatorul cel mai strns legat de eantion ca
ntreg, ea respectnd principiul matematic al celor mai mici ptrate. Aceasta este
raiunea pentru care calculul abaterii standard i al dispersiei se sprijin pe medie i nu
pe median.
- Media aritmetic rmne neschimbat dac valorile frecvenelor se nmulesc sau se
mpart cu acelai numr.
- Media poate fi calculat chiar dac nu cunoatem distribuia caracteristicii respective,
ci numai suma valorilor ei.
- Media poate fi o valoare pe care nu o ia nici un individ statistic, ba - mai mult - poate
s nu fie reprezentativ sau s nu aib sens la nivelul indivizilor concrei (Rotariu et
al., 1999). Este de ajuns s exemplificm cu costurile medii de producie, care se pot
exprima n lei i fraciuni ai acestuia (cndva retrai din circulaie), cu dimensiunea
medie a unei familii, care poate da fraciuni dintr-o persoan, sau chiar cu nlimea
medie a unui grup, neregsibil ca atare la niciunul dintre membrii acelui grup.
- Aceasta duce la concluzia c, chiar dac media este o valoare care cade ntotdeauna n
interiorul seriei de variaie, adic ntre valoarea minim i cea maxim, ea nu este
neaprat i valoarea cea mai tipic sau mijlocie a seriei respective. Uneori ea poate
mpri acest serie n dou pri foarte inegale. Astfel, dac vom considera 5
coeficieni de inteligen: 68, 84, 90, 100 i 160, media lor este 100,40 sub care cad 4
valori i doar una deasupra.
- Aceasta nseamn c media aritmetic aduce doar o parte din informaia necesar
interpretrii unei distribuii, deci c este nevoie i de ali indicatori ai tendinei centrale
i ai mprtierii pentru a avea o idee mai complet despre aceasta. Pentru a-i cita pe
Rotariu (1999) media, ca orice indicator, nu poate reflecta dect o parte din
44
informaia surprins n caracteristic i este evident c, cu ct populaia este mai
omogen, cu att media va reproduce mai mult din aceast informaie (op. cit., p. 46).

Determinarea mediei este foarte util n cercetarea psihopedagogic n cteva situaii:
- Pentru a localiza o valoare dintr-o distribuie. Nota 7 la matematic este una slab n
clasele primare, dar una bun la o clas realist de liceu, nivelul mediu al performanei
fiind foarte diferit pentru cele dou colectiviti.
- n comparaia unor grupuri independente (necorelate este termenul consacrat n
statistic) sau al unor grupuri corelate. Lotul martor i lotul de control, faza de pre-test
i de post-test al unui aceluiai eantion presupun obligatoriu determinarea mediei i a
abaterii standard pentru ca, prin comparaiile statistice, loturile iniiale s fie egalizate
pentru a se putea surprinde impactul variabilei independente asupra celei dependente.
- Cnd un eantion a fost supus mai multor surse de variaie sistematic, se calculeaz
media asociat cu fiecare dintre strile sursei respective, pentru a se putea
descompune variaiile nregistrate n mai multe efecte, ce urmeaz a fi analizate
fiecare sub raportul ponderei n efectul final (regresia simpl i multipl).
- n analiza itemilor unui test, pentru a vedea dac acetia se supun unor exigene de
construcie (vezi Clocotici i Stan, 2000, pp. 56-57).

4.2. Mediana
Pentru a evita confuziile legate de acest indicator, uor de definit, dar care ridic
destule probleme cu determinarea sa n variate situaii concrete, vom spune c mediana nu
este nici un scor, nici o frecven sau vreo alt msur particular, ci este un punct aflat pe
scara msurtorilor, sub i peste care se afl exact jumtate din numrul cazurilor.
Determinarea medianei (Me, Med sau Mdn) presupune deci ca o condiie prealabil
ordonarea cresctoare sau descresctoare a datelor furnizate de indivizii ce compun populaia
statistic respectiv. Locul pe care l ocup mediana n acest ir ordonat de date este dat de
urmtoarea formul de lucru:
(4.6)
Iat, de exemplu, urmtorul ir ordonat al unor msurtori: 2, 4, 7, 8, 9, 10, 14. Deoarece
numrul lor este impar (N+1)/2 este (7+1)/2 = 4, deci mediana este a patra valoare din ir,
adic 8, deoarece ea mparte irul n dou jumti egale. Iat i un alt exemplu de msurtori:
7, 9, 10, 11, 13, 15, 17, 21. Deoarece numrul total este par (8), vom avea Md = (8+1)/2 = 4,5;
2
1 +
=
N
Md
45
deci mediana se afl la jumtatea distanei dintre a 4-a i a 5-a valoare, adic ntre 11 i 13 i
aceasta nu poate fi dect 12.
Procedeul pare a fi foarte simplu, dar intervin o mulime de situaii particulare mai
greu de rezolvat. Iat un alt exemplu al unui ir ordonat de valori: 11, 11, 11, 11, 13, 13, 13,
15, 17, 17. Sunt 10 valori, deci mediana va trebui s fie situat la distana de (10+1)/2 = 5,5
fa de unul din capete, ori acesta se afl ntre 13 i 13! Este evident c vom avea nevoie de
un alt raionament, care va introduce n calcul limitele de interval, conform crora 11 se afl
amplasat n intervalul situat ntre 10,5 i 11,5; 12 n intervalul 11,5 i 12,5; 13 n intervalul
12,5 i 13,5 etc. Deoarece avem deja primele patru valori, care sunt 4 de 11, mai avem nevoie
doar de una pentru a putea determina punctul median. n intervalul 12,5 13,5 avem 3 valori
de 13; o singur valoare nseamn o treime din acest interval, adic 1/3 = 0,33, valoare care se
adaug la limita lui inferioar. Deci punctul median va fi 12,50+0,33 = 12,83 = Md.
Determinarea medianei din datele grupate presupune un procedeu de lucru care se va
regsi i la determinarea cuartilelor, centilelor sau a decilelor, adic la ceea ce n statistic se
cheam cuantile. Iat o parte din datele cuprinse n capitolul precedent:
Tabelul 4.1. Procedeul practic pentru determinarea medianei (N = 54).

Nr.

Scoruri clase
Limite
exacte
Frecvene
brute
Frec. brute
cumulate
Frec. brute
cumulate
12 65 - 69 64,5 - 69,5 0 54 0
11 60 - 64 59,5 - 64,5 4 54 4
10 55 - 59 54,5 - 59,5 3 50 7
9 50 - 54 49,5 - 54,5 4 47 11
8 45 - 49 44,5 - 49,5 2 43 13
7 40 - 44 39,5 - 44,5 2 41 15
6 35 - 39 34,5 - 39,5 6 39 21
5 30 - 34 29,5 - 34,5 11 33 32
4 25 - 29 24,5 - 29,5 8 22 40
3 20 - 24 19,5 - 24,5 8 14 48
2 15 - 19 14,5 - 19,5 5 6 53
1 10 - 14 9,5 - 14,5 1 1 54
Md = 29,5 + (54/2-22) 5/11 = 29,5 + 5 5/11 = 29,5 + 25/11 = 31,77
Md = 34,5 (54/2-21) 5/11 = 34,5 - 6 5/11 = 34,5 - 30/11 = 31,77

46
n acest caz, formulele de lucru pentru determinarea medianei plecnd de jos n sus,
respectiv de sus n jos, sunt urmtoarele:

(4.7)

(4.8)
n care:
- l
i
i l
s
reprezint limitele inferioar, respectiv superioar, ale intervalului median
reperat;
- f
c
este totalul frevenelor cumulate situate sub el (prima formul) sau deasupra lui (a
doua formul);
- f
i
este frecvena corespunztoare intervalului localizat n care se afl mediana;
- N este numrul de cazuri;
- i este mrimea unui interval.
n cazul nostru N/2 = 54/2 = 27, valoare care cade n intervalul 29,5-34,5. Deoarece
valoarea frecvenelor cumulate este de 33 i aceasta o depete cu 6 pe cea cutat de noi
(27), aceasta nseamn c va trebui s plecm de la frecvena cumulat a intervalului imediat
inferior (22), la care s adugm prin interpolare o anumit valoare, corespunztoare celor 27-
22 = 5 cazuri care ne mai lipsesc. Iat raionamentul, prin regula de trei-simpl: dac pentru
totalul de 11 cazuri, care este frecvena intervalului localizat pentru median (f
i
) avem o
lungime a acestuia de i = 5, pentru cele 5 cazuri care ne mai trebuie avem nevoie proporional
de 55/11 = 2,27 uniti care se vor aduga limitei inferioare a intervalului median: 29,5+2,27
= 31,77, corespunznd punctului median cutat.
Iat deci n rezumat paii necesari interpolrii punctului median, care se vor regsi ca
procedeu de lucru n determinarea oricrei cuantile, unde n loc de N/2 vom pune quota
cutat:
1. Se gsete N/2, adic jumtate din numrul cazurilor care corespund distribuiei date.
2. Se stabilete de jos n sus, prin cumularea frecvenelor, locaia intervalului n care se
afl mediana.
3. Se determin prin scdere de cte cazuri mai avem nevoie pentru a atinge N/2 cazuri.
4. Se mparte acest numr la numrul cazurilor din intervalul superior (median).
5. Se multiplic rezultatul cu mrimea intervalului de clas n care s-a fcut gruparea.
6. Se adaug acest rezultat la limita de jos a intervalului unde a fost localizat mediana.
7. Se verific de sus n jos, prin procedeul descris de la paii 2 la 5 inclusiv, cu
meniunea c:
i
c i
f
i
f
N
l Md + = )
2
(
i
c s
f
i
f
N
l Md = )
2
(
47
8. Valoarea gsit se scade din limita de sus a intervalului ce conine mediana. Dac
toate calculele au fost fcute corect, atunci rezultatele vor fi, evident, identice.
Iat paii 7 i 8 pentru exemplul nostru: N/2 = 27 i clasa care este cel mai apropiat ca
valoare este, de sus n jos, cea care are, prin cumulare, 21 de cazuri; deci ne mai trebuie 27-21
= 6 cazuri; 65/11 = 2,73 i 34,5-2,73 = 31,77, adic obinem aceeai valoare a punctului
median.
n determinarea medianei pot fi posibile i situaii speciale:
- Situaia (norocoas) cnd nu mai este nevoie de nici o interpolare, deoarece jumtate
din totalul cazurilor cutate se regsesc, pe coloana frecvenelor cumulate, n
ntregime ntr-o anumit clas, a crei limit superioar (cnd venim de jos n sus) este
chiar mediana. De exemplu, dac n clasa 24,5-29,5 am fi avut frecvena cumulat
54/2 = 27, atunci mediana ar fi fost 29,5.
- Situaia n care mediana cade ntr-un interval care are zero cazuri, mediana se ia
arbitrar ca mijloc al acestui interval, dei aceast estimare este brut i susceptibil
de o anumit eroare, care este cu att mai mare cu ct intervalul de grupare este mai
mare, dar este bun pentru intervale mici de 2, 3 sau chiar 4 uniti.
- Situaia cnd mai multe intervale din zona medianei au frecvena zero, nu se poate
face nici o estimare corect a acesteia, dei s-ar putea lua ca median punctul mijlociu
al acestor intervale cumulate de frecven zero.
Toate aceste precauii sau artificii devin inutile prin prelucrarea automat a datelor pe
calculator, care are algoritmi de lucru pentru a rezolva o mare diversitate de situaii. Singura
precauie care totui mai rmne este aceea de ti s operm corect cu semnificaia
termenului, n circumstane adecvate.

4.3. Modul
Modul (Mo) este valoarea care are cea mai mare frecven, deci cea care
caracterizeaz individul tipic al populaiei statistice respective. Ea este foarte uor de reperat
pe un poligon al frecvenelor, unde modul corespunde punctului de maxim al acestei linii. n
cazul distribuiilor discontinue, nominale sau ordinale, modul este categoria cu cea mai mare
frecven, dar n cazul distribuiilor continue, acestea evideniaz deseori distribuii zig-
zagate, cu mai multe vrfuri care au nlimi egale sau apropiate. De aceea este necesar s
grupm datele, care vor evidenia acum cu mai mult pregnan un interval modal (intervalul
cu frecvena maxim).
48
Exist distribuii unimodale (cu o singur valoare sau interval ce ating o frecven
maxim), bimodale i multimodale (curbe cu mai multe vrfuri sau cocoae egale sau foarte
apropiate ca mrime), la prima categorie omogenitatea fiind mai mare dect la celelalte. n
cazul distribuiilor bimodale, cu ct distana dintre cocoae este mai mare, cu att distribuia
respectiv este mai puin omogen i deci mai atipic, punndu-se problema identificrii celor
dou grupuri eterogene pentru a fi tratate statistic separat.

4.4. Comparaie dintre medie, median i mod n funcie de distribuie
Aa cum am mai spus, media este pivotul sau centrul de greutate al ntregii distribuii.
Deoarece mediana face abstracie de distana fiecrui caz fa de tendina central, ea nu poate
avea calitatea de centru de greutate al distribuiei. S menionm c relaia dintre cei trei
indicatori de poziie, media, mediana i modul, iese cel mai bine n eviden pentru
distribuiile asimetrice, deoarece n cele normale ele tind s se suprapun, dnd diferene
neglijabile. De altfel, aceast tendin la suprapunere a celor trei indicatori ai tendinei
centrale este un important aspect ce ajut la identificarea normalitii unei distribuii.
i n distribuia de mai jos, asimetric negativ (deplasat spre dreapta), dar i n una
asimetric pozitiv (deplasat spre stnga), exist o distan nsemnat ntre medie i mod,
mediana fiind n ambele situaii mai aproape de medie dect de mod, i anume la o treime din
distana existent ntre acestea. Media se afl ntotdeauna pe creoda (coada) mai lung a
distribuiei, n timp ce modul este cel mai uor de reperat, fiind valoarea de scor cu cea mai
mare frecven, adic vrful distribuiei (sau vrfurile ei, atunci cnd sunt prezente mai multe
moduri).

Figura 4.1. Relaiile dintre medie, median i mod nrtr-o distribuie asimetric dreapta.
49

Figura 4.2. Relaiile dintre medie, median i mod n distribuii cu asimetrii inverse.

De aceea cele trei valori ale poziiei vor interveni n calculul unor indicatori ai formei
distribuiei, n spe simetria sau oblicitatea (skewness). Pentru distribuiile asimetrice, modul
este raportat cel mai adesea cnd exist un interes pentru cea mai probabil valoare sau
interval, n rest media i mediana sunt considerate a fi cei mai relevani indicatori, deoarece
fiecare aduce o informaie specific, iar din mrimea diferenei dintre cei doi indicatoriei i a
sensului acestei diferene se pot trage concluzii n legtur cu mrimea i sensul asimetriei.
Distribuiile trunchiate sunt unele foarte atipice, care au un vrf ascuit al frecvenelor
la una dintre margini i se mai numesc i distribuii n i sau n j, n funcie de sensul i de
orientarea cozii (creodei) curbelor. Ele sunt relativ frecvent ntlnite n pedagogie, unde un
test de cunotine poate fi trecut sau czut de aproape toi elevii sau studenii, n funcie de
dificultatea lui sau de timpul alocat rezolvrii (de unde i teoria nvrii depline).
n ambele tipuri de distribuii trunchiate, media nu mai este o valoare reprezentativ
pentru tendina central, deoarece o bun parte din valorile unei extreme lipsesc i atunci este
preferabil s folosim ca indicatori doar mediana i eventual modul, care i el i pierde
semnificaia de indicator al tendinei centrale, deoarece este situat foarte excentric.
5.Limbaj
24.0
22.0
20.0
18.0
16.0
14.0
12.0
10.0
8.0
6.0
4.0
F
r
e
q
u
e
n
c
y
350
300
250
200
150
100
50
0
Std. Dev = 3.71
Mean = 18.5
N = 1464.00
194
308
335
251
174
88
51
44

1.Motricitate grosiera
10.0 9.0 8.0 7.0 6.0 5.0 4.0 3.0 2.0 1.0
F
r
e
q
u
e
n
c
y
500
400
300
200
100
0
Std. Dev = 1.50
Mean = 8.5
N = 1464.00
472
388
292
153
89
50

Figura 4.3. Comparaie dintre o distribuie asimetric negativ i o distribuie trunchiat n J.
50
4.5. Cteva concluzii relative la indicatorii distribuiei univariate
- Separat sau mpreun, media i mediana sunt cei mai utilizai indicatori ai tendinei
centrale ai unei distribuii.
- n distribuiile perfecte cei doi indicatori se suprapun i sunt foarte apropiai n cele
simetrice.
- n cazul distribuiilor asimetrice, media tinde s se situeze ctre valorile extreme, spre
dreapta sau spre stnga, n sensul cozii asimetriei. n aceeai situaie mediana ofer o
imagine mai bun a centrului distribuiei, rmnnd mai apropiat de ramura mai
scurt a asimetriei.
- n unele situaii un bun remediu ar fi eliminarea valorilor extreme sau aberante ale
distribuiei (vezi criteriul 1,5 I QR, descris de Clocotici i Stan, 2000, pp. 66-67). Este
considerat ca fiind extrem orice valoare care se situeaz la o deprtare mai mare de
1,5 abateri intercuartilice n raport cu prima, respectiv a treia cuartil i aberant atunci
cnd distana este de mai mult de trei cutii.
- Folosirea mediei este preferat n cazul distribuiilor simetrice sau relativ simetrice, cu
utilizrile deja menionate anterior.
- Distribuiile asimetrice, sau cele ce au frecvent valori atipice (valori extreme i
aberante, adic outlieri sau parazii statistici) impun folosirea prioritar i uneori
exclusiv doar a medianei, n cadrul unor statistici ordinale, deoarece valorile atipice
pot afecta profund media.
- n funcie de cei doi indicatori fundamentali exist procedee distincte de construire a
baremelor psihologice. Pentru datele ordinale sau pentru distribuiile asimetrice se va
prefera mediana, etalonarea fiind n uniti de arie (cuartile, decile sau centile); pentru
cele simetrice i pentru scalele de interval sau de raport se pot construi etaloane de mai
mare finee i precizie, n uniti standardizate z, lund ca i repere fundamentale
media i abaterea standard.
- Concluzionm c media este implicat n procedee statistice mai elaborate, tipice
scalelor de interval sau de raport, cum ar fi regresiile sau transformrile liniare.
Aceasta deoarece ea este riguros definit, uor de calculat i repede de adus spre
tratamentul algebric. Ea propune cea mai bun estimare a parametrului central al
populaiei respective, att fa de median, ct i fa de mod.
51
- Modul rmne cea mai tipic valoare individual i de clas pentru variabilele
nominale i ordinale, cu o utilitate incomparabil mai restrns fa de ceilali doi
indicatori de poziie, media i mediana.

4.6. Exerciii i aplicaii practice
La un extemporal aplicat la dou clase paralele s-au nregistrat urmtoarele note:
X f fc X f fc
10 5 10 5 46
9 7 9 7 41
8 8 8 8 34
7 6 7 6 26
6 8 6 8 20
5 5 5 5 12
4 3 4 3 7
3 2 3 2 4
2 1 2 1 2
1 1 1 1 1
N N 46
Mod Mod 6
Median Median 7
Medie Medie 6,80

1. Completai coloana frecvenelor cumulate.
2. Trasai poligonul i histograma frecvenelor brute.
3. Determinai valorile pentru indicatorii de poziie (indicatorii tendinei centrale).
4. Reprezentai grafic pe diagrama de la punctul 2 media, mediana i modul.
5. Comentai rezultatele facnd referin la forma distribuiei.
6. Cum ai utiliza histograma din figura b de mai jos pentru a determina mediana?
Note
10 9 8 7 6 5 4 3 2 1
C
o
u
n
t
10
8
6
4
2
0
Note
10.0 9.0 8.0 7.0 6.0 5.0 4.0 3.0 2.0 1.0
F
r
e
q
u
e
n
c
y
10
9
8
7
6
5
4
3
2
1
0
Std. Dev = 2.25
Mean = 6.8
N = 46.00
5
7
8
6
8
5
3
2
1 1


Rezolvare pentru punctul 3: sunt dou valori modale, scorurile 6 i 8 avnd efectivele
maxime, de cte 8 cazuri.
52
- Media este egal cu: (105 + 97 + 88 + 76 + 69 + 55 + 43 + 32 + 21 + 11 )/46
= 313/46 = 6,80.
- Mediana se afl ntre valoarea a 23-a i a 24-a de rang. De jos n sus, pe linia
frecvenelor cumulate, cea mai apropiat valoare de a 23-a (fr a o depi) este a 20-
a, corespunznd scorului de 6. Rangurilor 21, 22, 23, 24 i 25 le corespunde scorul de
7 i deci mediana este 7.
Comentarii pentru punctele 5 i 7: distribuia obinut este una negativ (asimetric
spre dreapta, cum indic i curba supra-imprimat de pe histogram). Ea are dou valori
modale, 6 i 8, cu efective de cte 8 cazuri, dar cele dou moduri sunt la mic distan unul
de altul, semn c distribuia este una relativ omogen. Pentru aceasta pledeaz i faptul c
media i mediana au valori foarte apropiate (6,80, respectiv 7), ele fiind chiar la jumtatea
distanei dintre cele dou moduri.
Fiind marcate, barele permit uor identificarea celei mai apropiate valori de scor pn
la care frecvenele cumulate se apropie cel mai mult de a 23-a valoare, fr a o depi. Ea
este scorul 6, deci valoarea imediat urmtoare (7) este mediana. Rangurile pentru scorul 8
sunt de la 27 la al 34, ele depind punctul median.

4.7. Quiz

1. Ce msur a tendinei centrale este mai potrivit atunci cnd:
a. Distribuia are scoruri extreme sau scoruri lips? ................................
b. Avei nevoie de o estimare rapid a tendinei centrale a distribuiei? ................................
c. Avei nevoie s utilizai valoarea cea mai stabil de la un eantion la altul ...........................
2. O distribuie unimodal cu modul 20 i media 25 este un exemplu de (putei avea dou
opiuni):
a. Distribuie negativ.
b. Distribuie pozitiv.
c. Distribuie simetric.
d. Distribuie asimetric stnga.
e. Distribuie asimetric dreapta.
3. O distribuie cu mediana 27 i cu media 29 este probabil o distribuie (pot fi dou opiuni):
a. Distribuie negativ.
b. Distribuie pozitiv.
c. Distribuie simetric.
d. Distribuie asimetric stnga.
e. Distribuie asimetric dreapta.
4. Folosind regulile de rotunjire, raportai cu precizie de dou zecimale urmtoarele 5 numere:
a. 23,85492 b. 3,8751 c. 3,33333 d. 75,66666 e. 101,4999
------------ ------------ ------------ ------------- -------------
53
5. ntr-o cercetare ce avea ca indicator mrimea fratriei s-au obinut urmtoarele rezultate:
X f f
c

7 1
6 0
5 2
4 3
3 7
2 10
1 25
0 74

Determinai indicatorii tendinei centrale i comentai pe scurt rezultatele obinute.
........................................................................................................................................................
........................................................................................................................................................
........................................................................................................................................................
........................................................................................................................................................
6. ntr-o distribuie care este asimetric spre stnga:
a. Media este mai mare dect mediana.
b. Media este mai mic dect mediana.
c. Media este egal cu mediana.
d. Media, mediana i modul se suprapun.
7. Mediana este preferabil mediei ca indicator de poziie atunci cnd (putei avea mai multe
opiuni):
a. Distribuia este asimetric (stnga sau dreapta).
b. Cnd distribuia este ordonat cresctor sau descresctor.
c. Cnd distribuia are numeroase goluri (valori de scor lips).
d. Cnd distribuia are valori atipice sau extreme.
e. n toate situaiile anterioare (a, b, c, d).
8. ntr-o distribuie asimetric negativ, modul ca indicator al tendinei centrale:
a. Subevalueaz media i mediana.
b. Este aproximativ egal cu media i mediana.
c. Supraevalueaz media i mediana.
d. Subevalueaz doar media, dar nu i mediana.
9. Mediana este preferabil mediei ca indicator de poziie atunci cnd (putei avea dou
opiuni):
a. Distribuia reprezint o variabil nominal.
b. Distribuia reprezint o variabil categorial.
c. Distribuia reprezint o variabil ordinal.
d. Distribuia reprezint o variabil real numeric asimetric sau cu valori extreme.
10. Media nu va fi un indicator concludent al tendinei centrale atunci cnd (putei avea mai
multe opiuni):
a. Variabila este una discontinu (discret).
b. Variabila este una categorial.
c. Variabila are valori atipice sau extreme.
d. Variabila are un numr mic de scoruri (sub 20).
e. Variabila este tipic unei scale de raport.
54

11. Putem face inferene (extrapolri de la eantion la populaie) pentru:
a. Medie. b. Median c. Mod. d. Pentru medie, median i mod.
12. Modul este un indicator de poziie util pentru c d o aproximare rapid a tendinei
centrale.
a. Adevrat b. Fals.
13. Mediana reprezint percentilul 50.
a. Adevrat b. Fals.

14. Alegei varianta cea mai corect pentru enunul care urmeaz mai jos.
n esen mediana reprezint:
a. Un scor.
b. O frecven.
c. Un punct de pe linia scorurilor care mparte frecvenele variabilei n dou pri egale.
d. Locul n care amplitudinea scorurilor se taie n dou jumti egale.
15. Centrul de greutate al unei distribuii este dat de:
a. Median b. Medie c. Mod d. Medie i median n egal msur.
16. Selectai din coloana din dreapta toate literele corespunztoare elementelor pe care le
considerai caracteristice celor trei indicatori ai tendinei centrale, trecndu-i n spaiul punctat
de sub fiecare.
Indicator Caracteristic
Mod
.............................
............................
a Este cea mai tipic valoare a unei distribuii.
b Este cea mai indicativ valoare pentru raportul omogenitate/
eterogenitate.
c Este cea mai vulnerabil la outlieri.
Median
............................
............................
d Este cea mai util n distribuiile asimetrice.
e Este mai aproape de coada distribuiei n distribuiile asimetrice.
f Este util pentru distribuiile care au la extreme valori de tietur
convenionale.
Medie
............................
............................
g Nu este influenat de valorile atipice sau extreme.
h Este o estimaie nedistorsionat a parametrului omonim al populaiei.
i Este cea mai rapid i facil determinare a tendinei centrale.

17. n distribuiile mici (putei avea dou opiuni):
a. Modul este un indicator instabil deoarece sunt posibile mai multe valori modale.
b. Media i pierde reprezentativitatea pentru populaia din care a fost extras.
c. Mediana este profund distorsionat i de aceea va fi preferat media.
d. Media, mediana i modul tind s se suprapun.
18. n privina stabilitii, ordinea pentru indicatorii de poziie este (de la cel mai puin stabil la
cel mai stabil):
a. Medie, median, mod
b. Median, medie, mod
c. Mod, medie, median
d. Mod, median, medie.

55

CAPITOLUL 5

MSURI ALE VARIABILITII


Cunoaterea tendinei centrale ne spune foarte mult despre un set de date, dar nu poate
s ne dea o imagine de ansamblu asupra grupului investigat. Dac am avea de exemplu dou
grupuri cu coeficienii medii de inteligen de 103, am putea concluziona asupra faptului c
un grup, luat ca ntreg, este tot att de inteligent ca i cellalt grup, n sensul n care QI-ul o
indic, sau vom atepta ca ele s aibe aceeai performan medie colar sau s se comporte
similar oriunde factorul inteligen este implicat ntr-un mod important. Dar iat c primul
grup nregistreaz valori de la 93 la 113, iar al doilea de la 75 la 125, deci primul este cu mult
mai omogen dect al doilea. Este de aceea de presupus c primul grup va fi mult mai uor de
instruit, n sensul de a putea transmite cunotinele i achiziiona noile idei n acelai ritm,
ceea ce nu se poate spune i despre eterogenul grup de comparaie.
Este foarte pertinent observaia lui Clocotici i Stan (op. cit., p. 63) cnd afirm c
valoarea informaional a unui indicator statistic trebuie apreciat dintr-o tripl perspectiv:
istoric ce s-a ntmplat la un moment dat sau ntr-o situaie dat; comparativ pentru a
putea raporta situaiile similare unele la altele; predictiv ce putem presupune despre
evoluia viitoare a unui fenomen, plecnd de la cunoaterea evoluiei lui de pn la un moment
dat.
Toate aceste argumente sunt importante pentru a arta c, aa cum la tendina central
am cutat cel mai potrivit numr care s o exprime ct mai bine, avem nevoie s lum n
calcul n aceeai form sintetic i ceea ce se petrece spre extremele distribuiei, adic relativ
la mprtiere, pentru a obine indicatori adecvai studiului algebric. n principiu, acetia ar
trebui s condenseze mult informaie, s fie uor de calculat i s se bazeze pe ct mai multe
(dac nu pe toate) dintre observaiile efectuate.
Ataai indicatorilor de poziie, cei de dispersie msoar gradul de mprtiere al
indivizilor ce compun o populaie statistic, n cadrul seriei de valori pe care le iau. Ei vor fi
indicativi pentru raportul omogenitate/eterogenitate n legtur cu caracteristica dat. Uneori,
cnd variabila reflect scri valorice sau ierarhii acceptate social, ca inteligena, venitul etc.
aceti indicatori reflect gradul de inegalitate dintre indivizi. i ntr-o situaie i n cealalt ei
56
reduc gradul de indeterminare (variabilitate) al unui fenomen, fcnd posibile att comparaia,
ct i predicia.

5.1.Amplitudinea mprtierii
Cea mai simpl msur a mprtierii, dar i cea mai srac, este cu siguran
amplitudinea mprtierii, care se definete ca diferen dintre cea mai mare i cea mai mic
valoare, dup formula:
AI = R (Range) = X
max
X
min
(5.1)
Amplitudinea mprtierii se mai noteaz i cu AI sau V, dar noi am preferat s utilizm
simbolul R (de la englezescul Range), pentru c l ntlnim ca atare n softul de specialitate.
Deficiena fundamental a acestui indicator este aceea c el ia n calcul doar dou
valori din seria de variaie, i anume cele extreme, ntre care celelate valori pot nregistra
distribuii extrem de diferite. Mai mult, aceste valori extreme pot fi foarte atipice, aberante, n
raport cu restul seriei de variaie i de aceea ele nu vor putea fi indicative n raport cu
populaia respectiv n ansamblul ei. Iat de exemplu dou iruri de note: 6, 6, 7, 7, 8, 8, 8, 9,
9, 10 i 1, 6, 7, 7, 8, 8, 87, 9, 9, 10. n primul caz amplitudinea este de 10-6 = 4, n al doilea de
10-1 = 9, dei diferena o face doar un singur elev (care s presupunem c a fost prins copiind,
fapt pentru care a luat nota 1), n rest grupurile fiind identice.
Atragem atenia c amplitudinea mprtierii nu ine cont de forma distribuiei (una
simetric i alta asimetric, dou distribuii pot avea aceeai amplitudine). Ca o tendin de
ordin foarte general vom remarca i faptul c, cu ct numrul de observaii sau de indivizi
statistici crete, cu att crete i probabilitatea ca spectrul de variaie s fie mai larg. Asfel, un
coeficient de inteligen are probabilitatea de 25% s fie cuprins ntre 100-109, de 16,7% s
fie cuprins ntre 110-119, de 6,3% s fie ntre 120-129 i de doar 2,2% s depeasc 130,
deci trebuie ca ntr-un eantion s fie de cel puin 50 de cazuri pentru a putea spera s ntlnim
pe cineva cu o inteligen de supradotat, adic de peste 130.
Valoarile aberante, cele care modific att de mult acest indicator, relativizndu-l, sunt
considerate astfel nu pentru c variabila nu le-ar putea nregistra, cci cele mai multe dintre
variabile sunt deschise spre ambele extremiti, ci pentru c n raport cu mrimea
eantionului, probabilitatea lor de apariie este una extrem de mic i de aceea ele devin
atipice. nlimea de 200 cm, att de des ntlnit printre bastchetbaliti, este extrem de rar
regsibil n populaia general, cu o probabilitate ce poate fi dedus din tabele. Deoarece
paraziii statistici afecteaz nu numai amplitudinea mprtierii, ci i valorile de poziie, n
special media (pe care o fac inoperant), exist (cum am menionat deja) procedee de
57
detectare i eliminare a unor asemenea valori. Exist i alte procedee de a lsa pe dinafar
valorile aflate spre extreme pentru a surprinde mai bine forma unei distribuii, cum ar fi
utilizarea abaterii intercuartilice sau a celei interdecilice. Menionm faptul c, n ciuda
tuturor inconvenientelor artate, determinarea amplitudinii este primul pas pentru stabilirea
mrimii intervalelor, n operaia de grupare n clase a datelor.

5.2. Abaterea intercuartilic
Exist o multitudine de procedee prin care o distribuie este mprit n mai multe
pri egale, numite cuantile, acestea putnd fi cuartilele (4 pri), decilele (10 pri) sau
centilele (100 de pri). Vom descrie n capitolul urmtor aceast operaie de gradare pe
curb, foarte important n construirea etaloanelor i a baremelor.
Uzual, dup ce se ordoneaz valorile de la cea mai mic la cea mai mare, se determin
trei puncte de pe linia de baz, notate cu Q
1
,Q
2
i Q
3
, numite cuartilul unu, doi i trei, care au
proprietatea de a mpri ntreaga distribuie n patru pri egale ntre ele. Evident, cuartila a
doua, cea care mparte populaia n jumti, este binecunoscuta median.

Figura 5.1. Poziia cuartilelor Q1, Q2 i Q3, abaterea intercuartilic i cele
patru sferturi rezultate pe o distribuie uor asimetric stnga (pozitiv).
Sursa: Guilford i Fruchter, 1978, p. 64.

IQR = Q
3
Q
1
= 2Q (5.2)
AQ = (Q
3
Q
1
)/2 = Q (5.3)
Vom distinge astfel cuartilul inferior - aflat ntre X
min
i Q
1
, curtilul mediu-inferior - aflat ntre
Q
1
i Q
2
, cuartilul mediu-superior - ntre Q
2
i Q
3
i cuartilul superior - ntre Q
3
i X
max
.
58
Abaterea intercuartilic (sau amplitudinea intercuartilic) este diferena dintre
cuartila a treia Q
3
i cuartila nti Q
1
iar abaterea semiintercuartilic Q este jumtatea acestui
interval. n intervalul intercuartilic Q
3
Q
1
se afl 50% din cazuri, dar ele nu sunt centrate
pe median (Q
2
) dect dac distribuia este una simetric. Acest lucru poate fi uor sesizat
prin reprezentarea grafic de tip boxplot (adic cutie, vezi Figura 5.2).
Pentru o distribuie normal ntreg spectrul de variaie, desemnat de amplitudinea
mprtierii, are 7,5 abateri cuartile Q i 6 abateri standard (de care vom vorbi ulterior):
R = X
max
X
min
= 7,5Q = 6.
Raportul dintre ele este deci = 7,5Q/6 = 1,25Q. n funcie de tipul de scal de msur
utilizat, n operaia de gradare pe curb, adic de convertire a unor valori ale variabilei n
grade sau n zone egale ntre ele, se pot utiliza fie mediana i abaterea cuartil, fie media i
abaterea standard.
Abaterea intercuartilic ofer i un criteriu de identificare a valorilor aberante -
criteriul 1,5 IQR -, de care am vorbit deja. Prin programul de prelucrare computerizat a
datelor SPSS se obine reprezentarea grafic numit boxplot, n care ntreaga distribuie este
definit prin 5 valori, ca n figura de mai jos: X
min
, Q
1
, mediana Q
2
, Q
3
i X
max
. Limea
cutiei reprezint 50% din cazuri, n interiorul ei linia median putnd cdea pe centru (ca n
distribuiile simetrice) sau mai excentric, mai aproape de Q
1
sau de Q
3
(distribuii cu asimetrie
spre stnga sau spre dreapta). Liniile inferioar i superioar (sau mustile diagramei)
reprezint cea mai mic sau cea mai mare valoare care nu este un outlier, adic nu este o
valoare atipic, aflat la o distan mai mare de o cutie i jumtate (1,5 abateri intercuartile)
sau aberant (la o distan mai mare de 3 cutii) de marginile de sus, respectiv de jos ale cutiei.










Figura 5.2. Reprezentarea boxplot a testului Bender-Gestalt (B-G)
pentru genul masculin (1) i feminin (2)
33 24 N =
SEX
2.00 1.00
B
G
160
140
120
100
80
60
21
59

n exemplul de mai sus este evident faptul c fetele au o distribuie cu o amplitudine
mai larg i cu o median centrat pe medie, deci cu o bun simetrie pe poriunea
intercuartilic, dar uor alungit pentru ramura superioar a distribuiei, n zona de QI 100-
135. Asimetria distribuiei este mai evident la biei, unde mediana cade mai aproape de
ramura scurt a distribuiei.
ncercnd s reduc o parte din neajunsurile pe care amplitudinea le introduce n
problema mprtierii, abaterea intercuartilic aduce altele, cci ea las pe dinafar jumtate
din cazuri. Chiar dac ar fi s judecm o distribuie dup ce eliminm valorile extreme i
aberante, sau pe cele aflate sub primul i peste ultimul decil (i cu att mai mult pe cele aflate
sub primul i peste ultimul cuartil), rmne de rezolvat aceeai problem, i anume gsirea
unei valori a dispersiei care, ca i n cazul tendinei centrale, s ia n calcul toate valorile
distribuiei, cu frecvenele corespunztoare. Statisticienii au i propus un astfel de indicator
(indicele lui Gini) prin care se determin o medie a abaterilor fiecrei valori de scor n raport
cu fiecare valoare, costituite ca perechi i luate n valori absolute. Aceasta presupune ns un
volum mare de munc, pe care computerul l poate rezolva rapid, dar rezultatele sunt
discutabile i neconcludente. De aceea s-au imaginat determinri ale mprtierii datelor prin
raportare la o valoare fix, care este cel mai adesea media aritmetic, tocmai pentru c ea este
uor de determinat algebric i ia n calcul toate valorile variabilei. Atunci cnd distribuia nu
este una real numeric (de interval sau de raport) sau este prea mic sau atipic, indicatorul
tendinei centrale ce va fi luat n consideraie va fi mediana.

5.3. Abaterea medie absolut
Se mai numete i abaterea medie (AM) i se definete ca fiind media aritmetic a
abaterilor absolute de la medie.
(5.4)

Pentru datele grupate formula ei este:
(5.5)
n care k sunt frecvenele fiecrei clase. Pentru c n cadrul ei intr fiecare valoare a variabilei
din distribuie, abaterea medie absolut este un indicador al distribuiei mult mai precis dect
amplitudinea mprtierii. Faptul c n ambele formule de mai sus diferena de la medie se ia
N
X X
AM
E
=
N
X X k
AM
E
=
60
n modul nseamn c se vor lua n calcul doar valorile absolute, fr a se ine seama de
semnul minus al valorilor negative. Exist i o valoare medie a abaterilor de la median, mai
puin utilizat, dei Yule i Kendall (1969, p. 157) au demonstrat c cea mai mic abatere
medie este atunci cnd folosim mediana, i nu media aritmetic.
n cazul distribuiilor simetrice, n intervalul X 1AM se gsesc aproximativ 57% din
cazuri, comparativ cu 68% care se afl n intervalul X 1. Deci o abatere standard este cu
aproximaie egal cu 1,25 abateri medii.

5.4. Abaterea standard i variana/ dispersia
Abaterea standard sau media ptratic a abaterilor de la medie (s sau ) i dispersia
sau variana (s
2
sau
2
) sunt msurile cele mai reprezentative ale variabilitii, cu o foarte
larg utilizare. Variabilitatea este de altfel una dintre nsuirile remarcabile ale ntregii
materii, cci universul nsui a evoluat de la primul big-bang (explozia originar) prin
difereniere i integrare progresiv. tefan Lupaco formula chiar un principiu al excluziunii,
potrivit cruia nu pot exista doi atomi identici pe aceeai orbit, deci diferenierea ar ncepe
chiar de la nivel subatomic.
Cu att mai mult lucrurile i fenomenele complexe integreaz elemente care, fiind
diferite, contribuie la diversificarea a tot ceea ce exist, adic la variabilitate. Ideea
diferenelor interindividuale, att de important n psihologie, este prezent nc de la Platon
(Republica) i a gsit o larg recunoatere n opera lui Darwin, la care evoluia speciilor (un
principiu universal al lumii vii) se bazeaz pe selecia, dintr-un vast patrimoniu de caractere
ce compune variabilitatea speciilor (unele ereditare, altele dobndite), doar a acelor elemente
care au o valoare adaptativ.
Dincolo de speculaiile filosofice, variabilitatea interuman ca fapt atestat tiinific
(nici chiar gemenii unizigoi nu sunt identici) este important pentru c permite exprimarea
diferenelor dintre oameni ntr-o manier cantitativ. Variabilitatea uman nu se refer doar la
lucruri simple (timp de reacie, sensibilitate a analizatorilor, discriminri de finee), ci are n
vedere toate nivelurile de analiz, de la cel perceptiv la cel cognitiv superior (unii au o
memorie bun, alii o inteligen superioar etc.), de la structurile cunoaterii la cele ale
afectivitii, voinei sau personalitii, de la individ la grup, de la o vrst la alta, fcnd
posibil exprimarea cantitativ, deci formalizarea matematic i descoperirea de legi.
Din punct de vedere statistic variana sau dispersia este egal cu media aritmetic a
ptratelor abaterilor de la media unei distribuiii ea reprezint msura geometric a suprafeei
de sub curba lui Gauss. Radical din aceasta este Abaterea Standard (AS), care este o nitate
61
de lungime standardizada a liniei ce definite lungimea unei distribuii, adic amplitudinea
mprtierii sale. Ea este notat cu s sau (sigma), AS (Abaterea Standard) sau SD (Sigma
Deviation, n englez) sau chiar cu ET (carte Type, n francez). Cel mai frecvent se
folosete simbolul grecesc , dei n crile de statistic se face diferena dintre populaia n
ansamblul ei i un eantion extras din aceasta (numit de selecie), n raport cu care aplic
simboluri distincte pentru abaterea standard (, respectiv s). Astfel, pentru populaia de baz,
teoretic infinit, se folosete simbolul grec , n timp ce s se refer la o selecie ntmpltoare
din aceast populaie.
Pentru a simplifica lucrurile noi vom folosi doar unul dintre simboluri i anume pe
primul. Furnizm alturat formulele de definiie pentru vriana unei populaii (formula 13) i
pentru o frecven de distribuii a unei populaii statistice (formula 14).
(5.6) (5.7)

Cum n realitate statisticianul opereaz pe selecii (eantioane) extrase din aceast
populaie, formulele de definiie pentru varian sunt cele de mai jos.

(5.8) (5.9)

Formula de calcul are la cel de mult ntemeiere matematic ca i cea de definiie,
prezentnd n plus avantajul practic al operrii cu date uor accesibile, ce se pot obine i cu
ajutorul unui minicalculator cu panou statistic.

(5.10) (5.11)

De aici rezult c cea mai uoar cale de a determina abaterea standard manual
pentru date negrupate este aceea de a obine suma valorilor individuale i suma ptratelor
valorilor individuale i de a le introduce n formula 19, care este rdcin ptrat din formula
17. Acest lucru este valabil i pentru obinerea abaterii standard dintr-o distribuie de
frecvene, formula 20, care este rdcina ptrat din formula 18).

(5.12) (5.13)

Dintre toi indicatorii dispersiei cel mai utilizat este cu siguran abaterea standard,
pentru c acesta este cel mai exact, avnd marele avantaj c se exprim, ca i media, prin
N
X f
2
2
) (
o
E
=
N
X
2
2
) (
o
E
=
1
) (
2
2

E
=
N
X X
s
1
) (
2
2

E
=
N
X X f
s
1
) (
2
2
2

E
E
=
N
N
X
X
s
1
) (
2
2
2

E
E
=
N
N
fX
fX
s
1
) (
2
2

E
E
=
N
N
X
X
s
1
) (
2
2

E
E
=
N
N
fX
fX
s
62
aceleai uniti de msur ca i datele iniiale pe care le prelucrm. De exemplu, dac datele
noastre se bazeaz pe metri, abaterea standard se va exprima tot n metri iar dispersia n metri
ptrai.
Prin faptul c nu cuprinde radicalul expresiei, dispersia pare mai maniabil i mai
avantajoas. De fapt, abaterea standard ofer cele mai mari avantaje legate de discutarea
distribuiilor normale, facilitnd punerea n legtur a distribuiei obinute cu proprietile
matematice ale celei ideale, exprimat prin curba lui Gauss. Prin faptul c deviaia standard
ridic la ptrat diferenele individuale de la medie, inconvenientele semnelor minus ale
abaterii medii (AM) dispar, pstrndu-se doar proprietile matematice, de unde rigurozitatea
crescut a abaterii standard n raport cu abaterea medie. Ea poate fi folosit n operaii
algebrice n sensul n care o scal de interval sau de raport o permite.
Pe un minicalculator cu panou statistic sunt afiate urmtoarele valori:
N = numrul de valori (cazuri) introduse;
X = media aritmetic a acestora;
= abaterea standard i
2
= dispersia;
X = suma valorilor individuale;
X
2
= suma ptratelor valorilor individuale.
Minicalculatorul indic automat valoarea abaterii standard pentru coloana de date
introduse, dar ofer i posibilitatea deducerii acestei msuri cnd reunim dou eantioane, fr
a introduce de dou ori datele. Aceasta ar presupune o operaie foarte laborioas ce trebuie
fcut cu mare atenie i verificat, deoarece orice eroare de introducere altereaz cele dou
valori fundamentale ale tendinei centrale, media i abaterea standard.

Fie exemplul de la cursul 2:
Biei Fete Total
N
X
52
N
Y

41 N
X
+N
Y
=N
Z
93
X
6,98
Y
7,29
Z
7,12

X
1,81
Y
1,58
Z
1,71
X 363 Y 299 X+Y=Z 662
X
2
2701 Y
2
2281 X
2
+Y
2
=Z
2
4982

Din date combinate rezult c media total este de 6,98 iar abaterea standard de 1,71.
n concluzie, la determinarea abaterii standard pentru eantioanele reunite este nevoie de suma
ptratelor valorilor individuale i de suma valorilor individuale.
63

5.4.1. Semnificaia abaterii standard
Am fcut deja distincia ntre abaterea standard a unei populaii i cea obinut pe o
colecie de date corespunznd unui eantion dintr-o populaie. Distingem de asemenea
variabilitatea inter-individual (dintre indivizi sau between), cel mai adesea luat n calcul, i
cea intra-individual (within, pentru acelai individ de-a lungul timpului, la examinri repetate
ale aceluiai parametru sau msurtori ale unor parametri diferii).
Marele avantaj al abaterii standard este c n cazul distribuiilor gaussiene simetrice,
ea poate fi luat ca unitate de msur pe abscisa curbei (poligonului sau histogramei)
frecvenelor.


Deoarece X = 25 i = 5, distana dintre 25 i 30 este de o abatere standard (1 = 5
uniti brute), dintre 20 i 30 este de 2 = 10 uniti brute; dintre 15 i 35 este de 4 = 20
uniti brute; dintre 10 i 40 este de 6 = 30 uniti brute.
Deci ntr-o distribuie simetric tipic, obinut pe o populaie extins, exist 3 sub
medie i 3 peste medie, ceea ce se poate scrie R = X 3, n care R este amplitudinea
mprtierii. nseamn c amplitudinea R (range) este egal cu 6 abateri sigmatice i c 1 =
R/6, deci abaterea standard devine unitate de msur pentru ntreaga ntinderea variaiei.
Relaia amintit se verific pe msur ce N crete:
R/ = 4,50 cnd N > 50
R/ = 5 cnd N > 90
R/ = 6 cnd N > 200.
64
De asemenea msoar distana la care se afl o valoare oarecare (brut) n raport cu media.
O distan sau interval dat n cote brute poate fi exprimat n uniti sigmatice, mprind
distana respectiv (X - X) la abaterea standard. Vom avea un punct de referin 0,
corespunznd mediei, i cotele transformate, adic scorurile z, pentru care formula de calcul
n funcie de statisticele eantionului este: (5.14)

Formula datelor brute ale variabilei exprimat n note z este: (5.15)

ntr-o distribuie tipic normal, unde exist 3 abateri sub i peste medie, notele z vor
varia ntre 3 i +3, trecnd prin 0. Cu ajutorul notelor z putem face comparaii directe, ele
reunind cei mai importani indicatori de distribuie (media i abaterea standard), variaiile
diferite fiind aduse la acelai numitor comun.

5.5. Coeficientul de variaie
Dei abaterea standard d o informaie relevant despre gradul de mprtiere al
variabilei n jurul mediei, din care s-ar putea concluziona n legtur cu omogenitatea/
eterogenitatea populaiei respective de date, sau chiar n legtur cu diversitatea i inegalitatea
dintre indivizii statistici care o compun, acest indicator nu poate servi prin el nsui la
comparaii.
Unul dintre avantajele abaterii standard, acela de a se exprima n aceleai uniti de
msur ca ale variabilei respective, este i cel care mpiedic comparaia mai multor abateri
standard ntre ele, cci fiecare se exprim n alte uniti de msur. De exemplu, ar fi greu s
comparm dispersia salariilor exprimate n monede diferite (lire slabe italiene i lire tari
englezeti), sau chiar n aceeai moned la momente de timp diferite (leul slab de la
sfritul a 15 ani de inflaie i leul tare de dup denominaie). O soluie ar fi raportarea la o
moned extern, stabil n timp, dar inflaia lent o poate atinge i pe aceasta.
Pentru a fi posibil comparaia asupra raportului omogenitateeterogenitate ar fi deci
de preferat s avem o valoare amodal (care elimin problema unitii de msur), lucru intuit
de Pearson, care a propus pentru aceasta un indicator numit coeficient de variaie, notat cu V:

(5.16)
El reprezint raportul abatere standard/medie i arat de fapt ce fraciune din medie i
corespunde unei abateri standard. Prin faptul c unitile de msur apar i la numrtor i la
numitor, prin simplificare se obine un indicator amodal. Elegana lui este ns subminat de
o
X X
z

=
X
V
o
=
X z X + = o
65
capcanele pe care acesta le presupune: el este aplicabil doar variabilelor msuratede pe scara
de raport (dar i acolo cu pruden), deoarece prin translaia valorilor, originea poate fi astfel
plasat nct media s devin zero, fcnd ca raportul s nu mai aib sens.

5.6. Indicatori ai formei distribuiei
Problema formei distribuiei se pune cu precdere pentru variabilele continue, care -
prin grupare - evideniaz foarte clar distribuiile frecvenelor. Se pune de asemenea pentru
numerele mari, a cror distribuie tinde spre o regularitate din ce n ce mai accentuat odat cu
creterea numeric. ntruct statistica clasic i distribuiile empirice i gsesc un puternic
suport n curba lui Gauss ca model ideal de distribuie, se impune o dubl comparaie:
- a jumtii stngi cu cea dreapt a unei curbe, pentru a determina simetria/ asimetria
acesteia, creia i se mai spune i oblicitate (skewness, n englez);
- a distribuiei reale cu cea ideal, pentru a determina gradul de suprapunere sau
excesul/ deficitul n sensul supranlrii sau al subnlrii prin indicatorul boltirii
(kurtosis nseamn n englez cocoa).

5.6.1. Coeficientul de asimetrie (skewness) i boltirea (kurtosis)
Pentru a lmuri problema boltirii i a simetriei este nevoie s clarificm noiunea de
moment centrat de un anumit ordin. Aici se evideniaz nc o dat importana mediei ca
indicator al tendinei centrale, deoarece n orice moment, de indiferent ce ordin, intervine
media aritmetic. Astfel:
- Momentul centrat de ordinul nti consfinete natura mediei ca centru de greutate al
unei distribuii, deoarece:
(5.17)
- Momentul centrat de ordinul al doilea este chiar variana (dispersia):

(5.18)

- Momentul centrat de ordinul al treilea este indicatorul pentru asimetrie:

(5.19)
ntr-un fel, raportul X/, ca indicator al coeficientului de variaie, i gsete justifiacarea
n faptul c i pentru asimetrie se introduce la numitor abaterea standard (ridicat la cub
0
) (
1
=

=

N
X X

2
2
2
) (
o =

=

N
X X
skewness asimetrie
N
X X
/
) (
3
3
3
=

=

o

66
pentru a fi n consens cu numrtorul), obinndu-se astfel o mrime amodal i
standardizat. Valorile apropiate de zero indic simetria, n timp ce valorile negative
indic curbele asimetrice prin deplasarea spre dreapta iar cele pozitive spre stnga.
- Pentru boltire avem nevoie de momentul centrat de ordinul al patrulea:
(5.20)

n care
2
nlocuiete toat prima parte a expresiei de mai sus (vezi Pitariu, 1994, p. 208).
ntr-o distribuie normal, indicele de boltire
2
este egal cu 3. Atunci cnd kurtosisul ia
valoarea zero, repartiia este numit mezokurtic, dac este mai mare ca zero ea este
leptokurtic (curb nalt, ascuit), iar cnd este sub zero, adic negativ, ea se numete
platikurtic (curb plat, joas sau prbuit). Kurtosisul poate fi determinat i n funcie
de punctele cent (pentru curba mezokurtic).

Curba leptokurtic i platikurtic dau valori mai mici, respectiv mai mari dect 0,2632
(vezi Pitariu, op. cit., p. 208). Exemple pentru cele trei tipuri de distribuii sunt prezente n
figura de mai jos.


5.7. Exerciii i aplicaii practice
1. Presupunnd c datele de mai jos reprezint note extrase dintr-o populaie
universitar larg cu media = 6 i abaterea standard = 1,50:
a. Reprezentai grafic distribuia acestor date.
b. Convertii distribuia dat n una X .
c. La pasul urmtor convertii aceast distribuie ntr-o distribuie z.
X= 1 1 2 2 3 3 3 4 4 4 4 5 5 5 5 5 5 5 6 6 7 7 7 7 8 8 8 9 9 10
2. Utiliznd distribuia de la exerciiul precedent determinai notele z atunci cnd X =
4,5, 7,25 i 9.
kurtosis
N
X X
= =

=

3 3
) (
2 4
4
4
|
o

2632 , 0
) (
2
10 90
2
25 75
= =

=
D
Q
C C
C C
Ku
67
3. Rezultatele unui test de citire pentru clasa a cincea a dat media de 25 i abaterea
standard de 5, n timp ce un alt grup de copii de clasa a opta a obinut la acelai test media de
30 i abaterea standard de 10. Cerine:
a. Reprezentai grafic cele dou distribuii, pe aceeai figur.
b. Ce procentaj din cei de clasa a cincea scoreaz mai bine dect cei de clasa a opta?
4. Calculai media i mediana pentru urmtoarele date:
a. 2 12 27 33 9 21 10 9 6 11 23 25 27 14 10 5
X f
152 3
148 5
146 7
138 5
131 8
118 4
105 3
102 2
5. Care indicatori ai tendinei centrale sunt mai indicai atunci cnd:
a. avei multe scoruri lips sau destule valori extremen baza de date
b. dorii o determinare rapid
c. dorii valoarea care este cea mai stabil de la un eantion la altul.
6. O distribuie unimodal cu modul de 44 i media de 35 este un exemplu de
distribuie: a. asimetric stnga b. simetric c. asimetric dreapta.
7. Examinai cu atenie cele patru distribuii de mai jos dup care facei o descriere
detaliat a fiecreia, fcnd referire la mrimea/ volumul distribuiei, la ce se poate spune
dup o inspecie vizual atent n legtur cu indicatorii tendinei centrale, mprtierii i
formei distribuiei.

68

CURSUL 6

INFERENA STATISTIC


6.1. Introducere
Cel mai adesea atunci cnd facem anchete, sondaje, experimente sau teste, avem n
vedere o populaie int mai larg pe care ar trebui s o investigm integral. Practic, de cele
mai multe ori, acest lucru este imposibil din cauza volumului de munc enorm, a costurilor
ridicate, a timpului lung de investigare, a degradrii materialelor i instrumentelor etc. i de
aceea cutm un compromis rezonabil ntre toate acestea i precizia tiinific, alegnd aa-
anumitul eantion convenabil.
n asemenea cazuri din populaia avut n vedere se extrag eantioane
1
, care n
statistic se numesc selecii, termen impropriu dup Smith (1971, p. 29), pentru c el
sugereaz alegerea intenionat selectiv, dup anumite criterii. Ori condiia fundamental n
teoria seleciei este, ca extragerea acestora s se produc la ntmplare, aleator, cci
eantioanele pe baz de ntmplare sunt de nalt improbabilitate (op. cit., p. 3). n final,
concluziile trase de pe asemenea eantioane populaionale sunt extrapolate asupra ntregii
colectiviti vizate prin cercetare, problema care se pune fiind ct ncredere (fundamentat
matematic) putem avea n concluziile noastre.
Orice grup natural intact, luat n compoziia sa dat, poate fi considerat un eantion
extras la ntmplare (dac nu am introdus chiar noi factorii de selecie, aflai sub control
experimental). Aplicnd la mai multe clase de elevi (selecii aleatoare) acelai test, constatm
fluctuaii de la o clas la alta, numite fluctuaii de eantionaj, la nivelul unor procente, medii,
abateri standard etc. n ce msur datele astfel obinute sunt relevante pentru ntreaga
populaie din care lotul de lucru a fost extras este principala problem a inferenei statistice.
Lund ca baz valorile eantionului ales i extrapolndu-le la ntreaga populaie din care el a
fost extras se comite o anumit eroare, a crei valoare evident va trebui s fie ct mai mic.
n psihologie, pedagogie, sociologie multe dintre datele rezultate din msurtoare -
teste, anchete, chestionare - dac sunt determinate din analiza unor selecii de volum mare i

1
Atragem atenia asupra termenului de eantion care, n sens foarte strict, presupune utilizarea unei metode sau a
unui procedeu de eantionare. De aceea este de preferat s folosim termenul de eantion doar n acest caz, n rest
putnd utiliza termenii de lot, grup etc.
69
nedistorsionate (experimental sau natural), tind s se distribuie conform curbei probabilitii
normale. De aceea noiunile statistice de semnificaie i de ncredere pot fi exprimate n
termeni de probabilitate, prin referire la caracteristicile curbei lui Gauss.


Figura 6.1. Probabilitile producerii evenimentelor statistice asociate suprafeelor curbei gaussiene

Cum se observ, n poriunea haurat X 1,96 cad 95% din cazuri, 5% fiind n
afara acestei zone; n poriunea X 2,58 cad 99% din cazuri, doar 1% din cazuri fiind n
exteriorul acestui interval (5% i 1% fiind distribuite simetric, n dou jumti egale la
capetele curbei). Prin aducerea oricrei distribuii normale reduse la o distribuie etalon, n
note z (cu o medie zero i o abatere standard de 1) s-a generat un tabel al legii normale
reduse, care ne permite s vorbim de semnificaie i ncredere n termeni de ans i de
probabilitate. Conform acestui tabel exist probabilitatea de 95 la sut ca o valoare s cad n
intervalul X 1,96 i de 5 la sut n afara acestui interval; probabilitatea de 99 la sut de a
cdea n intervalul X 2,58 i doar de 1 sut n afara acestui interval; de 999 la mie de a
cdea n intervalul X 3,3 i numai o ans dintr-o mie de a fi n afara lui.

6.2. nelesul conceptului de semnificaie statistic
O msur obinut ar fi adevrat dac am investiga fie un numr mare de cazuri
(teoretic infinit), fie toate cazurile care o compun. Cum aceasta nu este practic posibil, pentru
c noi operm cu eantioane mai mici, extrase din populaia de baz, media, abaterea standard
sau ali indicatori sintetici obinui sunt de fapt estimri ale msurii adevrate, aceast
estimaie fiind cu att mai bun cu ct este mai stabil, deci cu ct variabilitatea, mprtierea
70
msurrilor pe diferite eantioane din aceeai populaie este mai mic. A doua condiie este ca
volumul eantionului s fie mare, cci cu ct volumul crete, precizia valorilor msurate crete
i ea (dac eantionul este aleator i nedistorsionat). De aceea conceptul de semnificaie
implic att variabilitatea (adic pe ) ct i numrul (N).

6.3. Eroarea standard a unei medii de selecie i semnificaia ei
Este locul s facem distincie ntre variabil i parametru: variabila (termen statistic
consacrat) este cuprins ntre nite limite ale registrului de variaie, care constituie domeniul
ei de definiie, pe care nregistreaz anumite frecvene (domeniul variabilei); foarte adesea ea
este una continu. Prin opoziie, parametrul este o caracteristic constant a unei populaii.
Media nlimii sau a greutii unei populaii sunt parametri, dei din perspectiva genetic
nlimea i greutatea sunt variabile, deoarece ele cresc odat cu vrsta. Dar chiar mediile
acestora variabile pot fi tratate ele nsele ca variabile: atunci cnd vrem s aflm nlimea
unei populaii de 12 ani, putem extrage un numr foarte mare de eantioane din acea populaie
i, reunind mediile (parametrii) diverselor eantioane, vedem c ele se comport ca nite
variabile, pentru c se plaseaz mai strns sau mai larg n jurul unei medii a mediilor,
respectnd legile distribuiei normale (gaussiene). De aceea este posibil s se considere
mediile de selecie (ale eantioanelor) ca variabile aleatorii/ ntmpltoare, s se trateze
mprtierea lor n termeni probabilistici i s se extrapoleze concluziile asupra populaiei de
baz. Abaterea standard a unei asemenea colecii de medii de selecie este denumit eroare
standard a mediei i se estimeaz dintr-un singur eantion extras aleator dup formula:
1
= =
N
s
S ES
X
(6.1)
Cnd N este mai mare de 100:
N
s
S
X
= (6.2)
n care s este abaterea standard de selecie, iar N este numrul cazurilor (volumul seleciei).
Formula Ea este ntrebuinat pentru a estima ct de mult se apropie media de selecie X de
media populaiei totale ().
Exemplu: la testul Domino 48 (D 48) 226 de copii de 15 ani au obinut valoarea medie
a scorului de 41,20 cu o abatere standard de 18.
20 , 1
15
18
225
18
= = = =
X
S ES
Se poate afirma c pentru un grad de ncredere limitat (pentru 68% din cazuri) media
real se afl ntre 41,201,20, adic ntre 40 i 42,40; c pentru un nivel mai ridicat de
71
ncredere (pentru 95% din cazuri) media real se afl ntre 41,201,961,20, deci ntre
41,202,35, adic n intervalul 38,85 i 43,55; i n sfrit pentru un nivel de ncredere foarte
ridicat (pentru 99% din cazuri) aceast interval este 41,202,581,20, deci 41,203,10, adic
media cade cu o probabilitate de 99% n intervalul 38,10 i 44,40. n primul caz riscul de
eroare este de 100-68,32 = 31,68% (eroare foarte mare), n al doilea caz de 5% (acceptabil) iar
n ultimul caz de 1% (foarte mic, deci foarte acceptabil).
Se obinuiete s se noteze riscul de a grei pe care ni-l asumm fcnd o aseriune sau
alta i pentru aceasta sa-a introdus conceptul de prag sau nivel de semnificaie. Astfel,
intervalul X 1,96S
x
se numete interval de ncredere la pragul de 0,05 (exist riscul de
eroare de 5% ca adevrata medie s cad n afara acestui interval); intervalul de X 2,58S
x
se
numete interval de ncredere la pragul de 0,01 (exist risc de eroare doar de 1% din cazuri).

6.4. Eroarea standard a unui cuantum procentual i semnificaia ei
ntr-un studiu am detectat la 6 ani 10 stngaci din 64 de biei investigai i 6 stngace
din 56 de fete. Procentul p al bieilor este de 15,63% iar al fetelor este de 11,11%.
Eroarea frecvenei are urmtoarele valori pentru biei i fete:
fete la S Ep baieti la S Ep
p p
20 , 4 64 , 17
56
89 , 88 11 , 11
; 54 , 4 60 , 20
64
37 , 84 63 , 15
= =

= = = =

= =
n care p a fost deja determinat (15,63), iar q este procentajul complementar (q = 100-p, n
cazul nostru q reprezintnd dreptacii); pentru biei q este 84,37 iar pentru fete q este 88,89.
Putem concluziona c pentru biei proporiile reale se afl - la un prag de ncredere de
5% - ntre limitele p1,96S
p
n intervalul 15,631,964,54 = 15,638,9, adic ntre 6,73-24,53;
la un prag de ncredere de 1%, ntre limitele p2,58S
p,
n intervalul 15,632,584,54 =
15,6311,71, adic ntre 3,92 - 27,34. La fete localizrile proporiilor reale vor fi determinate
n mod analog: 11,111,964,20 = 11,118,23, n intervalul de 2,88 - 19,34, pentru un prag de
ncredere de 5% i 11,112,584,20 = 11,1110,84, n intervalul 0,27 - 21,95, pentru un prag
de ncredere de 1%.

6.5. Sarcini sau probleme de comparaie. Ipoteza de nul
ntr-un exerciiu anterior (aplicaie la cursul 4) pe unul din factorii testului de
personalitate HSPQ 52 de biei aveau X = 9,75 i = 3,15, iar 41 de fete aveau X = 10,56
i = 3,40. Diferena mediilor celor dou grupuri (9,75-10,56 = -0,81), era ea suficient de
mare pentru a afirma c nu sunt datorate hazardului i a construi tabele de norme separat
72
pentru cele dou sexe? Aceast problem o rezolv testul semnificaiei diferenei celor dou
medii, hotrtor n luarea deciziei. Diferena poate fi semnificativ statistic la un anumit prag
de semnificaie (i atunci tratm separat cele dou grupuri) sau nesemnificativ, adic datorat
ntmplrii. n aceast situaie mrirea numeric a eantioanelor sau alegerea altor eantioane
ar putea nivela, eventual chiar inversa sensul diferenei.
Facem urmtoarele precizri: cu ct numrul de cazuri este mai mare, cu att mai mult
aceeai diferen dintre medii crete n semnificaie; cu ct variabilele sunt mai centrate pe
medie (abaterea standard mai mic), cu att diferenele tind s fie mai semnificative.
a b


n cazul a i n cazul b de mai sus, valoarea diferenei mediilor nu este aceeai, dar n
primul caz ea este semnificativ (dispersie mic, ce au n comun cele dou eantioane este
mult mai puin dect ceea ce au ele diferit), pe cnd n cazul b poriunea comun este att de
mare (din cauza dispersiei mari) nct ele pot fi considerate ca fcnd parte din aceeai
populaie i tratate n comun. Calculul semnificaiei diferenei dintre dou medii se face n
funcie de mrimea eantioanelor (mari sau mici) i a faptulului dac sunt corelate ntre ele n
vreun fel sau sunt independente.

6.6. Eantioane necorelate de volum mare. Ipoteza de nul
Limita dintre eantioanele de volum mic i cele de volum mare este mai curnd una
arbitrar, tabelele tratnd difereniat problema pentru o valoare critic a lui N de 30 de cazuri.
Pentru unele tipuri de analize, ca analiza factorial de exemplu, numerele mari nseamn ns
sute, uneori mii de participani.
n legtur cu faptul dac eantioanele sunt independente sau corelate trebuie fcute
cteva precizri importante. n principiu distincia are n vedere faptul c participanii la un
experiment sunt msurai o singur dat sau de mai multe ori pe parcursul aceluiai
73
experiment. Atunci cnd pentru fiecare condiie experimental este alocat un alt grup de
subieci, acelai subiect neparticipnd la mai multe tratamente experimentale, eantioanele se
numesc independente. n acest caz n rezultatul final al interveniei vor interveni cu ponderi
diferite dou surse majore ale variabilitii datelor, una care se refer la tratamentul
experimental n sine i alta datorat diferenelor individuale dintre membrii alocai diferitelor
condiii/ grupuri experimentale, care niciodat nu vor fi perfect echivaleni. Acest tip de
eantion n care participanii sunt msurai o singur dat se cheam deci eantioane
independente. Testarea diferenelor mediilor pentru variabila dependent are n vedere testul t
pentru eantioane independente (necorelate).
Din aceast perspectiv pare a fi mult mai avantajos ca acelai grup experimental s
treac prin toate fazele, etapele sau condiiile experimentale, situaie n care variabilitatea
interindividual (fiind aceeai) nu mai intervine n determinarea efectului final, practic ea
nemaicontnd. Acest tip de design experimental are o mult mai mare capacitate de a pune n
eviden efectul curat al unui tratament experimental, dac acesta exist cu adevrat.
Puterea cercetrii (adic posibilitatea rejectrii ipotezei nule) este mai mare n acest al doilea
caz, i atunci apare firesc ntrebarea de ce nu sunt folosite exclusiv acest tip de eantioane,
care prezint i alte avantaje suplimentare. Astfel, eantioanele corelate permit un mult mai
bun control al variabilelor externe ce pot distorsiona rezultatele cercetrii. Exist i un mare
avantaj financiar legat de acest tip de eantioane, deoarece ele sunt mai economice, n msura
n care acelai efect este pus n eviden cu un numr mult mai mic de participani.
Dezavantajele acestui tip de eantionare sunt i ele de luat n calcul n proiectarea
cercetrii. n principal efectele de ordine i efectele de nvate sunt cele care trebuie avute n
vedere cci, participnd la toate condiiile experimentale, apare efectul de ordine n
performan generat de chiar succesiunea n care tratamentele au fost administrate. Acest fapt
ar putea fi rezolvat prin contrabalansare (ordini aleatoare ale tratamentelor), dar expunerea la
msurtorile i tratamentele iniiale genereaz reactivitate, i deci o anumit sensibilizare la
tratamentele ulterioare. Efectul de nvare acioneaz nesistematic, adic n mod inegal
asupra participanilor, de unde i implicaiile negative asupra validitii interne a cercetrii.

Atunci cnd eantioanele sunt de volum mare (peste 30) i independente (necorelate),
procedeul de calcul al semnificaiei diferenei mediilor se face n ase trepte (pai):
a. Se calculeaz cele dou medii.
b. Se calculeaz cele dou abateri standard (de selecie) ale distribuiilor.
c. Se calculeaz erorile standard ale celor dou medii.
74
d. Se calculeaz eroarea standard a diferenei dintre cele dou medii dup formula:
1 1 1 1
2 2
2 2
2 2

=
|
|
.
|

\
|

+
|
|
.
|

\
|

= =

Y
Y
X
X
Y
Y
X
X
Y X Y X
N
s
N
s
N
s
N
s
S S S (6.3)
e. Se calculeaz semnificaia statistic a diferenei mediilor dup formula:
1 1
2 2

Y
Y
X
X
Y X
N
s
N
s
Y X
S
Y X
t (6.4)
f. se evalueaz t n tabela corespunztoare. n cazul nostru:
Biei Fete
N 52 42
X
9,75 10,56
3,15 3,40

. 17 , 1
69 , 0
81 , 0
477 , 0
81 , 0
2 28 , 0 195 , 0
81 , 0
41
56 , 11
51
92 , 9
75 , 9 56 , 10
= = =
+
=
+

= t

n tabelul legii normale de distribuie t, cea mai apropiat valoare de 1,17 este 1,20, la
care ansele de eroare sunt de 23%, mult mai mari dect 5% (primul prag de semnificaie) sau
dect 1% (al doilea prag de semnificaie), deci se poate considera c diferena dintre cele dou
medii este ntmpltoare, datorat hazardului.
n statistic ne micm ntre dou ipoteze contradictorii: ipoteza specific H
s
, care este
de fapt ipoteza de cercetare (ce afirm c diferena dintre medii este una real, care nu se
datoreaz ntmplrii) i ipoteza de nul H
o
, care presupune c diferenele aprute sunt datorate
hazardului, erorilor de eantionare etc. Dac plasm pe o ax orizontal probabilitatea de
eroare obinem reprezentarea de mai jos:

p=5% p < 5% p=1% p < 1%
Probabilitatea 1----------------------------- 0,05 ----------------------- 0,01 -------------------------- 0
H
o
nu se consider infirmat H
o
se consider infirmat
se suspend decizia i se accept H
s

t sau z calculai 1,96 2,58
Cele dou limite ale semnificaiei

75
a. dac t calculat (sau z, pentru eantioanele cu volum de peste 30 de participani) este mai mare
de 1,96 nsemn c diferena este nesemnificativ statistic, ipoteza de nul neputnd fi
rejectat;
b. dac t are valoare mai mare de 2,58 se admite n mod ferm ipoteza specific, la un nivel de
ncredere de 1%;
c. dac t este cuprins ntre 1,96 i 2,58 nseamn c semnificaia diferenei mediilor este una
nesigur, rezultatul rmnnd n dubiu (nivel de ncredere de 5%).
Tradiia a acreditat ca praguri de semnificaie p 0,05 ( sau p .05) pentru situaii n
care riscul lurii unei decizii nu are implicaii practice sau teoretice mari i pragul de p 0,01
(sau p . 01) pentru deciziile majore sau care implic un risc crescut.

6.7. Eantioane de volum mare, corelate
Cnd acelai grup este comparat cu el nsui, nainte i dup introducerea unui factor
experimental sau atunci cnd dou grupuri au fost prealabil comparate, egalizate i puse ntr-o
situaie prin care se influeneaz reciproc, vorbim de eantioane (selecii) corelate. Exist de
asemenea eantioane perechi construite astfel nct fiecrui element dintr-un eantion s-i
corespund un altul din cellalt, cu care formeaz pereche (eantioane apariate). n felul
acesta se pot compara dou procese didactice sau de instruire, la originile sale cele dou
eantioane fiind egalizate dup unul sau mai multe criterii (QI, nivel de cunotine, vrst,
apartenen de gen etc.), cu ct criteriile sunt mai numeroase comparaia fiind mai ntemeiat,
dar cu dificulti i costuri aferente tot mai ridicate. Aa a procedat Gily atunci cnd a
comparat 28 de elevi buni cu 28 de elevi slabi apariai pentru a determina cauzele diferenei
de performan colar, pentru niveluri egale ori direct comparabile de inteligen, vrst, gen
sau profesiunea prinilor. Formula de calcul a erorii diferenei mediilor este n acest caz
urmtoarea:
Y X
XY
Y X Y X
S S r S S S + =

2 (6.5)
Apare aici un simbol nou r
xy
care este coeficientul de corelaie. Se observ c
Y X
S


(eroarea diferenei celor dou medii ale eantioanelor corelate) este tot mai mic pe msur ce
corelaia crete. Deci corelaii mai mari dau valori tot mai mari ale lui t, cci n rest formula
este aceeai:
Y X
S
Y X
t

= (6.6)
76

6.8. Semnificaia diferenei dintre dou cuantumuri procentuale
n exemplul anterior relativ la lateralizare, procentajul stngacilor i al stngacelor este
diferit (15,63 - 11,11 = 4,52), dar este aceast diferen semnificativ statistic sau este doar
una datorat ntmplrii? Pentru a rspunde la ntrebarea de mai sus trebuie s calculm
eroarea standard a diferenei dintre cele dou cuatumuri procentuale (procentaje de selecie),
dup formula:
2 2
) (
2 1 2 1
p p p p
S S S =

(6.7)
2
2 2
1
1 1
) (
2 1
N
q p
N
q p
S
p p

+

(6.8)
Cum diferena ,
) (
2 1
2 1
p p
S
p p
t

= formula lui t va fi:


2
2 2
1
1 1
2 1
N
q p
N
q p
p p
t
+

= (6.9)
n cazul nostru diferena nu este semnificativ statistic pentru c nu atinge un t critic de 1,96
(p = 5%) sau 2,58 (p = 1%), dei n realitate stngacii sunt de aproximativ patru ori mai
frecveni dect stngacele. n cazul nostru:
. 73 , 0
18 , 6
52 , 4
64 , 17 60 , 20
52 , 4
56
89 , 88 11 , 11
64
37 , 84 63 , 15
11 , 11 63 , 15
= =
+
=


= t

6.9. Tabelele t i z pentru teste de semnificaie
Cu toate c este de dorit s se lucreze cu selecii sau eantioane de volum mare, n
psihologie adeseori putem fi pui n situaia de a lucra cu selecii de volum mic. Chiar
mrimea obinuit a claselor noastre (ntre 20 i 30 de elevi) ne oblig la aceasta. n plus,
multe dintre prelucrrile statistice presupun ruperea eantioanelor de volum mare n
subeantioane mai mici, dup diverse criterii: al apartenenei de gen, al vrstei, al primilor i
ultimilor la nvtur, al subrealizailor, realizailor sau suprarealizailor colar, dup prezena
sau absena unui atribut sau nsuiri. Multe date senzoriale, fiziologice au o relativ stabilitate
i se preteaz la acest tratament statistic.
77
Cnd eantioanele de cercetare sunt de volum mic, nu se mai poate presupune o
distribuie normal i de aceea tabelele z (ce exprim curba distribuiei normale reduse) au
fost nlocuite cu tabelele Student pentru valori t, de ctre W. S. Gosset, modificate, extinse
i perfecionate ulterior de ctre R. A. Fisher.
Tabelele z i t dau n principiu aceeai informaie, adic ne indic probabilitatea ca o
valoare exprimnd diferena dintre medii i procente s apar din cauza unor variaii
ntmpltoare, rezultate din selecia eantionului. Diferenele dintre cele dou tabele sunt
urmtoarele:
1. Tabelele t dau valori pentru o singur valoare a lui N, care este cuprins ntre 30 i
infinit; tabelele Fisher (z) iau n considerare toate valorile lui N sub 30.
2. Tabelele z opereaz cu probabilitate exprimat n procente din 100 anse, tabela
Fisher opereaz cu fracii zecimale. Astfel p = 0,01 corespunde lui 1% sau o ans din o sut,
iar p = 0,50 cu 50 de anse la o sut (o ans din dou).
3. n tabela z aceasta are un numr de valori care variaz din aproape n aproape (la
una sau dou zecimi), n timp ce t este calculat pentru un numr relativ mic de valori alese
sistematic, cele mai importante fiind cele critice (p = 5%; p = 1%).
4. n tabelele Fisher nu apare n prima coloan din stnga N, ci f, care simbolizeaz
numrul de grade de libertate (degree of freedom). Cnd se lucreaz cu un singur grup sau cu
grupuri corelate f = N-1; cnd se lucreaz cu grupuri independente f = N
X
+ N
Y
- 2; cnd grupul
depete 30, tabelele z i t se egalizeaz.

6.10. Semnificaia diferenei mediilor a dou eantioane de volum mic corelate
Dei n esen metoda de calcul a diferenelor mediilor eantioanelor de volum mic
este aceeai ca i pentru eantioanele de volum mare (calculul lui t, urmat de raportarea la un
tabel i determinarea faptului dac probabilitatea de eroare este sub sau peste un prag critic),
la eantioanele de volun mic apare o mare simplificare: n loc de a calcula dou medii, dou
abateri standard i apoi eroarea standard a diferenelor dintre mediile celor dou eantioane,
aici se lucreaz cu o singur medie, adic media diferenelor de performan a subiecilor n
situaia X i n situaia Y, sau la grupul 1 i grupul 2 cu care a fost egalizat i pus n situaia de
competiie (grupul martor i grupul de control). Ipoteza de nul este n acest caz presupunerea
c diferena mediilor dintre grupuri este zero, iar ipoteza specific este aceea c diferena
mediilor este semnificativ (la un prag specific diferit de zero).
78
De exemplu, se tie c diabetul juvenil poate ncetini dezvoltarea creterii dac boala
s-a declanat nainte de pubertate. Pentru a verifica acest lucru s-au msurat nlimea i
greutatea pentru dou loturi care au fost egalizate dup criteriul vrstei i al genului.


nlime Greutate
Pretest Posttest Diferena Pretest Posttest Diferena
Nr
.
X Y = Y-X X Y = Y-X
1 162 164 2 4 57 58 1 1
2 154 159 5 25 43 54 11 121
3 153 148 -5 25 48 50 2 4
4 167 163 -4 16 60 55 -5 25
5 133 142 9 81 38 50 12 144
6 138 140 2 4 39 39 0 0
7 154 156 2 4 47 43 -4 16
8 162 166 4 16 58 60 2 4
9 160 159 -1 1 56 60 4 16
10 148 163 15 225 50 52 2 4
11 142 145 3 9 48 47 -1 1
12 140 139 -1 1 44 45 1 1
13 149 170 21 441 49 51 2 4
14 131 140 9 81 39 42 3 9
N X Y
2
X Y
2
149,50 153,86 61 993 48,29 50,43 30 350

A. Pentru nlime:
11 , 2
07 , 2
36 , 4
4
07 , 2
13
48 , 7
1
. 3
48 , 7 94 , 55 94 , 55
13
79 , 265 993
1
) (
. 2
36 , 4
14
61
. 1
.
2
2
2
= =
A
=
= =

=
= = =

A
EA
=
= =
EA
= A
A
A

S
t
N
s
S
s
N
N
s
N

5. Din tabela lui Fisher selectm pe p. Cea mai apropiat valoare este pe linia f = N-1
(13), n dreptul coloanei a 6-a la 2,16 (comparativ cu 2,11 obinut de noi). Aceasta nseamn
c exist mai mult de 5% anse de eroare n respingerea ipotezei de nul i deci aceasta nu va fi
rejectat. Fr a atinge pragul semnificaiei statistice (p < .05) diferena tinde totui s fie
semnificativ. Mrirea eantionului ar putea duce probabil la atingerea acestui prag minim
necesar respingerii ipotezei nule.
79
B. Pentru greutate:
65 , 1
30 , 1
14 , 2
. 4
30 , 1
13
69 , 4
1
. 3
69 , 4 98 , 21 98 , 21
13
29 , 64 350
. 2
14 , 2
14
30
. 1
2
2
2
= =
A
=
= =

=
= = =

= A
EA
=
= =
EA
= A
A
A
S
t
N
s
S
s
N
s
N

5. Din tabelul lui Fisher, p la f = 13 este 2,16 pentru 5% anse de eroare iar valoarea
obinut de noi fiind mult sub aceasta, ipoteza de nul nu poate fi respins.

Paii exemplificai prin cele dou exerciii anterioare sunt cei prezentai mai jos:
Etapa 1. Se ntabeleaz valorile obinute de subiecii celor dou grupe mperecheate
(corelate), diferena i ptratul acesteia. Se calculeaz media diferenelor ( A = X-Y, care de
regul nu se calculeaz, dar este un bun mijloc de control al corectitudinii n calcul).
Etapa 2. Se calculeaz nti dispersia (
1
) (
2
2
2

EA
EA
=
N
N
s ), dup care abaterea standard (s
=
2
s )
Etapa 3. Se calculeaz eroarea standard a mediei diferenelor:
1
=
A
N
s
S
Etapa 4. l calculm pe t care este ctul dintre media diferenelor i eroarea standard a mediei
diferenelor:
A
A
=
S
t , dar cum X Y = A se observ c t devine echivalent ca formul de calcul
cu
X Y
S
X Y
z

= , care este totui mai greu maniabil, cci presupune dou medii, dou abateri
standard i dou erori standard ale diferenelor.
Etapa 5. l evalum pe t alegnd de pe coloana f din tabelul lui Fisher numrul gradelor de
libertate echivalent cu N-1 (n cazul nostru 13). n funcie de valoarea gsit vedem dac, n
cazul respingerii ipotezei nule, probabilitatea de eroare este mai aproape de unul dintre
pragurile critice cutate (p = 0,05 sau p = 0,01).
80
Toate determinrile laborioase evideniate prin exemplele de mai sus pot fi extrem de
mult simplificate dac apelm la o alt modlitate de calcul, dat de formula 6.15 de mai jos.
Aceasta presupune ca datele s fie introduse pe un minicalculator cu panou statistic i
ntabelate ca n exemplul urmtor.
nlime
diferena
Greutate
diferena
N 14 14
X
4,36 2,14
o
7,16 4,69
x 61 30
x
2
993 350
27 , 2
91 , 1
36 , 4
14
16 , 7
36 , 4
= = =
A
=
A
N
s
t , pentru diferena de nlime.
70 , 1
25 , 1
14 , 2
14
69 , 4
14 , 2
= = =
A
=
A
N
s
t , pentru diferena de greutate.
Cele dou valori rezultate din exemplele de mai sus, dei foarte apropiate de cele
obinute prin metoda precedent, nu sunt totui identice cu acestea. Pentru elegana i
rapiditatea n calcul presupuse de acesta recomandm cel de al doilea procedeu de lucru.

6.11. Semnificaia diferenei mediilor a dou eantioane
Cnd se compar dou eantioane independente de volum mic exist posibilitatea de a
folosi metoda lui Fisher n calculul semnificaiei diferenei. n acest caz erorile standard ale
mediilor de selecie nu se mai calculeaz separat pentru a se combina n vederea obinerii
erorii standard a diferenei, ci ambele selecii sunt considerate mpreun, deoarece ipoteza de
nul presupune c ele reprezint o aceeai populaie. La modul cel mai general, formulele de
lucru pentru testele t destinate eantioanelor de volum mic necorelate sunt 6.10 i 6,11 de
mai jos.
|
|
.
|

\
| +
|
|
.
|

\
|
+
E + E

=
2 1
2 1
2 1
2
2
2
1
2 1
2 N N
N N
N N
X X
X X
t (6.10)
n care 1 X , 2 X sunt mediile de selecie; N
1
, N
2
numrul de cazuri pentru X
1
i X
2
; X
1
2
i
X
2
2
reprezint suma ptratelor abaterilor individuale de la medie. Singura precauie
81
important este aceea de a-l cuta pe t n coloana lui Fisher la df = N
1
+ N
2
- 2 grade de
libertate. Cea mai des utilizat modalitate de calcul a testului t pentru eantioanele
independente ale cror dispersii nu difer semnificativ
2
, este ns formula 6.11 de mai jos,
unde toate notaiile sunt deja cunoscute. n aceast formul din dispersiile separate ale celor
dou grupuri comparate se obine una singur, cumulat, care este de fapt o estimare a
dispersiei populaiei:
|
|
.
|

\
|
+
(

+
+

=
2 1 2 1
2
2 2
2
1 1
2 1
1 1
2
) 1 ( ) 1 (
N N N N
s N s N
X X
t (6.11)
Cnd eantioanele comparate sunt independente, dar de volum mare, formulele de
determinare a lui t sunt cele de mai jos, n care diferena se mparte la eroarea diferenei:
2 1
2 1
X X
s
X X
t

= (6.12)
2
2
2
1
2
1
2 1
N N
X X
t
o o
+

= (6.13)
n fine, testul t pentru un singur eantion este posibil prin apelul la formula 6.14 de mai jos:
N
s
X
t

= (6.14)
N
s
t
A
A
= (6.15)
n care la numrtor se afl diferena dintre media eantionului de selecie i cea a populaiei,
s este abaterea standard a eantionului iar N volumul acestuia. Pentru grupe corelate/ apariate,
atunci cnd se fololete ca variabil diferena perechilor (delta), formula 6.14 devine 6.15.
Presupunem c n exemplul de mai jos X i Y sunt dou eantioane independente.

nlime Greutate
X
1
X
2
X
1
X
2

N 14 14 14 14
X 149,50 153,86 48,29 50,43
11,36 11,07 7,32 6,65
X 2093 2154 676 706
X 314581 333002 33338 36178


2
Pentru a rspunde la ntrebarea dac cele dou dispersii sunt similare sau diferite n SPSS exist testul Levene
pentru egalitatea varianelor.
82
Determinm semnificaia diferenei celor dou nlimi dup formula 6.11:
07 , 0
65 , 59
36 , 4
15 , 3558
36 , 4
196
28
26
647583
36 , 4
14 14
14 14
2 14 14
333002 314581
50 , 149 86 , 153
= = =

+
+

= t
n acelai fel se procedeaz i pentru greutate:
11 , 0
54 , 19
14 , 2
96 , 381
14 , 2
196
28
26
69516
14 , 2
14 14
14 14
2 14 14
36178 33338
29 , 48 43 , 50
= = =

+
+

= t
Cutnd n tabelul lui Fisher la f = 14 + 14 - 2 = 26, gsim c ambele valori sunt foarte
departe de pragurile de semnificaie critice p = 0,05 sau p = 0,01, ceea ce ne ndreptete s
acceptm ipoteza de nul. n concluzie, cele dou grupe fac parte din aceeai populaie.

6.12. Exerciii i aplicaii practice
1. Un grup de adolescente anorexice au urmat timp de ase luni un tratamet terapeutic
care trebuia s dea ca rezultat ameliorarea greutii nregistrate la faza de posttest.
Greutate
nainte
Greutate
dup
Diferena

2

1 38 43 5
2 38 43 5
3 39 42 3
4 38 42 4
5 39 46 6
6 36 35 -1
7 35 35 0
8 43 46 3
9 33 39 5
10 37 34 -2
11 37 35 -2
12 37 43 6
13 35 41 6
14 38 42 4
15 41 43 2
16 39 42 3
17 40 45 5
18 35 35 -1
19 39 42 3
20 38 40 3
21 34 35 0
22 43 46 3
23 34 35 1
24 37 38 1
25 35 36 1
26 43 47 4
83
N 26 26 26
X
37,75 40,33 2,58
2,74 4,18 2,51
Tabelul de mai sus indic greutatea msurat naintea i dup tratamentul efectuat, ca
i diferenele de greutate constatate dup tratament. S se rezolve urmtoarele cerine:
a. Parcurgnd paii din curs determinai dac exist un ctig semnificativ de greutate n
urma aplicrii programului psihoterapeutic.
b. Facei aceeai determinare utiliznd pe N, media i abaterea standard prezente pe
ultimele trei rnduri din tabel, dup algoritmul din curs.
c. Formulai ipoteza specific i raportai rezultatele obinute.

2. Un grup de 58 de copii din coala general au fost chestionai cu inventarul MASC
pentru a li se determina nivelul de anxietate. Ipoteza specific a fost aceea c nivelul anxietii
acestui grup este semnificativ mai mic dect al copiilor care nu practic sportul. Grupul de
sportivi a obinut o medie a scorurilor de 12,50 i o abatere standard de 7,25. n populaia de
covrstnici nivelul mediu al anxietii a fost de 15,50. Rspundei la ntrebarea dac ipoteza
cercetrii se confirm sau nu, raportnd rezultatele obinute.

3. n grupul de mai sus exist 30 de fete i 28 de biei, ale cror valori statistice
descriptive la testul de anxietate sunt sintetizate n tabelul de mai jos:
Biei Fete Total
N 28 30
X
10 14

X
5,25 6,31
X 280 420
X 3544 7035
X
S
1,01 1,17

a. Formulai o nou ipotez de cercetare legat de diferenele de grup ale mediilor
anxietii i precizai dac aceasta se confirm, raportnd rezultatele obinute.
b. Completai coloana Total, dup regulile furnizate n curs.
c. Determinai eroarea standard a mediei pentru coloana Total.
d. Determinai intervalele de ncredere ale mediei pentru CI (Interval de ncredere) de
5% i de 1%.
84

4. Testai ipoteza potrivit creia cei 70 de studeni de anul I de la Facultatea de Psihologie,
cu un QI de 114 i o abatere standard de 11, au un nivel de inteligen semnificativ mai
mare comparativ cu populaia de baz (QI
mediu
= 100).

5. Pentru un grup de 120 de copii din grupa pregtitoare a grdiniei s-a aplicat un test
destinat determinrii aptitudinii pentru colaritate, cuprinznd o component motric, una
cognitiv i combinaia acestora ntr-un scor total. Acest test a furnizat urmtoarele
rezultate pentru biei (M) i fete (F):
Teste Motricitate Cogniie Total
Gen M F M+F M F M+F M F M+F
N 54 66 54 66 54 66
X
19,83 20,55 36,65 38,03 56,48 58,58

X
2,54 3,39 5,57 5,13 7,35 7,82
X 1071 1356 1979 2510 3050 3866
X 21583 28607 74171 97167 175132 230429
Variana
S
X

F-M

t
1

t
2


Cerine:
a. Testai ipoteza diferenei semnificative a mediilor dintre fete i biei pentru cele
trei perechi de variabile ale testului aplicat.
b. Raportai rezultatele obinute.
c. Agregai datele pentru biei i fete, completnd corect i integral coloana M+F.
d. Determinai variana i eroarea standard a mediei (S
X
) pentru toate coloanele
tabelului.
e. Determinai pe t
1
cu formula 6.11, pe t
2
cu formula 6.12 i comentai rezultatele
obinute.

85

CAPITOLUL 7

STUDIUL ASOCIERII DINTRE VARIABILE PRIN CORELAIE


7.1. Introducere
Nicio alt procedur statistic nu a deschis att de multe ci de descoperire tiinific
n psihologie, tiinele comportamentului i educaie ca metoda corelaiei. Dac pn acum
ne-am ocupat de distribuii cu o singur variabil (univariate), prin corelaie avem n vedere
distribuiile bivariate, n legtur cu care ne punem problema gradului de asociere.
Un coeficient de corelaie este un numr unic care indic mrimea relaiei dintre dou
fenomene, procese psihice, lucruri, adic n ce grad variaz unul n paralel cu variaia
celuilalt. Fr corelaie nu ar fi posibil predicia i chiar atunci cnd sunt implicate relaii
ntmpltoare, fr cunoaterea covariaiei (variaiei comune a dou variabile) nu am fi
capabili s controlm o variabil prin manipularea celeilalte.
Iat cteva exemple: exist vreo legtur ntre scorurile la testele de inteligen i
performana colar? dar ntre nlime i greutate; ntre ploaia czut i recolte; ntre statutul
economic, social i cultural al prinilor i prezena elevilor n colile ajuttoare; ntre studiile
prinilor i performana colar a copiilor; ntre inteligena prinilor i inteligena copiilor;
ntre inteligena gemenilor uni- i bivitalieni; dar a frailor ntre ei?
Gradul de paralelism, msura n care dou colecii de msurtori co-variaz se explic
cel mai adesea prin coeficientul de corelaie. n studierea relaiei dintre anumite nsuiri se
pleac de la variaia simultan a datelor, numit covarian, cutnd s desprindem prin
analiza legturii dintre ele, modul lor de asociaie.
Trebuie spus c, spre deosebire de experiment, corelaia nu dezvluie o relaie de tip
cauzefect, nu este deci o msur a cauzalitii, ci doar a gradului de paralelism, a modului
de asociere, natura relaiei urmnd a fi interpretat. O corelaie perfect ntre X i Y (r =1)
arat c cele dou variabile covariaz perfect, la unison, variaia lui X putnd fi cauza
variaiei lui Y, a lui Y cauza lui X sau a amndorura s fie cauzat de o a treia variabil Z.
Dac n experiment relaia este unidirecional (X determin pe Y), ntr-un studiu corelaional
variabilele sunt date i nu manipulate, relaia dintre ele nefiind una vectorizat.

86
Determinarea corelaiei se face lund n consideraie ntotdeauna cte dou variabile;
astefel, n cazul variabilelor X, Y, Z, vom calcula succesiv corelaiile r
XY
,

r
XZ
,

r
YZ
, datele de
plecare putnd fi msuri cantitative (note), poziii ntr-o ierarhie sau note comparate cu
categorii. Pentru a avea o imagine concret despre cum se corelaioneaz dou variabile
construim aa-numita diagram de corelaie pe un grafic unde fiecrei valori X de pe abscis
i corespunde valoarea Y pe ordonat.
Fie 10 indivizi msurai cu dou forme paralele ale aceluiai test:
Cazuri A B C D E F G H I J
Test X 2 4 5 6 7 8 9 10 12 13
Test Y 4 6 7 8 9 10 11 12 14 15

Se poate observa faptul c fiecare X este egal cu Y-2 fr nici excepie, deci corelaia
va fi r = 1 (sau Y = X+2). Iat un alt exemplu:
Cazuri A B C D E F G H I J
Test P 1 3 4 5 7 8 9 11 12 15
Test Q 2 6 8 10 14 16 18 22 24 30

i n acest caz corelaia este perfect r =1, pentru c Q = 2P fr nici o excepie.
Cazuri A B C D E F G H I J
Test A 1 3 5 7 9 11 12 14 16 20
Test B 20 16 14 12 11 9 7 5 3 1

n cazul de mai sus corelaia dintre A i B este aproape perfect, dar negativ (r = -
.99).
Z Punctaj total r = .10
2 1 0 -1 -2 -3 -4 -5
Z

I
n
a
l
t
i
m
e
10
0
-10
-20
Z Punctaj total r = .20
2 1 0 -1 -2 -3 -4 -5
Z


G
r
e
u
t
a
t
e
6
4
2
0
-2
-4
-6
Motricitate r = .54
30 20 10 0
M
o
t
r
i
c
i
t
a
t
e

g
r
o
s
i
e
r
a
12
10
8
6
4
2
0

a. b. c.
87
Punctaj total r = .87
80 70 60 50 40 30 20 10
M
o
t
r
i
c
i
t
a
t
e
30
20
10
0
Punctaj total r = .97
80 70 60 50 40 30 20 10
C
o
g
n
i
t
i
e
60
50
40
30
20
10
0
QI geaman 1 r= -.97
-10 -20 -30 -40 -50 -60 -70 -80
Q
I

g
e
a
m
a
n

2
60
50
40
30
20
10
0

d. e. f.

n diagramele de corelaie de mai sus, numite scattere, avem cteva situaii distincte:
a. o corelaie extrem de sczut i nesemnificativ (r = 0,10, sau r = .10), aproape de a
indica absena oricrei relaii dintre cele dou variabile. n timp ce variabila X are o cretere
clar, variabila Y are un comportament ambiguu;
b. o corelaie foarte slab (.20), n care norul de puncte tinde s se aeze totui pe o
diagonal stnga jos dreapta sus (corelaie pozitiv);
c. aceast relaie devine i mai evident pentru cele dou variabile (.54);
d. corelaia este una extrem de puternic (.87), tendina de norului de puncte de a se
ordona pe o diagonal stnga jos dreapta sus este foarte evident, ceea ce d de acum
posibilitatea de a a prezice cu o oarecare aproximaie pe fiecare X din fiecare Y i invers;
e. relaia este de acelai tip pozitiv dar este una extrem de puternic (.97), norul
de puncte avnd o grosime relativ egal pe toat suprafaa diagramei de corelaie
(homoscedasticitate);
f. ordonarea norului de puncte din aceast diagram este n oglind fa de precedenta:
relaia este una extrem de puternic, dar negativ, deoarece creterea variabilei X se asociaz
cu descreterea variabilei Y i reciproc.

Cu ct norul de puncte tinde s se aeze mai aproape de o dreapt corelaia este mai
mare, atunci putnd vorbi de o relaie liniar ntre X i Y, fapt ce permite deducerea unuia din
cellalt. n psihologie, bivariaia liniar este postulat cel mai adesea de coeficientul de
corelaie, acesta putnd avea valori cuprinse ntre 1 i +1, care nseamn corelaiile maxime
posibile, diferena fiind doar n orientarea norului de puncte, trecnd prin 0, care nseamn
absena oricrei legturi sau interdependena dintre ele. n acest caz norul de puncte tinde s
se distribuie haotic pe toat suprafaa diagramei de corelaie.
88
Este evident c diagrama de corelaie permite o inspecie vizual global a norului de
puncte fapt ce ne poate spune urmtoarele:
- dac distribuia tinde spre o dreapt, deci ct de intens este relaia dintre variabile;
- care este orientarea ei, deci care este sensul relaiei, pozitiv sau negativ;
- despre forma relaiei: rectilinie (situaie de dorit), curbilinie, neliniar.
Cei mai muli coeficinei de corelaie folosesc modelul relaiei liniare i se cunosc
corelaii parametrice (ntre variabile numerice continue) i neparametrice (n care una dintre
variabile (sau chiar ambele) este categorial, discontinu (dihotomic sau trihotomic).

7.2. Calculul coeficientului de corelaie
Formula de definiie a coeficientului de corelaie este cea furnizat de Pearson:

(7.1)

n care X i Y sunt rezultatele obinute la cele dou nregistrri, iar X i Y reprezint mediile
celor dou distribuii. Cantitatea de la numrtor se numete suma produselor, iar la numitor
avem radical din suma ptratelor produselor.
ntr-o distribuie normal a dou variabile vom avea cinci parametri: dou medii i
dou abateri standard i, al cincilea, coeficientul de corelaie. Orice program statistic poate
determina aceti parametri, problema este cum s i calculm cu un minicalculator i mai ales
cum s i interpretm. Minicalculatorul personal ofer date care vor fi trecute astfel:
- este acelai la cele dou variabile i este numrul de cazuri;
- mediile distribuiilor;
- abaterile standard pentru cele dou serii de date;
- sumele valorilor individuale;
- sumele ptratelor valorilor individuale;
-

reprezint suma produselor dintre fiecare X cu fiecare Y, fiind valoarea pentru
obinerea creia este necesar foarte mare atenie, deoarece o singur eroare de introducere
poate distorsiona semnificativ valoarea corelaiei obinute. n acest fel se ajunge la formula de
lucru a coeficientului de corelaie:

(7.2)
x
X
X
X
X
N
2
E
E
o
y
Y
Y
Y
Y
N
2
E
E
o
2 2
) ( X X N
x
E E =
y x xy
=
XY E
| | | | ) ( ) (
2 2 2 2
Y Y N X X N
Y X XY N
r
XY
E E E E
E E E
=
2 2
) ( Y Y N
Y
E E =
2 2
) ( ) (
) )( (
Y Y X X
Y Y X X
r
XY
E E
E
=
89

Subiect
Mate
X
Fizic
Y

X
2


Y
2


XY
1 7 7 49 49 49
2 9 8 81 64 72
3 10 9 100 81 90
4 6 7 36 49 42
5 9 10 81 100 90
6 8 7 64 49 56
7 5 6 25 36 30
8 3 4 9 16 12
9 7 6 49 36 42
10 8 7 64 49 56
11 6 7 36 49 42
12 7 7 49 49 49
13 6 6 36 36 36
14 5 6 25 36 30
N=14 X=96 Y=97 X
2
=704 Y
2
=699 XY=696

N 14 14
X
6,86 6,93
1 n
o
1,88 1,44
X E 96 97
2
X E

704 699
XY 640 377
(7.3)
O alt formul de lucru pentru corelaia prin metoda produselor este cea de mai sus.
n exemplul dat, coeficientul de corelaie de 0,88 (sau .88 pentru literatura de
specialitate anglo-saxon) este unul extrem de ridicat, ceea ce ne face s presupunem c
legtura dintre fizic i matematic este puternic, performana la ambele fiind determinat de
un factor comun (raionamentul abstract sau factorul general g al inteligenei). Iat nlimile
reale i cele dorite a 14 studente i 2 studeni de la facultatea de psihologie (N = 14+2 = 16).
Subieci IR ID GR GD
1 169 169 58 55
2 170 170 70 62
3 172 172 57 60
4 160 170 52 55
5 170 175 55 55
6 167 167 65 55
7 167 175 55 60
8 156 160 55 55
9 160 160 46 49
10 172 175 50 50
11 163 165 54 53
12 184 180 77 80
13 193 193 113 104
14 158 168 54 58
15 170 170 77 65
16 158 165 49 50
(

E
E
(

E
E
E E
E
=
N
Y
Y
N
X
X
N
Y X
XY
r
XY
2
2
2
2
) ( ) (
90
N 16 16 16 16
X
168,06 170,88 61,69 60,38

x
9,75 8,00 16,55 13,81
X 2689 2734 987 966
X
2
453345 468132 64993 61184
22799 15356 6549 45788
IR_ID 460547 GR_GD 62310
r
IR_ID
.91 r
GR_GD
.79

Comentarii
- Corelaia nlimii actuale cu cea dorit este extrem de ridicat (r = .91), ceea ce
nseamn o proiectare la nivelul sinelui corporal a nlimii dorite n concordan cu
real.
- Greutatea real i cea dorit produc o corelaie mai joas, dei tot foarte ridicat (r =
.79), ceea ce nseamn c n imaginea de sine corporal elementul fundamental este
nlimea (mai statornic), i mai puin greutatea (indicator mai variabil i mai
fluctuant).
- Lotul nostru (foarte mic), alctuit preponderent din femei (88%), i-ar dori civa
centimentri n plus (2,82 cm) i ceva kilograme n minus (-1,31 kg), dar la praguri
nesemnificative statistic (N este mult prea mic).
- Dac vom compara ptratul corelaiilor nlimii cu ptratul corelaiilor greutii (0,91
2
= 0,82 i 0,79
2
= 0,62) vedem c primul acoper mai mult cu o cincime din variana
comun, fapt care susine ideea c nlimea pare a fi fundamental n raport cu
greutatea.

Aplicaie practic
Calculai i comentai corelaiile dintre nlimea i greutatea real, apoi dintre
nlimea i greutatea dorit. Ce constatri ai putut face? Comentarii posibile: ntre valorile
reale ale nlimii i greutii exist aceeai corelaie ca i ntre cele dorite pentru cele dou
variabile. n raportarea noastr la planul corporal ideal se pare c pstrm aceeai atitudine pe
care o avem asupra eului nostru fizic i n plan real. Rezult deci c n plan antropometric
dorina se conformeaz realitii mai mult dect am fi dispui s credem.

7.2.1. Interpretarea orientativ a coeficientului de corelaie
Cum am artat deja, valorile corelaiei Pearson pot fi pozitive sau negative. Cnd r
este pozitiv, creterea variabilei X se asociaz cu creterea variabilei Y, caz n care se spune c
x
91
exist o asociere direct ntre cele dou variabile. Cnd r este negativ, n timp ce una dintre
variabile ia valori cresctoare cealalt descrete. Corelaia (pozitiv sau negativ) aflat n
jurul lui zero indic distribuii necorelate (sau independente). n cazul cnd exist legturi de
asociere ntre variabilele X i Y (corelaie), atunci putem stabili ntre nite limite de precizie i
de ncredere pe Y din X, i reciproc, prin aa-numita ecuaie de regresie.
Semnificaia coeficientului de corelaie va fi analizat mai detaliat n cursul urmtor.
n funcie de scopul urmrit i de nivel de exigen interpretarea lui r are multe faete.
Orientativ, se apreciaz c corelaiile de r < .20 sunt extrem de slabe; de la .20 la .40 acestea
sunt slabe; ntre .41 i .60 sunt medii; ntre .61 i .80 sunt puternice, iar cnd r > .81 ele sunt
extrem de puternice. Pentru variabile corelate invers (negativ), interpretarea lui r este similar.
ns, deoarece semnificaia corelaiei depinde de mrimea eantionului (N), ca i cea a lui t ,
determinarea semnificaiei corelaiei presupune raportarea lui acesteia la tabele speciale. Pe de
alt parte r indic i ct din variana comun se explic prin corelaie, ceea ce trimite la
coeficientul de determinare (r
2
).

Iat cteva corelaii descoperite a exista ntre rude:
ntre persoane diferite
Copii crescui separat -0,01
Prini vitregi - copil 0,20
Copii crescui mpreun 0,24
Rude colaterale
Veri secundari 0,16
Veri primari 0,26
Unchi nepot 0,34
Rude n linie direct
Bunic nepot 0,47
Printe (adult) copil 0,50
Printe (copil) copil 0,56
Alte rude colaterale
Frai crescui aparte 0,47
Frai crescui mpreun 0,55
Gemeni dizigoi, de sex diferit 0,49
Gemeni dizigoi, de aceli sex 0,56
Gemeni dizigoi crescui separat 0,75
Gemeni monozigoi, crescui mpreun 0,87
92

7.3. Coeficientul de corelaie a rangurilor rho
Cnd numrul subiecilor este mai mic de 30, cnd distribuia se abate semnificativ de
la normalitate sau cnd datele despre subieci sunt redate sub forma unei clasificri ierarhice,
prin ranguri, este preferabil s utilizm coeficientul de corelaie a rangurilor (rho) al lui
Spearman. Multe dintre datele obinute de subieci n coal permit asemenea clasificri
ierarhice, fie c este vorba de rezultatele la examene (de exemplu capacitatea, admiterea),
rezultatele la probe sportive, la teste de cunotine, unde diferenele dintre candidai nu sunt
suficient de fine pentru a da gradaiile pe care alte variabile continue (nlimea, greutatea) le
dau. Dac este s citm opinia lui Radu i Szamoskzy
3
rangul este mai stabil ca nota. La
evaluarea succesiv a elevilor de ctre profesor, alternativ prin note sau ranguri, acestea din
urm au o tendin mai accentuat spre stabilitate, notele fiind mult mai variabile.
Atribuirea de ranguri (rangarea) nu este o operaie dificil: subiecii sunt ierarhizai n
ordinea performanei sau scorurilor obinute obinute, de la mare la mic sau invers. n mod
practic, pe o foaie de hrtie se scriu tot attea numere cte ranguri trebuie alocate (egale cu
numrul subiecilor) i se taie rangurile pe msur ce ele se aloc, ceea ce ajut la corecta
gestiune a acestora. Singura precauie important este aceea de a rezolva corect situaia n care
dou, trei sau mai multe cazuri au aceeai valoare de scor a variabilei. De exemplu, dac am
ajuns cu rangarea la al aptelea subiect i urmtorii trei au aceeai performan, din rangurile
8, 9, 10 se selecteaz rangul din mijloc - 9 - care se atribuie tuturor celor trei, urmtorul rang
ce va fi atribuit fiind 11. Dac ar fi fost doi subieci cu acelai scor, atunci pentru rangurile 8,
9 se acord rangul intermediar 8,5, urmtorul rang atribuibil fiind 10. Pentru ca operaia de
calcul s nu produc o distorsiune prea mare a lui rho cazurile de acest fel trebuie s fie ct
mai puine. Dac operaia de rangare a fost corect executat, la sfritul ei toi subiecii vor
avea ranguri i toate rangurile vor fi epuizate, n caz contrar trebuind identificat i corectat
eroarea de rangare.
Un subiect poate fi clasat dup mai multe criterii, avnd deci mai multe ranguri, caz n
care corelaia se va face fiecare rang cu fiecare, dup formula:

(7.4)


3
Radu, I. (coord.), Miclea, M., Albu, M., Moldovan, O., Neme, S., Szamoskzy, S. (1993). Metodologie
psihologic i analiza datelor. Cluj-Napoca: Editura Sincron, p. 122.
) 1 (
6
1
2
2

E
=
N N
d

93
unde d este diferena rangurilor i N numrul subiecilor. Prin ridicarea lui d la ptrat, semnul
diferenei rangurilor devine ntotdeauna pozitiv.
Exemplu
ntr-o cercetare pe grupuri colare vocaionale 10 elevi de la coala de art au fost
ierarhizai dup crieteriul inteligenei (QI), al reuitei la nvtur aa cum o apreciaz
copiii i profesorii i al talentului pentru activitatea specific (evaluat de profesorul de
specialitate).
1 2 3 4 d d d d d d d
2
d
2
d
2
d
2
d
2
d
2

Elev QI copii medie talent 1-2 1-3 1-4 2-3 2-4 3-4 1-2 1-3 1-4 2-3 2-4 3-4
1. 3 1 2 4 2 1 4 1
2. 10 8 9 9 2 1 4 1
3. 4 7 3 8 -3 1 9 1
4. 8 9 8 10 -1 0 1 0
5. 2 3 4 2 -1 -2 1 4
6. 5 5 5 7 0 0 0 0
7. 6,5 6 6 5 0,5 0,5 0,25 0,25
8. 6,5 4 7 1 2,5 -0,5 6,25 0,25
9. 9 10 10 6 -1 -1 1 1
10. 1 2 1 3 -1 0 1 0
N=10 d
2
27,50 8,50


0,83 0,95

( )
83 , 0
1 100 10
50 , 27 6
1
2 1
=


( )
95 , 0
1 100 10
50 , 8 6
1
3 1
=



Din exemplul ipotetic de mai sus se poate remarca concordana ridicat dintre
ierarhia inteligenei msurate (QI) i ierarhia rezultatelor colare propus de elevi, corelaie
care nu este totui la fel de mare ca i cea dintre ierarhia inteligenei msurate i performana
la nvtur, exprimat prin mediile colare ( = 0,83 versus = 0,95). Pentru o mai bun
nelegere a modului de lucru recomandm calculul tuturor celorlalte coloane, urmat de
determinarea de fiecare dat a lui rho, ncheiat de interpretarea rezultatelor.
Ca i r, are valori cuprinse ntre 1 i +1, trecnd prin zero, situaie care indic
absena corelaiei (deci a concordanei dintre cele dou ierarhii exprimate prin ranguri).
94
Reluarea determinrilor prin mrirea eantionului poate duce la apariia unor corelaii
semnificative, chiar dac iniial ele nu atingeau iniial pragul semnificaiei statistice.
Deoarece supraevalueaz uor corelaia (de la 5 miimi spre zonele extreme la 18
miimi pe zona central) dm mai jos tabelul de echivalare ale lui cu r.
.00 .10 .20 .30 .40 .50 .60 .70 .80 .90 .95 1.00
r .000 .105 .209 .313. .416 .518 .618 .717 .813 .908 .954 1.00

7.4. Limitele de ncredere ale unui coeficient de corelaie
Pentru coeficientul de corelaie Pearson putem stabili dac el se plaseaz ntre nite
limite de ncredere (p < .05, p < .01) dup o transformare propus de Fischer. Valorile r sunt
nlocuite cu valori z, a cror distribuie tinde s fie normal pe msur ce N crete, drept
pentru care s-a ntocmit un tabel de conversie. Specificitatea acestui tabel rezult din aceea c
z nu se determin direct, ci primele dou valori (uniti i zeci) se iau dup orizontal din
coloana de pe extrema stnga, corespunznd celui mai apropiat coeficient de corelaie de cel
cutat, iar restul (sutimile) de pe prima linie vertical corespunznd aceluiai coeficient. De
exemplu, coeficientul r = 0,93 este cel mai aproape de .9302 din tabel, care are n stnga 1,6,
iar pe vertical 0,06, ceea ce prin combinare duce la z = 1,66.
Dispersia valorilor z din acest tabel este
3
1

=
N
o i deci
3
1
2

=
N
o .
Dac am avea 39 de cazuri, atunci:


n legtur cu pragul de semnificaie ales (p = 0,05 sau p = 0,01), stabilim limitele de
ncredere ale lui z, care sunt z = 1,96o pentru p < 0,05, i z = 2,58o pentru p < 0,01. n
cazul nostru alegem pragul de semnificaie de 0,05. Deci vom avea: 1,66 1,96 1/6 = 1,66
0,33, coeficientul nostru trebuind s cad n intervalul din tabel corespunznd lui 1,99 i 1,33,
adic ntre coeficienii de 0,96 i 0,87. Pentru p < 0,01 avem: 1,66 2,58 1/6, intervalul este
2,09 1,23, corespunznd n tabel coeficienilor de corelaie 0,97 0,84.

7.5. Interpretarea unui coeficient de corelaie
Ca multe alte determinri r, sau ali coeficieni de corelaie pleac de la eantioane
extrase dintr-o populaie general mult mai extins numeric i de aceea se pune problema
relaiei dintre acetia i coeficienii reali de corelaie, adic cei care ar fi reieit din
167 , 0
6
1
36
1
= = = o
95
determinarea lor pe colectivitatea general. Lund ca ipotez de nul corelaia zero, va trebui
s stabilim un interval de siguran stabilind aa-numitul coeficient de corelaie critic
(valoarea minim pe care ar trebui s o ia coeficientul de corelaie pentru a fi acceptat ca
semnificativ). n tabelul de mai jos se dau asemenea valori pentru r, lund n calcul numrul
subiecilor i dou praguri de semnificaie, p = 0,05 i p = 0,01. n tabelul de mai jos n = N-2.
Deoarece coeficienii de corelaie pot fi i negativi, r se d n modul
4
.

n 9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 40 45 50
p .05 .60 .58 .55 .53 .51 .50 .48 .47 .46 .44 .43 .42 .38 .35 .32 .30 .29 .27
p .01 .73 .71 .68 .66 .64 .62 .61 .59 .58 .56 .55 .54 .49 .45 .42 .39 .37 .35

Exemplificare: r = 0,35; N = 19 (N = 38)
r = 0,50; N = 50
n primul exemplu la N-2 avem 19-2 = 17, valoarea coeficientului critic la pragul de p < 0,05
este cu mult mai mare (0,46), dect valoarea obinut de noi (0,35) i deci corelaia gsit nu
este una semnificativ. Dac am regsi aceast corealie i dup ce am dubla eantionul (n =
N 2-2 = 36), am vedea c la acest numr de cazuri el ar deveni semnificativ la p = 0,05. n al
doilea caz vedem c r critic este 0,27, coeficientul nostru fiind mult mai mare; pentru un prag
de semnificaie de 1 din 100, r este 0,35, deci cel gsit de noi (0,50) este puternic semnificativ
statistic (p < 0,01).
n programele statistice computerizate coeficienii de corelaie care ating pragurile de
semnificaie de p = 0,05 i p = 0,01 sunt notate cu o stelu (*), respectiv cu dou (**).

7.6. Interpretarea varianei unui coeficient de corelaie
prin coeficientul de determinare
Un coeficient de corelaie nu este o proporie i trebuie tratat mai curnd ca o msur
tipic unei scale ordinale, care nu poate fi de exemplu adunat cu ali coeficieni de corelaie
pentru a li se determina o medie. Eventual, dac trebuie determinat o valoare reprezentativ
pentru o ntreag clas de coeficieni de corelaie, se poate alege valoarea coeficientului
median, care nu poate fi totui utilizat pentru calcule aritmetice. Un r = 0,60 nu este de dou
ori mai bun dect r = 0,30, iar distana dintre corelaiile 0,40 0,50 nu este deloc echivalent
cu distana dintre 0,80 0,90. O cale de a nelege i interpreta mai bine sensul coeficientului
de corelaie i de a-l aduce la o form accesibil tratamentului algebric este aceea de a vorbi

4
Pentru detalii suplimentare vezi Radu i colab., op. cit., p. 391.
96
despre el n termeni de varian, calculnd coeficientul de determinare, care este ptratul
unui coeficient de corelaie.
Variana unei variabile Y (s
y
) este acea parte din variana lui Y care poate fi prezis sau
atribuit varianei lui X, fiind o msur a informaiei pe care o avem pentru Y de la X (i
reciproc). Dac r = 0,80, r
2
= 0,64, deci se poate spune c variana lui X n raport cu Y (numit
covarian) este de 64%, adic avem aproape dou treimi din variana lui X care ne-ar permite
s facem o predicie perfect a lui Y. Deci r
2
poate fi interpretat ca o proporie iar r
2
100 ca un
procentaj. n ncercarea de a conceptualiza gradul de relaie adus de coeficientul de corelaie
este mai util s operm cu ptratele corelaiilor dect cu corelaiile n sine. n micul tabel de
mai jos dm cteva valori reprezentative ale coeficientului de determinare transformat n
procente de covarian, dei calcularea sa nu pune nici un fel de probleme.
r .05 .10 .20 .30 .40 .50 .60 .70 .80 .90 .95 1.00
r
2
100 0,25 1 4 9 16 25 36 49 64 81 90 100

Putem rspunde acum unor probleme foarte concrete:
- Diferena dintre coeficientul de corelaie 0,50 i 0,40 este aceea c ultimul aduce 0,50
2

- 0,40
2
= 25 16 = 9 procente de covarian n plus, necesar n predicia unei
variabile plecnd de la cunoaterea celeilalte; 0,60 i 0,50 dau o diferen de 36 25 =
11 procente, deci ofer cu dou procente mai mult fa de exemplul anterior, dei
diferena brut a fost aceeai (o zecime).
- Coeficientul de corelaie de 0,30 nseamn 9 procente de covarian explicat, pe cnd
0,60 nseamn 36 de procente, de unde rezult c al doilea coeficient este de 4 ori mai
util prediciei relaiei dintre X i Y, i nu de dou ori, cum ar rezulta la prima vedere.
Enumerm cteva din cauzele care pot afecta precizia unui coeficient de corelaie:
- Presupunerea (de multe ori nentemeiat) c ntre X i Y exist coliniaritate, adic
faptul c norului de puncte ce materializeaz corelaia i-ar putea fi ajustat o linie
dreapt numit linia de regresie a lui Y n raport cu X. Unele distribuii evideniaz
foarte greu o asemenea liniaritate, ele putnd fi curbilinii, rectilinii pn la un punct i
apoi haotice etc. Pentru unele dintre aceste cazuri (distribuiile curbilinii) exist
procedee de normalizare a distribuiei (ridicarea la putere, logaritmarea etc.).
- Distribuiile atipice care, prezentnd valori atipice la extremele seriei de variaie
(valori atipice sau outlieri extremi), accentueaz mult variabilitatea datelor, fapt ce
conduce la creterea artificial (inflaionist) a coeficientului de corelaie.
97
- Erorile de introducere a datelor: dac valorile de 168 pentru nlime i 75 pentru
greutate vor fi introduse din neatenie invers (75 pentru nlime i 168 pentru
greutate), corelaia va descrete dramatic.
- Erorile de eantionare: cu ct omogenitatea grupului este mai mare, cu att corelaia
descrete, i invers.
- Erorile de msurtoare sau de tastare: un simplu 0 tastat din greeal transform
nlimea de 175 n 1750, ceea ce va distorsiona grav corelaiile prin creterea
artificial a variabilitii datelor.
Concluzia care se poate extrage este aceea de a verifica atent acurateea i
corectitudinea datelor introduse nainte de a trece la determinarea corelaiilor. De asemenea,
diagramele de corelaie (scattere) pot folosi ele nsele drept metod de verificare a prezenei
unor date atipice sau eronate.

7.7. Ali coeficieni de corelaie
7.7.1. Coeficienii de corelaie biseriali i triseriali
Cnd o variabil continu X este pus n paralel cu o variabil discontinu Y
dihotomic (cum ar fi bun/slab, admis/respins, talentat/netalentat, masculin/feminin) calculm
aa-numitul coeficient se corelaie biserial, notat r
bis
, dup formula:
, n care:
- m media valorilor x pentru elementele clasei superioare (Y > Y
0
);
- m media valorilor X pentru elementele clasei inferioare (Y < Y
0
);
- Y
0
este punctul de tietur al variabilei (cutoff, n raport cu care se separ
grupul);
- o - este abaterea standard a rezultatelor variabilei continue;
- raportul pq/Y se citete dintr-un tabel special
5
p fiind proporia admiilor, bunilor,
talentailor etc., iar q proporia complementar (1-p);
- Y este ordonata corespunztoare punctului de separaie.
Exemplu
Cota la test 0 1 2 3 4 5 6 7 8 9 10 Total
Admii 0 1 0 3 5 10 16 14 6 3 1 59
Respini 1 2 4 7 13 12 9 4 2 0 0 54
Total 1 3 4 10 18 22 25 18 8 3 1 113

5
Radu i colab., op.cit., pp.392-393.
Y
pq m m
r
bis
o
" '
=
98

naintea unui curs de instruire profesional, candidaii au parcurs un test psihologic ale
crui rezultate au fost raportate pe o scal C (cu 11 trepte, media 5, abaterea standard 2).
Variabila X este reprezintat tocmai de aceste rezultate. Dup testul psihologic s-a dat i un
examen de admitere, ale crui rezultate finale au fost dihotomice (admis/ respins), aceasta
fiind variabila-criteriu Y. De notat c reuita-eecul nu permit o nuanare mai fin dect
aceasta. Proporia celor admii este p = 59/113 = 0,52, iar cea a respinilor q = 54/113 = 0,48,
adic q = 1-p (q este deci complementul lui p).
Media celor admii este notat cu m, iar a celor respini cu m i se determin astfel:
m = (0 0 + 1 1 + 2 0 + 3 3 + 4 5 + 5 10 + 6 16 + 7 14 + 8 6 + 9 3 + 10 1)/59
(0 + 1 + 0 + 9 + 20 + 50 + 96 + 98 + 48 + 10)/59 = 359/59 = 6,08
m = 4,46.
Date suplimentare (mediile i abaterile standard pentru cele dou categorii) sunt date
n tabelul de mai jos.
Admii Respini Total
N 59 54 113
X
6,08 4,96 5,30
o
1,67 1,75 1,90
x 359 241 600
x
2
2347 1237 3584
pq/y = 0,6264 pentru p = 0,48.
Putem acum determina coeficientul de corelaie biserial:



Eroarea tip: , n care se citete tot din anexe i este de 1,254.

Deci:

7.7.2. Ali coefcieni de corelaie
Atunci cnd variabila continu X este pus n legtur corelaional cu o variabil
trihotomic (bun, mijlociu, slab) coeficientul de corelaie rezultat se cheam triserial i se
noteaz r
tris
. Atunci cnd avem de-a face cu dou variabile discontinue trihotomice (bun,
mijlociu, slab; introvert, ambivert, extravert), coeficientul de corelaie care se calculeaz se
53 , 0 6264 , 0
90 , 1
62 , 1
6264 , 0
90 , 1
46 , 4 08 , 6 " '
= =

=
y
pq m m
r
bis
o
N
r
Y
pq
2

Y
pq
. 09 , 0
63 , 10
973 , 0
113
53 , 0 254 , 1
2
= =

99
numete eneahoric. Cnd dou distribuii sunt dihotomice prin natura variabilei, pentru
determinarea coeficientului de corelaie (Fi) este nevoie de o aezare caracteristic a
datelor.
Coeficientul de concordan W al lui Kendall permite comparaia direct i simultan
a mai multor clasificri fcute de mai muli evaluatori (arbitri) asupra aceluiai lot de subieci,
de produse, de activiti etc. Calculnd corelaia dintre aceste clasamente se determin
fidelitatea msurtorii, adic gradul de acord ntre evaluatori, i nu conformitatea acesteia cu
realitatea. Acest tip de corelaie poate fi deci foarte util pentru construirea unei echipe
performante de evaluatori prin eliminarea celor care contribuie la diminuarea corelaiei
interscoreri. n SPSS opiunea pentru coeficientul W al lui Kendall este prezent alturi de r al
lui Pearson i de rho al lui Spearman.
O atenie special trebuie acordat coeficientului de corelaie multipl R, care st la
baza modelrii relaiilor dintre variabilele predictoare cu variabila criteriu prin regresia
multipl. Corelaia multipl poate fi utilizat de exemplu n clasarea unei ri ntr-o ierarhie
dup mai muli indicatori care intervin cu ponderi diferite sau n predicia reuitei colare,
acolo unde aspectele biologice (starea de sntate i constituia fizic), cognitive (atenie,
inteligen, memorie, creativitate), emoional-afective, temperamental-caracteriale, calitile
voluntare, nivelul de aspiraie, ali factori de personalitate, calitatea educaiei printeti i a
instruciei colare, calitatea colectivului de elevi i de profesori, a materialelor didactice
utilizate etc. pot interveni cu ponderi difereniate n efectul final (media general).
n general, la un efect X concur X
1
, X
2
, ... X
n
factori a cror importan trebuie
cunoscut pentru a le da ponderea corespunztoare n efectul final sau n bateria de teste care
anticipeaz acest efect. Pentru a fi unul economicos, acest sistem de predictori sau aceast
baterie de teste trebuie s rein un numr nu prea mare de criterii (respectiv teste) care
coreleaz puin ntre ele, dar coreleaz strns cu criteriul prezis. Ca i strategii de determinare
a acestor ponderi, care se numesc coeficienii B (nestandardizai) sau (Beta, standardizai),
se pot folosi algoritmul condensrii pivotante a lui Aitken sau metoda Doolitle, care presupun
procedee de calcul laborioase, programele computerizate oferind soluii mult mai rapide.
Programul SPSS ofer mai multe metode de modelare a regresiei, la sfritul crora se
obine coeficientul de corelaie multipl R, care arat intensitatea relaiei dintre criteriul prezis
i variabilele predictoare, moderate de factorii B sau Beta. Ca i pentru r
2
, ridicarea la ptrat a
lui R d un coeficient de determinare prin care se apreciaz sub forma unei proporii
procentuale ct la sut din variana criteriului este prezis de combinaia de predictori reinui
n ecuaia de regresie multipl.
100

7.8. Utilizrile coeficientului de corelaie
Dintre utilizrile coeficientului de corelaie cele mai frecvente sunt urmtoarele:
- Analiza principalelor caliti psihometrice (fidelitatea i validitatea) ale testelor
psihologice.
- Construirea unor scale sau subscale ale testelor cognitive, educaionale sau de
personalitate n care meninerea sau ndeprtarea unor itemi depinde de corelaia
acestora cu scala.
- n selectarea dintr-o multitudine de variabile a itemilor pentru a genera, prin analiza
factorial, scale omogene, care msoar un acelai construct (scale unifactoriale, cu
puritate factorial ridicat). Relevana unui item pentru constructul n cauz este dat
de saturaia acestuia n factorul identificat, care se exprim tot printr-o corelaie.
- Alctuirea unor baterii de teste care prezic cu o mai mare acuratee criteriul, graie
modelrii corelaiilor dintre criteriu i predictori prin ecuaia de regresie simpl sau
multipl.
- Analiza de clustere, similar n multe privine analizei factoriale, dar indicnd ntr-o
form uor de vizualizat nu numai ierarhia factorilor care compun clusterele, dar i
ordinea sau nivelul la care intr n combinaie fiecare variabil cu cele anterioare.

Alegerea celui mai potrivit demers pentru calcularea coeficientului de corelaie
depinde de tipul de variabil (numeric sau categorial; continu sau discontinu; numr mic,
mediu sau mare de indivizi statistici; caracteristici tipice sau atipice) i de sopul urmrit cu
procedeul n cauz. Operaia de baz este ns identificarea prealabil a tipului de scal
metric utilizat, urmat de determinarea normalitii sau anormalitii distribuiei fiecreia
dintre variabilele corelate n parte (normalitate univariat), dar i a fiecrei combinaii de cte
dou variabile corelate (normalitatea bivariat). Dar, pentru a-i cita pe Guilford i Fruchter:
ntotdeauna un coeficient de corelaie este relativ la circumstane i foarte rar, cu siguran,
ntr-un sens absolut.
6




6
Guilford, J.P., Fruchter, B. (1978). Fundamental Statistics in Psychology and Education. Sixth Edition. New
Work: McGraw Hill, p. 88.
101
7.9. Exerciii i aplicaii practice
Pornind de la datele anterioare relative la nlimea i greutatea pentru studenii de la
psihologie:
1. Construii diagrama de corelaie cu marcarea norului de puncte pentru cele dou exemple
date n curs (HRHD, GRGD).
2. ntabelai HR cu GR i HD cu GD, calculnd cu minicalculatorul personal N, x, o
x
, X,
X
2
,
x
,
y
, XY i r, dup exemplul din curs. Comentai rezultatele.
3. Plecnd de la corelaiile la testele de inteligen semnalate n finalul cursului, invocai
argumentele pro i contra implicate n disputa ereditatemediu,
4. La un test de inteligen i la unul de adaptare social s-au obinut urmtoarele scoruri
brute: Inteligen: 80 75 74 80 50 64 46 70 64 74 59 84 55 69 86 50 68 65
Adaptare social: 146 90 114 77 143 26 88 105 78 44 91 61 44 88 44 182 94 90.
Calculai i evaluai mrimea coeficientului de corelaie i sensul acestuia.
5. Ce corelaii ateptai (pozitive, negative, zero) i la ce nivel ntre:
a. succesul colar i venitul anual n primii zece ani de la absolvire;
b. ntre vrst i abilitatea mintal;
c. ntre mediile colare la fizic i la matematic;
d. ntre memoria cuvintelor i media la matematic;
e. ntre mediile la limba romn i la limbile strine;
f. ntre rata naterii i numrul berzelor din inutul respectiv;
g. ntre venituri i costul vieii;
h. ntre succesul la nvtur i calitatea de lider afectiv sau tehnic;
i. ntre scorurile la domina/supunere pentru soi i pentru soii;
j. ntre numrul copiilor din familie i coeficientul de inteligen al prinilor;
k. ntre poziia n fratrie i realizarea colar exprimat prin media general.
Schiai cteva explicaii posibile pentru fiecare dintre situaiile analizate.
6. Corelaia dintre X i Y se schimb dac adugm o constant la X sau dac l multiplicm
pe Y cu o constant?
7. Ce legtur de asociere credei c exist ntre varian (dispersie) i corelaie?
8. Studiul corelaiei a nceput practic cu analiza relaiei existente ntre nlime i greutate,
aa cum acestea au rezultat din datele culese de ctre Galton n al su Laborator de
antropometrie (1884). Pentru c ei continu s fie cei mai importani indicatori
antropometrici, v propunem un exerciiu de re-analiz a relaiei dintre acetia, dar
102
difereniat dup criteriul de gen, pe un eantion evident nereprezentativ de studeni i
studente ai Universitii Transilvania. i pentru c ne-am transformat n zna bun,
propunnd studenilor n cauz s indice care ar fi mrimea la care nlimea i greutatea
lor proprii i-ar satisface pe deplin, v propunem s studiai aceste relaii i n planul ideal,
al dorinei, pentru a vedea dac aceasta se supune vreunei regulariti matematice.
Calculai deci intercorelaiile: R-D, GR-GD i apoi R-GR, D-GD, separat pentru biei
i fete, iar apoi pentru total, reunind datele ntr-un singur fiier. Comentai rezultatele
obinute. Rangai R i D la biei i fete i determinai corelaia (metoda lui Spearman)
corectnd obinut dup tabelul din curs.

B I E I F E T E
Valori absolute Ranguri Valori absolute Ranguri
N R D GR GD R D
2
R D GR GD R D
2

1. 177 185 110 95 165 170 56 55
2. 172 175 58 68 161 168 55 47
3. 174 180 60 70 160 180 47 60
4. 185 185 85 85 163 170 56 50
5. 180 180 81 76 160 170 56 50
6. 166 175 58 65 170 170 58 55
7. 165 190 65 95 159 165 44 46
8. 180 180 77 75 169 175 68 60
9. 182 182 74 80 169 175 62 58
10. 168 170 64 72 167 170 47 47
11. 168 172 60 63 166 166 54 50
12. 176 185 58 75 160 170 46 45
13. 168 175 58 65 160 170 60 60
14. 174 174 60 60 173 170 65 63
15. 178 180 73 80 162 170 55 53
16. 175 182 60 60 164 170 59 50
17. 175 181 72 77 170 165 55 50
18. 193 180 76 78 167 167 47 52
19. 182 190 80 72 170 170 60 55
20. 178 180 74 70 165 165 59 53
21. 189 191 76 85 169 175 50 50
N 21 21 21 21 21 21 21 21
X

X

X
X
2

xy

xy


r

103
N 42 42 42 42
X

X

X
X
2

xy

xy


r
7.10. Quiz

Rspundei la urmtoarele 10 ntrebri, fiecare scorat cu cte un punct:
1.Ce se ntmpl cu corelaiile dintre nlimea real i greutatea real dac adugm
urmtoarele dou cupluri de valori: 200 cm - 100 kg; 155 cm - 42 kg?.......................................
.......................................................................................................................................................
.......................................................................................................................................................
2. Ce se ntmpl cu corelaiile dintre nlimea real i greutatea real dac prima valoare
introdus, 177 cm, ar fi fost tastat 1770 cm? .............................................................................
.......................................................................................................................................................
.......................................................................................................................................................
3. Ce s-ar ntmpla cu aceleai corelaii dac, din greeal, am fi introdus primul set de valori
invers, 177 cm la greutate i 110 kg la nlime? ..............................................................
.......................................................................................................................................................
.......................................................................................................................................................
4. Enumerai cinci dintre cele mai importante utilizri ale coeficientului de corelaie. ...............
.......................................................................................................................................................
.......................................................................................................................................................
5. Ce este norul de puncte i asupra cror caracteristici ne informeaz el? .................................
.......................................................................................................................................................
.......................................................................................................................................................
6. Analizai diferenele dintre mediile la R, D, GR i GD pentru biei i fete. Artai dac
pstrai sau respingei ipoteza de nul i la ce prag de semnificaie. .............................................
.......................................................................................................................................................
.......................................................................................................................................................
7. Unul dintre coeficienii de corelaie are valoarea r = 3,25. Ce putei spune despre el i cum
argumentai? .................................................................................................................................
.......................................................................................................................................................
8. Corelaia IR_ID este de r = .688 iar GR_GD este de r = .811. Cu cte procente este mai
bun a doua corelaie dect prima? Ct din variana criteriului prezis acoper fiecare? .............
.......................................................................................................................................................
.......................................................................................................................................................
9. Luai separat, pe biei i fete, corelaiile IR_ID i GR_GD sunt mai mici dect dac punem
la comun, ntr-un singur fiier toate datele. De ce se ntmpl acest lucru? ................................
.......................................................................................................................................................
.......................................................................................................................................................
10. Corelaia dintre IR_GD pentru cele 21 de fete este de r = .379, nesemnificativ statistic.
Cum ar fi fost ea dac numrul fetelor ar fi fost de 42? Dar de 84? ............................................
.......................................................................................................................................................
.......................................................................................................................................................
104

CAPITOLUL 8

UTILIZAREA PREDICTIV A ASOCIERII DINTRE VARIABILE
REGRESIA LINIAR SIMPL I MULTIPL


8.1. Introducere

Termenul de regresie a fost utilizat pentru prima dat de Galton, el neavnd nici o
conotaie negativ. Supuse prelucrrilor statistice, rezultatele obinute din investigarea n
primul laborator de antropometrie din lume (Londra, 1884) a unor caracteristici individuale,
scoteau n eviden tendina valorilor extreme de a regresa spre medie. Cu alte cuvinte, din
prini foarte nali sau foarte scunzi exist tendina natural s se nasc copii mai mici,
respectiv mai mari dect acetia.
Dac n psihanaliz un comportament este numit regresiv atunci cnd persoana se
ntoarce la faze revolute ale copilriei, cznd spre forme de echilibru tipice trecutului,
regresia statistic poart spre viitor, pentru c ea are n vedere n primul rnd anticiparea sau
precizarea unor fenomene, plecnd de la seturi de date actuale. nseamn c regresia
ndeplinete o funcie de baz n tiinele socio-umane, deoarece orice tiin i propune nu
doar s explice faptele care i circumscriu domeniul, ci s le i prezic, anticipeze, prin
postularea de regulariti.
Pentru a fi foarte riguroi, regresia are n vedere ambele dimensiuni ale tiinei,
deoarece ea poate fi utilizat att pentru a explica - regresia n scop explicativ -, ct i pentru a
prezice - regresia n scop predictiv. n prima situaie, dac prin metoda experimental s-a
determinat o relaie cauzal ntre unul sau mai muli factori, numii variabile independente, i
o variabila dependent, atunci ponderea cu care factorii din prima categorie (cauzele) intervin
n cea de a doua categorie (efectele) poate fi modelat matematic printr-o ecuaie de regresie.
De exemplu, se tie c inteligena general, motivaia sau caliti ale voinei intervin cu
ponderi diferite n ceea ce numim reuita academic sau randamentul colar al elevilor. Mai
mult, jocul acestor elemente psihologice se asociaz cu particulariti non-psihologice, cum ar
fi apartenena de gen: n condiii de dotare intelectual egal, fetele obin rezultate colare
semnificativ mai ridicate, ele mobiliznd n reuita colar mult mai mult factorii de
personalitate. Mai mult, ele pot converti ntr-o for pozitiv conformismul social,
105
dezirabilitatea social i locusul extern al controlului (teoretizat de Rotter) ce vor fi puse mai
mult n slujba reuitei colare. Poziia n fratrie, mrimea acesteia, statutul socio-economic al
familiei, studiile prinilor (ale mamei n special), starea de sntate biologic i psihologic,
calitatea proceselor instructiv-educative din coal etc. i nc ali factori pot fi invocai a avea
o legtur cauzal cu reuita colar. Problema care se pune este aceea de a stabili intensitatea
acestor legturi i de a le introduce ntr-un model matematic economic care s dea cea mai
puternic predicie, prin cel mai mic numr de predictori. Deci ntrebarea principal la care
trebuie s rspund regresia utilizat n scop explicativ este aceea dac i n ce msur o
variabil independent (VI) contribuie semnificativ la evoluia variabilei dependente (VD), n
condiiile n care am controlat experimental influena altor factori (variabilele parazite) asupra
acesteia.
Regresia utilizat n scop predictiv folosete i la nivel terminologic alte concepte,
deoarece elementul prezis se numete criteriu, iar elementul/elementele care fac posibil
predicia se numesc chiar predictori. Legtura dintre predictori i criteriu se ncearc a fi
maximizat prin includerea ntr-o ecuaie de regresie a acelor factori dintr-o categorie care au
cea mai mare putere, i aceasta ntr-o anumit ordine, determinat de importana lor. De
exemplu, n comiterea tentativei de suicid anumii factori reprezint un coeficient de risc mai
ridicat (dispoziia depresiv, tendinele auto-devalorizatoare, sentimentul sczutei
autoeficaciti personale, stima de sine diminuat, temperamentul melancolic etc.). Studiindu-
i adecvat, ei pot fi abordai matematic printr-un model predictiv puternic, care s ghideze
aciunile i interveniile suportive ulterioare. Aceeai problem se poate pune n legtur i cu
securitatea rutier, cu anticiparea nivelului reuitei la un curs de formare, cu selecia primar
prin examene psihologice pentru anumite categorii de personal etc. i cea mai important
caracteristic a unui instrument psihodiagnostic, care este validitatea, se sprijin pe acest tip
de demers statistic, n msura n care orice diagnostic psihologic se face n vederea unui
prognostic, n raport cu care un test sau o baterie de teste se spune c se valideaz. ntrebarea
de fond la care trebuie s rspund regresia utilizat n scop predictiv se refer la ci i care
sunt predictorii ce ne ajut s estimm cel mai corect i mai economic criteriul.
A doua distincie major n materie de regresie este diferenierea terminologic ntre
regresia liniar simpl i regresia multiliniar sau multipl. Dac n primul caz este vorba
de o distribuie bivariat, n care exist un singur predictor (variabila independent) i un
singur criteriu (variabila dependent), n a doua situaie avem mai multe surse de variaie,
deoarece ecuaia de regresie include mai muli factori ce intervin cu ponderi diferite n
predicia criteriului.
106
Este evident c modelul multivariat are putere explicativ sau predictiv mai mare
dect cel liniar simplu. Dar i ntr-un caz i n cellalt putem apela la regresia liniar (fie ea
simpl sau multipl) n dou condiii:
- relaia dintre predictor i criteriu (respectiv variabila independent i variabila
dependent VI - VD) este una liniar, sau este adus spre acest model;
- criteriul (variabila dependent) este msurat pe o scal numeric (de interval sau de
raport), pentru alte tipuri de scale existnd forme specifice de regresie (logistic,
logistic multinominal sau ordinal).

8.2. Predicie determinist sau probabilist

Dac am dori s facem estimaia a ceva, aceasta ar putea fi mai grosier sau mai
nuanat, n funcie de elementele pe care le utilizm n predicie. De exemplu, dac am vrea
s ne vindem maina proprietate personal Dacia Logan, am putea s cercetm preul mediu
cu care maini de acest tip se vnd pe pia. Folosind media i abaterea standard, cunoscnd i
un pic de statistic, vom ti c am putea obine n proporie de 68% acest pre, plus i minus o
abatere standard; 96% preul mediu plus i minus dou abateri standard i 99% acesta plus i
minus trei abateri standard n jurul preului mediu.
Practica ne arat ns c problema nu e rezolvabil doar prin cunoaterea preului
mediu i a dispersiei acestuia, deoarece anul de fabricaie, starea mainii, numrul kilometrilor
parcuri sau elemente mai subtile (a fost maina implicat ntr-un accident major?; vnzarea
se face toamna - cnd preurile coboar, sau primvara, cnd preurile urc?; introducerea
unor legi - standardul Euro 4 sau 5, ori chiar unele zvonuri - mainile de un anumit tip nu se
vor mai nmatricula la poliie) intervin de asemenea n structura preului actual. Dac pentru
vnztorul ocazional asemenea lucruri par fastidioase, pentru cel ce triete efectiv din
vnzri/cumprri ele ajung s capete o importan special. Prediciile pe care urmeaz s le
facem sunt tot de tip probabilistic, pentru c ele nu anticipeaz cu o precizie absolut
elementul prezis, n condiiile n care fenomenul este determinat de o multitudine de cauze,
fiind practic imposibil de cunoscut i stpnit toate sursele de variaie ale factorilor respectivi.
Dac am avea un model care s prezic cu exactitate valorile unei variabile, plecnd
de la valorile altor variabile care o afecteaz, el s-ar numi model determinist (ca n fizic) i ar
avea formula:
Y = aX
107
n care Y este variabila prezis, X variabila (variabilele) predictoare i a o constant. Modelul
probabilistic ine cont de intervenia factorilor aleatorii (hazardul) care sunt o surs de eroare,
deci el va avea formula:
Y = aX + eroarea aleatorie
Y = componenta determinist + eroarea aleatorie

8.3. Regresia bivariat

Se numete bivariat deoarece acest tip de regresie pleac de la relaia existent ntre
dou variabile: independent i dependent, predictor i criteriu, ori gradul de asociere care
exprim intensitatea relaiei dintre dou variabile este - aa cum am artat anterior - dat de
coeficientul de corelaie. Expresia vizual a acestei relaii este dat de diagrama de corelaie,
unde norul de puncte tinde mai mult sau mai puin spre o dreapt. n cazul corelaiilor perfecte
(r = 1) norul de puncte ia chiar forma unei drepte, numit linie de regresie, creia i se poate
determina o ecuaie (ca oricrei drepte) i care trece prin toate punctele norului de puncte.
Aceasta nseamn c putem anticipa cu exactitate pe Y plecnd de la X (i reciproc),
neexistnd nici o diferen ntre rezultatele estimate i cele constatate. Din pcate aceasta este
doar o situaie ideal, n realitate regresia cutnd acea dreapt care s reproduc cel mai bine
evoluia norului de puncte, pentru a permite estimri ct mai exacte ale rezultatelor. Pentru ca
aceasta s fie posibil este nevoie ca ntre predictor i criteriu s existe o corelaie ct mai
mare, deoarece creterea corelaiei strnge norul de puncte tot mai aproape n jurul unei
drepte.
Dreapta pe care o ajustm norului de puncte ar trebui s satisfac dou condiii:
- s minimizeze suma tuturor erorilor: adunnd abaterile pozitive sau negative ale tuturor
punctelor de la linie, aceast sum ar trebui s fie minim. Numai pe baza acestui criteriu
nu am ti ns cum s trasm efectiv linia, deoarece valorile negative i cele pozitive se
anuleaz reciproc i criteriul nu distinge ntre mulimea de linii care potrivesc punctele;
- s minimizeze suma ptratelor tuturor abaterilor de la linie: acesta este un criteriu mai
valid (i singurul!), deoarece se poate demonstra matematic (principiul celor mai mici
ptrate) c exist doar o singur linie care potrivete bine toate punctele, spre deosebire de
situaia precedent. Aadar
7
, linia de regresie care red cel mai bine norul de puncte este
una singur i ea se construiete dup principiul celor mai mici ptrate (the least squares

7
Tilda (^) de deasupra variabilei Y, fie ea standard sau brut, arat c valoarea obinut prin ecuaia de regresie
nu este cea real, msurat, ci este valoarea anticipat, expectat prin predicie.
108
n englez) i apeleaz de fapt la proprietile matematice ale ecuaiei unei drepte, care
arat astfel:
^Y = B
0
+ B
1
X (8.1)
unde B
0
se cheam interceptul, adic punctul de intersecie al liniei de regresie cu ordonata
(axa OY); B
1
indic panta liniei de regresie i - deoarece el este dat de valoarea tangentei
unghiului teta () - acesta indic cu ct crete Y atunci cnd X crete cu o unitate; panta este
ascendent pentru corelaiile pozitive i descendent pentru cele negative.

Figura 8.1. Reprezentarea grafic a modelului regresiei liniare
i a criteriului celor mai mici ptrate.
Surs: Mertler i Vannatta, 2005, p. 168.

n Figura 9.1 de mai sus linia de regresie se poate trasa dnd valoarea zero lui X,
pentru a determina interceptul B
0
(care este locul n care linia taie ordonata) i o valoare
oarecare (mai mare) a lui X pentru a obine al doilea punct necesar trasrii dreptei. Pentru
fiecare X
i
ecuaia de regresie prezice un Y
i
, dar cu un grad de eroare, reprezentat mai sus prin
diferena dintre valoarea real observat i valoarea prezis. nsumarea tuturor acestor erori se
exprim prin ceea ce se chiam reziduale, n fond o msur a limitei de precizie a modelului
regresiv.
1
indic panta liniei de regresie, adic cu ct crete Y n condiiile creterii cu o
unitate a lui X.
109

n cazul regresiei bivariate B
1
este dat de formula:
(8.2)

unde r este coeficientul de corelaie iar
x
i
y
sunt abaterile standard pentru cele dou
variabile. Coeficientul B
0
se calculeaz dup formula:
(8,3)
n care i sunt mediile variabilelor Y i X. Pentru a da un exemplu, media unei clase de
elevi este la inteligen de 106,71 cu o abatere standard de
x
= 13,52, iar media la matematic
este de 7,98 cu o abatere standard
y
= 0,92, corelaia dintre QI i matematic fiind r = 0,83.
Vom avea:
B
1
= 0,83 0,92/13,52 = 0,0565.
B
0
= 7,98 - 0,0565 106,71 = 7,98 - 6,03 = 1,95
^Y = 1,95 + 0,0565 X
Pentru QI de 116 i 87, valoarea anticipat a mediei la matematic va fi:
^Y = 1,95 +0,0565 116 = 8,50
^Y = 1,95 + 0,0565 87 = 6,87
De menionat faptul c ecuaia de regresie estimeaz rezultatele uor diferit fa de
cele real constatate dar, cu toate acestea, parametrii acestei ecuaii asigur soluia cea mai
apropiat de rezultatele observate. Diferena dintre rezultatele estimate i cele observate sunt
cu att mai mari cu ct corelaia dintre cele dou variabile este mai sczut. Att n cazul
regresiei liniare simple, ct i n al celei multiliniare exist o serie se procedee care ne ajut s
decidem n legtur cu eficiena ecuaiei de regresie n estimarea rezultatelor.
Un set de date poate fi exprimat n note brute (aa cum au fost ele culese) sau n note
standard, adic n note z (abaterea de la medie a unei valori, exprimat n uniti sigmatice).
Cea mai simpl predicie bivariat este cea exprimat n scoruri z: cunoscnd nota z a unei
persoane la o variabil, vom prezice nota sa z la cealalt variabil dup formula:
z
y
= Bz
x
(8.4)
n care B se cheam chiar coeficient de regresie. Dar, deoarece valoarea coeficientului
standardizat de regresie este exprimat de coeficientul de corelaie dintre variabile, formula
anterioar devine:
z
y
= r z
x
(8.5)


x B y B
1 0
=
x y
x
y
r B
o
o
=
1
110
Apelm la exemplul anterior, unde corelaia dintre QI i media la matematic era de 0,83:
media lui X = 106,71

x
= 13,52
z
x1
= (116 - 106,71) / 13,52 = 0,69 z
x2
= (87 -106,71) / 13,52 = - 1,46
media lui Y = 7,98

y
= 0,92
z
y1
= ? z
y2
?
z
y1
= 0,83 0,69 = 0,57 z
y2
= - 1,21
Verificare: (8,50 - 7,98) / 0,92 = 0,57; (6,87 - 7,98) / 0,92 = - 1,21
Aa cum se vede, rezultatele obinute pe cele dou ci sunt coincidente.

Desenarea liniei de regresie se face prin determinarea coordonatelor a dou puncte
aflate la extermiti diferite ale scalei i unindu-le cu o linie. Pentru mai mult acuratee se pot
determina din start trei puncte: unul care este chiar originea (X = 0), unul aflat la cealalt
extrem i unul intermediar. Dac determinrile s-au fcut corect, cele trei puncte vor fi
coliniare. Linia care va reiei astfel minimizeaz suma deviaiilor abaterilor ptratice ale
valorilor prezise de la cele reale i este una singur. Ecuaia i linia astfel obinute sunt
valabile doar pentru predicia lui Y din X i nu pot fi utilizate i n sens invers. Pentru ca
aceasta s fie posibil i pentru a-l determina pe X plecnd de la Y trebuie o scris o nou
ecuaie de regresie, n care cele dou variabile vor fi introduse n ordine invers.
Faptul de a determina ecuaia i linia de regresie ce se potrivete cel mai bine datelor
nu nseamn ctui de puin c am terminat de rezolvat ntreaga problem a prediciei, cci
prin aceasta tocmai am deschis o nou problem adiacent, care se refer la erorile de
predicie. Erorile asociate cu prediciile reprezint abaterea standard a lui Y (s
Y
) care tim c
este definit astfel:

(8.6) (8.7)

Se observ c n ambele formule la numrtor se afl suma abaterilor ptratice ale
fiecrui Y real obinut de la cel prezis, adic reprezint suma ptratelor lui Y (SS
Y
). Deorece
1
) (
2

E
=
N
Y Y
s
Y
1
) (
2
2

E
=
N
Y Y
s
Y
111
linia de regresie se bazeaz pe abaterile ptratice ale lui Y obinut de la cel prezis, msura
erorilor aleatorii poate fi scris astfel
8
:

(8.8)

Prelucrri algebrice speciale conduc de la formula de definiie de mai sus la dou
formule de lucru mult mai maniabile:

(8.9) (8.10)

Ultima formul, dei nu la fel de precis comparativ cu cea anterioar, este una mult
mai practic, lund n calcul abaterea standard a lui Y i corelaia r, ambii indicatori uor de
determinat. Eliminarea de sub radical a raportului (N - 1)/(N - 2) este justificat de faptul c la
distribuiile mai mari (de peste 30) corecia adus de acest raport este practic nensemnat.
ns n acest caz semnul dintre termeni nu mai este egal, ci aproximativ egal.
Eroarea standard a estimaiei se interpreteaz ca o form special de abatere standard,
deoarece este chiar deviaia standard a erorilor care apar cnd este folosit ecuaia de
regresie. Este evident c predicia este cu att mai bun cu ct factorul eroare este mai mic,
adic pe msur ce corelaia dintre cele dou variabile devine tot mai puternic. Pentru r = 1
erorile de predicie sunt eliminate, dar aceast situaie nu se ntlnete niciodat n realitate.
Aadar, determinarea ecuaiei i a liniei de regresie nu nseamn ctui de puin
rezolvarea complet a problemei prediciei, cci trebuie calculat i cantitatea de eroare pe
care aceast ecuaie o face posibil atunci cnd se opereaz cu ea. Importana major a
prediciei prin regresia bivariat nu este dect n mod secundar acela de a-l determina pe un
anume Y n funcie de un anume X, ci deriv din aceea c ea descrie bine relaia dintre dou
variabile, indicnd dac se poate face sau nu predicie, i ntre ce limite de precizie. Creterea
puterii i acurateei acestei predicii se face apelnd la regresia multipl prin introducerea de
predictori suplimentari, ceea ce nu conduce la eliminarea rezidualelor, adic a erorilor de
predicie. Cu ct modelul regresiv este mai bun i mai complet, cu att mai mult se elimin
din eroarea rezidual. Dei tot mai bun, predicia nu va putea elimina ns nicicnd definitiv

8
n formulele anterioare aveam la numitor pe N - 1 pentru c se determin doar un parametru, media populaiei.
n formula care urmeaz la numitor avem N - 2 pentru c acum se estimeaz dou lucruri simultan, panta i
interceptul.
Y Y
s

2
)

(
2

E
=

N
Y Y
s
Y Y
|
.
|

\
|

2
1
) 1 (
2

N
N
r s s
Y
Y Y
) 1 (
2

r s s
Y
Y Y
~

112
factorul eroare, adic zona din variana comun rmas neprezis de setul de variabile
predictoare.
Trebuie menionat aici i rolul nefast pe care valorile atipice sau extreme (rezultate
uneori dintr-o simpl tastare incorect la introducerea datelor) l au asupra regresiei. Fiind
legat strns de coeficientul de corelaie, creterea sau descreterea acestuia ca urmare a
prezenei valorilor aberante se repercuteaz direct asupra modelului regresiv care este ecuaia
de regresie, mrind substanial componenta de eroare a prediciei.

8.3.1. Regresie versus corelaie
Avantajul corelaiei este acela c ea este reprezentat sintetic printr-un singur numr
care exprim intensitatea asocierii dintre dou variabile. Astfel, corelaia de .75 dintre
nlime i greutate este una substanial i afirm c 56% din variana comun rezult din
asocierea celor dou variabile. Dar acest r ridicat nu ne spune care trebuie s fie greutatea
dac nlimea crete cu 5 centimetri. n situaia cnd vrem s determinmm magnitudinea
schimbrii i arat regresia adevrata utilitate. Regresia multivariat (mai multe variabile
predictoare asociate cu o singur variabil criteriu) arat clar c regresia i corelaia nu se
suparpun ntotdeauna aa de frumos. Astfel, atunci cnd exist o corelaie ridicat ntre doi
predictori i o variabil prezis acest fapt se poate datora unei sau alteia dintre variabile sau
amndurora luate mpreun. Aa se face c n regresia multipl, nainte de a evalua rolul
comun al predictorilor asupra variabilei prezise, trebuie evaluat rolul separat al fiecruia, dar
i intensitatea asocierii dintre acetia.
Semnificaia statistic a pantei ecuaiei de regresie bivariat se sprijin pe formulele de
mai jos, n care t se va interpreta n maniera cunoscut, fcnd apel la tabelele lui Fisher din
Anexe.
(8.11)


8.4. Regresia liniar multipl (multivariat)

n psihologie, sociologie sau pedagogie un efect este dependent de mai multe cauze ce
intervin cu ponderi diferite (multi-cauzalitate), deci i predicia noastr ar putea fi
mbuntit considerabil dac am putea ine cont simultan de mai multe variabile i de relaia
lor cu variabila prezis. Indicatorul sintetic al acestei relaii este R, adic coeficientul de
corelaie multipl, care - atunci cnd este ridicat la ptrat (R
2
) devine coeficient de
|
.
|

\
|

2
1
) 1 (
1 ) (
1
2

N
N
r s
N s b
N s
s
b
t
Y
x
X
Y Y
113
determinare multipl, pentru c ne arat care este variaia din variabila dependent Y
(criteriul) explicat de variabilele predictoare (sau variabila independent X).
Dac am reda prin cercuri variaia total a unei variabile am obine diagrame Venn de
tipul celor de mai jos. Zona din variana comun (numit covarian) explicat de r
2
sau de R
2

a fost de fiecare dat notat cu a, zona b din Y fiind cea care rmne de fiecare dat
neexplicat.


A B
Figura 8.2. Relaia dintre predictori i criteriu n regresia
bivariat simpl (A) i multivariat (B).


Figura 8.3. Relaia dintre predictori i criteriu n regresia multivariat.

Dac n regresia simpl un singur predictor las o mare parte din variana lui Y
neexplicat (zona b), n exemplul urmtor vedem c fiecare predictor explic cte o parte din
variana lui Y, partea b micorndu-se. Exemplul C ne atrage atenia c adugarea de noi
predictori nu face s diminue semnificativ zona b dect atunci cnd ei sunt independeni,
adic necorelai ntre ei. Deoarece X
2
i X
3
sunt corelai ntre ei, X
3
nu contribuie la
diminuarea zonei b n aceeai msur n care o face X
2
i de aceea va trebui hotrt dac
rmn n ecuaia de regresie amndoi predictorii, iar dac nu, care va fi cel pstrat.
Dac folosim mai muli predictori (variabile independente), ecuaia de regresie
multipl va avea urmtoarea formul:
^Y = B
0
+ B
1
X
1
+ B
2
X
2
+ ... + B
n
X
n
(8.6)
114
n alegerea celui mai potrivit model de regresie exist - pe de o parte - considerentele
teoretice de la care plecm, dar - pe de alt parte - i civa indicatori statistici obiectivi care
ne ghideaz n deciziile noastre. Acetia sunt coeficientul de corelaie multipl R sau ptratul
acesteia (coeficientul de determinare multipl) i testul F, ntlnit i n cazul analizei de
varian ANOVA.
R poate fi judecat ca orice coeficient ce corelaie, dar R
2
este mai informativ, pentru c
el ne arat ct din dispersia variabilei-criteriu este explicat de un predictor sau de un grup de
predictori i ct din varian explic n plus fiecare nou predictor introdus n model, atunci
cnd abordarea se face prin metoda ierarhic. Practic, atunci cnd un predictor nu
amelioreaz semnificativ predicia criteriului, R
2
crete nesemnificativ i acesta este semnul c
acel predictor nu mai trebuie inclus n model. Dac privim cu atenie Figura 7.2 de mai sus X
1

i X
2
coreleaz strns cu criteriul Y i - necorelnd ntre ele - X
2
amelioreaz semnificativ
predicia pe care o realiza numai X
1
. n schimb, X
3
elimin prea puin din b, chiar dac
coreleaz i el cu Y, i aceasta deoarece este el nsui corelat i cu X
2.
Dintre X
2
i X
3
va trebui
s pstrm doar un singur predictor, pe cel mai puternic, i aceasta deoarece modelul final
trebuie s dea cea mai bun predicie, cu numrul cel mai mic de predictori, adic trebuie s
fie unul economic.
Pe de alt parte, ANOVA ofer o valoare a lui F, acesta fiind un test de semnificaie
comparabil cu testul t Student, diferena fiind c face comparaia dintre o variabil continu i
una cu mai mult de dou stri (trihotomic, qvadrihotomic etc., adic polihotomic).
Analiznd raportul mediilor ptratice ale varianelor prezise (poriunea a din diagram) i a
celor reziduale (factorii de eroare, adic poriunea b) pentru modelul de regresie construit n
ansamblul sau, F ne informeaz despre semnificaia statistic a acestuia n acelai fel sau
manier ca i testul t Student al lui Gosset.
n al treilea rnd, programul de analiz computerizat a datelor SPSS ofer finalmente
outputuri (vezi figurile de mai jos) pentru metoda ierarhic care are pe ultimele coloane
determinarea lui t i a semnificaiei sale statistice p pentru fiecare dintre componentele
modelului, ajutndu-ne s identificm i s pstrm doar combinaia de predictori care sunt
cel mai semnificativ asociate cu criteriul.

8.4.1. Probleme speciale implicate n analiza de regresie

Analog cu r din corelaia Pearson, coeficientul de corelaie multipl R din regresie
ne vorbete despre ct de mult informaie conine combinaia de variabile independente VI
115
necesar pentru a putea prezice criteriul (VD). Ca i la ANOVA i n cazul regresiei multiple
exist un test F, care d expresie faptului dac relaia dintre setul de VI i VD este suficient de
mare pentru a fi semnificativ. Interpretarea lui R este de altfel similar cu r al lui Pearson, n
sensul c ridicat la ptrat el devine coeficient de determinare i, nmulit apoi cu 100
(R
2
100), el va exprima procentajul din variana VD explicat de combinaia de VI din model.
O a doua problem esenial a regresiei este cea a multicoliniaritii, care poate
aprea atunci cnd ntre variabilele predictoare exist o corelaie medie spre mare sau mare.
Dac dou variabile predictoare sunt mediu sau puternic intercorelate, practic ele conin o
informaie foarte similar i, msurnd cam acelai lucru, una dintre ele nu amelioreaz
semnificativ predicia VD. Dar aceasta este doar o parte a problemei, cci variabila respectiv
nu numai c nu aduce o informaie suplimentar, dar prin faptul c genereaz
multicoliniaritate ea creeaz o problem tehnic ce afecteaz analiza de regresie n sine.
Astfel, ea face s creasc variana coeficienilor de regresie, fapt care are ca efect o ecuaie
mai puin stabil. n plus, multicoliniaritatea genereaz probleme n interpretarea corect a
importanei fiecrei variabile independente n parte n predicia variabilei dependente. Deci
suprapunerea de informaie prin multicoliniaritate produce confuzii ce limiteaz capacitatea
de precizare a efectelor individuale ale fiecrei VI. Acesta este motivul pentru care analiza
multicoliniaritii va fi abordat la nceputul analizei de regresie, i nu la sfritul ei. Pentru
aceasta se d Testul de toleran (Tolerance test) pentru fiecare variabil independent.
Testul de toleran este o msur a coliniaritii pentru fiecare variabil predictoare i poate
lua valori de la 0 la 1. Valoarea spre zero a toleranei este o indicaie clar a multicoliniaritii,
iar pragul de 0,10 devine punct de tietur (cutoff) n luarea deciziei.
A doua metod de identificare a multicoliniaritii const din examinarea Factorului
de inflaie a varianei (Variance Inflation Factor = VIF) pentru fiecare predictor n parte.
Cnd VIF pentru o VI este mare, acest fapt indic o combinaie liniar puternic ntre aceast
variabil i ceilali predictori. Formula sa (VIF = 1/(1 R
j
e
) este furnizat de programele de
prelucrare computerizat a datelor, o valoare mai mare de 10 fiind indicativ pentru existena
multicoliniaritii. Relaia dintre toleran i VIF este urmtoarea: VIF = 1/toleran.
Combaterea multicoliniaritii are n vedere mai multe procedee, dintre care cel mai
radical este eliminarea efectiv din analiz a variabilei respective. Pentru al doilea procedeu
mai dezirabil pornim de la un exemplu: s presupunem c utilizm factorii de atmosfer
familial i competen educaional a prinilor pentru predicia insatisfaciei legat de
aspectul fizic al sinelui adolescentin. Cum cele dou VI sunt puternic intercorelate, cea mai
bun rezolvare a problemei este agregarea lor ntr-un indicator sintetic prin care vom combate
116
i coliniaritatea, dar vom avea i o nou VI mai stabil. A treia metod de combatere a
multicoliniaritii ine cont de necesitatea parcimoniei modelului regresiv, care trebuie s
ofere cea mai bun predicie cu cel mai redus numr de predictori. Aceasta impune selecia
celui mai bun set de predictori, fapt care presupune deinerea n avans a unei informaii
semnificative despre relaiile existente ntre variabile, prin matricea de intercorelaii, combinat
cu caracteristicele i mrimea eantionului pe care se lucreaz. Cum augmentarea eantionului
este mai pretenioas i mai costisitoare, pare mult mai rezonabil s meninem numrul de
predictori la un nivel ct mai sczut.

8.4.2. Validarea modelului regresiv

Aceasta apare ca o etap necesar deoarece predicia VD se face n raport cu un
eantion populaional cu caracteristici specifice. Pentru a putea extinde mai larg utilizarea
modelului obinut la captul analizei, acesta trebuie s prezic suficient de bine i pe alte
populaii, n caz contrar el neputnd fi generalizat. Validarea ncruciat a modelului se face
lsnd s treac o perioad de timp, ridicnd un alt eantion din aceeai populaie i testnd pe
aceasta modelul regresiv anterior. Cum acest lucru nu este ntotdeauna fezabil, cel mai
prudent lucru este splitarea din start a populaiei iniale (care n acest caz trebuie s fie
suficient de larg) n dou loturi, unul destinat construirii modelul regresiv cel mai adecvat,
cellalt testrii i verificrii validitii sale pe un alt eantion. Mertler i Vannatta (2005) atrag
atenia asupra rolului extrem de nefast pe care valorile atipice sau extreme (outlierii) l pot
avea asupra modelului regresiv. n msura n care regresia multipl este o metod destinat
maximizrii corelaiei predictori-criteriu i n msura n care tim ct de sensibil este
corelaia la cazurile atipice sau extreme, outlierii trebuie identificai i tratai cu toat atenia.
n acest scop analiza boxploturilor bivariate sau determinarea distanei Mahalanobis
constituie precauii mai mult dect dezirabile.

8.4.3. Glosar de termeni cheie ai regresiei liniare
Valoarea prezis: valoarea estimat pentru variabila Y de la variabila X.
Panta (slope = b): Schimbarea ce se produce la variabila Y cnd X se schimb cu o unitate.
I nterceptul: este valoare lui Y cnd X este zero.
Erorile de predicie: diferena dintre Y obinut i cel prezis.
Eroarea standard a estimrii: media deviaiilor ptratice de la linia de regresie.
Variana rezidual (eroarea varianei): rdcin ptrat din eroarea standard a estimrii.
117
Reziduale: suma diferenelor dintre Y obinut i cel prezis.
Linia de regresie prin cele mai mici ptrate: linie de regresie determinat prin minimizarea
diferenelor ptratice dintre Y obinut i cel prezis.
Ecuaia de regresie: este ecuaia care l prezice pe fiecre Y din fiecare X.
Coeficieni de regresie: numele general dat pantei i interceptului; adesea se refer doar la
pant (B).
Coeficienii de regresie beta (): sunt cei care rezult nu din distribuia originar, ci dup ce
aseasta a fost standardizat. Cnd avem doar o variabil predictoare (regresie simpl sau
bivariat) beta este dat de mrimea corelaiei dintre cele dou variabile ( = r).

8.5. Exerciii i aplicaii practice

Ina
real
Gre
real
Ina
dorit
Gre
dorit
1 169 58 169 55
2 170 70 170 62
3 172 57 172 60
4 160 52 170 55
5 170 55 175 55
6 167 65 167 55
7 167 55 175 60
8 156 55 160 55
9 160 46 60 49
10 172 50 175 50
11 163 54 165 53
12 184 77 180 80
13 193 113 193 104
14 158 54 168 58
15 170 77 170 65
16 158 49 165 50
N
X

X

X
X
2


Un grup de 16 studeni de ambele genuri au furnizat urmtoarele valori ale nlimii i
greutii lor, actuale i dorite (cea la care ei s-ar declara satisfcui). Iat care sunt cerinele
aplicaiei de fa:
a. Efectuai patru diagramele tip scatter pentru nlimea real i greutatea real, apoi ntre
nlimea real i cea dorit. Aproximai ochiometric corelaiile existente pentru fiecare
diagramn parte i comentai rezultatele.
118
b. Calculai ecuaia de regresie pentru prezicerea greutii reale din nlimea real.
Interpretai interceptul i panta liniei de regresie.
c. Sunt r i B semnificativ diferii de 0?
d. Utiliznd ecuaia de predicie de mai sus, determinai ce greutate ar trebui s avei n raport
cu nlime dvs. real.
e. Scriei o a doua ecuaie de regresie prin care nlimea real s poat fi prezis plecnd de
la greutatea real i apoi determinai nlimea pe care ar trebui s o avei plecnd de la
greutatea dvs. actual.
f. Trasai corect linia de regresie pe scatterplotul corespunztor, lund obligatoriu dou
puncte, unul pentru origine i altul pentru nlimea de 200 de cm, dar i un al treilea punct
intermediar pentru a vedea dac el se afl pe linia de regresie trasat.
g. Determinai eroarea standard a estimrii, att pentru prima, ct i pentru cea de a doua
ecuaie de regresie.
h. Care este diferena dintre coeficienii de regresie B i (beta)? Ce avantaje i dezavantaje
prezint fiecare i cnd l folosim pe unul sau pe celllt?
i. Ce legtur exist ntre coeficientul de corelaie i ecuaia de regresie simpl?
j. Ce valoare ar trebui s adunm sau scdem la variabila greutate real pentru ca linia de
regresie s treac prin originea axelor?
k. Determinai coeficientul de corelaie pentru perechile IR-GR, IR-ID, ID-GD i GR-GD.
Comentai corelaiile obinute i argumentai n legtur cu perechea de variabile a crei
ecuaie de regresie va da cele mai mici erori de estimare.
l. Ce s-ar ntmpla cu relaia nlime-greutate, reale i dorite, dac am mri mult eantioanele,
dup ce vom fi separat datele pentru genul masculin de cel feminin?










119

CAPITOLUL 9


TESTAREA IPOTEZELOR PRIN TEHNICA CHI-PTRAT (_
2
)

9.1. Teste nonparametrice, distribuii binomiale i multinomiale
Modalitile de testare a ipotezelor statistice prezentate anterior sub forma testelor t i
z, a testelor de corelaie r, R i rho, la care se adaug testele F (rezultat din analiza de varian
ANOVA, neprezentat n aceste volum) se mai numesc i teste parametrice. Ele se cheam
astfel deoarece pleac de la estimarea unor parametri ai populaiei din care a fost extras
eantionul considerat, cum ar fi media () i abaterea standard (). Dei mai precise i mai
ntemeiate matematic dect testele nonparametrice, de care vom vorbi n ultimele dou
capitole ale lucrrii de fa, acest tip de teste se sprijin pe supoziia normalitii distribuiei
pentru variabila msurat la nivelul populaiei, fiind nevoie ca aceasta s fie msurat pe scale
real numerice, tipice celor de interval sau de raport.
Testele nonparametrice sunt destinate de asemenea testrii ipotezelor statistice, dar
fr a mai face inferene asupra parametrilor populaiei i fr a testa ipoteze legate de acetia,
de unde i numele lor de tehnici/teste nonparametrice. Deoarece ele nu pleac de la premisa
normalitii distribuiei, acestea sunt teste independente de forma distribuiilor. Dar i
aceasta pare a fi diferena esenial fa de testele parametrice ele sunt aplicabile doar
datelor non-numerice de tip categorial i nominal, fiind prin aceasta utile n zone n care
testele parametrice nu mai sunt operaionale.
Distribuiile pe care le presupun testele nonparametrice sunt fie cele dihotomice (cu
doar dou categorii de valori, reciproc exclusive, de tipul admis-respins, masculin-feminin,
da-nu etc.), motiv pentru care se numesc binomiale, fie cele care, dei tot categoriale, pot
prezenta mai multe valori de scor, i care se numesc multinomiale. Aceste categorii sunt
rezultate fie n mod natural (grupele sanguine, anotimpurile anului, tipul de afiliere religioas
etc.), fie n urma unui proces de mprire n clase a unei variabile continue, dup anumite
criterii. n statistic, variabilele continue real-numerice sunt preferabile celor discontinue-
categoriale pentru c permit tratamente mai puternice sau mai elaborate ale datelor. Dar cnd
distribuia unei variabile continue real numerice este una anormal (bimodal, adic cu o mare
eterogenitate provocat de acumularea valorilor variabilei n jurul a dou valori de scor, sau
este puternic asimetric sau chiar trunchiat), ori cnd exist alte motive ntemeiate, variabila
120
continu poate fi recodificat n una categorial. Acest fapt se ntmpl n mod curent cu
veniturile populaiei, cu numrul de igri fumate zilnic sau cu vrsta, pentru care este
preferabil utilizarea unui numr mai mic de categorii ce permit o autoraportare mai rapid a
populaiei unui studiu. Dei prin cagorizarea variabilei continue testul statistic pierde din
putere (din capacitatea de a reliefa diferene atunci cnd ele exist cu adevrat), unele tehnici
statistice nici nu sunt posibile dect dac nu exist cel puin o variabil categorial, cazul tipic
fiind al analizei de varian ANOVA.
Formula distribuiei chi-ptrat este cea de mai jos:
(9.1)

n care X este variabila, N volumul eantionului, P probabilitatea de apariie a
evenimentului/categoriei respective i Q complementul ei (Q = 1 - P). Aceast distribuie va
avea ntotdeauna originea n zero, cci ridicarea la ptrat desfiineaz diferenele negative, i
va genera o familie de distribuii a cror form va evolua de la o asimetrie iniial extrem de
marcat (distribuii trunchiate) spre distribuii care se normalizeaz progresiv, pe msur ce
numrul gradelor de libertate (df) crete, ncepnd de la df egal cu 10.

Figura 9.1. Curbele distribuiilor chi-ptrat pentru 1, 2, 4, 6 i 10 grade de libertate

9.2. Termeni cheie i definiii implicate n testele chi-ptrat
Chi-ptrat: modalitate de testare a ipotezelor utilizat pentru datele categoriale.
- Cnd avem o singur variabil categorial, raportat la o distribuie teoretic sau la
frecvene de apariie dinainte tiute, chi-ptrat determin gradul de suprapunere al
distribuiei real observate (f
o
) peste cea expectat (f
e
). n acest caz avem de-a face cu
chi-ptrat pentru suprapunere (goodness of fit n englez).
- n cazul a dou variabile categoriale chi-ptrat determin dac ele sunt independente
una n raport cu cealalt, sau dac sunt relaionate sau asociate, adic neindependente.
Q P N
P N X
z


=
) (
2
121
Acest tip de test se cheam chi-ptrat pentru asocierea datelor categoriale, n
efectuarea sa fiind necesar introducerea datelor ntr-un tabel de contingen.
Tabel de contingen: este un tabel bidimensional, adic cu dou intrri, n care fiecare
observaie este clasificat simultan pe baza celor dou variabile categoriale. ntr-un
asemenea tabel se trec obligatoriu frecvenele observate (f
o
) n mrime absolut (i nu
procentual) i, pe o linie separat sau n paranteze, frecvenele expectate (f
e
),
determinate dup un algoritm specific. Cnd se determin chi-ptrat, tabelul de
contingen are ntotdeauna o ultim linie i coloan pe care se fac totalurile
marginale, necesare determinrii frecvenelor expectate.
Variabil categorial: este o variabil discontinu care prezint dou sau mai multe categorii
distincte ce permit clasificarea fiecrei observaii n una dintre categorii. n acest fel se
poate determina frecvena observat pentru fiecare categorie.
Totaluri marginale: rezult din nsumarea totalurile nivelurilor unei variabile categoriale,
nsumarea fiind n funcie de nivelurile celeilalte variabile. Totalurile pe linii i
totalurile pe coloane dau prin nsumare toalul general, simbolizat prin N, ce reprezint
numrul tuturor evenimentelor sau grupurilor pe care se face analiza. N se raporteaz
cifric odat cu chi-ptrat.
Asociere: cuvntul asociere ne duce automat cu gndul la corelaie. Apare astfel inevitabil
ntrebarea dac chi-ptrat pentru asociere poate fi considerat tot un test de corelaie.
Rspunsul este afirmativ, fr nici un echivoc, cci:
- chi-ptrat pentru asocierea variabilelor urmrete dac dou variabile sunt
independente sau asociate:
- intensitatea asocierii este evaluat printr-o gril propus de Cohen, similar cu cea
destinat lui r;
- i pentru acest tip de asociere a datelor categoriale se determin o mrime a efectului
(coeficientul fi) care, ridicat la ptrat i nmulit cu 100, determin variana comun
a celor dou variabile, explicat de asocierea chi-ptrat, exact ca n cazul
coeficientului de determinare asociat lui r.
Exist totui o multitudine de diferene dintre elementele comparate. Astfel, r se
bucur de o reprezentare grafic specific, care este scatterul, oferind o perspectiv mult mai
nuanat asupra caracteristicilor asocierii, cci se sprijin nu pe niveluri ale variabilelor, ci pe
variabile continue. Faptul c o variabil continu poate deveni una categorial, cu un numr
restrns de condiii, sugereaz ns c testul chi-ptrat pentru asociere poate fi folosit
122
substitutiv nu numai pentru r, ci i pentru ANOVA, atunci cnd violarea condiiei de
normalitate este una puternic.

9.3. Condiii i restricii pentru efectuarea testului chi-ptrat
- Testul chi-ptrat se aplic doar pentru date indicnd frecvene. Aceast condiie nu
creeaz probleme practice deosebite cci acolo unde categoriile nu exist n mod
natural, ele pot fi create prin operaia de recodificare, utiliznd criterii clare de
categorizare. Atenie ns, cele dou variabile nu trebuie s se intersecteze, ceea ce
nseamn c fiecare observaie intr doar ntr-o singur celul de tabel.
- A doua cerin este aceea ca observaiile individuale din componena categoriilor
variabilei s fie independente, fiecare n raport cu toate celelalte. De exemplu, n
loturile apariate datele provenite de la so i de la soie, de la primul nscut i de la al
doilea nscut nu sunt independente.
- Dac nregistrm evenimente dihotomice, de tipul celor care apar i care nu apar,
trebuie s avem pentru fiecare frecvenele aferente, astfel ca suma lor s fie mereu
aceeai.
- Frecvena ateptat s nu ia valori mai mici de 5 i nu n mai mult de o cincime din
celulele tabelului de contingen.
- Nici o celul a tabelului nu trebuie s aib frecvena expectat mai mic de 1, cci
mprirea la zero (f
e
este numitor) nu are sens.

9.4. Utilizarea practic a testului chi-ptrat
n determinarea semnificaiei diferenelor dintre medii sau cuantumuri procentuale cel
mai adesea se face apel la corelaie, la testul z (cnd numrul cazurilor este mai mare de 30)
sau la testul Student al lui Gosset, pentru a-l determina sau t (cnd numrul cazurilor este mai
mai mic de 30). Un numr mare de tipuri de ipoteze adecvate datelor categoriale pot fi
verificate cu ajutorul distribuiei chi-ptrat (_
2
), care nu este ns la fel de precis ca
procedeele enunate anterior, impunnd de aceea o serie de precauii tehnice.
n mod esenial distribuiile chi-ptrat msoar gradul de suprapunere dintre
frecvenele observate i frecvenele ateptate, pe baza unor anumite ipoteze, numite de aceea
frecvene teoretice, dar i frecvene expectate. Procedeul (matematic, statistic sau
probabilistic) al lui chi-ptrat determin dac abaterile constatate prin calcul de la aceste
distribuii sunt cuprinse n limitele fluctuaiei ntmpltoare (aceasta fiind ipoteza de nul), sau
123
dac dimpotriv le depete (ceea ce d ctig de cauz ipotezei specifice). Pentru a utiliza
corect procedeul chi-ptrat avem nevoie de eantioane suficient de mari (peste 30), ridicate la
ntmplare, dar care se pot clasifica n categorii separate, iar frecvenele nscrise n csuele
tabelului s nu fie prea mici (nu mai mici de 10 i n nici un caz sub 5, situaie n care se pot
comasa anumite clase pentru a depi acest numr critic).
n cazul n care frecvenele observate (f
o
) se compar cu frecvene dinainte cunoscute
printr-un model teoretic (f
e
), ce se bazeaz pe curba lui Gauss (stanine, note z, T, Hull, C, note
colare dup norma docimologic etc.), atunci comparaia prin testul chi-ptrat verific
gradul de potrivire (goodness of fit n englez) dintre distribuia teoretic i cea real
nregistrat. Aceast operaie a permis, de exemplu, depistarea unei fraude n cadrul unui
concurs unde divulgarea subiectelor de examen a condus la obinerea unui numr anormal de
mare de note mari. De cele mai multe ori proporiile teoretice nu sunt ns cunoscute i ceea
ce rmne de fcut este ca acestea s fie estimate plecnd de la datele eantioanelor
considerate.
Tehnica chi-ptrat pentru verificarea ipotezelor are o vechime de mai mult de o sut de
ani, fiind pus la punct de cel care a fundamentat corelaia i a fost precursorul analizei
factoriale, englezul Karl Pearson. La modul general metoda presupune doi pai: a. calculul lui
chi-ptrat; b. interpretarea semnificaiei valorii obinute cu ajutorul tabelului de distribuii _
2
.
Trebuie ns artat c n cazul lui chi-ptrat pentru asociere acest algoritm de lucru
este unul mai complex, el putnd fi desfcut n urmtoarea secven de pai:
- Formularea lui H
0
(ipoteza de nul): disponibilitatea spre voluntariat este independent
de apartenena de gen.
- Formularea lui H
1
(ipoteza specific): disponibilitatea spre voluntariat este asociat cu
apartenena de gen, fiind mai tipic genului feminin.
- Se seteaz pragul pentru care s se rejecteje ipoteza de nul: de regul verificm cele
dou praguri, p < .05 i p < .01.
- Se apeleaz la regula de rejectare: rejectm pe H
0
dac _
2
calculat
_
2
critic
[df = (R-1)(C-
1)], unde R nseamn numrul de rnduri iar C numrul de coloane, dup care se caut
n tabel valorile lui _
2
critic
pentru p < .05 i p < .01.
- Se determin chi-ptrat dup formula indicat.
- Se ia decizia respingerii/ nonrespingerii lui H
0
.
- Se determin mrimea efectului ( sau
Cramer
).
- Se concluzioneaz prin raportarea cifric i/sau narativ a rezultatului.
124
Exemplu: _
2
(1, N=120)
= 6,66, p < .01, = 0,40. Persoanele de gen feminin au o
disponibilitate pentru voluntariat semnificativ mai mare dect cele de gen masculin, mrimea
efectului fiind semnificativ.

9.5. Exemple de aplicare a testului chi-ptrat pentru potrivire i pentru asociere

Exemplul 1
Conform normei docimologice 20% din notele unui profesor ar trebui s fie sub 5;
30% pn la 6,50; 30% pn la 8 i 20% mai mari de 8. La clasele I i a XIIa ale unei coli
cu trei cicluri de nvmnt s-au obinut urmtoarele distribuii ale notelor colare:

Tabel 9.1. Frecvenele brute pentru patru intervale de notare, la nceput i la sfrit de colarizare
Note Clasa I Clasa a XIIa
Sub 5 28 68
5 6,50 64 140
6,50 8 80 110
8 10 120 16

Se cere s se calculeze prin tehnica chi-ptrat dac cele dou distribuii se abat semnificativ de
la norma docimologic.
Tabel 9.2. Frecvenele observate i cele teoretice necesare pentru determinarea lui chi-ptrat

Note
Frecvene
f
o
- f
e


(f
o
-f
e
)
2


(f
o
-f
e
)
2
/ f
e

Frecvene
f
o
- f
e


(f
o
-f
e
)
2


(f
o
-f
e
)
2
/ f
e
f
o
f
e
f
o
f
e

<5 28 58 -30 900 15,25 68 67 1 1 0,02
56,50 64 88 -24 576 6,55 140 100 40 1600 16
6,508 80 88 -8 64 0,73 110 100 10 100 1
8-10 120 58 62 3844 66,28 16 67 -51 2601 38,82
Total 292 292
2
=89,08


2
=55,84


Tabela nfieaz frecvenele observate (f
o
) i frecvenele teoretice/ expectate (f
e
),
deduse prin transformarea procentajelor normei docimologice n efective de subieci: regula
de trei simpl arat c dac la 100 de cazuri avem 20 de subieci cu note sub 5, la 292 vom
avea (29220):100 = 58. Coloana a treia face diferena f
o
- f
e
, iar coloana a cincea determin
raportul (f
o
-f
e
)
2
/f
e
. Chi-ptrat este suma acestei ultime coloane, fiind 89,08 pentru prima
coloan i 55,84 pentru cea de a doua.
125
Formula de calcul utilizat pentru determinarea chi-ptrat este urmtoarea:

(9.2)

Interpretarea valorii lui chi-ptrat se face prin raportare valorii obinute la o tabel
construit de Fisher, asemntoare ca form cu tabelele de calcul pentru z, valorile fiind
exprimate tot n numere zecimale, iar coloana df dnd numrul gradelor de libertate (degree of
freedom). Acestea se determin dup formula df = (R-1)(C-1), n care R este numrul de
rnduri i C numrul de coloane. n cazul n care avem un singur rnd i mai multe coloane df
= C-1, iar cnd avem mai multe coloane i un singur rnd df = C-1. n situaia prezentat df =
(4-1) = 3. Pentru ambele exemple valorile obinute depesc cu mult pragul de semnificaie
cel mai exigent: pentru o probabilitate mai mic de unu la sut (p < 0,01), la trei grade de
libertate avem valoarea lui chi-ptrat critic de 11,345, comparativ cu care 89,08, respectiv
55,84, care sunt mult mai mari, ceea ce permite respingerea ferm a ipotezei de nul. Se poate
deci afirma c abaterea n notare de la norma docimologic nu este datorat hazardului. n
primul caz frecvenele observate sunt mult sub cele teoretice pentru notele mici, n cel de al
doilea pentru notele mari, ceea ce ne ndreptete s afirmm c notarea i stilul de evaluare
al profesorilor se modific odat cu vrsta elevilor.
Este tiut c mediile colare erau relativ mari la nceputul ciclului primar (media
mediilor unei clase fiind peste 9), avnd o descretere progresiv lent n primul i apoi n cel
de al doilea ciclu colar, pentru ca la liceu media mediile generale ale unei clase obinuite s
scad sub 7. Se pune problema atunci pentru care vrste, materii sau ani de studiu mai este
operaional norma decimologic, pentru c la vrste sau clase egale, la aceeai materie
profesori diferii au stiluri diferite de notare, unele materii dnd posibilitatea obinerii
ntregului spectru de note, n proporiile expectate, altele nu. Astfel, matematica avansat a
claselor terminale de liceu permite tot mai puin obinerea unei curbe simetrice n notare,
notele de 7, 8, 9 fiind mari, iar 10 extrem de rar obinut.
Ca i pentru tabelele z i t pragurile de semnificaie ce vor reime atenia sunt p de 0,05
(valoare peste care se admite valabilitatea ipotezei nule, sub aceasta ea respingndu-se) i de
0,01 (nivel de la care ipoteza nul este ferm respins, pentru a se admite ipoteza specific a
cercetrii). Zona dintre aceste dou repere (indicat n tabel de valoarea 0,02) este una
intermediar ntre cele dou praguri, fiind mai aproape de ipoteza specific dect de ipoteza
nul. Valorile excesiv de mici ale lui chi-ptrat (corespunznd unei probabiliti de eroare mai
e
e o
f
f f
2
2
) (
E = _
126
mari de 95%) apar tot att de rar n urma variaiilor ntmpltoare ca i cele foarte mari i de
aceea ele pot constitui de asemenea temeiuri consistente pentru respingerea ipotezei de nul.
Dei testul matematic al lui chi-ptrat are foarte multe ntrebuinri speciale, el nu este
la fel de riguros ca cel bazat pe distribuiile z, mai ales cnd este aplicat distribuiilor
discontinue. Unul dintre punctele sale slabe al acestei tehnici este acela c, avnd nevoie de
frecvene teoretice mai mari de 5 (sau i mai sigur de 10), nu este operant pentru eantioanele
mici. Al doilea punct slab provine din aceea c procedeul nu poate ine cont de direcia
abaterilor frecvenelor observate de la cele teoretice, cci semnele minus din expresia f
0
- f
e

dispar prin ridicarea la ptrat. n al treilea rnd, determinarea gradelor de libertate nu este
ntotdeauna o chestiune aa de simpl sau de uor rezolvabil cum pare la prima vedere.

Exemplul 2
Decizia obligativitii nceperii colarizrii la 6 ani n urm cu peste dou decenii a dus
la nfiinarea unor comisii de amnare cu un an a debutului colarizrii pentru anumite
categorii de copii, considerai a fi nepregtii s nceap coala la aceast vrst. Pe parcursul
unui deceniu de activiate, doi psihologi din comisia judeean de amnare au examinat 4588
de copii, situaia acestora fiind rezumat n tabelul de mai jos.

Tabel 9.3. Situaia pe un deceniu a amnrilor colare funcie de QI la doi psihologi


Frevene observate i estimate
Pro-
centaje

2,2

6,7

16,1

25

50
QI s69 70-79 80-89 90-99 >100

s69 70-79 80-89 90-99 >100
A f
o1
358 644 1249 654 280 3185 358 644 1249 654 280
f
e
369 633 1232 696 254 3184 70 213 513 796 1593
B f
o2
174 268 526 349 86 1403 174 268 526 349 86
f
e
163 279 543 307 112 1404 31 94 226 351 702
f
o1
+f
o2
532 912 1775 1003 366 4588
206 680 1430 730 275

Se cere s se determine:
1. dac cele dou distribuii sunt semnificativ diferite ntre ele;
2. dac cele dou distribuii se abat semnificativ de la distribuia gaussian, care indic
pentru QI sub 69 = 2,2 procente; ntre 70-79 = 6,70 procente; ntre 80-89 = 16,1 procente;
ntre 90-99 = 25 de procente; QI peste 100 = 50 de procente.
127
n prima jumtate de tabel avem doar frecvenele observate (f
o
) totalizate pe rnduri i
pe coloane, frecvenele expectate nefiind deduse din distribuii ideale sau din alte regulariti
prestabilite. Frecvenele expectate apar prin calculul efectuat asupra datelor tabelului nsui.
Astfel prima csu din stngasus (psihologul A) se prezint astfel: f
o
= 358
f
e
= ? total rnd = 3185
total coloan = 532 total general = 4588


(fiind vorba de persoane, care sunt indivizibile, se rotunjete). n acelai fel se calculeaz f
e

pentru celelalte zone de QI ale rndului. Pentru rndul al doilea (psiholog B), prima csu din
stnga se prezint astfel: f
o
= 174.
f
e
= ? total rnd = 1403
total coloan = 532 total general = 4588


Pentru control se adun toate frecvenele teoretice i la psihologul A i la psihologul B
i se observ c totalul se apropie extrem de mult de totalurile frecvenelor observate, micile
diferene fiind date de rotunjire.
Pentru calculul lui chi-ptrat aplicm aceeai formul 9.2:


Calculele implicate de formula de mai sus se fac pornind din celula din stnga-sus i
de la stnga la dreapta, pe primul, apoi pe cel de al doilea rnd:

Deoarece avem 2 rnduri i 5 coloane df = (2-1)(5-1) = 4.
Cutnd n tabel gsim o valoare a lui p apropiat de 0,90, ceea ce ne permite s
respingem ipoteza de nul: variaiile de distribuie ale rezultatelor examinrilor efectuate de cei
doi psihologi nu sunt ntmpltoare. Valoarea obinut pentru chi-ptrat de 19,44 sunt cu mult
mai mare dect pragul critic (13,277), ceea ce ne permite s conchidem c putem respinge
ipoteza nul i accepta valabilitatea ipotezei specifice la un prag de semnificaie puternic (p <
0,01).
369 32 , 369
4588
3185 532
= =

=
e
f
163 68 , 162
4588
1403 532
= =

=
e
f
( ) ( ) ( )
44 , 19 04 , 6 .... 19 , 0 33 , 0
112
112 86
...
633
633 644
369
369 358
2 2 2
2
= + + + =

+ +

= _
e
e o
f
f f
2
2
) (
E = _
128
Dac obiectivul propus ar fi fost acela al verificrii gradului de suprapunere a
distribuiilor loturilor de amnai colar peste distribuia teoretic ideal (gaussian), atunci
modul de lucru va fi cel indicat mai jos:

n dreptul lui f = 4, pentru o probabilitate p < 0.01, este necesar un _
2
critic

de 13,277,
deci valoarea gsit de noi (6133,57) este att de mare nct ipoteza de nul poate fi respins cu
fermitate. Cu o probabilitate apropiat de certitudine se poate deci afirma c eantionul de
copii amnai colar difereau foarte semnificativ ca dotare intelectual de eantionul normal,
deoarece principalul motiv al amnrii colare a fost chiar deficitul intelectual.

Exemplul 3
A fost investigat un numr de 270 de diabetici juvenil. Comparaia dup criteriul
apartenenei de gen i al echilibrriineechilibrrii medicale a bolii respective a dat
urmtoarea distribuie:
Echil. Neechil Total
Biei f
o
60 100 160
f
e
a b
Fete f
o
100 10 110
f
e
c d
Total 160 110 270

Prin procedeul clasic determinm doar prima frecven expectat (f
e
) de stnga sus, celelalte
deducndu-se automat prin diferena de pe total linie i coloan. Calculul se poate face clasic:

valoare care este foarte puternic semnificativ statistic, pentru df = (2-1)(2-1) = 1.
Formula de calcul cea mai uzitat n acest caz este ns urmtoarea:

(9.3)
Echil. Neechil Total
Biei f
o
60 100 160
f
e
95 65
Fete f
o
100 10 110
f
e
65 45
Total 160 110 270
( ) ( ) ( )
57 , 6133 48 , 544 ... 12 , 872 9 , 1184
706
706 86
...
213
213 644
70
70 358
2 2 2
2
= + + + =

+ +

= _
( ) ( ) ( ) ( )
81 , 77 22 , 27 85 , 18 85 , 18 89 , 12
45
45 10
65
65 100
65
65 100
95
95 60
2 2 2 2
2
= + + + =

= _
( )
( )( )( )( ) d b c a d c b a
T bc ad
+ + + +

=
2
2
_
129
n care T este totalul general, iar numitorul este produsul totalurilor marginale, adic _
2
=
77,02, valoare aproape identic cu cea obinut anterior, mica diferen rezultnd din faptul c
n primul caz s-a efectuat rotunjirea.

Exemplul 4
Exemplul de mai jos se refer la utilizarea proporiilor i a cuantumurilor procentuale,
pentru a clarifica probleme ce au aprut nc de la exemplul 2. Reamintim c testele chi-ptrat
opereaz numai cu frecvene, unica cale corect de a le efecua fiind aceea a transformrii
proporiilor i procentelor n frecvene. Chiar dac am elimina zecimalele i am rotunji
numerele la ntreguri, proporiile procentuale nu sunt date legitime pentru acest tip de analiz.
Iat de ce procentele trebuie convertite obligatoriu n frecvene.
ntr-un grup de 1740 de persoane, din care 1040 sunt femei iar 700 brbai, o proporie
de 62,7% dorete s fac voluntariat, ceilali nu. Repartiia lor dup apartenena de gen i
dorina de a face voluntariat este indicat n tabelul de mai jos. Trebuie determinat dac exist
o asociere semnificativ ntre aprtenena de gen i faptul de a dori s fac voluntariat.

Apartenena de gen
Femei Brbai
Dispui la voluntariat 78% 40%
Nedispui la voluntariat 22% 60%
Numr 1040 700

Tabelul de mai sus poate fi cu uurin convertit n frecvene, rezultnd un alt tabel, pe
care se poate face testul chi-ptrat.
Femei Brbai Total
Dispui la
voluntariat
811 280 1091
(652) (439)
Nedispui la
voluntariat
229 420 649
(388) (261)
Total 1040 700 1740
= 258,38.
( ) ( ) ( ) ( )
= + + + =

= 86 , 98 16 , 65 59 , 57 77 , 38
261
261 420
388
388 229
439
439 280
652
652 811
2 2 2 2
2
_
130
Df este de 1 iar chi-ptrat critic pentru p = 0,05 este de 3,84, ceea ce nseamn
respingerea ipotezei nule. Pentru acest exemplu determinm i mrimea efectului dup
formula 9.4 ce va fi explicitat ulterior:

9.6. Mrimea efectului pentru chi-ptrat al asocierii dintre variabile
Chiar i atunci cnd testul chi-ptrat indic o asociere foarte semnificativ statistic
ntre variabile, mrimea sa nu spune prea mult despre intensitatea relaiei dintre variabile.
Faptul se explic prin aceea c i aceast tehnic este sensibil la N (volumul eantionului),
ajungnd s indice semnificaii tot mai mari pe msur ce N crete. De aceea interpretarea lui
chi-ptrat al asocierii nu este complet fr un demers suplimentar care const n determinarea
mrimii efectului. n acest scop sunt disponibili doi indicatori, unul pentru tabelele de
contingen n care ambele variabile sunt dihotomice (tabele cu cte dou linii i dou
coloane) i altul pentru asocierea variabilelor cu numr diferit de categorii. Primul indicator
de numete coeficientul fi al doilea fi al lui Cramer, ei avnd are urmtoarele formule:
(9.4)
(9.5)
n ambele formule la numrtor apare
2
iar la numitor N pentru volumul eantionului,
n al doilea caz aprnd suplimentar i L, care este valoarea celui mai mic numr de linii sau
coloane. De exemplu, ntr-un tabel 3x2, L+1 = 2+1 = 1, ceea ce transform formula 9.5 n
formula 9.4; ntr-un tabel 4x3, L-1 = 2 i numitorul va cpta valoarea 2N.
Interpretarea coeficienilor este similar pn la un punct cu cea a corelaiilor r,
sau R care prin ridicare la ptrat i nmulire cu 100 explic proporia comun din variana a
dou variabile prin coeficientul de determinare. Ca pentru toate celelalte determinri ale
mrimii efectului, Cohen a furnizat repere i pentru interpretarea lui sau
Cramer
: valorile sub
0,10 indic un efect foarte mic, n jur de 0,25 un efect mediu iar n jur de 0,40 un efect mare.

39 , 0
1740
38 , 258
2
= = =
N
_

N
2
_
=
) 1 (
2

=
L N
Cramer
_

131
Raportarea rezultatelor chi-ptrat va include ntre paranteze numrul gradelor de
libertate i volumul eantionului, dup care urmeaz valoarea testului, pragul de semnificaie
i valoarea mrimii efectului. Ea poate arta astfel: _
2
(5, N=137)

= 5, p > .05, extrem de mic,
indicnd faptul c frecvenele de apariie ale celor ase fee ale zarului nu sunt semnificativ
deprtate de cele ateptate prin ans i deci zarul nu este unul msluit. Aa cum se observ,
partea cifric a raportrii este urmat de un scurt comentariu care rezum n form narativ
datele cifrice obinute.

9.7. Exerciii i aplicaii practice
1. Un arbitru de fotbal a aruncat acelai ban de 100 de ori, ieind de 37 de ori cap i
de 67 de ori pajur. Se pune problema dac aceste rezultate sunt n limitele de variaie ale
normalitii ori banul este unul falsificat.
n exemplul de mai sus este evident faptul c frecvenele de apariie ale celor dou fee
ar fi trebuit s fie egale, sau foarte apropiate de 50 fiecare, i de aceea n tabelul de mai jos la
frecvene expectate apare numrul 50.
Cap Pajur Total
f
o
37 63 100
f
e
50 50 100

2. La un joc de noroc valorile obinute prin aruncarea unui zar sunt cele sumarizate n
tabelul de mai jos (f
o
). Dat fiind numrul relativ mare de aruncri se atepta ca frecvena de
apariie a celor ase fee s fie una foarte apropiat, adic n jur de 1/6 (16,67%). Trebuie s se
determine dac suspiciunea c zarul este unul trucat se poate susine cu argumente statistice.
F a a
1 2 3 4 5 6 Total
f
o
23 32 19 22 25 17 138
f
e
23 23 23 23 23 23 138

3. Un numr de 80 de studeni ai facultii de psihologie au dat examen la cursul de
Statistic. Ipoteza de lucru a fost aceea c cei care provin din secii realiste ale liceelor urmate
vor trece examenul respectiv ntr-o proporie semnificativ mai mare prin comparaie cu cei
care au urmat secii umaniste. Cerine: parcurgei toi paii prezentai n curs pentru testul chi-
ptrat, de la formularea ipotezelor (de nul i specific), la efectuarea testului chi-ptrat, la
determinare lui fi i la raportarea (cifric i narativ) a rezultatelor.
132
Trecui Picai Total
Real 42 8 50
Uman 19 11 30
Total 61 19 80

4. ntr-o anchet electoral ceteni cu diferite afiliaii religioase au fost chestionai n
legtur cu intenia lor de vot fa de partidele nscrise n competiie, recte Liberal,
Republican i Democrat. Rezultatele obinute au fost sumarizate n tabelul de mai jos.
Determinai dac afilierea religioas se asociaz semnificativ cu intenia de vot a cetenilor
chestionai.
Liberal Republican Democrat
Ortodox 240 222 400
Catolic 280 288 150
Protestant 354 200 150

5. Un studiu pe persoane dependente de alcool a intit s demonstreze asocierea
alcoolismului cu apartenena de gen i cu temperamentul. Rezultatele studiului sunt
condensate n tabelul de mai jos. Verificai ipotezele asocierii alcoolismului cu genul i apoi
cu cele patru temperamente clasice, innd cont c n populaia respectiv studii anterioare au
indicat proporiile de 19% melancolici, 29% colerici, 25% flegmatici i 27% sangvinici.
M F Temperament
Nonalcoolic 56 41 Melancolic Coleric Flegmatic Sangvinic
Alcoolism uor 29 24 Alcoolici 32 41 23 26
Alcoolism mediu 21 18 Populaia
de baz
19% 29% 25% 27%
Alcoolism mare 18 12

6. ntr-un studiu pentru demonstrarea eficacitii unui nou antipsihotic, pacienii care au fost
tratai cu acest medicament au fost comparai cu cei care au primit doar placebo. Un
numr de 720 din totalul de 1058 al celor care au primit placebo au nregistrat recderi ale
bolii, n timp ce acest fenomen s-a petrecut doar pentru 625 dintre cei 2240 de pacieni
tratai cu medicamentul antipsihotic. Argumentai statistic dac acest medicament a fost
unul efectiv n prevenirea recderilor.


133

CAPITOLUL 10


TESTE DE SEMNIFICAIE NEPARAMETRICE

10.1. Teste de semnificaie parametrice i neparametrice
Multe dintre tehnicile statistice prezentate n capitolele precedente au implicat
estimarea parametrilor unei populaii (medii, abateri standard, diferene dintre medii sau
intensitatea asocierii dintre variabile), plecnd de la lotul sau eantionul particular de date pe
care s-a lucrat. Acest tip de teste statistice, ca testul t pentru diferene i r pentru asociere,
presupun ntotdeauna ndeplinirea unor condiii pentru aplicarea lor, legate fie de parametri, fie
de forma distribuiei populaiei. De aceea aceste teste se i numesc teste parametrice.
Prin contrast, testele neparametrice nu fac nici un fel de estimri ale parametrilor
populaiei din care a fost extras eantionul particular de date i de aceea ele se mai numesc i
teste non-distribuionale.
9
Cel mai mare avantaj pe care acest tip de teste l au este acela de a nu
se sprijini pe asumpii legate de populaia din care a fost extras eantionul. Dei mai puin
puternice dect testele parametrice, literatura de specialitate le invoc cu o frecven mult prea
mare pentru a putea fi ignorate. Aceste teste sunt mai sensibile la median dect la medie ca
tendin central, fiind cu siguran mai robuste la violarea condiiilor de normalitate a
distribuiilor testate.
Marele dezavantaj al testelor de acest fel este acela c, fiind mai puin puternice statistic
dect testele parametrice, pentru a atinge o putere echivalent cu acestea ele reclam un numr
de date semnificativ mai mare dect testele parametrice. i totui, n mod paradoxal, ele sunt
utilizate preponderent pentru eantioane de volum mic, atunci cnd distribuiile sunt mai mari
de 20-30 de cazuri sau observaii fiind ntotdeauna preferate testele parametrice.
Pe de alt parte, valorile extreme sau aberante, care la testele parametrice au un impact
att de important prin modificarea inflaionist a variabilitii datelor, i implicit a factorului de
eroare
10
, au un efect foarte redus, practic neglijabil aupra testelor neparametrice. Aceasta
deoarece testele de acest tip se bazeaz pe ranguri (mult mai stabile), i nu pe valorile brute ale
scorurilor, ca n cazul testelor parametrice: prin rangare forma distribuiei devine mai puin
important.

9
Distribution-free tests n englez.
10
Error term n englez.
134

10.2. Testul U Mann-Whitney pentru eantioane independente
Aceast tehnic de testare a ipotezelor relative la diferene este o alternativ foarte
puternic la testul t pentru eantioane independente. Utilizarea sa presupune prezena a dou
condiii:
1. Nivelul minimal de msurtoare este scala ordinal, unde cel mai indicat lucru este rangarea
datelor.
2. Condiia de normalitatea pentru populaia din care a fost extras eantionul nu poate fi
susinut.
Singurele condiii presupuse de testul Mann-Whitney sunt acelea ca eantioanele testate
s fie independente i ca nivelul de msurtoare al scalei continue utilizate s fie cel puin unul
ordinal. Testul U este o alternativ valabil i pentru scalele de interval sau de raport n care
condiia de normalitate a distribuiei datelor este violat.
Vom porni de la urmtorul exemplu:
La dou secii de spital, una pentru bolnavi cardiaci i alta pentru renali, s-a aplicat
chestionarul de stres al evenimentelor de via (Holmes i Rahe). Se dorete verificarea
ipotezei ce a dus la crearea acestui instrument psihometric, ipotez potrivit creia bolile
cardiace sunt expresia stersului mai mare acumulat de persoane de-a lungul unei perioade de
timp de ordinul lunilor sau n ultimul an. Datele acumulate sunt sumarizate n tabelul de mai
jos.
Cardiaci Renali
Scoruri
la stres
75 21 14 32 18 6 25 16 8 40 4 12 3 8 15 24 0 6

Inspecia vizual a celor dou distribuii arat c testul t pentru eantioane independente
nu poate fi aplicat pentru c numrul de cazuri este extrem de redus iar scorurile de 75 i de 40
sunt valori atipice, posibil chiar extreme. De aceea vom aplica testul U, echivalentul lui t
pentru date de acest tip. Primul pas n acest sens este operaia de atribuire de ranguri pentru
fiecare scor, la comun pentru cele dou loturi. n procesul de rangare, descris anterior n
capitolul dedicat determinrii corelaiei prin metoda rangurilor (rho al lui Spearman), se tie c
nu conteaz dac atribuirea rangurilor pornete de la valorile de scor mici sau invers (ascendent
sau descendent).
135
Singura situaie care trebuie rezolavat corect i unitar este aceea n care exist mai
multe valori de scor egale, situaie pentru care sunt posibile mai multe tipuri de rezolvri.
11
Ca
i n cazul corelaiei rho, soluia cea mai frecvent adoptat de diveri autori este de a acorda
rangul intermediar pentru valorile respective de scor i de a sri apoi la rangul urmtor
nealocat, astfel ca n final numrul rangurilor alocate s coincid cu numrul datelor prezente.
Pentru a putea avea n orice moment o situaie clar a rangurilor care au fost deja acordate i a
celor care urmeaz s fie alocate se poate proceda astfel: se scriu pe orizontal, n ordine
cresctoare, rangurile ce vor fi atribuite, egale ca numr cu numrul datelor de rangat. n cazul
de fa vor fi scrise pe orizontal numerele de la 1 la 18 i, pe msur ce rangurile se vor aloca,
ele se vor i tia cu o bar, pentru a ti astfel n orice moment ce rang urmeaz s fie acordat.
Pentru cele dou scoruri de 8 ale stresului, n locul rangurilor 14 i 15 de alocat (care se i taie
de pe list), se d valoarea intermediar 14,5, urmtorul rang disponibil fiind deci 16. Dup ce
operaia de rangare va fi ncheiat, tabelul anterior va arta astfel:

Cardiaci Renali
Scor 75 21 14 32 18 6 25 16 8 40 4 12 3 8 15 24 0 6
Rang 1 6 10 3 7 12,
5
4 18 14,
5
2 16 11 17 14,
5
9 5 18 12
,5
Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

rang
Cardiaci = 68 Renali = 103 Total = 171

Din acest tabel se observ cu uurin c suma rangurilor acordate cardiacilor i al celor
acordate renalilor este dinainte tiut (este 1+2+3+ ... +18 = 171), aadar putem determina doar
una din ele, cci cealalt putnd rezulta automat.
Secvena complet de urmat n cazul testului U al lui Mann-Whitney este urmtoarea:
1. Rangarea scorurilor pentru ambele grupe combinate, n ordine ascendent sau descendent.
2. Se nsumeaz rangurile primului grup, rezultatul fiind R
1
, i ale celui de al doilea grup (R
2
).
3. Dup obinerea lui R
1
se aplic formula 10.1 de mai jos:
(10.1)

4. Dup determinarea lui U se calculeaz U dup formula 10.2 de mai jos:
(10.2)

11
Vezi Popa, 2008, p. 197
1
1 1
2 1
2
) 1 (
R
N N
N N U
+
+ =
U N N U =
2 1
'
136
5. Dintre cele dou valori U i U se alege cea mai mic pentru a efectua testul de semnificaie.
6. Ipoteza nul H
0
este aceea c ambele eantioane au fost extrase din aceeai populaie.
Ipoteza specific (H
1
) este aceea c cele dou populaii sunt diferite.
7. Cel mai mic dintre U i U este comparat cu valoarea critic a lui U din tabelul prezentat n
Anexa 17. Specificul acestui tabel este acela c ipoteze nul poate fi respins numai dac
valoarea obinut este mai mic sau egal cu valoarea tabelar.
De fapt, tot algoritmul de mai sus se reduce la dou comparaii: a lui U cu U i, dup
alegerea celui mai mic dintre acetia, comparaia valorii alese cu valoarea tabelar, pentru N
1
i
N
2
corespunztori situaiei concrete de testare la nivelul de semnificaie ales, de .05 sau de
.01. n tabelul respectiv cifrele boldate sunt pentru primul prag de semnificaie ( =.05).
Exemplificm cu cazul analizat:
U = 57.


Pentru celula corespunztoare din tabel la =.05, N
1
= 10 i N
2
= 8 valoarea U critic
este de 13, n raport cu care 23 este mai mare, ceea ce nu permite respingerea ipotezei de nul.
Se observ uor c pentru =.01 situaia este i mai conservatoare, deoarece valoarea critic
necesar (7) este de aproape dou ori mai mic dect anterior. Aceasta este raiunea pentru care
cercetm nti pragul de semnificaie p = .05, mai liberal, i numai dac avem motive ducem
comparaia i spre al doilea prag de semnificaie.
Cercetnd numrul valorilor critice afiate, tabelul 17 las s se ntrevad c el ar fi
operaional doar pn la N = 20. n realitate, testul U al lui Mann-Whitney poate fi utilizat i
pentru valori numerice mai mari, dar fr a mai face apel la acest tabel, ci la cel al distribuiilor
z. Procesul de interpretarea a lui z este cel cunoscut, dar acest lucru devine posibil numai dup
conversia n note z a celui mai mic dintre U i U , utiliznd urmtoarea formul:

(10.3)


S admitem c n cazul nostru valoarea reinut dup comparaia dintre U i U ar fi fost tot de
23, dar N
1
ar fi fost de 30 i N
2
de 25. n acest caz:



57 68 45 80 68
2
) 1 8 ( 10
8 10 = + =
+
+ = U
. 23 57 80 57 8 10 = = = ' U
12
) 1 (
2
2 1 2 1
2 1
+ +

=
N N N N
N N
U
z
. 95 , 5
16 , 59
352
12
56 750
375 23
12
) 1 25 30 ( 25 30
2
25 30
23
=

=
+ +

= z
137

Interpretarea lui z este urmtoarea: dac valoarea obinut este de cel puin 1,96, H
0
se
respinge pentru o probabilitate de p .05, iar dac ea este n jur de 2,58 respingerea este la un
prag mai sever (p .01). Aceasta este valabil n cazul ipotezelor bidirecionale, pentru ipoteze
unidirecionale pragurile fiind mai liberale. Astfel, pentru p .05 este nevoie de o valoare a lui
t de doar 1,64.
Logica alegerii valorii celei mai mici dintre U i U pare neobinuit n condiiile n
care la testele parametrice respingerea ipotezei nule este condiionat de valori mai mari dect
cele ale pragurilor critice din tabel. Pentru testul Mann-Whitney ipoteza de nul se sprijin pe
faptul c, atunci cnd volumul loturilor comparate este unul apropiat, suma rangurilor ar trebui
s fie ct mai apropiat, dac nu identic, pentru a putea susine c ele provin din aceeai
populaie. Cu ct una dintre valorile calculate U i U este mai mic, cu att cealalt este mai
mare, cci suma tuturor rangurilor rmne aceeai. Aadar, diferena dintre ele descrete pe
msur ce una dintre valori este mai mic i, n consecin, valoarea U sau U mai mic dect
cea tabelar justific respingerea ipotezei de nul.

O formul alternativ pentru determinarea lui z este cea de mai jos.

(10.4)



10.3. Exerciii i aplicaii practice
Unei clase de elevi i s-a aplicat un test de vocabular, ale crui rezultate sunt sumarizate
n tabelul de mai jos.

Biei Fete
Scor
test
47 39 29 45 80 22 68 50 74 19 49 94 126 87 38 22 65 80 57
Rang 12 14,5 16 13 4,5 17,5 7 10 6 19 11 2 1 3 14,5 17,5 8 4,5 9
Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Ranguri
biei
= 130,5; Ranguri
fete
= 59,5; Ranguri
total
= 190; N
1
= 11; N
2
= 8

1. Formulai ipoteza de nul i ipoteza specific (de cercetare) legat de diferenele de gen
privind performana la testul de vocabular, n dou forme: bidirecional i unidirecional.
. 81 , 13
56 , 59
2
56 30
23
12
) 1 (
2
) 1 (
_
2 1 2 1
2 1 1
=

=
+ +
+ +

=
N N N N
N N N
U
sta Eroarea
Media U
z
138
2. Argumentai care sunt motivele pentru care este preferabil testul U ca alternativ la testul t
pentru eantioane independente.
3. Aplicai testul t pentru eantioane independente de volum mic (dispersii cumulate) i
determinai dac ipoteza de cercetare se confirm, n condiiile formulrii ei bidirecionale
i unidirecionale.
4. Percurgei paii prezentai n curs pentru determinarea lui U i luai decizia potrivit n
legtur cu respingerea ipotezei nule, cercetnd ambele praguri prezentate n tabel ( = .05,
= .01).
5. Raportai cifric i narativ rezultatele obinute.
6. Determinai-l pe z pentru situaia n care ambele efective comparate ar fi fost mai mari cu
15.


10.4. Testul semnului T al lui Wilcoxon pentru eantioane corelate
Aa cum testul U este alternativa neparametric pentru testul t aplicat eantioanelor
independente, testul semnului T al lui Wicoxon este alternativa nonparametric a testului t
pentru eantioane corelate. Cerinele pentru aplicarea acestui test sunt urmtoarele: a.
participanii s fi fost selecionai randomizat (aleator) i b. scala utilizat s fie cel puin de
nivel ordinal, pentru a putea ranga scorurile.
ntemeierea acestui test se sprijin pe supoziia potrivit creia dac distribuia
populaiilor din cele dou condiii experimentale este identic va exista un numr relativ
apropiat, aproximativ egal, al diferenelor negative i pozitive dintre perechi. n felul acesta
suma rangurilor dintre diferenele pozitive i negative nu va varia pe o extindere prea mare.
Dac totui distribuia celor dou eantioane nu este aceeai (adic ele nu reprezint o singur
populaie) se poate atepta s fie mai multe diferene de ranguri pentru un semn dect pentru
cellalt semn. Astfel, cu ct suma rangurilor ce apar mai puin este mai mic, cu att mai mult
populaiile reprezentate de cele dou condiii sunt mai diferite.
n exemplul de mai jos ipoteza specific H
1
este acela c nivelul msurat al anxietii
generale va fi mai mare naintea unui examen important dect dup aceea. Aadar, pe prima
coloan a tabelului, dup numrul de ordine al perechilor, sunt scorurile brute la testul de
anxietate dinaintea examenului iar n coloana urmtoare acelai indicator, dar dup trecerea
examenului.

139
nainte Dup || Rang Semn
1 34 21 13 13 2 +
2 14 14 0 0
3 21 17 4 4 5 +
4 28 25 3 3 7 +
5 16 18 -2 2 8 -
6 21 17 4 4 5 +
7 29 20 9 9 3 +
8 54 30 24 24 1 +
9 6 7 -1 1 9 -
10 18 14 4 4 5 +

Ranguri de acordat 1 2 3 4 5 6 7 8 9
Sume ranguri

= 17
+
= 28
Total
= 45

n tabel s-au introdus cteva coloane suplimentare, dintre care una d expresie
diferenei dintre cele 10 perechi de valori ale anxietii de dinainte i de dup examen. Atragem
atenia c, atunci cnd pentru o pereche se obine diferen nul (zero), aceasta se elimin din
calcul. n cazul analizat diferena de la perechea a doua este zero i de aceea ea se elimin, ceea
ce nseamn c vor rmne numai 9 ranguri de alocat i nu 10, cum era iniial. Cea de a patra
coloan red diferenele n modul i, eliminnd semnele plus i minus, acum devine mai uor
de alocat cele 9 ranguri. Rezultatul acestei operaii este prezentat n coloana a 5-a, ultima
coloan fiind cea care separ semnele plus de cele minus pentru a putea face mai uor suma
rangurilor la categoria cea mai mic. n cazul de fa exist 2 de minus i 7 de plus, deci pentru
categoria minus se vor aduna cele dou ranguri: 9 + 8 = 17. n anexa 18 n dreptul lui 9
(numrul de ranguri efectiv alocate) valoarea critic pentru p .05 este de 6. Valoarea obinut
de noi fiind mai mare, H
0
nu poate fi rejectat i deci nu putem susine ntemeiat c nivelul
anxietii generale a diminuat semnificativ dup susinerea examenului.
Asemnrile testului T Wilcoxon cu testul U Mann-Whitney sunt evidente:
1. n ambele este implicat operaia de rangare.
2. n ambele ipoteza specific se susine cu att mai mult cu ct valoarea obinut la test este
mai mic dect valoarea tabelar pentru situaia respectiv.
3. Ambele sunt teste de putere mic, care n principiu ar avea nevoie de numere mari pentru a
fi mai concludente, dar n realitate se aplic pentru numere mici, de regul sub 20 de cazuri.
4. Pentru ambele, efectivele mai mari sunt aproximate prin distribuia normal z.
140
5. Pentru ambele exist programe statistice care uureaz considerabil volumul de munc
implicat, producnd date acurate, pentru care singura problem real rmne cea a
interpretrii i raportrii corecte a rezultatelor.

O parte dintre asemnrile semnalate anterior provin din aceea c ambele metode au
fost imaginate i create de acelai cercettor, Wilcoxon, testul U primind numele de la cei care
au perfecionat procedura (Mann i Whitney), pentru a-l putea distinge mai clar de regula
semnului, integral creditat lui Wilcoxon.
n cazul testului T al semnului pentru eantioane ce depesc ca volum numrul de 20
de cazuri, reprezentarea distribuiei normale z se face dup formula:

(10.5)


Guilford (1978) apreciaz c punctul forte al acestei metode neparametrice este acela c
ea se poate aplica fr a mai ine cont de forma distribuiei i de egalitatea varianelor celor
dou serii se date. n acest caz diferena nu mai trebuie determinat cu acuratee, cci nu ea este
cea care conteaz, ci direcia n care aceasta se manifest. De aici provine ns i una dintre
slbiciunile metodei, care nu utilizeaz toat informaia disponibil de la cele dou variabile.
Astfel, dac msurtoarea s-a fcut pe o scal de interval (uniti de msur egale pe toat
scala), n care diferenele ar puteam fi comparate nu numai ca direcie, ci i ca mrime, testul
semnului va ignora acest fapt. Aa se face c, exceptnd eantioanele mici, acest test are doar
60% din puterea unui test t pentru eantioane corelate, atunci cnd ambele se aplic simultan.
Pentru creterea puterii testului T, astfel nct aceasta s devin comparabil cu a
testului parametric t corespondent, cercetrorul va fi obligat s creasc numrul subiecilor
investigai, dar n acest caz se ajunge s fie preferabil utilizarea distribuiilor z (formula 10.5).
Acest lucru devine aproape obligatoriu datorit faptului c diferena de sensibilitate n
detectarea unor efecte real existente (adic puterea testului statistic) este apreciabil de mult n
favoarea testului parametric pentru eantioane corelate, comparativ cu perechea sa
neparametric. Testul T poate rmne ns n continuare singura alternativ valabil i pentru
eantioanele mai mari, care ns se abat semnificativ de la condiia de normalitate a distribuiei.



24
) 1 2 )( 1 (
4
) 1 (
+

=
N N N
N N
T
z
141
10.5. Exerciii i aplicaii practice
Un grup de 13 cupluri de soi - soii a fost investigat cu un test destinat surprinderii
precocitii declanrii instinctului matern, comparativ cu cel patern, la scurt timp dup
naterea copilului. Tabelul de mai jos rezum datele acestui studiu ipotetic.

Scor total la devoiune pentru nou nscut N 13 13
Mame 23 13 15 17 19 23 25 10 16 8 7 12 41 X 17,62 11,92
Tai 13 10 9 14 21 10 20 10 13 5 0 10 20
X
9,07 6,01
X 229 155
X
2
5021 2281
XY 3219
r

Rspundei urmtoarelor cerine:
1. Argumentai de ce este preferabil utilizarea testului semnului T n locul testului t pentru
eantioane corelate.
2. Parcurgnd etapele prezentate n curs, determinai valoarea testului T pentru cele 13 perechi
de date.
3. Stabilii semnificaia statistic a acestui test i concluzionai n legtur cu H
0
i H
1
.
4. Efectuai corelaia rangurilor pentru cele dou seturi de date i explicai crui fapt se poate
datora valoarea foarte ridicat a lui rho.
5. Fornd nota, determinai i pe t pentru eantioane corelate, comparnd apoi rezultatul
obinut cu testul T al lui Wilcoxon.
6. Dac ai fi avut 25 de perechi, care ar fi fost scorul z al acestui test?

10.6. ANOVA pe o cale prin testul H Kruskal-Wallis
Analiza de varian pe o cale prin testul H al rangurilor a fost pus la punct de ctre
Kruskal i Wallis. Acesa tehnic este considerat a fi o generalizare a testului U Mann-
Whitney deoarece a fost conceput pentru compararea mediilor a mai mult de dou grupuri
atunci cnd ele au fost msurate pe o scal ordinal sau pe scale real numerice (de interval sau
de raport), dar datele nu ntrunesc condiiile pentru efectuarea testului ANOVA pe o cale.
Deoarece trateaz date msurate pe scale ordinale sau distribuii atipice, similitudinea cu testul
U Mann-Whitney este evident, singura diferen major fiind aceea c acum pot fi comparate
mediile a mai mult de dou grupuri, rezultaltul testului (H) putndu-ne ajuta s decidem dac
aceste grupuri provin dintr-o aceeai populaie (ipoteza de nul H
0
).
142
Comparaia cu tehnica ANOVA pe o cale evideniaz o asemnare major cu aceasta n
sensul c rezultatul testului H Kruskal-Wallis este unul de tip omnibus, ca i F din analiza de
varian clasic. Ca i n analiza post-hoc din ANOVA, dac H este gsit semnificativ, atunci
pot fi desfurate mai departe analize de comparaie a grupurilor de cte dou prin testul U
Mann-Whitney, pentru a determina ntre care dintre variabilele analizate diferenele sunt
semnificative.
Pornind de la ipoteza de nul distribuiile grupurilor comparate sunt similare i deci ele
provin dintr-o aceeai populaie se poate infera c suma rangurilor este apropiat sau foarte
similar pentru toate grupurile comparate. Sumele rangurilor care sunt semnificativ diferite
ntre ele vor duce la rejectarea ipotezei nule i la admiterea ipotezei specifice (de cercetare).
Pentru a nelege mai bine similitudinile testului H cu testul U Mann-Whitney, dar i
specificul acestei metode, vom porni de la urmtorul exemplu: La un test de leadership, cei trei
candidai au obinut urmtoarele scoruri brute:

Candidat A Candidat B Candidat C
29 16 3114
22 14 27
18 12 24
15 11 16
14 9 13

Se cere s se determine dac cele trei serii de date reprezint o aceeai populaie sau
populaii diferite. Pentru a putea ilustra modul de lucru al testului H furnizm mai jos formula
sa:
(10.6)
n care:
N reprezint numrul total de observaii, rezultat prin combinarea celor trei situaii;
N
i
reprezint numrul de observaii n fiecare dintre cele trei situaii;
R
i
reprezint suma rangurilor din fiecare dintre cele trei situaii.
Din formul de mai sus rezult c operaia de debut a testului este aceea de rangare, dup
regulile cunoscute, a celor trei serii de date reunite. n aceast situaie tabelul de mai sus va
arta astfel:

) 1 ( 3
) 1 (
12
2
+ E
+
= N
N
R
N N
H
i
i
143
Candidat A Candidat B Candidat C
Brut Rang Brut Rang Brut Rang
29 14 16 8,5 31 15
22 11 14 5,5 27 13
18 10 12 3 24 12
15 7 11 2 16 8,5
14 5,5 9 1 13 4

ranguriA
= 47,5
ranguriB
= 20
ranguriC
= 52,5

Putem determina acum valoarea testului H cu ajutorul formulei 10.6:



Valoarea tabelar se va identifica lund n calcul numrul gradelor de libertate, care
este este egal cu numrul de eantioane K, minus 1: df = K 1, adic 3 2 = 1. Pentru acest df
valoarea tabelar este de 5,99. Deoarece tabelul de referin este unul de tip chi ptrat (
2
)
valoarea testului H trebuie s fie mai mare sau egal cu cea tabelar pentru a fi semnificativ,
ceea ce n cazul nostru se i ntmpl. De aceea putem concluziona c cele trei serii de valori
ale candidailor nu reprezint o aceeai populaie de scoruri, deci ei sunt diferii. Pentru a
determina unde apar diferenele va trebui s aplicm suplimentar testul U pentru fiecare
pereche dar, cum se observ clar, similitudinea dintre scorurile primului i ale celui de al treilea
candidat este foarte mare, ceea ce ne rmne fiind s-l comparm pe al doilea (cazul cu cele
mai mici scoruri) cu fiecare dintre ceilali doi.
Pentru aceasta vom folosi formulele 10.1 i 10.2:




Valoarea tabelar semnificativ este de 2, n raport cu care ambele valori ale testului de
mai sus sunt mai mari i deci nesemnificative. Aadar, ipoteza de nul nu poate fi respins la
nivelul comparaiilor pe perechi, probabil i datorit faptului c acestea sunt extrem de reduse
numeric.
. 125 , 6 48 5 , 1082 5 , 0 16 3
5
5 , 52
5
20
5
5 , 47
16 15
12
) 1 ( 3
) 1 (
12
2 2 2 2
= =
|
|
.
|

\
|
+ +

= + E
+
= N
N
R
N N
H
i
i
5 , 7 5 , 47
2
6 5
5 5
2
) 1 (
1
1 1
2 1
=

+ =
+
+ = R
N N
N N U
5 , 32 ) 5 , 7 ( 25 '
2 1
= = = U N N U
20 20
2
6 5
5 5
2
) 1 (
2
2 2
3 2
=

+ =
+
+ = R
N N
N N U
5 20 25 '
3 2
= = = U N N U
144
Din exemplul anterior s-ar putea crede c grupurile comparate trebuie s fie unele egale
numeric, fapt care nu este real, grupurile comparate putnd diferi ca ordin de mrime.
Extinderea numeric a grupurilor comparate, dar i a numrului de grupuri implicate n acest
test statistic amplific mult volumul de munc i implicit probabilitatea de eroare, metoda
putnd fi considerabil simplificat prin utilizarea unui program statistic adecvat.
Prezentm mai jos un al doilea exemplu care pleac de la presupunerea c inteligena
emoional este asociat cu ordinea n fratrie. Pentru a verifica aceast ipotez s-a aplicat un
test sociometric unui numr de 21 de studeni, din care 7 au fost primi nscui, 8 al doilea
nscut i 5 de la al treilea nscut n sus. Rezultatele sunt ntabelate alocnd pentru fiecare
categorie o coloan cu scorurile brute obinute la test i una cu rangul alocat acestor scoruri,
dar numai dup cumularea celor trei efective.

Primul nscut Al doilea nscut Al treilea nscut
Brut Rang Brut Rang Brut Rang
25 18 30 21 14 7,5
24 17 27 20 12 5,5
23 16 26 19 10 4
20 15 18 12,5 7 3
19 14 15 10 4 1,5
18 12,5 15 10 4 1,5
15 10 14 7,5
12 5,5

ranguriA
= 102,5
ranguriB
= 105,5
ranguriC
= 23

ranguri_total
=231 N
total
= 21

Ca i n exemplul anterior, valoarea testului H se determin cu formula 10.5.



Valoarea tabelar a lui H la df = 2 este de 5,99 pentru p = .05 i de 9,21 pentru p = .01.
Cum valoarea testului obinut de noi este mai mare, rezult c ipoteza de nul poate fi rejectat
cu o forte mic probalilitatea (sub un procent) ca aceste diferene s fi aprut din ntmplare.
Rmne de determinat n continuare care sunt grupurile ntre care aceste diferene ating pragul
semnificaiei statistice.
. 41 , 11 66 34 , 2980 026 , 0 ) 1 21 ( 3
6
23
8
5 , 105
7
5 , 102
22 21
12
2 2 2
= = +
|
|
.
|

\
|
+ +

= H
145
10.7. Exerciii i aplicaii practice
Unui grup de studeni li s-a aplicat un test de atenie distributiv cu o durat de 30 de
minute. Ipoteza cercetrii a fost aceea a existenei unor diferene semnificative de performan
a celor studeni n funcie de tipul de temperament al fiecruia, identificat cu un chestionar
adecvat. Datele brute ale cercetrii sunt sumarizate n tabelul de mai jos.

Sangvinic Flegmatic Coleric Melancolic
32 24 33 28
19 26 28 19
26 22 12 17
28 19 17 23
24 29 24 15
21 23 15 16
17 18 29 10
33 19 31
29 14
27 17
26

Rspundei urmtoarelor solicitri:
1. Formulai ipoteza de nul i ipoteza specific a cercetrii.
2. Efectuai rangarea comun a datelor pentru cele patru temperamente.
3. Determinai valoarea testului H i comparai valoare obinut cu valoarea tabelar
adecvat (df = K - 1) argumentnd n legtur cu rejectarea sau nonrejectarea lui H
0
.
4. Selectai rezultatele pe perechi, dup criteriul extraversie-introversie i stabilitate-
instabilitate emoional, utiliznd tabelul de mai jos. Formulai ipotezele specifice
pentru cele dou situaii i verificai-le parcurgnd toate etapele testului U Mann-
Whitney.
5. Transformai valorile testului U n scoruri z dup formula de calcul corespunztoare.

Extraveri

Introveri
Stabili
emoional
Instabili
emoional
32 24 32 33
19 26 19 28
26 22 26 12
28 19 28 17
24 29 24 24
21 23 21 15
146
17 18 17 29
33 19 33 31
29 28 29 14
27 19 27 17
33 17 24 26
28 23 26 28
12 15 22 19
17 16 19 17
24 10 29 23
15 23 15
29 18 16
31 19 10
14
17
26

10.8. Testul rangurilor Friedman pentru msurtori repetate
Echivalentul testului ANOVA pentru msurtori repetate, pe date parametrice, este
testul Friedman, care utilizeaz diferena de ranguri n cazul msurrii acelorai subieci de
mai mult de dou ori. Fiind destinat msurtorilor repetate, acest test este considerat o
generalizare a testului semnului al lui Wilcoxon. Pentru a nelege mai bine modul de lucru
presupus de aceast tehnic statistic plecm de la urmtorul exemplu concret.
Un grup de 8 subieci au participat la un program de coaching, destinat ameliorrii
eficienei personale i a stimei de sine. Programul a durat timp de ase luni, determinarea
iniial a scorurilor la un chestionar de stim i eficien de sine fiind urmat la interval de
dou luni de alte determinri ale aceluiai construct. Se cere sr rspundem la ntrebarea dac
stima i eficiena de sine se amelioreaz prin parcurgerea acestui program de training.
Rezultatele celor 4 determinri sunt sumarizate n tabelul de mai jos.
Stima_1 Stima_2 Stima_3 Stima 4
Subiect Brut Rang Brut Rang Brut Rang Brut Rang
1 24 1 26 3 25 2 28 4
2 14 2 13 1 17 3 19 4
3 22 1 22 2 25 4 24 3
4 20 1 21 2 22 3 25 4
5 22 3 20 2 18 1 22 4
6 19 2 19 1 20 3 24 4
7 15 2 12 1 15 3 17 4
8 29 1 29 2 31 3 34 4

ranguri1
= 13
ranguri2
= 14
ranguri3
= 22
ranguri4
= 31
147
Ceea ce este specific acestei metode este n primul rnd modul de alocare a rangurilor.
Ele nu se mai acord prin punerea la comun a celor patru seturi de scoruri pentru a costrui o
singur colecie de date, numrul de ranguri alocate ne mai trebuind s fie suma celor patru
efective, ca n cazul celorlalte teste neparametrice prezentate anterior. Dimpotriv, se acord
ranguri doar de la 1 la 4 (numrul de ranguri fiind egal cu cte msurtori repetate au fost)
comparnd scorurile obinute de acelai subiect la cele 4 condiii i dnd rangul 1 scorului cel
mai mic, doi urmtorului .a.m.d. n pasul al doilea, suma acestor ranguri se face pe coloan,
totalurile trecndu-se n rubrica de jos. Deci scorurile se rangheaz pentru fiecare participant
separat i apoi se adun pe coloan pentru a obine totalurile fiecrei coloane n parte. Dup
aceea se evalueaz variabilitatea celor patru sume dup formula:

(10.7)

n care:
N reprezint numrul de subieci;
k reprezint numrul de condiii (de msurtori repetate);
R
i
reprezint suma rangurilor pentru fiecare din cele trei condiii.
n situaia analizat:



Consultnd tabelul de distribuii
2
, pentru 4 - 1 = 3 grade de libertate, valoarea critic este de
7,81 pentru p = .05 i de 11,34 pentru p = .01. Valoarea de 17,75 a testului confirm la un
prag de semnificaie statistic foarte ridicat eficiena sedinelor se coaching asupra ameliorrii
sentimentului de stim i eficien de sine. Analiza sumei rangurilor pentru fiecare etap
indic faptul c aceast ameliorare a fost nesemnificativ n etapele premergtoare, dar
etapele a treia i a patra au dus la o ameliorare constant i puternic a variabilei investigate.

10.9. Exerciii i aplicaii practice
Patru profesori au primit spre evaluare independent un numr de 12 lucrri, notele
acordate fiind de la 1 la 10. Situaia celor 4 evaluri este cea prezentat n tabelul de mai jos.
Rezolvai urmtoarele cerine:
1. Determinai prin testul Friedman dac cei patru profesori au avut un sistem de evaluare
comun, sau dac diferenele de notare dintre ei au fost unele semnificative.
) 1 ( 3
) 1 (
12
2 2
+ E
+
= k N R
k Nk
i F
_
( ) 75 , 17 120 75 , 137 5 8 3 31 22 14 13
5 4 8
12
) 1 ( 3
) 1 (
12
2 2 2 2 2 2
= = + + +

= + E
+
= k N R
k Nk
i F
_
148
2. Folosind corelaia rangurilor rho a lui Spearman determinai gradul de asemnare dintre
notrile primului profesor cu urmtorii trei.

Lucrare Prof_1 Prof_2 Prof_3 Prof_4
1 7,20 7,50 7,30 7,00
2 8,75 8,25 8,40 8,80
3 6,20 6,80 7,00 6,50
4 10 9,20 9,40 9,80
5 5,75 6,25 6,15 6,00
6 8,40 8,25 8,60 8,10
7 7,80 8,00 8,10 8,25
8 9,75 9,50 9,40 10
9 6,60 6,80 7 6,50
10 7,25 7,00 8,00 7,75
11 9,00 9,25 9,15 9,30
12 7,50 7,25 7,75 7,60

















149

Test pentru verificarea de sintez


Aceast autoverificare const dintr-un numr de ntrebri la care trebuie s selectai doar o
variant de rspuns din cele propuse, sau s trecei n spaiul liber valoarea rezultat n urma
unui calcul matematic. ncercai s abordai fiecare problem n parte, dar unde nu tii este
preferabil s nu completai. Fiecare item se coteaz cu un punct.


I. Intrebri de verificare de ordin general
1. Sugerai cum s-ar putea obine obine un eantion complet randomizat (sau aproape
complet randomizat) din populaia unui micu orel (5 000 de locuitori).

.......................................................................................................................................................
.......................................................................................................................................................
.......................................................................................................................................................
.......................................................................................................................................................

2. Definii pe scurt termenii de:
Date..............................................................................................................................................
Variabil.......................................................................................................................................
Eantion........................................................................................................................................
Populaie.......................................................................................................................................

3. Poate o variabil ordinal s fie msurat cu o scal continu? a Da b Nu
Poate o variabil continu s fie msurat cu o scal ordinal? a Da b Nu
4. Magnitudinea unei scale este proprietatea matematic ce permite ierarhizarea populaiei de
date de la mic la mare sau invers. a Da b Nu
5. Inteligena nu are uniti de msur tipice scalelor de interval. a Da b Nu
6. Pentru datele culese pe o scal ordinal putem face media deoarece aceasta are proprietatea
aditivitii. a Da b Nu
7. Numii tipul de scal utilizabil n msurarea categoriilor de mai jos, alocnd cifrele 1, 2, 3
i 4 pentru scalele nominal, ordinal, de interval i de raport:
scala Celsius scala Kelvin numrul camerelor de hotel ordinea sosirii la maraton
scorul final la acest examen presiunea sanguin genul greutatea.
8. Pentru datele culese pe o scal ordinal putem face media deoarece aceasta are proprietatea
aditivitii. a Da b Nu


II. Statistici descriptive univariate
Privii cu atenie distribuia erorilor nregistrate de un psiholog la o prob de memorie, redat
n diagrama de mai jos, i rspundei la ntrebrile subiacente.
150
9.0 8.0 7.0 6.0 5.0 4.0 3.0 2.0 1.0 0.0
F
r
e
q
u
e
n
c
y
10
8
6
4
2
0
1 1 1 1
2
3
4
6
9
4

9. Mediana numrului de erori este: a 2,50 b 3 c 2 d Nu se poate
determina
10. Media are valoarea de: a 2,54 b 2,63 c 2,71 d 2,66
11. Modul are valoarea: a 9 b 6 c 1 d 1,50
12. Eroarea standard a mediei (/N) este: a 0.42 b 0.40 c 0.39 d 0.50
13. Amplitudinea nprtierii (Range) este de: .
14. Distribuia rezultat este una: a asimetric negativ
b simetric
c indefinit
d asimetric pozitiv
15. Trecei n spaiul liber care este valoarea:a. abaterii intercuartilice .
b. abaterii semiintercuartilice .
16. Diagrama de mai sus este: Histogram Diagram cu bare Poligonul frecvenelor
17. La distribuia de mai sus tendina central e cel mai bine indicat de:
Medie Median Mod

III. Statistic bivariat i inferenial
Privii cu atenie cele dou scattere de mai jos i rspundei la ntrebrile formulate.
Erori
10 8 6 4 2 0 -2
T
i
m
p
10
8
6
4
2
0
-2
Erori
10 8 6 4 2 0 -2
V
i
t
e
z
a
10
8
6
4
2
0

A B
151
18. Corelaia din diagrama A este de aprox.: a -0.60 b 0.70 c -0.80 d 0.90 d 0.95
19. Corelaia din diagrama B este de aprox.: a -0.60 b 0.70 c -0.80 d 0.90 d 0.95
20. ncercuii n diagrama A cele trei puncte care mresc cel mai mult corelaia.
21. ncercuii n diagrama B cele trei puncte care coboar cel mai mult corelaia.
22. Adugai n spaiul diagramei A un punct astfel nct el s omoare maximal corelaia.
23. Adugai n spaiul diagramei B un punct care s umfle inflaionist maximal corelaia.
24. Desenai cu atenie, ct mai adecvat, linia de regresie pentru ambele diagrame A i B.
25. Studiind corelaiile dintre Erori-Timp i Erori-Vitez, corelaia dintre Timp i Vitez va fi:
a Negativ mic b Negativ medie c Spre zero d Pozitiv medie e Pozitiv mare
26. Cele mai sigure predicii ale lui Y n raport cu X se pot face din:
a Diagrama A b Diagrama B
27. Argumentai rspunsul la ntrebarea de mai sus: ...................................................................
.......................................................................................................................................................
.......................................................................................................................................................
.......................................................................................................................................................
......................................................................................................................................................

28. Avei urmtoarele dou serii de valori, reprezentnd note la fizic i la matematic:


Fizic 3 8 4 10 2 5 6 10 8 9 6 7 9 5 4 6 8 9
Matematic 4 7 5 8 3 5 7 9 10 8 6 4 9 6 6 7 7 10


Ranguri de alocat: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
r = ......... = .........
29. Rangai corect cele dou serii de valori, folosind spaiul de deasupra i de dedesubt.
30. Determinai corelaia celor dou serii de valori prin metoda produselor a lui Pearson (r).
31. Determinai corelaia celor dou serii de valori prin metoda rangurilor a lui Spearman ().
32. Testai ipoteza existenei unei diferene semnificative a mediilor, ca i cum ar fi dou
distribuii de eantioane independente.
33. Evaluai, comentai i raportai corespunztor rezultatul obinut. .........................................
.......................................................................................................................................................
.......................................................................................................................................................
.......................................................................................................................................................
.......................................................................................................................................................
.....................................................................................................................................................
152

Bibliografie

1. American Psychological Association (2001). Publication Manual of the American
Psychological Association. 5th Edition. Washington, DC.
2. Buchner, A., Erdfelder, E., & Faul, F. (2001). How to Use the G*Power,
http://www.psycho.uni-duesseldorf.de, accesat la 01.10.2010.
3. Chatfiled, C. (1985). The initial examination of data. In Journal of the Royal Statistical
Society; Series A (General), 148(3): 214-253.
4. Clark-Carter, D. (2004). Quantitative psychological research. A student's handbook. Hove
and New York: Psycholohy Press.
5. Clinciu, A. I. (2012). Statistici multivariate pentru psihologie. Braov: Editura Universitii
Transilvania.
6. Clinciu, A. I. (2006). Prelucrare computerizat a datelor cu SPSS. Braov: Editura
Universitii Transilvania.
7. Clinciu, A. I. (2012). Bateria memoriei de lucru. Cluj-Napoca: Sinapsis Publishing
Projects.
8. Clocotici, V., Stan, A. (2000). Statistic aplicat n psihologie. Iai: Editura Polirom.
9. Cohen, J. (1988). Explaining Psychological Statistics, 2nd edition. John Wiley & Sons,
Inc. Hoboken.
10. Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences. Hove and
London: Lawrence Erlbawm Associates, Publishers.
11. Coolican, H. (2004). Research Methods and Statistics in Psychology, 4th ed.. London:
Hodder & Stoughton.
12. Culic, I. (2004). Metode avansate n cercetarea social. Analiza univariat de
interdependen. Iai: Editura Polirom.
13. Everitt, B., Landau, S., & Leese, M. (2001). Cluster Analysis, 4th. ed., New York: Arnold
Publishers.
14. Eysenck, M. W., & Keane, M. T. (1995). Cognitive Psychology. A Students Handbook.
3
rd
Edition. UK: Psychology Press.
15. Field, A. (2002). Dicovering Statistics Using SPSS for Windows. Sage Publications.
16. Gorsuch, R. L. (1997). Exploratory Factor Analysis: Its Role in Item Analysis. Journal of
Personality Assessment 68: 532-560.
153
17. Guadagnoli, E., & Velicer, W. F. (1988). Relation of sample size to the stability of
component pattern. Psychological Bulletin, 103: 267-275.
18. Guilford, J. P., Fruchter, B. (1978). Fundamental Statistics in Psychology and Education,
New York: McGraw Hill Book Company.
19. Havrneanu, C. (2000). Cunoaterea psihologic a persoanei. Posibiliti de utilizare a
computerului n psihologia aplicat. Iai: Editura Polirom.
20. Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2009). Multivariate Data
Analysis. Seventh Edition, New York: Pearson Prentice Hall.
21. Hinton, P. R., Brownlow, C., McMurray, I., & Cozens, B. (2004). SPSS Explained.
London and New York: Routledge, Taylor & Francis Group.
22. Howell, D. C. (2008). Fundamental Statisctics fot Behaviooral Sciences. Sixth Edition.
Thomson Wadsworth.
23. Howitt, D., & Cramer, D. (2008). Introduction to Reasearch Methods in Psychology.
Edinburgh Gate, Harlow: Pearson Education Limitid.
24. Hoyle, R. H. (1999). Statistical Strategies for Small Sample Research. Thousand Oaks,
London, New Delhi: Sage Publications.
25. Issac, S., W. B. Michael (1972). Handbook of Research and Evaluation. San Diego,
California, 92107: Robert R. Knapp Publisher.
26. Jaun, A. K., Murtz, M. N., & Flynn, P. J. (1999). Data Clustering: A review. ACM
Computing Surveys 31(3): 364-323.
27. Kinnear, P. R., & Gray, C. D. (2006). SPSS 14 made simple. Hove and New York:
Psychological Press. Taylor & Francis Group.
28. Labr, A. V. (2008). SPSS pentru tiinele educaiei. Iai: Editura Polirom.
29. Lungu, O. (2001). Ghid introductiv pentru SPSS 10.0. Seria psihologie experimental i
aplicat. Iai: S.C. Erota Tipo S.R.L.
30. Mertler, C. A., & Vannatta, R. A. (2005). Advanced and Multivariate Statistical Methods.
Practical Applications and Interpretation. Third edition. Glendale: Pyrczak Publishing.
31. Milligan, G. (1980). An Examination of the Effect of Six Types of Error Perturbation of
Fifteen Clustering Algoritms. Psychometrika 45 (September): 325-342.
32. Milligan, G. W., & Cooper, M. C. (1985). An Examination of Procedures for Determining
the Number of Clusters in a Data Set. Psihometrika 50(2), 159-179.
33. Nicol, A. A. M., Pexman, P. M. (1999). Presenting your findings. A practical guide for
creating tables. Washinton DC, USA: American Psychological Association.
154
34. Pedhazur, E. J., Schmelkin, L. (1991). Mesurement, design and analysis: an integrated
approach. Hillsdale, USA: Lawrence Erlbaum Associates, Inc.
35. Popa, M. (2008). Statistic pentru psihologie. Teorie i aplicaii SPSS. Iai: Editura
Polirom.
36. Popa, M. (2010). Statistici multivariate aplicate n psihologie. Iai: Editura Polirom.
37. Quick, D. (2004). Making Tables and Figures. In G. A. Morgan, N. L. Leech, G. W.
Gloeckner, and K. C. Barrett, SPSS for Introductory Statistics. Use and Interpretation.
Second Edition. London: Lawrence Erlbaum Associates, Publishers.
38. Rateau, P. (2004). Metodele i statisticile experimentale n tiinele umane. Iai: Editura
Polirom.
39. Reuchlin, M. (1992). Introduction a la recherche en psychologie. Paris: Hathan Universit
40. Rosenthal, R., Rosnow, R. L., Rubin, D. B. (2000). Contrasts and correlations in effect-
size estimation. Psychological Sciences, 11(6), 446-453.
41. Sava, F. A. (2004). Analiza datelor n cercetarea psihologic. Metode statistice
complementare. Cluj-Napoca: Editura ASCR.
42. Sava, F. A., Mricuoiu, L. P. (2007). PowerStaTim. Manualul utilizatorului. Timioara:
Editura Universitii de Vest.
43. Sava, F. A. (2011). Analiza datelor n cercetarea psihologic. Cluj-Napoca: Editura
ASCR.
44. Sava, F. A. (2013). Psihologia valifat tiinific. Ghid practic de cercetare n psihologie.
Iai: Editura Polirom.
45. Stilis, D. L. (Ed.) (1989). International enciclopedia of the social sciences: Biographical
supplement (vol. 18). New York: Macmillan.
46. Tabachnick, B. G., & Fidell, L. S. (2007). Using Multivariate Statistics. Fifth edition.
Boston, New York, San Francisco etc.: Pearson Education, Inc., Allyn and Bacon.
47. Thorne, B., & Giesen, G. M. (2003). Statistics for the Social Sciences. Boston, Burr Ridge
etc.: Mc Graw Hill.
48. Vogt, W. P. (1999). Dictionary of Statistics and Methodology. A Nontechnical Guide for
the Social Sciences, Second edition. Thousand Oaks, London, New Delhi: Sage
Publications.
49. Weaver, K. (2000). Basic Statistic Analysis. Sixth Edition. Study Guide. Boston, London
etc.: Allyn and Bacon. NeedhamHeights, Massachusetts.
155
A N E X E CU U T I L I T I S T A T I S T I C E

































Diagrama 1. Domeniile statisticii descriptive i infereniale

STATISTICA DESCRIPTIV
CENTRU FORM MPRTIERE
Tendina
central
Media
Mediana
Modul
Variabilitatea
AI=Range
Variana
Abaterea
standard
Forma curbei
Simetria (Skewness)
Boltirea (Kurtosis)
Curba normal
Scorurile z
Distribuia normal standard
Corelaie Crostabulare
Msuri ale gradului de asociere
r, r
2
, ,
2
, R, R
2
, phi, Lambda, C, V,
Gamma, Tau-b, Tau-c, d al lui Somer
Diferene de medii
Tabele bivariate Scatter-ploturi
Ploturi clasificatorii
INFERENA STATISTIC
Eantionarea
distribuiilor
Eroarea
standard
Teorema limit
central
Nivelul de semnificaie
Ipoteza de nul Testarea ipotezelor
Ipoteze
alternative
Intervale de
ncredere
Eroarea de tip I Eroarea de tip II
Puterea cercetrii Mrimea efectului
156





Diferen
eantioane
corelate
Media i SD
Mrimea
efectului d
Boxploturi/
histograme
Test t pentru
eantioane
corelate


Dou
eantioa
ne


Diferen
eantioane
independe
nte
Media i SD
Mrimea
efectului d
Boxploturi/
histograme
Test t pentru
eantioane
independente

Diferen




Media i SD
Mrimea
efectului d
Boxploturi/
histograme

Un
eantion
Diferena
pe un
eantion
Testul t pentru
un eantion
FENOMEN
UL DE
INTERES



Relaie
utiliznd
ranguri
(rho)
Spearman
(tau) Kendall
Scatter-plot
Se examineaz
valoarea p
pentru sau

Relaie



Relaie
liniar
utiliz.
scoruri
r al lui Pearson
Scatter-plot
Se examineaz
valoarea p
a lui r



STATISTICI
DESCRIPTIVE
STATISTICI
INFERENIAL
E


Diagrama 2. Arbore decizional pentru selecia procedeelor
descriptive i infereniale adecvate







157






Ovariabil
categorial

Potrivire
(g.o.f.)
2


Calitative
(categoriale)
Tip de
categorizare

Dou
variabile
categoriale

Tabele de
contingen

2


Grad
relaie

Corelaie
r Pearson


Interes
primar


Continu

Formarea
relaiei

Regre-
sie
TIP DE
DATE
Numr
de
predictori
Unul
Msur

Relaii
Ranguri

Spearman


Regresie
multipl

Muli
t pt. dou
eantioan



Independ.

Cantitative
(de msur)
Tip de
ntrebare
Relaii
dintre
eantioan

Mann-
Whitney

Dou

Ea Corel

One-way
ANOVA

Depend.


Wilcoxon

Un

Numr de
grupuri

Independ.

NrVariab.

Kruskal-
Wallis
Diferene Relaii
dintre
eantioan


Mai
multe

Msurto
ri repetate

Multe


Depend.

ANOVA
factorial


Friedman


Diagrama 3. Arbore decizional pentru selecia celui mai
potrivit tip de test statistic de semnificaie

Sursa: Howell, D.C. (2008). Fundamental statistics for the behavioral sciences
.Belmont: Thomson Wadsworth, p. 520.







158
Anexa 1. Tabelul distribuiei valorilor sub curba normal z
Valorile din tabel indic probabilitatea dintre 0 i z.

z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0
0,00000 0,00399 0,00798 0,01197 0,01595 0,01994 0,02392 0,02790 0,03188 0,03586
0,1
0,03983 0,04380 0,04776 0,05172 0,05567 0,05962 0,06356 0,06749 0,07142 0,07535
0,2
0,07926 0,08317 0,08706 0,09095 0,09483 0,09871 0,10257 0,10642 0,11026 0,11409
0,3
0,11791 0,12172 0,12552 0,12930 0,13307 0,13683 0,14058 0,14431 0,14803 0,15173
0,4
0,15542 0,15910 0,16276 0,16640 0,17003 0,17364 0,17724 0,18082 0,18439 0,18793
0,5
0,19146 0,19497 0,19847 0,20194 0,20540 0,20884 0,21226 0,21566 0,21904 0,22240
0,6
0,22575 0,22907 0,23237 0,23565 0,23891 0,24215 0,24537 0,24857 0,25175 0,25490
0,7
0,25804 0,26115 0,26424 0,26730 0,27035 0,27337 0,27637 0,27935 0,28230 0,28524
0,8
0,28814 0,29103 0,29389 0,29673 0,29955 0,30234 0,30511 0,30785 0,31057 0,31327
0,9
0,31594 0,31859 0,32121 0,32381 0,32639 0,32894 0,33147 0,33398 0,33646 0,33891
1
0,34134 0,34375 0,34614 0,34849 0,35083 0,35314 0,35543 0,35769 0,35993 0,36214
1,1
0,36433 0,36650 0,36864 0,37076 0,37286 0,37493 0,37698 0,37900 0,38100 0,38298
1,2
0,38493 0,38686 0,38877 0,39065 0,39251 0,39435 0,39617 0,39796 0,39973 0,40147
1,3
0,40320 0,40490 0,40658 0,40824 0,40988 0,41149 0,41309 0,41466 0,41621 0,41774
1,4
0,41924 0,42073 0,42220 0,42364 0,42507 0,42647 0,42785 0,42922 0,43056 0,43189
1,5
0,43319 0,43448 0,43574 0,43699 0,43822 0,43943 0,44062 0,44179 0,44295 0,44408
1,6
0,44520 0,44630 0,44738 0,44845 0,44950 0,45053 0,45154 0,45254 0,45352 0,45449
1,7
0,45543 0,45637 0,45728 0,45818 0,45907 0,45994 0,46080 0,46164 0,46246 0,46327
1,8
0,46407 0,46485 0,46562 0,46638 0,46712 0,46784 0,46856 0,46926 0,46995 0,47062
1,9
0,47128 0,47193 0,47257 0,47320 0,47381 0,47441 0,47500 0,47558 0,47615 0,47670
2
0,47725 0,47778 0,47831 0,47882 0,47932 0,47982 0,48030 0,48077 0,48124 0,48169
2,1
0,48214 0,48257 0,48300 0,48341 0,48382 0,48422 0,48461 0,48500 0,48537 0,48574
2,2
0,48610 0,48645 0,48679 0,48713 0,48745 0,48778 0,48809 0,48840 0,48870 0,48899
2,3
0,48928 0,48956 0,48983 0,49010 0,49036 0,49061 0,49086 0,49111 0,49134 0,49158
2,4
0,49180 0,49202 0,49224 0,49245 0,49266 0,49286 0,49305 0,49324 0,49343 0,49361
2,5
0,49379 0,493% 0,49413 0,49430 0,49446 0,49461 0,49477 0,49492 0,49506 0,49520
2,6
0,49534 0,49547 0,49560 0,49573 0,49585 0,49598 0,49609 0,49621 0,49632 0,49643
2,7
0,49653 0,49664 0,49674 0,49683 0,49693 0,49702 0,49711 0,49720 0,49728 0,49736
2,8
0,49744 0,49752 0,49760 0,49767 0,49774 0,49781 0,49788 0,49795 0,49801 0,49807
2,9
0,49813 0,49819 0,49825 0,49831 0,49836 0,49841 0,49846 0,49851 0,49856 0,49861
3
0,49865 0,49869 0,49874 0,49878 0,49882 0,49886 0,49889 0,49893 0,49896 0,49900
3,1
0,49903 0,49906 0,49910 0,49913 0,49916 0,49918 0,49921 0,49924 0,49926 0,49929
3,2
0,49931 0,49934 0,49936 0,49938 0,49940 0,49942 0,49944 0,49946 0,49948 0,49950
3,3
0.49952 0,49953 0,49955 0,49957 0,49958 0,49960 0,49961 0,49962 0,49964 0,49965
3,4
0,49966 0,49968 0,49969 0,49970 0,49971 0,49972 0,49973 0,49974 0,49975 0,49976
3,5
0,49977 0,49978 0,49978 0,49979 0,49980 0,49981 0,49981 0,49982 0,49983 0,49983
3,6
0,49984 0,49985 0,49985 0,49986 0,49986 0,49987 0,49987 0,49988 0,49988 0,49989
3,7
0,49989 0,49990 0,49990 0,49990 0,49991 0,49991 0,49992 0,49992 0,49992 0,49992
3,8
0,49993 0,49993 0,49993 0,49994 0,49994 0,49994 0,49994 0,49995 0,49995 0,49995
3,9
0,49995 0,49995 0,49996 0,49996 0,49996 0,49996 0,49996 0,49996 0,49997 0,49997
4
0,49997 0,49997 0,49997 0,49997 0,49997 0,49997 0,49998 0,49998 0,49998 0,49998

159
z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
4,1
0,49998 0,49998 0,49998 0,49998 0,49998 0,49998 0,49998 0,49998 0,49999 0,49999
4,2
0,49999 0,49999 0,49999 0,49999 0,49999 0,49999 0,49999 0,49999 0,49999 0,49999
4,3
0,49999 0,49999 0,49999 0,49999 0,49999 0,49999 0,49999 0,49999 0,49999 0,49999
4,4
0,49999 0,49999 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000
4,5
0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000
4,6
0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000
4,7
0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000
4,8
0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000
4,9
0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000
5
0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000
5,1
0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000
5 2
0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000
5,3
0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000
5,4
0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000
5,5
0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000
5,6
0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000
5,7
0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000
5,8
0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000
5,9
0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000
6
0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000 0,50000

Anexa 2.Valori critice ale lui t
N .05 .02 .01
6
0 - -
7
2 0 -
8
4 2 0
9
6 3 2
10
8 5 3
11
11 7 5
12
14 10 7
13
17 13 10
14
21 16 13
15
25 20 16
16
30 24 20
17
35 28 23
18
40 33 28
19
46 38 32
20
52 43 38
21
59 49 43
22
66 56 44
23
73 62 55
24
81 69 61
25
89 77 68

Surs: Table 1 din F. Wilcoxon, Some Rapid Approximate Statistical Procedures,
American Cyanamid Company, 1949, p. 13.
160
Anexa 3. Tabelul lui Fisher pentru determinarea semnificaiei lui t i z

Tabelul legii normale reduse

t anse din df 0,10 0,05 0,02 0,01
0,0 100 1 6,314 12,706 31,821 63,657
0,2 84 2 2,920 4,303 6,965 9,925
0,4 69 3 2,353 3,182 4,541 5,841
0,6 55 4 2,132 2,776 3,747 4,604
0,8 42 5 2,015 2,571 3,365 4,032
1,0 32 6 1,943 2,447 3,143 3,707
1,2 23 7 1,895 2,365 2,998 3,499
1,4 16 8 1,860 2,306 2,896 3,355
1,6 11 9 1,833 2,262 2,821 3,250
1,8 7 10 1,812 2,228 2,764 3,169
1,96 5.0 11 1,796 2,201 2,781 3,106
2,0 4,5 12 1,782 2,179 2,681 3,055
2,1 3,6 13 1,771 2,160 2,650 3,012
2,2 2,8 14 1,761 2,145 2,624 2,977
2,3 2,1 15 1,753 2,131 2,602 2,947
2,4 1,6 16 1,746 2,120 2,583 2,921
2,5 1,2 17 1,740 2,110 2,567 2,898
2,58 1,0 18 1,734 2,101 2,552 2,878
2,6 0,9 19 1,729 2,093 2,539 2,861
2,7 0,7 20 1,725 2,086 2,528 2,845
2,8 0,5 21 1,721 2,080 2,518 2,831
2,9 0,4 22 1,717 2,074 2,508 2,819
3,0 0,27 23 1,714 2,069 2,500 2,807
3,1 0,19 24 1,711 2,064 2,492 2,797
3,2 0,14 25 1,708 2,060 2,485 2,787
3,30 0.10 26 1,706 2,056 2,479 2,779
3,4 0,07 27 1,703 2,052 2,473 2,771
3,5 0,046 28 1,701 2,048 2,467 2,763
3,6 0,032 29 1,699 2,045 2,462 2,756
3,8 0,014 30 1,697 2,042 2,457 2,750
4,0 0,006 1,64485 1,95996 2,32634 2,57582
4,5 0,0006 df 0,10 0,05 0,02 0,01
5,0 0,00006 0,10 0,05 0,02

1. Probabilitatea (anse din 100) ca o 2. Tabelul lui Fisher de valori ale lui z
valoare a lui t s apar ntmpltor








161

Anexa 4. Tabelul valorilor critice pentru distribuia t Student (unilateral)

df = 0,10 = 0,05 = 0,025 = 0,01 = 0,005 =0,0005
1
3,078 6,314 12,706 31,821 63,657 636,620
2
1,886 2,920 4,303 6,950 9,925 31,598
3
1,638 2,353 3,182 4,541 5,841 12,924
4
1,533 2,132 2,776 3,747 4,604 8,610
5
1,476 2,015 2,571 3,365 4,032 6,869
6
1,440 1,943 2,447 3,143 3,707 5,959
7
1,415 1,895 2,365 2,998 3,499 5,408
8
1,397 1,860 2,306 2,896 3,355 5,041
9
1,383 1,833 2,262 2,821 3,250 4,781
10
1,372 1,812 2,228 2,764 3,169 4,587
11
1,363 1,796 2,201 2,718 3,106 4,437
12
1,356 1,782 2,179 2,681 3,055 4,318
13
1,350 1,771 2,160 2,650 3,102 4,221
14
1,345 1,760 2,145 2,624 2,977 4,140
15
1,341 1,753 2,131 2,602 2,947 4,073
16
1,337 1,746 2,120 2,583 2,921 4,015
17
1,333 1,740 2,110 2,567 2,898 3,965
18
1,330 1,734 2,101 2,552 2,878 3,922
19
1,328 1,729 2,093 2,539 2,861 3,883
20
1,325 1,725 2,086 2,528 2,845 3,850
21
1,323 1,721 2,080 2,528 2,831 3,819
22
1,321 1,717 2,074 2,508 2,819 3,792
23
1,319 1,714 2,069 2,500 2,807 3,767
24
1,318 1,711 2,064 2,492 2,797 3,745
25
1,316 1,708 2,060 2,485 2,787 3,725
26
1,315 1,706 2,056 2,479 2,779 3,707
27
1,314 1,703 2,052 2,473 2,771 3,690
28
1,313 1,701 2,048 2,467 2,763 3,674
29
1,311 1,699 2,045 2,462 2,756 3,659
30
1,310 1,697 2,042 2,457 2,750 3,646
40
1,303 1,684 2,021 2,423 2,704 3,551
60
1,296 1,671 2,000 2,390 2,660 3,460
120
1,289 1,658 1,980 2,358 2,617 3,373

1,282 1,645 1,960 2,326 2,576 3,291





162
Anexa 5. Valori critice ale testului t
df = N - 1 la testul t pentru un eantion, intervale de ncredere, i la testul t pentru eantioane
dependente (corelate); df = N
1
+ N
2
2 la testul t pentru dou eantioane independente.
Nivel de semnificaie pentru test bidirecional
(Pentru testul unidirecional procentajele se mpart pe jumtate)
10% 5% 2% 1%
df p = .10 p =.05 p =.02 p =.01
1 6.3138 12.7062 31.8207 63.6574
2 2.9200 4.3027 6.9646 9.9248
3 2.3534 3.1824 4.5407 5.8409
4 2.1318 2.7764 3.7469 4.6041
5 2.0150 2.5706 3.3649 4.0322
6 1.9432 2.4469 3.1427 3.7074
7 1.8946 2.3646 2.9980 3.4995
8 1.8595 2.3060 2.8965 3.3554
9 1.8331 2.2622 2.8214 3.2498
10 1.8125 2.2281 2.7638 3.1693
11 1.7959 2.2010 2.7181 3.1058
12 1.7823 2.1788 2.6810 3.0545
13 1.7709 2.1604 2.6503 3.0123
14 1.7613 2.1448 2.6245 2.9768
15 1.7531 2.1315 2.6025 2.9467
16 1.7459 2.1199 2.5835 2.9208
17 1.7396 2.1098 2.5669 2.8982
18 1.7341 2.1009 2.5524 2.8784
19 1.7291 2.0930 2.5395 2.8609
20 1.7247 2.0860 2.5280 2.8453
21 1.7207 2.0796 2.5177 2.8314
22 1.7171 2.0739 2.5083 2.8188
23 1.7139 2.0687 2.4999 2.8073
24 1.7109 2.0639 2.4922 2.7969
25 1.7081 2.0595 2.4851 2.7874
26 1.7056 2.0555 2.4786 2.7787
27 1.7033 2.0518 2.4727 2.7707
28 1.7011 2.0484 2.4671 2.7633
29 1.6991 2.0452 2.4620 2.7564
30 1.6973 2.0423 2.4573 2.7500
35 1.6869 2.0301 2.4377 2.7238
40 1.6839 2.0211 2.4233 2.7045
45 1.6794 2.0141 2.4121 2.6896
50 1.6759 2.0086 2.4033 2.6778
60 1.6706 2.0003 2.3901 2.6603
70 1.6669 1.9944 2.3808 2.6479
80 1.6641 1.9901 2.3739 2.6387
90 1.6620 1.9867 2.3685 2.6316
100 1.6602 1.9840 2.3642 2.6259
110 1.6588 1.9818 2.3607 2.6213
120 1.6577 1.9799 2.3598 2.6174
1.6449 1.9600 2.3263 2.5758

Surs: D.B. Owen, Handbook of Statistical Tables (1962), Reading, MA: Addison-Wesley, pp. 28-30.
Copyright 1962 by Addison-Wesley Publishing Company.
163

Anexa 6. Tabelul parial al distribuiei F pentru = 0,05


df
(within)
intra-
grup
df intergrup (between)

1

2

3

4

5

6

7

8

9

10
1
161,4476 199,5000 215,7073 224,5832 230,1619 233,9860 236,7684 238,8827 240,5433 241,8817
2
18,5128 19,0000 19,1643 19,2468 19,2964 19,3295 19,3532 19,3710 19,3848 19,3959
3
10,1280 9,5521 9,2766 9,1172 9,0135 8,9406 8,8867 8,8452 8,8123 8,7855
4
7,7086 6,9443 6,5914 6,3882 6,2561 6,1631 6,0942 6,0410 5,9988 5,9644
5
6,6079 5,7861 5,4095 5,1922 5,0503 4,9503 4,8759 4,8183 4,7725 4,7351
6
5,9874 5,1433 4,7571 4,5337 4,3874 4,2839 4,2067 4,1468 4,0990 4,0600
7
5,5914 4,7374 4,3468 4,1203 3,9715 3,8660 3,7870 3,7257 3,6767 3,6365
8
5,3177 4,4590 4,0662 3,8379 3,6875 3,5806 3,5005 3,4381 3,3881 3,3472
9
5,1174 4,2565 3,8625 3,6331 3,4817 3,3738 3,2927 3,2296 3,1789 3,1373
10
4,9646 4,1028 3,7083 3,4780 3,3258 3,2172 3,1355 3,0717 3,0204 2,9782
11
4,8443 3,9823 3,5874 3,3567 3,2039 3,0946 3,0123 2,9480 2,8962 2,8536
12
4,7472 3,8853 3,4903 3,2592 3,1059 2,9961 2,9134 2,8486 2,7964 2,7534
13
4,6672 3,8056 3,4105 3,1791 3,0254 2,9153 2,8321 2,7669 2,7144 2,6710
14
4,6001 3,7389 3,3439 3,1122 2,9582 2,8477 2,7642 2,6987 2,6458 2,6022
15
4,5431 3,6823 3,2874 3,0556 2,9013 2,7905 2,7066 2,6408 2,5876 2,5437
16
4,4940 3,6337 3,2389 3,0069 2,8524 2,7413 2,6572 2,5911 2,5377 2,4935
17
4,4513 3,5915 3,1968 2,9647 2,8100 2,6987 2,6143 2,5480 2,4943 2,4499
18
4,4139 3,5546 3,1599 2,9277 2,7729 2,6613 2,5767 2,5102 2,4563 2,4117
19
4,3807 3,5219 3,1274 2,8951 2,7401 2,6283 2,5435 2,4768 2,4227 2,3779
20
4,3512 3,4928 3,0984 2,8661 2,7109 2,5990 2,5140 2,4471 2,3928 2,3479
21
4,3248 3,4668 3,0725 2,8401 2,6848 2,5727 2,4876 2,4205 2,3660 2,3210
22
4,3009 3,4434 3,0491 2,8167 2,6613 2,5491 2,4638 2,3965 2,3419 2,2967
23
4,2793 3,4221 3,0280 2,7955 2,6400 2,5277 2,4422 2,3748 2,3201 2,2747
24
4,2597 3,4028 3,0088 2,7763 2,6207 2,5082 2,4226 2,3551 2,3002 2,2547
25
4,2417 3,3852 2,9912 2,7587 2,6030 2,4904 2,4047 2,3371 2,2821 2,2365
26 4,2252 3,3690 2,9752 2,7426 2,5868 2,4741 2,3883 2,3205 2,2655
2,2197
27
4,2100 3,3541 2,9604 2,7278 2,5719 2,4591 2,3732 2,3053 2,2501 2,2043
28
4,1960 3,3404 2,9467 2,7141 2,5581 2,4453 2,3593 2,2913 2,2360 2,1900
29
4,1830 3,3277 2,9340 2,7014 2,5454 2,4324 2,3463 2,2783 2,2229 2,1768
30
4,1709 3,3158 2,9223 2,6896 2,5336 2,4205 2,3343 2,2662 2,2107 2,1646
Not: Acest tabel este aplicabil pentru maximum 11 grupuri (df
Between
= 10 i df
Within
maxim = 30).





164

Anexa 7. Valori critice ale coeficientului de corelaie r al lui Pearson

Unilateral
p = 0,05 p = 0,25 p = 0,01 p = 0,005
Bilateral
df p = 0,10 p = 0,05 p = 0,02 p = 0,01
1
0,988 0,997 0,9995 0,9999
2
0,900 0,950 0,980 0,990
3
0,805 0,878 0,934 0,959
4
0,729 0,811 0,882 0,917
5
0,669 0,754 0,833 0,874
6
0,622 0,707 0,789 0,834
7
0,582 0,666 0,750 0,798
8
0,549 0,632 0,716 0,765
9
0,521 0,602 0,685 0,735
10
0,497 0,576 0,658 0,708
11
0,476 0,553 0,634 0,684
12
0,458 0,532 0,612 0,661
13
0,441 0,514 0,592 0,641
14
0,426 0,497 0,574 0,623
15
0,412 0,482 0,558 0,606
16
0,400 0,468 0,542 0,590
17
0,389 0,456 0,528 0,575
18
0,378 0,444 0,516 0,561
19
0,369 0,433 0,503 0,549
20
0,36 0,423 0,492 0,537
21
0,352 0,413 0,482 0,526
22
0,344 0,404 0,472 0,515
23
0,337 0,396 0,462 0,505
24
0,330 0,388 0,453 0,496
25
0,323 0,381 0,445 0,487
26
0,317 0,374 0,437 0,479
27
0,311 0,367 0,430 0,471
28
0,306 0,361 0,423 0,463
29
0,301 0,355 0,416 0,456
30
0,296 0,349 0,409 0,449
35
0,275 0,325 0,381 0,418
40
0,257 0,304 0,358 0,393
45
0,243 0,288 0,338 0,372
50
0,231 0,273 0,322 0,354
60
0,211 0,250 0,295 0,325
70
0,195 0,232 0,274 0,302
80
0,183 0,217 0,256 0,283
90
0,173 0,205 0,242 0,267
100
0,164 0,195 0,230 0,254

165

Anexa 8. Valori critice ale corelaiei r, df = N 2, unde N este numrul perechilor de scoruri.

df 5% 1% df 5% 1%
1
.997 1.000
24
.388 .496
2
.950 .990
25
.381 .487
3
.878 .959
26
.374 .478
4
.811 .917
27
.367 .470
5
.754 .874
28
.361 .463
6
.707 .834
29
.355 .456
7
.666 .798
30
.349 .449
8
.632 .765
35
.325 .418
9
.602 .735
40
.304 .393
10
.576 .708
45
.288 .372
11
.553 .684
50
.273 .354
12
.532 .661
60
.250 .325
13
.514 .641
70
.232 .302
14
.497 .623
80
.217 .283
15
.482 .606
90
.205 .267
16
.468 .590
100
.195 .254
17
.456 .575
125
.174 .228
18
.444 .561
150
.159 .208
19
.433 .549
200
.138 .181
20
.423 .537
300
.113 .148
21
.413 .526
400
.098 .128
22
.404 .515
500
.088 .115
23
.396 .505
1000
.062 .081

Surs: Table VII din Fisher and Yates: Statistical Tables for Biological, Agricultural and Medical
Research. Longman Group Ltd., London.













166
Anexa 9. Valorile coeficientului | r | pentru patru praguri de semnificaie
N

p=0,10

p=0,05

p=0,025

p=0,01
3
0,81 0,88 0,93 0,96
4
0,73 0,81 0,88 0,92
5
0,67 0,75 0,83 0,87
6
0,62 0,71 0,79 0,83
7
0,58 0,67 0,75 0,80
8
0,55 0,63 0,72 0,76
9
0,52 0,60 0,69 0,73
10
0,50 0,58 0,66 0,71
11
0,48 0,55 0,63 0,68
12
0,46 0,53 0,61 0,66
13
0,44 0,51 0,59 0,64
14
0,43 0,50 0,57 0,62
15
0,41 0,48 0,56 0,61
16
0,40 0,47 0,54 0,59
17
0,39 0,46 0,53 0,58
18
0,38 0,44 0,52 0,56
19
0,37 0,43 0,50 0,55
20
0,36 0,42 0,49 0,54
25
0,32 0,38 0,45 0,49
30
0,30 0,35 0,41 0,45
35
0,27 0,32 0,38 0,42
40
0,26 0,30 0,36 0,39
45
0,24 0,29 0,34 0,37
50
0,23 0,27 0,32 0,35

Anexa 10. Valori ale corelaiei rangurilor pentru dou praguri de semnificaie

Nr. perechi p=0,05

p=0,01
5
1,000 --
6
0,886 1,000
7
0,786 0,929
8
0,738 0,881
9
0,683 0,833
10
0,648 0,974
12
0,591 0,777
14
0,544 0,714
16
0,506 0,665
18
0,475 0,625
20
0,450 0,591
22
0,428 0,562
24
0,409 0,537
26
0,392 0,515
28
0,377 0,496
30
0,364 0,478
167

Anexa 11. Valorile critice pentru testul de corelaie a rangurilor (rho) al lui Spearman


N
Test unilateral
= 0,05 = 0,025 = 0,01 = 0,005
Test bilateral
= 0,10 = 0,05 = 0,02 = 0,01
5
0.900

6
0,829 0,886 0,943

7
0,714 0,786 0,893

8
0,643 0,738 0,833 0,881
9
0,600 0,683 0,783 0,833
10
0,564 0,648 0,745 0,794
11
0,523 0,623 0,736 0,818
12
0.497 0,591 0,703 0,780
13
0,475 0,566 0,673 0,745
14
0,457 0,545 0,646 0,716
15
0,441 0,525 0,623 0,689
16
0,425 0,507 0,601 0,666
17
0,412 0,490 0,582 0,645
18
0,399 0,476 0,564 0,625
19
0,388 0,462 0,549 0,608
20
0,377 0,450 0,534 0,591
21
0,368 0,438 0,521 0,576
22
0,359 0,428 0,508 0,562
23
0,351 0,418 0,496 0,549
24
0,343 0,409 0,485 0,537
25
0,336 0,400 0,475 0,526
26
0,329 0,392 0,465 0,515
27
0,323 0,385 0,456 0,505
28
0,317 0,377 0,448 0,496
29
0,311 0,370 0,440 0,487
30
0,305 0,364 0,432 0,478







168

Anexa 12. Tabelul lui Fisher de transformare a valorilor corelaiei r n scoruri z

r z r z r z r z
0,0000 0,0000 0,2600 0,2667 0,5200 0,5763 0,7800 1,0454
0,0100 0,0100 0,2700 0,2769 0,5300 0,5901 0,7900 1,0714
0,0200 0,0200 0,2800 0,2877 0,5400 0,6042 0,8000 1,0986
0,0300 0,0300 0,2900 0,2986 0,5500 0,6184 0,8100 1,1270
0,0400 0,0400 0,3000 0,3095 0,5600 0,6328 0,8200 1,1568
0,0500 0,0500 0,3100 0,3205 0,5700 0,6475 0,8300 1,1881
0,0600 0,0601 0,3200 0,3316 0,5800 0,6625 0,8400 1,2212
0,0700 0,0701 0,3300 0,3428 0,5900 0,6777 0,8500 1,2562
0,0800 0,0802 0,3400 0,3541 0,6000 0,6931 0,8600 1,2933
0,0900 0,0902 0,3500 0,3654 0,6100 0,7089 0,8700 1,3331
0,1000 0,1003 0,3600 0,3769 0,6200 0,7250 0,8800 1,3758
0,1100 0,1104 0,3700 0,3834 0,6300 0,7414 0,8900 1,4219
0,1200 0,1206 0,3800 0,4001 0,6400 0,7582 0,9000 1,4722
0,1300 0, 1307 0,3900 0,4118 0,6500 0,7753 0,9100 1,5275
0,1400 0, 1409 0,4000 0,4236 0,6600 0,7928 0,9200 1,5890
0,1500 0,1511 0,4100 0,4356 0,6700 0,8307 0,9300 1,6584
0,1600 0,1614 0,4200 0,4477 0,6800 0,8291 0,9400 1,7380
0,1700 0,1717 0,4300 0,4599 0,6900 0,8480 0,9500 1,8318
0,1800 0,1820 0,4400 0,4722 0,7000 0,8673 0,9600 1,9459
0,1900 0,1923 0,4500 0,4847 0,7100 0,8872 0,9700 2,0923
0,2000 0,2027 0,4600 0,4973 0,7200 0,9076 0,9800 2,2976
0,2100 0,2132 0,4700 0,5101 0,7300 0,9287 0,9900 2,6467
0,2200 0,2237 0,4800 0,5230 0,7400 0,9505
0,2300 0,2342 0,4900 0,5361 0,7500 0,9730
0,2400 0,2448 0,5000 0,5493 0,7600 0,9962
0,2500 0,2554 0,5100 0,5627 0,7700 1,0203









169
Anexa 13. Tabelul de transformare al lui r n note z

z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,07 0,08 0,09 z

0,0
0,0000 0,0100 0,0200 0,0300 0,0400 0,0500 0,0599 0,0699 0,0699 0,0699 0,0898
0,0
0,1
0,0997 0,1096 0,1191 0,1293 01391 0,1489 0,1586 0,1684 0,1684 0,1684 0,1877
0,1
0,2
0,1974 0,2070 0,2165 0,2260 0,2355 0,2449 0,2543 0,2636 0,2636 0,2636 0,2821
0,2
0,3
0,2913 0,3004 0,3095 0,3185 0,3275 0,3364 0,3452 0,3540 0,3540 0,3540 0,3714
0,3
0,4
0,3800 0,3885 0,3969 0,4053 0,4136 0,4219 0,4301 0,4382 0,4382 0,4382 0,4542
0,4

0,5
0,4621 0,4699 0,4777 0,4854 0,4930 0,5005 0,5080 0,5154 0,5154 0,5154 0,5299
0,5
0,6
0,5370 0,5441 0,5511 0,5580 0,5649 0,5717 0,5784 0,5850 0,5850 0,5850 0,5980
0,6
0,7
0,6044 0,6107 0,6169 0,6231 0,6291 0,6351 0,6411 0,6469 0,6469 0,6469 0,6584
0,7
0,8
0,6640 0,6696 06751 06805 0,6858 0,6911 0,6963 0,7014 0,7014 0,7014 0,7114
0,8
0,9
0,7163 0,7211 0,7529 0,7306 0,7352 0,7398 0,7443 0,7487 0,7487 0,7487 0,7574
0,9

1,0
0,7616 0,7658 0,7699 0,7739 0,7779 0,7818 0,7857 0,7895 0,7895 0,7895 0,7969
1,0
1,1
0,8005 0,8041 0,8076 0,8110 0,8144 0,8178 0,8210 0,8243 0,8243 0,8243 0,8306
1,1
1,5
0,8337 0,8367 0,8397 0,8426 0,8455 0,8483 08511 0,8538 0,8538 0,8538 0,8591
1,5
1,3
0,8617 0,8643 0,8668 0,8692 0,8717 0,8741 0,8764 0,8787 0,8787 0,8787 0,8832
1,3
1,4
0,8854 0,8875 0,8896 0,8917 0,8937 0,8957 0,8977 0,8996 0,8996 0,8996 0,9033
1,4

1,5
0,9051 0,9069 0,9087 0,9104 0,9121 0,9138 0,9154 0,9170 0,9170 0,9170 0,9201
1,5
1,6
0,9217 0,9232 0,9246 0,9261 0,9275 0,9289 0,9302 0,9316 0,9316 0,9316 0,9341
1,6
1,7
0,9354 0,9366 0,9379 0,9391 0,9402 0,9414 0,9425 0,9436 0,9436 0,9436 0,9458
1,7
1,8
0,94681 0,94783 0,94884 0,94983 0,95080 0,95175 0,95268 0,95359 0,95359 0,95359 0,95537
1,8
1,9
0,95624 0,95709 0,95792 0,95873 0,95953 0,96032 0,96109 0,96185 0,96185 0,96185 0,96331
1,9

2,0
0,96403 0,96473 0,96541 0,96009 0,96675 0,96739 0,96803 0,96865 0,96865 0,96865 0,96986
2,0
2,1
0,97045 0,97103 0,97159 0,97215 0,97269 0,97323 0,97375 0,97426 0,97246 0,97246 0,97526
2,1
2,2
0,97574 0,97622 0,97668 0,97714 0,97759 0,97803 0,97846 0,97888 0,97888 0,97888 0,97970
2,2
2,3
0,98010 0,98049 0,98087 0,98124 0,98161 0,98197 0,98233 0,98267 0,98267 0,98267 0,98335
2,3
2,4
0,98367 0,98399 0,98431 0,98462 0,98492 0,98522 0,98551 0,98579 0,98579 0,98579 0,98635
2,4

2,5
0,98661 0,98688 0,98714 0,98739 0,98764 0,98788 0,98812 0,98835 0,98858 0,98858 0,98881
2,5
2,6
0,98903 0,98924 0,98945 0,98966 0,98987 0,99007 0,90026 0,99045 0,99064 0,99064 0,99083
2,6
2,7
0,99101 0,99118 0,99136 0,99153 0,99170 0,99186 0,99202 0,99218 0,99233 0,99233 0,99248
2,7
2,8
0,99263 0,99292 0,99292 0,99306 0,99320 0,99333 0,99346 0,99359 0,99372 0,99372 0,99384
2,8
2,9
0,99396 0,99408 0,99420 0,99431 0,99443 0,99454 0,99464 0,99475 0,99485 0,99485 0,99495
2,9

z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,07 0,08 0,09 z







170

Anexa 14. Valorile critice pentru distribuia chi-ptrat (extras).


df
p
0,05 0,025 0,01
1
3,84 5,02 6,64
2
5,99 7,38 9,21
3
7,81 9,35 11,34
4
9,49 11,14 13,28
5
11,07 12,83 15,09
6
12,59 14,45 16,81
7
14,07 16,01 18,48
8
15,51 17,53 20,09
9
16,92 19,02 21,67
10
18,31 20,48 23,21
11
19,68 21,92 24,72
12
21,03 23,34 26,22
13
22,36 24,74 27,69
14
23,68 26,11 29,14
15
25,00 27,49 30,58
16
26,30 28,85 32,00
17
27.59 30,19 33,41
18
28,87 31,53 34,80
19
30,14 32,85 36,19
20
31,41 34,17 37,57
21
32,67 35,48 38,93
22
33,92 36,78 40,29
23 35,17 38,08 41,64
24
36,42 39,36 42,98
25
37,65 40,65 44,31
26
38,88 41,92 45,64
27
40,11 43,19 46,96
28
41,34 44,46 48,28
29
42,56 45,72 49,59
30
43,77 46,98 50,89
40
55,76 59,34 63,69
50
67,50 71,42 76,15
60
79,08 83,29 88,38
70
90,53 95,02 100,42
80
101,88 106,63 100,43
90
113,15 118,14 124,12
100
124,34 129,56 135,81




171

Anexa 15. Quantilele distribuei
2
, avnd probabilitatea 1 - p = de a fi depite (tabel extins)

0,995 0,99 0,975 0,95 0,9 0,1 0,05 0,025 0,01 0,005 0,001
1
0,0000 0,0002 0,0010 0,0039 0,0158 2,706 3,841 5,024 6,635 7,879 10,83
2
0,0100 0,0201 0,0506 0,1026 0,2107 4,605 5,991 7,378 9,210 10,60 13,82
3
0,072 0,115 0,216 0,352 0,584 6,251 7,815 9,348 11,34 12,84 16,27
4
0,207 0,297 0,484 0,711 1,064 7,779 9,488 11,14 13,28 14,86 18,47
5
0,412 0,554 0,831 1,145 1,610 9,236 11,07 12,83 15,09 16,75 20,51
6
0,676 0,872 1,237 1,635 2,204 10,64 12,59 14,45 16,81 18,55 22,46
7
0,989 1,239 1,690 2,167 2,833 12,02 14,07 16,01 18,48 20,28 24,32
8
1,344 1,647 2,180 2,733 3,450 13,36 15,51 17,53 20,09 21,95 26,12
9
1,735 2,088 2,700 3,325 4,168 14,68 16,92 19,02 21,67 23,59 27,88
10
2,156 2,558 3,247 3,940 4,865 15,99 18,31 20,48 23,21 25,19 29,59
11
2,603 3,053 3,816 4,575 5,578 17,28 19,68 21,92 24,73 26,76 31,26
12
3,074 3,571 4,404 5,226 6,304 18,55 21,03 23,34 26,22 28,30 32,91
13
3,565 4,107 5,009 5,892 7,041 19,81 22,36 24,74 27,69 29,82 34,53
14
4,075 4,660 5,629 6,571 7,790 21,06 23,68 26,12 29,14 31,32 36,12
15
4,601 5,229 6,262 7,261 8,547 22,31 25,00 27,49 30,58 32,80 37,70
16
5,142 5,812 6,908 7,962 9,312 23,54 26,30 28,85 32,00 34,27 39,25
17
5,697 6,408 7,564 8,672 10,09 24,77 27,59 30,19 33,41 35,72 40,79
18
6,265 7,015 8,231 9,390 10,86 25,99 28,87 31,53 34,81 37,16 42,31
19
6,844 7,633 8,907 10,12 11,65 27,20 30,14 32,85 36,19 38,58 43,82
20
7,434 8,260 9,591 10,85 12,44 28,41 31,41 34,17 37,57 40,00 45,31
21
8,034 8,897 10,28 11,59 13,24 29,62 32,67 35,48 33,93 41,40 46,80
22
8,643 9,542 10,98 12,34 14,04 30,81 33,92 36,78 40,29 42,80 48,27
23
9,260 10,20 11,69 13,09 14,85 32,01 35,17 38,08 41,64 44,18 49,73
24
9,886 10,86 12,40 13,85 15,66 33,20 36,42 39,36 42,98 45,56 51,18
25
10,52 11,52 13,12 14,61 16,47 34,38 37,65 40,65 44,31 46,93 52,62
26
11,16 12,20 13,84 15,38 17,29 35,56 38,89 41,92 45,64 48,29 54,05
27
11,81 12,88 14,57 16,15 18,11 36,74 40,11 43,19 46,96 49,65 55,48
28
12,46 13,56 15,31 16,93 18,94 37,92 41,34 44,46 48,28 50,99 56,89
29
13,12 14,26 16,05 17,71 19,77 39,09 42,56 45,72 49,59 52,34 58,30
30
13,79 14,95 16,79 18,49 20,60 40,26 43,77 46,98 50,89 53,67 59,70










172

Anexa 16. Tabelul valorilor critice pentru testul U Mann-Whitney

N
A
/N
B
5 6 8 10 12 14 16 18 20
3 0,05 0 1 2 3 4 5 6 7 8
0,01 - - - 0 1 1 2 2 3
4 0,05 1 2 4 5 7 9 11 12 14
0,01 - 0 1 2 3 4 5 6 8
5 0,05 2 3 6 8 11 13 I5 18 20
0,01 0 1 2 4 6 7 9 11 13
6 0,05 3 5 8 11 14 17 21 24 27
0,01 1 2 4 6 9 11 13 16 18
8 0,05 6 8 13 17 22 26 31 36 41
0,01 2 4 7 11 15 18 22 26 30
10 0,05 8 11 17 23 29 36 42 48 55
0,01 4 6 11 16 21 26 31 37 42
12 0,05 11 14 22 29 37 45 53 61 69
0,01 6 9 15 21 27 34 41 47 54
14 0,05 13 17 26 36 45 55 64 74 83
0,01 7 11 18 26 34 42 50 |58 67
16 0,05 15 21 31 42 53 64 75 86 98
0,01 9 13 22 31 41 50 60 70 79
18 0,05 18 24 36 48 61 74 86 99 112
0,01 11 16 26 37 47 58 70 81 92
20 0,05 20 27 41 55 69 83 98 112 127
0,01 13 18 30 42 54 67 79 92 105















173

Anexa 17. Valorile critice pentru testul Wilcoxon

Nivel de semnificaie pentru test unilateral
0,025 0,01 0,005
Nivel de seminficaie pentru test bilateral
0,05 0,02 0,01
7
2 0 -
8
4 2 0
9
6 3 2
10 8 5 3
11 11 7 5
12
14 10 7
13
17 13 10
14
21 16 13
15
25 20 16
16
30 24 20
17
35 28 23
18
40 33 28
19
46 38 32
20
52 43 38
21
59 49 43
22
66 56 49
23
73 62 55
24
81 69 61
25
89 77 68












174

Anexa 18. Funcia de repartiie normal standard N (0, l)

z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0
0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2
0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3
0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4
0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5
0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6
0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7
0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8
0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9
0,6159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0
0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1
0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2
0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3
0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4
0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5
0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6
0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7
0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8
0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9
0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0
0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1
0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2
0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3
0,9893 0,9896 0,9893 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4
0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5
0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6
0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7
0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8
0,9974 0,3975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9
0,9981 0,9982 0,9932 0,9983 0,9984 0,9984 0,9965 0,9985 0,9986 0,9986
3,0
0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1
0,9990 O.S991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2
0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,3
0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,4
0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998







175

GLOSAR DE SIMBOLURI I FORMULE DE CALCUL


CAPITOLUL 3. DISTRIBUII I FRECVENE

Simboluri i semnificaia lor
X un scor; n general X este simbolul variabilei
f frecvena unui scor
f
b
frecvena brut
f
r
frecvena relativ (rezult prin transformare procentual a f
b
)
fc frecven cumulat
f
bc
frecven brut cumulat
f
rc
frecven relativ cumulat
X
min
cea mai mic valoare de scor
X
max
cea mai mare valoare de scor
i mrimea unui interval de grupare
C
i
centrul de interval
l
i
limita inferioar a unui interval
l
s
limita superioar a unui interval
p valoarea procentual a unei frecvene
AI=Range amplitudinea mprtierii unei distribuii


CAPITOLUL 4. INDICATORI AI TENDIEI CENTRALE

Simboluri i semnificaia lor
Mo modul
Md mediana
media eantionului
media populaiei
sum de ceea ce urmeaz
deviaia unui scor de la medie
X
X X
176
Formule
Formula mediei pentru date negrupate

Formula mediei pentru date grupate

Formule pentru determinarea medianei


CAPITOLUL 5. MSURI ALE VARIABILITII

Simboluri i semnificaia lor
AI=R amplitudinea mprtierii unei distribuii
Q
1
, Q
2
, Q
3
cuartilul unu, doi i trei
IQR abaterea intercuartilic
AQ abaterea cuartilic
1,5 IQR criteriu de detectare a valorilor atipice (outlieri)
AS=SD abterea standard
abaterea standard a populaiei
s abaterea standard a eantionului

2
dispersia sau variana populaiei
s
2
dispersia sau varian eantionului
z scoruri standard; scoruri sau note z

Formule
Formula pentru Amplitudinea mprtierii AI = R (Range) = X
max
X
min


Formula petru abaterea de la medie pentru date negrupate

Formula petru abaterea de la medie pentru date grupate

Formula varianei pentru date negrupate

Formula varianei pentru date grupate

N
X
X
E
=
N
X k
X

=
2
1 +
=
N
Md
i
c i
f
i
f
N
l Md + = )
2
(
N
X X
AM
E
=
N
X X k
AM
E
=
1
) (
2
2
2

E
E
=
N
N
X
X
s
1
) (
2
2
2

E
E
=
N
N
fX
fX
s
177
Formula abaterii standard pentru date negrupate


Formula abaterii standard pentru date negrupate


Formul pentru determinarea lui z din date brute

Formul de determinare a scorurilor brute din z

CURSUL 6. INFERENA STATISTIC

Simboluri i semnificaia lor
p probabilitatea de eroare
p(A) probabilitatea de a se produce evenimentul A
p(A sau B) probabilitatea de a se produce evenimentul A sau B
p(A, B) probabilitatea de a se produce evenimentul A i B
X 1,96 interval de ncredere pentru p = .05
X 2,58 interval de ncredere pentru p = .01
ES=S
X
eroarea standard
E
p
=S
p
eroarea standard a unui cuantum procentual
H
0
ipoteza de nul
H
1
ipoteza de cercetare
df grade de libertate (degree of freedom)
CI interval de ncredere (Confidence Interval)
nivelul alfa la care se testeaz H
0
t valoarea testului t de semnificaie
valoarea testului t de semnificaie a diferenei dintre dou medii
t
cal
t calculat
t
crit
t critic din tabel (t tabelar)
eroarea standard a mediei populaiei
eroarea standard a unei medii estimate
eroarea standard a diferenei dintre dou medii estimate.
1
) (
2
2

E
E
=
N
N
fX
fX
s
1
) (
2
2

E
E
=
N
N
X
X
s
. X z X + = o
o
X X
z

=
X
o
X
s
2 1
X X
t

2 1
X X
s

178
Formule
Eroarea standard a unei medii de selecie
1
= =
N
s
S ES
X

Testul t pentru dou eantioane independente
2
1
2 1
2 1
X X
x x
s
X X
t


=
Testul t pentru dou eantioane independente
2
2
2
1
2
1
2 1
N
s
N
s
X X
t
+

=
Testul t pentru dou eantioane independente (dispersii egale, cumulate)

|
|
.
|

\
|
+
(

+
+

=
2 1 2 1
2
2 2
2
1 1
2 1
1 1
2
) 1 ( ) 1 (
N N N N
s N s N
X X
t

Testul t al lui Fisher pentru dou medii necorelate
|
|
.
|

\
| +
|
|
.
|

\
|
+
E + E

=
2 1
2 1
2 1
2
2
2
1
2 1
2 N N
N N
N N
X X
X X
t

Testul t pentru diferena a dou eantioane corelate
A
A
=
S
t
N
s
X
t
A

=


Testul t pentru un cuantum procentual
2
2 2
1
1 1
2 1
N
q p
N
q p
p p
t
+

=


CAPITOLUL 7. STUDIUL ASOCIERII DINTRE VARIABILE PRIN CORELAIE

Simboluri i semnificaia lor
r corelaia Pearson prin momentul produselor
corelaia Spearman prin metoda rangurilor (rho)
r
bis
coeficient de corelaie biserial
r
punctbis
coeficient de corelaie punct-biserial
r
tris
coeficient de corelaie triserial
R coeficient de corelaie multipl
179
coeficientul de corelaie fi
W coeficientul de corelaie Kendall
z
x
, z
y
scorurile z pentru variabilele X i Y
r
2
,
2
coeficienii de determinare ai lui r, respectiv
d diferena dintre perechile de ranguri din formula lui rho

Formule
Formula de definiie a corelaiei r


Formula de calcul a corelaiei r


Formula pentru corelaia rangurilor rho


CAPITOLUL 8. UTILIZAREA PREDICTIV A ASOCIERII DINTRE VARIABILE
REGRESIA LINIAR SIMPL I MULTIPL

Simboluri i semnificaia lor
^Y valoarea estimat pentru variabila Y de la variabila X
(^Y Y) reziduale (suma diferenelor dintre Y obinut i cel prezis)
b panta; schimbarea ce se produce la variabila Y cnd X se schimb cu o unitate.
a interceptul (valoare lui Y cnd X este zero)
B coeficient de regresie nestandardizat
coeficient de regresie standardizat

Formule
^Y = B
0
+ B
1
X
^Y = B
0
+ B
1
X
1
+ B
2
X
2
+ ... + B
n
X
n

z
y
= r z
x



| | | | ) ( ) (
2 2 2 2
Y Y N X X N
Y X XY N
r
XY
E E E E
E E E
=
2 2
) ( ) (
) )( (
Y Y X X
Y Y X X
r
XY
E E
E
=
) 1 (
6
1
2
2

E
=
N N
d

x
y
r B
o
o
=
1
x B y B
1 0
=
2
)

(
2

E
=

N
Y Y
s
Y Y
180
CAPITOLUL 9. TESTAREA IPOTEZELOR PRIN TEHNICA CHI-PTRAT (_
2
)
_
2
valoarea testului chi-ptrat
_
2
calc
chi-ptrat calculat
_
2
critic
chi-ptrat critic
R numr de rnduri
C numr de coloane
f
o
frecvena observat
f
e
frecvena expectat
df grade de libertate
coeficientul fi, folosit ca mrime a efectului

Cramer
coeficientul de corelaie fi al lui Cramer

Formule
Formula distribuiei chi-ptrat

Formula de calcul pentru chi-ptrat
Mrimea efectului fi i fi al lui Cramer

Formul pentru gradele de libertate df = (R-1)(C-1)


CAPITOLUL 10. TESTE DE SEMNIFICAIE NEPARAMETRICE
Simboluri i semnificaia lor
U testul Mann-Whitney pentru eantioane independente
U valoarea testuluiMann-Whitney pentru cellalt eantion din pereche
N
1
, N
2
numrul de subieci din primul i din al doilea grup
R
1
, R
2
suma rangurilor pentru primul, respectiv cel de al doilea grup
d diferena dintre perechi la testul Wilcoxon
T suma rangurilor la semnul cel mai mic la testul Wilcoxon
H analiza de varian neparametric Kruskal-Wallis
N
i
numrul de observaii
e
e o
f
f f
2
2
) (
E = _
) 1 (
2

=
L N
Cramer
_

N
2
_
=
Q P N
P N X
z


=
) (
2
181
R
i
suma rangurilor opentru un eantion
k numrul de eantioane

F
2
testul Friedman pentru eantioanem corelate

Formule
Formula pentru testul U Mann-Whitney

Formula lui U pentru testul Mann-Whitney

Scorurile z pentru U cu eantioane mari



Scorurile z pentru T cu eantioane mari



Formula pentru testul Kruskal-Wallis


Formula testului Friedman










1
1 1
2 1
2
) 1 (
R
N N
N N U
+
+ =
U N N U =
2 1
'
12
) 1 (
2
2 1 2 1
2 1
+ +

=
N N N N
N N
U
z
24
) 1 2 )( 1 (
4
) 1 (
+

=
N N N
N N
T
z
) 1 ( 3
) 1 (
12
2
+ E
+
= N
N
R
N N
H
i
i
) 1 ( 3
) 1 (
12
2 2
+ E
+
= k N R
k Nk
i F
_
182

SERIA PSIHOLOGIE




Au aprut:

Elena Cocorad Didactica psihologiei
Aurel Ion Clinciu Statistici multivariate pentru psihologie
Ana-Maria Cazan Strategii de autoreglare a nvrii
Aurel Ion Clinciu Statistici aplicate n psihologie



n pregtire: