Explorați Cărți electronice
Categorii
Explorați Cărți audio
Categorii
Explorați Reviste
Categorii
Explorați Documente
Categorii
S TAT I S T I C
APLI C AT N
PSIHOLOGIE
Cuprins
Cuvnt nainte .................................................................................................................
Capitolul 1. Introducere
1.1. Scurt istoric al statisticii ....................................................................................
1.2. Obiectivele statisticii .
1.3. Cteva concepte cheie ale demersului statistic .................................................
1.4. Exerciii i aplicaii practice ..............................................................................
10
12
13
17
19
20
20
20
21
21
21
22
23
24
25
26
27
28
31
31
31
34
35
37
39
40
44
47
48
50
51
52
56
57
59
60
63
64
65
65
66
68
69
70
71
71
72
75
76
76
77
80
82
85
88
90
92
94
94
95
determinare ...............................................................................................................
7.7. Ali coeficieni de corelaie ...............................................................................
7.7.1. Coeficienii de corelaie biseriali i triseriali .......................................
7.7.2. Ali coeficieni de corelaie ...................................................................
7.8. Utilizrile coeficientului de corelaie ................................................................
7.9. Exerciii i aplicaii practice ............................................................................
7.10. Quiz .................................................................................................................
97
97
98
100
101
103
104
106
107
112
112
114
116
116
117
119
120
122
122
124
130
131
133
134
137
138
141
142
145
146
147
149
Bibliografie .................................................................................................................
152
155
175
182
Cuvnt nainte
Prezena Statisticii ca materie obligatorie la tiinele socio-umane, n spe la
specializarea Psihologie, este justificat printre altele de faptul c eafodarea acesteia ca
tiin a depins n mod esenial de ncorporarea experimentului - i implicit a msurtorii - ca
metod de baz n constituirea corpului su de cunotine i legi. Pe de alt parte, naterea
psihologiei aplicate i extinderea sa pervaziv spre toate domeniile socialului nu ar fi fost
posibil fr apelul la cuantificare, msurtoare i cifr. Deci att psihologul practician, care
colecteaz, stocheaz i prelucreaz n mod constant date cantitative, ct i cel din spaiul
academic, care trebuie s fie la zi cu cercetarea tiinific din domeniul su, ca i din cele
conexe (medicin, biologie, sociologie au tiinele educaiei), trebuie s aib cel puin o
iniiere, dac nu chiar o formare solid n domeniul Statisticii, fr de care nu se poate pstra
contactul cu progresele tiinei.
Apare astfel ca inexplicabil rezistena activ i rezerva aproape ostil a studentului de
la tiinele socio-umane fa de Statistic, care vede adesea n acest obiect de studiu ceva ce ar
contraveni chiar dimensiunii umaniste a tiinei n care el se iniiaz. Exist multe explicaii
plauzibile pentru faptul semnalat. Una dintre cele mai plauzibile ar fi aceea c studenii de la
Psihologie, Pedagogie, Sociologie sau Asisten social au o formaie iniial umanist, cu un
grad de elaborare i consolidare mai sczute a conceptelor i deprinderilor intelectuale de tip
matematic. Acest fapt poate produce din start o rezerv fa de abordrile de tip cantitativ. Pe
de alt parte, progresele incredibile din ultimele decenii n domeniile metodologiei i al
prelucrrii datelor fac ca centrarea pe metodele statistice elementare s nu mai fie deloc
suficient pentru a ine pasul cu evoluiile din domeniu, ceea ce transform n mod obligatoriu
Statistica ntr-un obiect de studiu al nvrii permanente.
n cel de al treilea rnd extinderea progresiv, uneori exploziv, a arsenalului de
metode statistice genereaz tot mai mari dificulti de mai pstra unitatea intern i
perspectiva coerent asupra corpului su de cunotine. n cazul n care se nzuiete spre acest
lucru, alocarea permanent de resurs cognitiv pentru a menine n priz domeniul statistic
devine o condiie intrinsec a progresului i evoluiei n carier. Tendina la entropie a
informaiei ce intr n sistemul cognitiv uman, adic la uniformizare i la tergere a
diferenelor specifice, ca urmare a marii varieti de tehnici i procedee ce apar fr ncetare
n cadrul acestei tiine att de dinamice i evolutive, poate genera sentimentul c Statistica
este unul dintre principalii contributori la imperialismul metodologic din tiin.
bivariat. Acest capitol face doar trimiteri la regresia multivariat, rmnnd cantonat
preponderent n zona regresiei simple, deoarece regresia multipl depete nivelul iniierii
statistice, fiind greu de prezentat fr cunotine avansate i fr apelul la programe puternice
de tratare a datelor. Ultimele dou capitole trimit la testarea ipotezelor statistice prin teste
neparametrice, aplicabile datelor nominale i categoriale, cum sunt testele chi-ptrat, ManWhitney, Wilcoxon, Kruskal-Wallis sau Friedman. Aa cum se poate cu uurin observa,
lucrarea a acordat un spaiu amplu testrii ipotezelor statistice, fiind prezentat aproape toat
gama procedeelor tehnice destinate acestui scop. Nu am inclus aici i tehnicile analizei de
varian ANOVA care, prin multitudine i complexitate, fac obligatoriu apel la un program
automat de prelucrare computerizat a datelor, fiind mai potrivit s fie incluse n volumul
destinat statisticilor multivariate. Menionm de asemenea c am preferat s prezentm toate
metodele de testare a ipotezelor incluse n acest volum fr a face n nici un fel apel la
resursele SPSS cci acest lucru face obiectul unui curs special cu aceast misiune.
Fiind destinat nceptorului, lucrarea de fa a ncercat s in cont maximal de
principiul accesibilitii, prin simplificarea discursului teoretic i prin reliefarea constant mai
ales a informaiei utile. Pe de alt parte, o lege a nvrii leag temeinicia i calitatea acesteia
de calitatea i profunzimea interaciunii cu materialul de nvat. Pentru a facilita centrarea pe
aspectele aplicative toate capitolele, inclusiv cel introductiv, sunt nsoite de exerciii i
aplicaii practice, de teste rapide de verificare a cunotinelor (quiz, pstrnd terminologia
englez) i de un test final de sintez i evaluare de ansamblu, destinat autoverificrii stadiului
atins n nvarea statisticilor introductive. Pentru majoritatea acestor aplicaii practice s-au
oferit soluiile problemelor propuse, nsoite deseori de explicaii adiionale care s contribuie
la mai buna lor nelegere. Astfel, o seciune final a lucrrii ofer soluia rezolvrii corecte a
majoritii problemelor prezentate cu scop de autoevaluare la sfritul fiecrei uniti de curs.
Lucrarea de fa i are continuarea ntr-un al doilea volum, destinat deprinderii i
perfecionrii n utilizarea procedurilor computerizate de prelucrare a datelor cu SPSS, dar i
de un al treilea volum, destinat prezentrii statisticilor avansate (Statistici multivariate pentru
psihologie). Ordinea apariiei lor editoriale nu este cea din secvena prezentat anterior, acest
volum introductiv fiind eleaborat ultimul, complexitatea i mai ales miza lui pedagogic
deosebit genernd cele mai mari probleme de elaborare i editare. n felul acesta se poate
vorbi de o trilogie statistic, ce se constituie ntr-un ghid complex de monitorizare a
formrii i perfecionrii n domeniul abordrilor de tip cantitativ. Feedback-ul primit din
partea principalului sau utilizator, studentul, va contribui la mbuntirea calitii acestui
volum, motiv pentru care sugestiile utilizatorilor sunt ateptate cu real i legitim interes.
8
CAPITOLUL 1
INTRODUCERE
naionale de statistic din timpurile moderne. De altfel, chiar i etimologic statistic pleac de
la status, care poate fi interpretat att ca stare de fapt, ct i ca stat, deci statistica ar putea fi
considerat o tiin de stat. Aceasta corespunde i etimologiei propuse de cel considerat a fi
introdus termenul de statistic, Achenwall.
Corespondena susinut dintre Pascal i Fermat (1654) a stat la baza fundamentrii
unei teorii matematice asupra verosimilitii, n timp ce cooperarea mai tardiv dintre Gauss i
Laplace (1809-1812) s-a concretizat n conceptul de distribuie normal (clopotul lui Gauss).
Dei problemele demografice i economice au fost primordiale n conturarea
obiectului statisticii, contactul psihologiei cu aceast tiin avea s fie fundamental pentru
destinul ei. Iat cteva aspecte mai semnificative:
Cel care a introdus psihologia n registrele de stare civil, dup inspirata expresie a
lui Pavelcu, n anii 1730 i 1732, Christian Wolff (prin lucrrile Psihologia empirica i
Psihologia rationalis) anticipa chiar de atunci necesitatea existenei unei subramuri
matematice a acesteia, pe care el a numit-o, inspirat, psihometrie. Dei termenul va
cpta o cu totul alt semnificaie la cei care au studiat fenomenele paranormale n
Anglia secolului al XIX-lea (care au i creat o Societate Regal de Psihometrie),
sensul iniial va fi cel care se va impune, prin ncercrile lui Galton i Binet de a
dezvolta domeniile aplicative ale psihologiei, indestructibil legate de un aparat
matematic de tip statistic.
Este meritul unui astronom belgian, Qutelet (1796-1874) de a fi extins aplicarea unor
legi ale statisticii, cum ar fi legea distribuiei normale sau binomial, derivat din
luarea n considerarea distribuiilor probabiliste, spre alte domenii dect cele sociale,
aici incluzndu-se i cele psihologice.
Galton, iniiatorul colii psihometrice engleze (al crei punct forte va fi chiar ideea de
msurtoare i cuantificare a faptului psihic) a creat metode statistice de abordare a
legilor ereditii (metoda gemenilor i a genealogiilor, de exemplu), avndu-i ca
succesori pe Pearson, teoreticianul metodei corelaiei prin metoda produselor (1896),
pe Spearman, creatorul metodei corelaiei prin metoda rangurilor i ntemeietorul
analizei factoriale (1904). Continuatorii acestora (Fisher, Burt i Vernon) vor merge
mai departe pe liniile de for ale colii engleze de statistic, considerat principala
contributoare n conturarea domeniului
10
11
Aceasta face foarte dificil trasarea unei linii de demarcaie dintre matematic i statistic.
Dei nu are un referenial empiric anume (ea propundu-i s stabileasc regula general
aplicabil, indiferent de domeniul realitii de care se ocup) statistica coboar totui din
planul general abstract (matematica rmnnd cantonat n turnul de filde al propriilor sale
abstracii), avnd un caracter aplicativ mult mai explicit, deoarece i propune s rezolve
probleme concrete.
Mai mult, demersul statistic nu este posibil fr materia prim a datelor colectate
anterior, ntr- o direcie n care prelucrarea i interpretarea datelor este doar o parte a
secvenei, adic cea mai tehnic i mai specializat. S nu uitm totui c momentul creator al
cercetrii tiinifice, scnteia sau impulsul iniial sunt date de conturarea ipotezei specifice.
Apoi, sesizarea semnificaiei datelor prelucrate nu este posibil fr o solid cultur a
domeniului n care sunt aplicate metodele statistice. Psihologul, pedagogul, sociologul sau
economistul sunt cei care valorific rezultatele tehnice pe care le ofer statistica sau
statisticienii.
1.3. Cteva concepte cheie ale demersului statistic
Termenul de populaie statistic, alctuit din indivizi statistici, care pot fi persoane,
fapte, entiti fizice etc. a fost deja definit anterior. El nu este sinonim cu cel de populaie din
limbajul comun.
Cum tot ceea ce exist, n plan fizic sau ideal, are o mulime de determinri i de
atribute ce nu pot fi cuprinse i analizate simultan, separat sau exhaustiv, sunt selectate doar o
parte dintre acestea, limitarea fiind impus i de mijloacele de care dispunem la un moment
dat. Asfel, indivizii umani se pot diferenia n funcie de vrst, sex, mediu de provenien,
nivelul propriu de instrucie sau al prinilor, status cultural, nivel economic, religie, ras,
etnie etc. Fiecare dintre aceste criterii care opereaz diferene se numete variabil, deoarece
n absena lor oamenii ar fi identici.
Unele variabile sunt discontinue (discrete), cum ar fi sexul (masculin, feminin),
mediul (urban, suburban, rural); altele sunt continue (nlimea, greutatea, vrsta). Mulimea
valorilor pe care le poate lua o caracteristic particular constituie distribuia variabilei
respective. Fiecare populaie are propria sa distribuie pentru fiecare variabil. De exemplu
tim c la natere raportul dintre biei i fete este de aproximativ de 52 la 48 de procente,
pentru ca acesta s se inverseze dup primii ani de via din cauza vulnerabilitii, i implicit a
mortalitii mai mari n rndul sexului masculin. La vrsta a treia acest raport se
dezechilibreaz i mai mult, femeile avnd o speran de via cu aproape 10 ani mai mare
12
dect brbaii. Deci aceeai populaie are, n trei momente diferite ale existenei sale, trei
distribuii diferite, n funcie de aceeai caracteristic, apartenena de gen.
Parametrii sunt valorile fixe ce exist la un moment dat pentru o populaie, luat n
ansamblul ei, n raport cu o variabil. Ideea de variabil este strns asociat cu aceea de
cuantificare, msurtoare, ca mijloc de determinare a variabilitii. Orice msurtoare
presupune, la rndul ei, o scal de msurare. Toate aceste elemente: individ, populaie
statistic, variabil, distribuie definesc domeniul statisticii descriptive, alctuit din corpul
de metode prin care pot fi caracterizate faptele i fenomenele studiate.
Dar statistica a tins de la nceputuri spre numerele mari, spre populaiile extinse, a
cror cuprindere i descriere detaliate sunt adesea imposibile, din cauza costurilor pe care lear antrena. Chiar i atunci cnd acest lucru ar fi tehnic posibil, investigaiile i prelucrrile ar
presupune perioade mari de timp, care este el nsui o mare surs de variabilitate, antrennd
modificri nsemnate ale multor variabile. Soluia gsit este statistica inferenial, un
ansamblu de tehnici i de metode (de eantionare, de selecie etc.), prin care estimrile fcute
asupra unui numr mai mic de entiti ce compun populaia de ansamblu sunt extrapolate
asupra acestei populaii, n limite de ncredere rezonabile. Acest domeniu al statisticii este
extrem de utilizat de sociologie (metoda anchetei pe baz de chestionar sau a sondajelor de
opinie fiind doar dou exemple). Dac vom lua n considerare faptul c instrumentul de baz
al psihodiagnozei, testul psihologic, este etalonat pe populaii reprezentative zonal sau
naional, vom vedea c statistica inferenial are importante utilizri i n psihologie.
Statistica inferenial presupune alte cteva concepte care o circumscriu. Eantionul
este o parte, redus ca numr, din populaia statistic de baz care, atunci cnd este extras
corect, permite estimaia parametrilor acestei populaii, adic o aproximare a valorii reale a
acestora n limite de ncredere ce pot fi determinate. O ndelung practic social a dus la
dezvoltarea cu precdere a statisticii infereniale, i aceasta din mai multe motive:
Utilizarea ei extensiv, pentru un numr tot mai mare de beneficiari: ageni economici,
organizaii, partide, guverne etc., n scopuri diagnostice, dar i prognostice, care
fundamenteaz decizii de o mare importan social.
Rafinarea progresiv a tehnicilor, ceea ce a fcut ca marja de eroare s fie tot mai
mic, astfel nct predicia pe eantioane mici s poat fi extrapolat la populaii
statistice foarte mari.
13
variana. Distribuia n sine poate fi judecat din punctul de vedere al formei (simetrie sau
boltire, adic skewness i kurtosis, n englez). Toate aceste noiuni, unele dintre ele derivate
din teoria probabilitilor, prin care sunt fundamentate matematic valorile tipice ale
variabileleor, dar i repartiiile de diverse tipuri, contureaz mai exact domeniul statisticii
descriptive.
Statistica inferenial, pe lng conceptele deja amintite (populaie, eantion
eantionare, estimare), include i testarea ipotezelor statistice. n capitole distincte, statistica
trateaz corelaia, asocierea datelor calitative i cantitative, analiza dispersional, unifactorial
sau bifactorial, analiza factorial i analiza de cluster. Cursul de fa este unul de iniiere, n
consecin el va acoperi doar o parte dintre problemele enunate, adic elementele care
fundamenteaz cunoaterea statistic n scopul aplicaiilor ei la situaii uzuale, comune.
Pentru atingerea acestui obiectiv avem n vedere dou aspecte importante:
comprimarea la minimum a prii de ntemeiere matematic a subiectelor tratate, problem
care rmne n grija teoreticienilor statisticii, adic a celor ce contureaz dimensiunea
savant, tiinific a domeniului; permanenta preocupare de a oferi situaii sau aplicaii
concrete, pentru a evidenia puterea real a procedeelor de lucru prezentate. n fond, acest curs
se adreseaz n principal studenilor de la psihologie i pedagogie, cel mai adesea avnd o
dominant umanist a formaiei i pregtirii lor. Intenia noastr a fost aceea de a nu-i inhiba
cu demonstraii abstracte, de factur matematic, ci de a-i familiariza cu cele mai des ntlnite
aplicaii statistice, prin care s fie capabili s-i valorifice cercetrile proprii. Cursul are de
asemenea n vedere practicianul din aceste domenii, cel care, dup ce acumuleaz o cantitate
de date brute prin teste sau chestionare, tinde s le valorifice sau s le gestioneze mai bine.
Aplicaiile speciale sau savante ale statisticii presupun, pe lng aceast iniiere,
stagii de pregtire mai avansate, susinute de programe computerizate (SPSS, SAS sau
NCSS). Extraordinara lor putere de lucru, precizia, elegana, multitudinea opiunilor i alte
faciliti de acerst gen par a transforma o ntreag evoluie a domeniului (i procedee de lucru
altdat extensiv utilizate) n istorie. Susinem ns opinia potrivit creia sensul acestor
aplicaii computerizate nu poate fi dedus fr o cultur a domeniului, fr un stagiu prealabil
de iniiere dup procedeele i cu mijloacele clasice (creion, caiet de matematic, rigl,
minicalculator cu panou de lucru statistic), prin care vom deslui cele mai importante aplicaii
statistice n situaiile curente. Saltul spre puternicele programe computerizate va fi astfel mult
facilitat, deoarece vom ti ce s cerem computerului, la ce tip de prelucrri s facem apel i ce
relevan vor avea datele pe care acesta ni le ofer cu generozitate.
15
16
17
18
CAPITOLUL 2
MSURAREA
ORGANIZAREA COLECIEI DE DATE
19
Din punct de vedere matematic msurarea este o operaie prin care fiecrui element
din mulimea de obiecte (domeniul de definiie al variabilei) i se ataeaz un numr i numai
unul din mulimea n care aceasta ia valori (domeniul variabilei). Se stabilete astfel o relaie
de izomorfism ntre mulimea obiectelor i mulimea msurilor obiectelor, fiecare obiect fiind
definit de o singur msur.
Sistemul de reguli impus de teoria i practica din domeniu definete mai multe tipuri
de msurare n funcie de tipul de scal utilizat: nominal, ordinal, de interval i de raport.
Alegerea celui mai potrivit tip de scal este impus de numrul i mai ales de tipul de relaii
existente ntre elementele investigate, dar toate caracteristicile unei scale de rang inferior se
regsesc la cele de ordin superior. n plus, fiecare scal permite doar anumite operaii i
procedee matematice. Cu ct este mai sus n aceast ierarhie, cu att ea este mai precis,
permind prelucrri statistice mai complexe i implicit concluzii mai fundamentate
matematic.
2.2. Proprietile scalelor
Exist trei proprieti care fac ca scalele de msurare s difere ntre ele: magnitudinea
intervalele egale i zero absolut.
2.2.1. Magnitudinea
O scal are aceast proprietate cnd putem spune c o caracteristic a atributului
msurat reprezint mai mult, mai puin sau la fel (tot att, adic egal) o cantitate sau nsuire,
comparativ cu o alt stare a aceluiai atribut. n ceea ce privete talia, de exemplu, putem
afirma c George este mai nalt, mai scund sau la fel de nalt ca Horia, deci scala nlimii are
proprietatea magnitudinii. Numerele de pe tricourile fotbalitilor nu au n schimb aceast
nsuire, deoarece ele sunt atribuite ca nite etichete, doar pentru identificarea juctorilor.
2.2.2. Intervalele egale
O scal are intervale egale dac diferena dintre dou puncte aflate pe oricare zon a
scalei are aceeai semnificaie, valoare, ca diferena dintre alte dou puncte care difer prin
acelai numr de uniti. De exemplu, diferena dintre anii 1200 i 1400 este egal cu
diferena dintre anii 1800 i 2000, n timp ce diferena dintre coeficienii de inteligen 50 i
100 nu are aceeai semnificaie ca diferena dintre coeficienii 100 i 150, dup cum nu putem
spune c cel cu QI de 100 este de dou ori mai inteligent dect cel cu QI de 50.
Psihometricienii au ncercat s ocoleasc aceste dificulti i, folosind tehnici matematice
20
sofisticate, au creat instrumente care se apropie de cerina unei scale de interval (adic cu
intervale de scal egale).
2.2.3. Zero absolut
Acest proprietate este posibil de evideniat cnd variabila msurat are un nivel la
care ea nu mai exist deloc: zero ca distan nseamn absena oricrei distane, zero ca ritm
cardiac nseamn moartea, dar zero ca agresivitate, emoie, curaj, inteligen (caracteristici
umane) este extrem de greu, dac nu imposibil, de evideniat sau de definit.
Tabelul 2.1. Scalele de msurare i proprietile lor (dup Kaplan si Saccuzzo, 1993, p. 32).
Proprieti
Tip de scal
Magnitudine
Intervale egale
Zero absolut
Nominal
Nu
Nu
Nu
Ordinal
Da
Nu
Nu
De interval
Da
Da
Nu
De raport
Da
Da
Da
21
n sintez, reinem cteva aspecte mai importante pentru acest tip de scal:
Scala nominal este mai degrab una calitativ, ea fiind de fapt o premsurare.
Ea se preteaz foarte bine pentru datele culese prin observaie, anchet, chestionar,
care vor fi repartizate n categorii distincte, astfel nct un element s se afle numai
ntr-o categorie (clas) i numai una.
Literele sau cifrele folosite ca etichet nu vor face obiectul calculelor statistice, ci
vor servi doar la reperarea claselor, la determinarea frecvenelor brute i a celor
relative. Fiecare element al unei clase (categorii) este considerat a fi echivalent cu
toate celelalte din aceeai clas.
Singurul procedeu matematic de verificare este aa-numitul test chi ptrat (2).
2.3.2. Scalele ordinale
Reprezint, dup Favrge, nivelul cel mai rspndit de msurare din psihologie i
pedagogie, deoarece valorile din aceste domenii n majoritatea lor sunt continue i simplu
ordonate. Aceasta permite ca elementele s fie aranjate fie cresctor, fie descresctor, existnd
i posibilitatea ca mai multe elemente s ocupe acelai loc. Se stabilete astfel o relaie de
ordine total ntre elemente, dat de formula P xxy, care va fi interpretat ca x este superior,
preferat sau naintea lui y (Radu, 1993, p. 49). Deoarece relaiile formulate (A B C D)
permit stabilirea unei ierarhii, nseamn c importante caracteristici umane, fizice (nlime,
greutate, perimetre), dar i psihice (capaciti, aptitudini, preferine, interese, atitudini, valori)
pot beneficia de acest tip de scal.
Numerele asociate obiectelor i fenomenelor n msurarea de tip ordinal au doar
semnificaia unui rang, adic nu indic mrimi absolute. Pentru a atribui numerele n serie
cresctoare sau descresctoare, trebuie ca i caracteristica respectiv s aib valori care cresc
sau descresc. n scalele de tip Likert, de exemplu, se pot atribui numere de la 1 la 7, 4
exprimnd neutralitatea, numerele mici (3, 2 i 1) dezacordul sau insatisfacia tot mai
accentuate, n timp ce numerele mari (5, 6 i 7) acordul sau satisfacia tot mai intense.
Creterea regulat a numerelor nu trebuie s sugereze ns c i caracteristicile
respective cresc n aceeai proporie. Exemplul clasic este cel al militarilor dintr-un pluton,
aezai ntr-o ordine ierarhic, de la mic la mare: al aselea din ir nu este de dou ori mai
mare dect al treilea, i aceasta deoarece scalele ordinale nu au o unitate de msur care s
indice i cantitatea diferenei dintre ranguri. Scala metric a inteligenei, publicat de Binet n
1905, permitea un clasament ierarhic al unor inteligene diferite care, pentru nevoile practice,
22
echivala cu un clasament. n psihodiagnoz, exemplul tipic pentru acest tip de msurare este
procedeul centilrii (ordonarea ierarhic pe o scar cu 100 de trepte), iar n pedagogie nota
colar, ca procedeu de evaluare care n acelai timp i ierarhizeaz elevii.
n concluzie pot fi reinute urmtoarele aspecte:
dei se tinde spre aceasta, deorece, pe lng ordinea i ierarhia nivelurilor anterioare, trebuie
s existe specificarea mrimii exacte a intervalelor sau a distanelor care separ elementele
aflate pe toate treptele succesive ale scalei. Aceasta presupune cu necesitate prezena unitii
constante i comune de msur. Exemplul cel mai concludent l dau calendarele, unde
existena unei uniti de msur precizat i constant, anul, face posibil echivalena a 200 de
ani de la nceputul mileniului cu 200 de ani de la sfritul lui. Mai mult, dac operm cu
calendare diferite (iulian, gregorian, evreiesc sau mahomedan), deoarece unitile de msur
nu sunt diferite, transpunerea dintr-un calendar n altul nu pune nici un fel de problem
(Richelle, 1995, p. 222).
Rezumm cteva dintre nsuirile de baz ale scalei de interval:
Specificul scalei de interval este proprietatea aditivitiii (intervalele - i nu valorile! pot fi adunate i sczute).
23
La acest nivel se pot aplica procedee statistice mai elaborate, cum ar fi corelaia prin
produsul momentelor a lui Pearson, testele de semnificaie t i z ale lui Fisher, ca i
analiza de regresie.
Aceasta deoarece la acest nivel se pot determina media aritmetic, abaterea standard i
variana.
2.3.4. Scalele de raport
Acestea au toate proprietile unei scale de msur: magnitudine, intervale egale i
zero absolut. Ele sunt caracteristice mrimilor fizice (nlime sau lungime, greutate, for),
ceea ce nu se ntmpl cu fenomenele sau faptele din psihologie, sociologie sau pedagogie,
deoarece neputnd fiina fr un minimum de inteligen, coeziune, atracie etc. acestor
fenomene nu li se poate stabili starea zero. Cu temperatura lucrurile stau altfel: deoarece
scalele Celsius i Fahrenheit au un zero convenional, n timp ce sistemele Kelvin sau Rankine
au un punct zero neconvenional (absena oricrei temperaturi), doar acestea din urm sunt
scri de raport.
Elementele eseniale ale scalelor de raport sunt deci urmtoarele:
n afara unor situaii de excepie (mrimi fizice de intrare, puse n legtur cu timpul
de reacie, de exemplu), psihologii, pedagogii i sociologii nu sunt ndreptii s
foloseasc un asemenea tip de scal.
Corespunztor tipurilor de scal amintite, vom avea tipuri de variabile (nominale,
ordinale sau numerice), care sunt definite de domeniul de variaie, adic de registrul de valori
pe care acestea le pot lua. Cnd lum n considerare numrul indivizilor sau al cazurilor
susceptibile de a prezenta aceast modalitate, vorbim de domeniul de definiie. De exemplu, la
o prob de motricitate, tapping, numrul de puncte btute cu mn dreapt, adunat cu numrul
punctelor btute cu mna stng ia valori diferite n funcie de vrst, sex i de lateralizare
(dreptaci sau stngaci). De pild, la 6 ani acest numr poate s ia valori de la 10 la 60, acesta
fiind domeniul de variaie, n timp ce numrul subiecilor ce nregistreaz aceste valori, pentru
fiecare punctaj, d domeniul de definiie.
24
25
R
Rou
800-620
O
Oranj
619-590
G
Galben
589-575
V
Verde
574-510
A
Albastru
509-480
I
Indigo
479-450
V
Violet
449-430
2.1. Precizai numele fiecrui tip de scal, indicnd avantajele i locul lor de utilizare.
2.2. Lumina este o variabil continu sau discontinu? (Argumentai).
3. Msurnd nlimea a 10 studente de la Psihologie s-au obinut urmtoarele valori:
165
160
168
170
156
158
163
180
155
162
61
70
72
52
55
66
80
49
53
N 1
4.8. Extragei rdcin ptratic din valoarea numeric a expresiei de mai sus.
5. Utilizai datele de mai sus pentru a arta c:
5.1. (X+Y) = X + Y
5.2. XY XY
5.3. CX = CX, n care C este o constant.
5.4. X2 (X)2
5.5. (X+C) = X + NC, n care N este numrul de cazuri iar C are valoarea 3.
6. Poate o variabil ordinal s fie msurat cu o scal continu (de interval sau de raport)?
Poate o variabil continu s fie msurat cu o scal ordinal? Argumentai folosind cte un
exemplu adecvat.
7. Notele colare trecute n catalog sunt msurtori tipice unei scale ordinale sau uneia de
interval? Dar mediile colare pentru fiecare obiect n parte (rotunjite)? Dar media general
(nerotunjit)?
8. Media (nerotunjit) de la Matematic i cea de la Purtare sunt msurate pe acelai tip de
scal? (Argumentai rspunsul).
26
2.6. Quiz: Da Nu
1.
(Exemplu) Pentru scalele de interval suntem ndreptii s utilizm frecvenele absolute
(count) i pe cele relative (procente). Rspuns: Adevrat, pentru c, dei tipice scalelor ordinale,
procedeele respective sunt prezente i la scalele de interval i de raport, tiut fiind c scalele de rang
superior ncorporeaz proprietile celor de rang inferior.
2.
Magnitudinea unei scale este proprietatea matematic ce permite ierarhizarea populaiei de
date de la mic la mare sau invers.
3.
Deoarece distana (n cunotine sau deprinderi) dintre nota 8 i nota 9 este egal cu distana
dintre nota 3 i nota 4, nseamn c sistemul de notare colar are proprietile scalei de interval.
4.
Atunci cnd codificm genul masculin cu 1 i pe cel feminin cu 2 efectum o operaie de
msurare.
5.
6.
raport.
Scala care msoar era noastr are un zero natural naterea lui Isus fiind deci o scal de
7.
IQ-ul se msoar pe o scal ordinal deoarece distana de 10 puncte dintre IQ 50 i 60 are
aceeai semnificaie psihologic ca i diatana dintre IQ 120 i 130.
8.
Pentru datele de observaie, de anchet i de chestionar sunt utilizate scalele nominale, care
fac de fapt o premsurare.
9.
Scalele nominale i ordinale sunt categoriale,cele de interval i raport sunt real numerice.
15.
n sistemul romnesc de notare colar domeniul de definiiei al variabilei l reprezint
elevii iar domeniul ei de variaie intervalul de notare 1-10.
16.
Notele colare i centilarea/decilarea nu fac dect s stabileasc ierarhii, adic s rangheze
subiecii cresctor sau descresctor.
17.
n principiu notele colare nu pot fi adunate pentru a se determina media pe materii
deoarece scala de notare nu are proprietatea matematic a intervalelor egale.
18.
Nu pot fi inventate uniti de msur valabile, tipice scalelor de interval, pentru iubire,
fric, simpatie sau depresie.
19.
Funciile cognitive senzaiile, gndirea, memoria se bucur de scale de msur mai
tari dect funciile afective.
20. Numii tipul de scal de msurare reprezentat de categoriile de mai jos, alocnd cifrele 1, 2, 3 i 4
pentru scalele nominal, ordinal, de interval i de raport: scala Celsius, scala Kelvin,
numrul de pe uile camerelor unui hotel, ordinea de sosire la maraton, scorul la acest test QUIZ,
presiunea sanguin, genul i greutatea. (Se acord punctul pentru minimum 5 rspunsuri
corecte din cele 8 posibile.)
27
CAPITOLUL 3
DISTRIBUII I FRECVENE
Cea mai mare parte a operaiilor i procedeelor de lucru care urmeaz a fi prezentate
mai jos sunt extrem de mult facilitate de programele de prelucrare automat a datelor pe
calculator, de tip SPSS sau SAS. Ele fac parte din abc-ul statisticii, fiind primele ordonri i
prelucrri ale datelor brute, la sfritul crora distribuiile respective i dezvluie o parte din
caracteristicile de suprafa, adic cele vizuale.
Le vom prezenta detaliat, pentru c ele reprezint moduri de lucru practice, uor de
executat ntr-o diversitate de situaii concrete, ca un preambul al unor prelucrri ulterioare mai
sofisticate. Parcurgnd aceti pai vom putea sesiza fora pe care instrumentul statistic l poate
da muncii noastre, deoarece el ordoneaz, triaz, clasific datele, forndu-le s i dezvluie
semnificaiile. De aceea operaiile iniiale de ordonare i de grupare a datelor ar trebui s
devin operaii de rutin pentru oricine este interesat s dea muncii sale rigoare tiinific. Iat
scorurile brute la un test de vocabular (Recombinare Verbal) culese la biei i fete de 14 ani
din eantionul care a fost utilizat pentru etalonarea acestui test:
Biei
Fete
57 56 48 36 24 23 28 23 33 26 16
57 56 45 35 36 43 26 34 46 24 25
53 34 22 34 34 42 34 25 24 29 18
53 55 55 48 43 48 35 36 27 27 26
60 33 51 40 47 36 36 29 26 22 14
60 62 44 57 70 36 38 35 28 31 19
52 34 60 61 56 34 22 28 30 23 34
52 53 56 49 46 37 48 33 27 19 29
51 64 37 33 36 28 35 19 18 15
51 58 44 51 38 48 26 36 22 25 15
28
Vom prefera nu mai puin de 5 - 7 intervale i nu mai mult de 20. Pentru gruparea
datelor, uzual se folosesc ntre 9 i 15 clase.
Ca mrime a intervalului este preferabil s folosim numere impare (3, 5 sau 7), pentru
a avea ca valori centrale de interval numere ntregi.
29
intervale, iar dac am dori intervale de 5, atunci ar rezulta 55/5 = 11 intervale. Pentru c avem
o distribuie relativ mic, optm pentru a doua variant. Delimitm prin linii verticale clasele
astfel obinute (10-14, 15-19, 20-24,, 70-74) i n dreptul fiecreia vom trece n mijlocul
clasei i n partea ei de sus frecvenele clasei respective, rezultate prin nsumarea valorilor
individuale din interiorul fiecrui interval (1, 5, 8, 8, ..., 0, pentru biei; 0, 3, 2, 10, , 1,
pentru fete).
Trebuie inut cont c percepia noastr opereaz din ce n ce mai greu cu intervale care
depesc 20, chiar dac mrimea populaiei i lungimea spectrului de variaie ar impune-o. De
aici recomandarea de a nu avea nici prea puine intervale (prin gruparea datelor se pierde o
parte din informaia primar, pentru c nu se mai cunoate exact valoarea msurat a fiecrei
observaii), i nici prea multe (sunt mai greu de manevrat i de sesizat perceptiv), de unde
regula deja enunat a celor 9 -15 clase de grupare a datelor.
Sturges (citat de Rotariu et al.,1999, p. 33) propune o formul de lucru pentru aceast
operaie prin care se determin numrul intervalelor de grupare, lund n calcul amplitudinea
variaiei i numrul de cazuri:
X max X min
1 3,222 log N
(3.1)
Utiliznd formula lui Sturges, se obine urmtorul tabel orientativ pentru stabilirea numrului
de interval (clase) de grupare:
Tabel 3.1. Numrul de interval de grupare dup formula lui Sturges.
Nr. de observaii
Nr. de clase
15-24
5
25-44
6
45-89
7
90-179
8
180-359
9
360-719
10
720-1500
11
Aplicat n cazul nostru, pentru biei, i = (64-14)/(1+3,322 log54) = 50/6,755 = 7,40; pentru
fete vom avea i = (70-15)/(1+3,322 log55) = 55/7,77 = 7,21. Pentru numrul de cazuri ale
distribuiei noastre am avea teoretic nevoie de 8 intervale. S reinem i regula practic a celor
9 - 15 intervale, care realizeaz un bun echilibru ntre nevoia de condensare a datelor i aceea
de a avea pierderi de informaie ct mai mici.
3.1.1. Limitele de grupare
30
n cazul variabilelor continue, cel mai adesea raportm clasele la nite numere ntregi,
care constituie limitele de raportare a acestora. n cazul variabilei continue care este
nlimea, de exemplu, putem avea clasele 125-129, 130-134, 135-139 etc. Ce se ntmpl
ns cu nlimile de 129,54 sau 134,82, care par a cdea n golurile dintre clase? Deoarece
limitele de raportare nu acoper n ntregime domeniul variabilelor continue, trebuie s se
defineasc nite limite exacte, asfel nct, respectnd regula de rotunjire, valorile interclase s
fie uor de alocat la una dintre clase. Aceste limite au deci dou funcii: a) reconstituie
continuitatea variabilei, nemailsnd goluri i b) servesc drept baz de calcul pentru
determinarea unor puncte speciale de pe linia valorilor variabilei, numite quantile, cum ar fi
mediana, centilele, decilele sau oricare alt punct percentil.
n acest sens trebuie precizat c fiecare interval are o limit superioar (ls) i o limit
inferioar (li). De exemplu, intervalul 125-129 se exprim matematic astfel, n funcie de cele
dou limite: [125,5; 129,5], sau 125,5-129,5.
3.1.2 Centrele intervalelor
Centrul unui interval, notat cu Ci, este valoarea situat n mijlocul intervalului
respectiv i se determin astfel Ci = (li + ls)/2. Aplicnd aceast formul la exemplul nostru,
intervalul 124,5-129,5 are drept centru valoarea 127, ceea ce justific preferina pentru
intervalele de numr impar, care dau o valoare ntreag pentru centrele lor. Celelalte centre de
interval se pot determina extrem de uor ulterior, pentru c ele sunt multipli ai lungimii
intervalului, deci n cazul nostru vor fi: 127, 132, 137 etc. Aproximarea prin centrele
intervalului creeaz posibilitatea ca toate valorile care aparin unui interval s fie tratate n
calcule ca egale cu centrul acestuia, de unde posibilitatea erorii pe care gruparea datelor o
introduce, lucru de care am vorbit anterior.
Se poate dovedi matematic c aceast grupare satisface criteriul matematic al celei mai
mici erori. Important de menionat este i faptul c, cu ct intervalul este mai mare, cu att
mrimea acestei erori va crete.
3.2.
Dup ce am vzut modul practic de lucru pentru cele dou reprezentri grafice ale
frecvenelor, s avertizm asupra faptului c exist precauii speciale privind mrimea
diagramei rezultate n raport cu spaiul de lucru al foii (problem rezolvat corect cu ajutorul
computerului), ca i localizarea punctului de mijloc sau trasarea figurilor.
31
32
20
160
140
120
100
80
10
Frequency
60
40
Std. Dev = 21.99
20
Mean = 132.2
Mean = 35.1
N = 1408.00
N = 54.00
0
5.
17
0
5.
16
0
5.
15
0
5.
14
0
5.
13
0
5.
12
0
5.
11
0
5.
10
.0
95
.0
85
.0
75
.0
65
.0
55
.0
45
15.0 20.0 25.0 30.0 35.0 40.0 45.0 50.0 55.0 60.0 65.0
RVBAIETI
MF_Metoda+Fisa
Figura 3.1. Dou histograme ale frecveelor brute pentru o distribuie foarte mare i una mic.
Cnd numrul indivizilor din cele dou grupuri difer foarte mult apare o problem de
comparaie grafic: deorece disparitatea este foarte mare, se pune problema unei scale care s
le cuprind pe amndou, asfel nct s fie pe deplin perceptibil distribuia mai mic, n
condiiile n care cea mai mare nu depete nite limite rezonabile. n acest caz este foarte
util conversia frecvenelor brute n frecvene relative, situaie n care apare ca i cnd am
avea dou distribuii cu un numr egal de cazuri, i anume 100, ariile celor dou poligoane,
forma curbei i dispersia devenind pe deplin comparabile. Transformarea procentual este
extrem de simpl. Iat un exemplu preluat din Guilford (1978, p. 34).
Tabelul 3.2. Frecvenele brute i relative pentru dou grupuri.
Scoruri
140-149
130-139
120-129
110-119
100-109
90-99
80-89
70-79
60-69
50-59
40-49
30-39
Suma
f1
1
0
3
5
6
14
7
11
4
N1 = 51
f2
8
32
48
29
18
14
5
5
0
1
N2 = 160
33
p1
2,0
0,0
5,9
9,8
11,8
27,5
13,7
21,6
7,8
= 100,1
p2
5,0
20,0
30,0
18,10
11,20
8,8
3,1
3,1
0,0
0,6
= 99,9
Pe coloana f1 sunt 51 de cazuri. Prin regula de trei-simpl tim c dac un 1 caz din 51
reprezint x din 100, atunci x are valoarea 1100/51 = 1,96. Acest numr (1,96) devine
factorul de multiplicare pentru toat coloana respectiv (f1), ceea ce va da coloana p1 (p de la
procente). La fel se va proceda pentru coloana f2 (unde factorul de multiplicare este 1100/160
= 0,625) din care se va obine coloana p2.
Datele din tabel se convertesc ntr-o imagine grafic prin care cele dou poligoane ale
frecvenelor devin direct comparabile. Aa cum rezult din diagram, este evident c al doilea
grup are valori medii mult mai mari dect primul, suprapunerea dintre ele find foarte mic;
forma amndurora este asimetric, primul fiind deplasat spre stnga, al doilea spre dreapta;
grupul al doilea este mai omogen dect primul (are un singur punct care concentreaz
frecvena maxim, numit mod, n jurul cruia se repartizeaz celelalte valori, n timp ce
primul grup are dou cocoae, adic dou zone de acumulare a cazurilor); frecvena
maxim este apropiat procentual la ambele grupuri. Comparaia evideniaz elocvent faptul
c acestea sunt dou grupuri foarte diferite, care trebuie tratate statistic separat.
3.3.
Frecvenele cumulate
Dup ce am stabilit intervalele i le-am ntabelat astfel nct valorile inferioare s fie
amplasate jos i cele superioare sus, dup ce am stabilit limitele inferioare i superioare pentru
fiecare interval i centrul fiecrui interval (atunci cnd avem nevoie s lucrm cu aceste
coloane), urmtoarea coloan (fb) va fi alocat frecvenelor brute. Ele se pot obine fie printr-o
coloan special de bife, n care se descarc datele brute, fie prin procedeul de lucru cu care
am deschis acest capitol: trasarea liniei de baz, cu toate valorile i frecvenele
corespunztoare, apoi stabilirea claselor i a frecvenelor din fiecare clas.
Pe urmtoarea coloan se trec frecvenele brute cumulate (fbc), apoi frecvenele relative
(fr) i frecvenele relative cumulate (frc), dup procedeul exemplificat anterior. Modul cum
apar datele ntabelate pentru bieii din eantionul de etalonare la testul de Recombinare
Verbal, dup modelul descris anterior, poate fi analizat n Tabelul 3.3 de mai jos.
Determinarea frecvenelor cumulate, fie ele brute sau relative, se obine extrem de simplu
printr-o adunare succesiv, ce pleac de jos n susul coloanei respective. Raiunea acestei
operaii este aceea de a ti numrul exact de cazuri care cad sub un anumit punct, adic
punctul care este limita de sus a intervalului (sau procentul, n cazul frecvenelor relative).
Tabelul 3.3. Valorile frecvenelor brute i relative, simple i cumulate, pentru biei la RV.
Frecvene
34
Frecvene
Scoruri
clase
Limite
exacte
65-69
60-64
55-59
50-54
45-49
40-44
35-39
30-34
25-29
20-24
15-19
10-14
64,5-69,5
59,5-64,5
54,5-59,5
49,5-54,5
44,5-49,5
39,5-44,5
34,5-39,5
29,5-34,5
24,5-29,5
19,5-24,5
14,5-19,5
9,5-14,5
Punctul
central
X
67
62
57
52
47
42
37
32
27
22
17
12
Frecvene
brute
brute
cumulate
Frecvene
relative
relative
cumulate
fb
0
4
3
4
2
2
6
11
8
8
5
1
N=54
fbc
54
54
50
47
43
41
39
33
22
14
6
1
fr
0
7,4
5,6
7,4
3,7
3,7
11,1
20,4
14,8
14,8
9,3
1,8
=100
frc
100
100
92,6
87
79,6
75,9
72,2
61,1
40,7
25,9
11,1
1,8
Numr
interval
fb X
0
248
171
208
94
84
222
352
216
176
85
12
=1868
12
11
10
9
8
7
6
5
4
3
2
1
Se ncepe cu prima clas de pe coloana fb, ce are n cazul nostru frecvena 1, care va fi
trecut ca atare pe coloana fc; la a doua clas 1+5 = 6 (frecvena anterioar cumulat cu cea a
clasei respective), valoare care se i trece n rubrica corespunztoare. Valorile urmtoare, de
jos n sus, vor fi 6+8 = 14, apoi 14+8 = 22 i aa mai departe, pn la clasa din vrf unde,
dac operaia a fost executat corect, vom regsi numrul total al eantionului nostru (N=54),
ceea ce constituie chiar procedeul de control al acurateei calculelor.
Pentru coloana frecvenelor cumulate procedeul este similar, cu meniunea c pot
aprea i valori zecimale (care se pot rotunji la o zecimal), iar valoarea din vrf trebuie s fie
100, sau ct mai aproape de aceast valoare, acesta fiind i procedeul practic de verificare a
corectitudinii n lucru.
3.4.
Histograma cumulativ arat ce adaug fiecare nou frecven celei precedente, de sub
ea. Ca i n cazul histogramei obinuite construcia ei se face tot cu bare sau dreptunghiuri,
fiecare adugat colului din dreapta sus al celui precedent, ca n imaginea de mai jos. Unind
diagonalele stnga jos - dreapta sus din fiecare dreptunghi, se obine poligonul frecvenelor
cumulate, care n cazul de fa evideniaz urmtoarele aspecte:
Cnd distribuia noncumulativ (obinuit) este simetric, cea cumulativ are o form
foarte apropiat de litera S.
35
Ogiva lui Galton este de fapt o curb construit plecnd de la frecvenele relative
cumulate. n mijlocul fiecrei clase se trece un punct, corespunznd frecvenei relative
cumulate a clasei respective, iar n final se traseaz o curb care nu trece exact prin fiecare
punct, ci este ajustat astfel nct s ia forma cea mai regulat n raport cu punctele
respective (fig. 2). De aceea forma ei de S este mai bine reliefat ca n cazul precedent, iar
cnd distribuia noncumulativ este simetric, acest lucru este cu att mai evident.
n cazul nostru se remarc o bun regularitate pentru prima jumtate a ogivei i un
deficit sau lips n partea ei superioar, dat de asimetria distribuiei noncumulate. O raiune
pentru care se ajusteaz ogiva, cnd acest lucru se poate face n mod rezonabil, este aceea de a
nivela anumite iregulariti ale distribuiei ce ar rezulta dintr-un numr prea mic al cazurilor
din eantion cu scopul de a ti cum ar arta de fapt distribuia probabil a populaiei mai largi.
Deoarece pentru fiecare punct al curbei se poate determina numrul cazurilor care cad
sub el, ogiva lui Galton poate servi la construirea etaloanelor prin procedeul centilelor sau al
decilelor.
3.5.
36
O distribuie poate fi simetric, atunci cnd cele dou cozi ale sale se repartizeaz
simetric n raport cu tendina central care este media. Dar ea poate fi asimetric spre stnga,
situaie n care cel mai mare volum de date se aglomereaz spre latura stng, astfel c creoda
(coada) stng a distribuiei este mai scurt dect cea dreapt. O asemenea distribuie se
cheam pozitiv. Situaia invers este cea a datelor aglomerate spre dreapta, unde creoda
stng este clar mai lung dect cea dreapt. O asemenea distribuie se cheam negativ.
Exist i situaii n care anormalitatea distribuiei este mai mult dect evident, atunci
cnd ea este una trunchiat, n form de i sau de j, situaii n care modul este repartizat n
extrema stng, respectiv n cea dreapt a distribuiei, ca n exemplulal doilea de mai jos.
F2 Anorexie
CEDA total
100
50
48
45
35
90
43
40
38
37
60
30
25 26
30
27
40
2020
17
15
12
10
10 10
Mean = 12.8
4
66
57
22
20
Frequency
80
Frequency
40
N = 424.00
47
40
28
20
22
15
9 10 7 6
Mean = 3.6
N = 424.00
.5
21.5
20.5
19.5
18.5
17.5
16.5
15.5
14.5
13.5
12.5
11.5
10
5
9.
5
8.
5
7.
5
6.
5
5.
5
4.
5
3.
5
2.
5
1.
.5
.0
57.0
55.0
53.0
51.0
49.0
47.0
45.0
43.0
41.0
39.0
37.0
35.0
33.0
31.0
29.0
27.0
25.0
23.0
21.0
19.0
17.0
15.0
13.0
110
9.0
7.0
5.0
3.0
1.
F2 Anorexie
CEDA total
Figura 3.3. Dou distribuii asimetrice stnga dintre care cea de a doua este trunchiat (n i ).
37
Inaltime
Greutate
350
350
352
331
300
300
250
227
200
150
264
250
255
232
223
200
154
188
177
150
133
100
50
0
56 54
18
Frequency
Frequency
100
Mean = 117.5
31
20
N = 1559.00
107
93
70
50
0
12.0
16.0
0
2.
14 . 0
8
13 . 0
4
13 . 0
0
13 . 0
6
12 . 0
2
12 . 0
8
11 . 0
4
11 . 0
0
11 . 0
6
10 . 0
2
10
.0
98
.0
94
.0
90
.0
86
.0
82
.0
78
14.0
20.0
18.0
24.0
22.0
28.0
26.0
32.0
30.0
N = 1539.00
17
36.0
34.0
Figura 3.4. Dou distribuii cu asimetrii n sensuri opuse, dar ambele leptokurtice.
25
25
20
19
15
15
11
Frequency
10
16
14 14
12
10
8
6
5
3 3
5
3
0
4.
192.0
19 .0
0
198.0
186.0
18 .0
4
182.0
180.0
18 .0
8
176.0
174.0
17 .0
2
170.0
178.0
16 .0
6
164.0
162.0
16 .0
0
168.0
156.0
15 .0
4
152.0
15
Figura 3.5. O distribuie bimodal (cu dou cocoae) pentru variabila nlime.
Atragem atenia asupra faptului c distribuiile cu dou sau mai multe moduri sunt cu
att mai probabile cu ct ele sunt mai reduse numeric. Bi- sau multimodalitatea nu indic
ntotdeauna necesitatea de a trata separat grupurile eterogene dintr-o distribuie, ci i nevoia
de a lrgi suficient de mult eantionul. Dac i n cazul unui eantion extins se pstreaz cele
38
dou aglomerri de date, atunci separarea grupurilor este cu att mai necesar cu ct distana
dintre moduri (i implicit eterogenitatea) este mai mare.
3.6. Exerciii i aplicaii practice
1. Trasai poligoanele frecvenelor pentru biei, fete i total, efectivele de la testul de
Recombinare Verbal din curs, lund pe linia de baz clase de interval 10, mrimea un
centimetru, de la 10 la 70, iar pe vertical din unu n unu pentru fiecare ptric de caiet de
matematic, pentru biei i fete, i din 2 n 2 pentru total.
2. Iat urmtoarele scoruri nregistrate la o prob:
25
33
35
37
55
27
40
33
39
28
34
29
44
36
22
51
29
21
28
29
33
42
15
36
41
20
25
38
47
32
15
27
27
33
46
10
16
34
18
14
46
21
19
26
19
17
24
21
27
16
Pentru prelucrarea primar a acestor date parcurgei toate etapele descrise n curs:
desenai linia de baz a scorurilor, determinai frecvenele pentru fiecare valoare individual a
variabilei, stabilii intervalele de grupare a datelor (din 5 n 5), ntabelai rezultatele cu toate
rubricile de la exemplul anterior din curs i apoi trasai poligonul frecvenelor brute (simpl i
cumulat) i poligonul frecvenelor relative (simple i cumulate). Comentai rezultatele.
3. Artai pe scurt care sunt asemnrile i deosebirile dintre histogram i poligonul
frecvenelor ca mijloace de reprezentare i vizualizare a datelor.
4. Comentai asemnrile i deosebirile dintre cele dou distribuii ale stimei de sine
pentru biei i fete aa cum rezult ele din histogramele de mai jos.
Stima de sine total
Baieti
Fete
22
22
20
18
18
16
16
14
14
12
12
10
10
5 5
4
2 2
-60.0 -40.0 -20.0
10.0
0.0
30.0
20.0
50.0
40.0
16
14
70.0
60.0
2
-50.0
N = 104.00
-30.0 -10.0
-20.0
39
-60.0 -40.0
-70.0
80.0
6
2
0
13
11
4
2
0
10
Frequency
Frequency
20
21
18
10.0
0.0
30.0
20.0
50.0
40.0
70.0
60.0
80.0
CAPITOLUL 4
INDICATORI AI TENDINEI CENTRALE
Media aritmetic
Exist mai multe tipuri de medie (aritmetic, geometric i armonic; medie simpl i
medie ponderat), dar cea mai cunoscut i utilizat n statistic este media aritmetic.
Acesteia i se mai spune i media, sau valoarea medie i se noteaz cu un x barat ( x), pentru a
o distinge de notaia cu x a variabilei. Media este acea valoare care se obine mprind suma
tuturor indivizilor care compun populaia statistic la numrul acestora dup una din cele dou
formule echivalente de mai jos:
N
X
i 1
(4.1)
adic:
X
X 1 X 2 X 3 ... X n
N
(4.2)
(4.3)
n care X este media, simbolul grecesc nseamn sum de (unele notaii prefer utilizarea
lui S de la Sum), X este fiecare dintre scorurile msurate, iar N este numrul acestora. Prima
formul este complet explicit matematic, deorce Xi desemneaz o singur msur observat,
fiecare din seria de msurtori X 1, X2, X3, , Xn, adic prima, a doua, a treia i respectiv a n-a
msurtoare. Acest lucru este indicat de semnele de sub i de deasupra simbolului pentru a
arta c valorile nsumate (desemnate de Xi) merg de la primul la ultimul element din irul N
de valori. Dar, deoarece formula a doua este mai uor de neles i de citit fr simboluri
adiionale, optm pe tot parcursul lucrrii de fa pentru acest al doilea tip de scriere, mai
sintetic, dar mai puin complet matematic. Formulele de mai sus i gsesc echivalentul
urmtor pentru datele ordonate:
X
kX
N
40
(4.4)
formul care spune c este mai simplu s nmulim frecvenele k ale unei valori cu ea nsi de
k ori, dect s o adunm cu ea nsi de k ori. Aceasta este o formul aplicabil deci datelor
ordonate, n care variabila ia valori individuale precizate, toi indivizii statistici ai populaiei
respective contribuind la generarea mediei prin valorile lor determinate prin msurtoare. De
aceea formulele (1) i (3) dau valori exacte ale mediei, fr pierdere de informaie.
Cnd datele sunt ordonate, dar i grupate n k clase (intervale), utilizm pentru
determinarea mediei urmtoarea formul:
X
f1c1 f 2 c2 ... f n cn
f c f c ... f n cn
11 2 2
f1 f 2 ... f n
N
(4.5)
xx
xx
_____________________x xx x xx
variabile X
0 1 2 3 4 5
frecvene f
0 0 1 2 1 6
produsul fX
0 0 2 6 4 30
media X pentru eantionul de biei:
x
xx
xx
xx
xx
6
9
54
xx
xx
xx
xx
xx
7
10
70
41
x
xx
xx
xx
xx
xx
xx
8
13
104
x
xx
xx x
xx xx________________________
9 10
7
3
N = 52
63 30
fX = 363
363/52 = 6,98
S remarcm faptul c distribuia noastr este uor asimetric, deplasat spre dreapta
(adic negativ, cum se va vedea ulterior), valoarea central numit mod fiind 8, cu frecvena
de 13, iar media este foarte aproape de 7 (6,98). n calculul mediei este evident utilitatea
formulei 3, pentru datele ordonate. Mediana, adic valoarea de scor care mparte distribuia n
dou jumti a cte 21 de cazuri, va cdea undeva ntre 6 i 7, pentru care frecvenele
cumulate sunt 19, respectiv 29.
Not: modalitile de lucru pentru determinarea medianei i a modului, ca i indicatorii
formei distribuiei sunt tratai n partea a doua a acestui capitol.
___________________________ xx
variabile X
0 1 2 3 4
frecvene f
0 0 0 0 2
produsul fX
0 0 0 0 8
media X pentru eantionul de fete:
x
xx x
xx xx
5 6
5 3
25 18
xx
xx
xx
xx
xx
xx
7
12
84
x
xx
xx
xx
xx xx xx
xx xx xx________________________
8 9 10
11 4 4
N = 41
88 36 40 fX = 294
294 / 4 = 7,17
Remarcm c valorile mediei (7,17), medianei (aflat ntre 6 i 7) i modului (7) sunt
foarte apropiate pentru cele dou eantioane, singura valoare care este uor diferit fiind
amplitudinea mprtierii R (de la englezescul Range), ceva mai mare la biei dect la fete
(8, comparativ cu 6). Acestea sunt argumente suficient de puternice pentru a reuni cele dou
eantioane n unul singur i a le trata statistic n comun, determinnd principalele valori ale
tendinei centrale, ceea ce poate constitui o sarcin pentru portofoliul de evaluare.
Media aritmetic are cteva proprieti remarcabile:
sunt atrnate greuti la fiecare gradaie Xi, egale ca mrime cu frecvena f. Media va fi
pivotul, punctul de sprijin care realizeaz echilibrul perfect, fiind singura valoare
relativ la o distribuie pentru care suma abaterilor de la ea este zero. De aceea
expresia (X X)/N, numit momentul de gradul nti (prin analogie cu momentul
forei din fizic), va interveni, prin ridicare la puterea a doua, a treia i a patra, n
calculul dispersiei, simetriei i a boltirii curbei.
Aceasta datorit faptului c suma deviaiilor ptratice de la medie este cea mai mic
prin comparaie cu deviaia de la oricare alt indicator ca mediana, de exemplu
(Guilford i Fruchter, 1978, p. 54).
Din acest motiv media este considerat indicatorul cel mai strns legat de eantion ca
ntreg, ea respectnd principiul matematic al celor mai mici ptrate. Aceasta este
raiunea pentru care calculul abaterii standard i al dispersiei se sprijin pe medie i nu
pe median.
Media poate fi o valoare pe care nu o ia nici un individ statistic, ba - mai mult - poate
s nu fie reprezentativ sau s nu aib sens la nivelul indivizilor concrei (Rotariu et
al., 1999). Este de ajuns s exemplificm cu costurile medii de producie, care se pot
exprima n lei i fraciuni ai acestuia (cndva retrai din circulaie), cu dimensiunea
medie a unei familii, care poate da fraciuni dintr-o persoan, sau chiar cu nlimea
medie a unui grup, neregsibil ca atare la niciunul dintre membrii acelui grup.
Aceasta duce la concluzia c, chiar dac media este o valoare care cade ntotdeauna n
interiorul seriei de variaie, adic ntre valoarea minim i cea maxim, ea nu este
neaprat i valoarea cea mai tipic sau mijlocie a seriei respective. Uneori ea poate
mpri acest serie n dou pri foarte inegale. Astfel, dac vom considera 5
coeficieni de inteligen: 68, 84, 90, 100 i 160, media lor este 100,40 sub care cad 4
valori i doar una deasupra.
Aceasta nseamn c media aritmetic aduce doar o parte din informaia necesar
interpretrii unei distribuii, deci c este nevoie i de ali indicatori ai tendinei centrale
i ai mprtierii pentru a avea o idee mai complet despre aceasta. Pentru a-i cita pe
Rotariu (1999) media, ca orice indicator, nu poate reflecta dect o parte din
43
Pentru a localiza o valoare dintr-o distribuie. Nota 7 la matematic este una slab n
clasele primare, dar una bun la o clas realist de liceu, nivelul mediu al performanei
fiind foarte diferit pentru cele dou colectiviti.
Cnd un eantion a fost supus mai multor surse de variaie sistematic, se calculeaz
media asociat cu fiecare dintre strile sursei respective, pentru a se putea
descompune variaiile nregistrate n mai multe efecte, ce urmeaz a fi analizate
fiecare sub raportul ponderei n efectul final (regresia simpl i multipl).
n analiza itemilor unui test, pentru a vedea dac acetia se supun unor exigene de
construcie (vezi Clocotici i Stan, 2000, pp. 56-57).
4.2. Mediana
Pentru a evita confuziile legate de acest indicator, uor de definit, dar care ridic
N 1
2
(4.6)
44
deci mediana se afl la jumtatea distanei dintre a 4-a i a 5-a valoare, adic ntre 11 i 13 i
aceasta nu poate fi dect 12.
Procedeul pare a fi foarte simplu, dar intervin o mulime de situaii particulare mai
greu de rezolvat. Iat un alt exemplu al unui ir ordonat de valori: 11, 11, 11, 11, 13, 13, 13,
15, 17, 17. Sunt 10 valori, deci mediana va trebui s fie situat la distana de (10+1)/2 = 5,5
fa de unul din capete, ori acesta se afl ntre 13 i 13! Este evident c vom avea nevoie de
un alt raionament, care va introduce n calcul limitele de interval, conform crora 11 se afl
amplasat n intervalul situat ntre 10,5 i 11,5; 12 n intervalul 11,5 i 12,5; 13 n intervalul
12,5 i 13,5 etc. Deoarece avem deja primele patru valori, care sunt 4 de 11, mai avem nevoie
doar de una pentru a putea determina punctul median. n intervalul 12,5 13,5 avem 3 valori
de 13; o singur valoare nseamn o treime din acest interval, adic 1/3 = 0,33, valoare care se
adaug la limita lui inferioar. Deci punctul median va fi 12,50+0,33 = 12,83 = Md.
Determinarea medianei din datele grupate presupune un procedeu de lucru care se va
regsi i la determinarea cuartilelor, centilelor sau a decilelor, adic la ceea ce n statistic se
cheam cuantile. Iat o parte din datele cuprinse n capitolul precedent:
Tabelul 4.1. Procedeul practic pentru determinarea medianei (N = 54).
Limite
exacte
Frecvene
brute
Frec. brute
cumulate
Frec. brute
65 - 69
64,5 - 69,5
54
11
60 - 64
59,5 - 64,5
54
10
55 - 59
54,5 - 59,5
50
50 - 54
49,5 - 54,5
47
11
45 - 49
44,5 - 49,5
43
13
40 - 44
39,5 - 44,5
41
15
35 - 39
34,5 - 39,5
39
21
30 - 34
29,5 - 34,5
11
33
32
25 - 29
24,5 - 29,5
22
40
20 - 24
19,5 - 24,5
14
48
15 - 19
14,5 - 19,5
53
10 - 14
9,5 - 14,5
54
Nr.
Scoruri clase
12
cumulate
45
n acest caz, formulele de lucru pentru determinarea medianei plecnd de jos n sus,
respectiv de sus n jos, sunt urmtoarele:
Md li (
n care:
N
i
fc )
2
fi
(4.7)
Md ls (
N
i
fc )
2
fi
(4.8)
fc este totalul frevenelor cumulate situate sub el (prima formul) sau deasupra lui (a
doua formul);
46
8. Valoarea gsit se scade din limita de sus a intervalului ce conine mediana. Dac toate
calculele au fost fcute corect, atunci rezultatele vor fi, evident, identice.
Iat paii 7 i 8 pentru exemplul nostru: N/2 = 27 i clasa care este cel mai apropiat ca
valoare este, de sus n jos, cea care are, prin cumulare, 21 de cazuri; deci ne mai trebuie 27-21
= 6 cazuri; 65/11 = 2,73 i 34,5-2,73 = 31,77, adic obinem aceeai valoare a punctului
median.
n determinarea medianei pot fi posibile i situaii speciale:
Situaia (norocoas) cnd nu mai este nevoie de nici o interpolare, deoarece jumtate
din totalul cazurilor cutate se regsesc, pe coloana frecvenelor cumulate, n
ntregime ntr-o anumit clas, a crei limit superioar (cnd venim de jos n sus) este
chiar mediana. De exemplu, dac n clasa 24,5-29,5 am fi avut frecvena cumulat
54/2 = 27, atunci mediana ar fi fost 29,5.
Situaia n care mediana cade ntr-un interval care are zero cazuri, mediana se ia
arbitrar ca mijloc al acestui interval, dei aceast estimare este brut i susceptibil
de o anumit eroare, care este cu att mai mare cu ct intervalul de grupare este mai
mare, dar este bun pentru intervale mici de 2, 3 sau chiar 4 uniti.
Situaia cnd mai multe intervale din zona medianei au frecvena zero, nu se poate
face nici o estimare corect a acesteia, dei s-ar putea lua ca median punctul mijlociu
al acestor intervale cumulate de frecven zero.
Toate aceste precauii sau artificii devin inutile prin prelucrarea automat a datelor pe
calculator, care are algoritmi de lucru pentru a rezolva o mare diversitate de situaii. Singura
precauie care totui mai rmne este aceea de ti s operm corect cu semnificaia
termenului, n circumstane adecvate.
4.3.
Modul
Modul (Mo) este valoarea care are cea mai mare frecven, deci cea care
caracterizeaz individul tipic al populaiei statistice respective. Ea este foarte uor de reperat
pe un poligon al frecvenelor, unde modul corespunde punctului de maxim al acestei linii. n
cazul distribuiilor discontinue, nominale sau ordinale, modul este categoria cu cea mai mare
frecven, dar n cazul distribuiilor continue, acestea evideniaz deseori distribuii zigzagate, cu mai multe vrfuri care au nlimi egale sau apropiate. De aceea este necesar s
grupm datele, care vor evidenia acum cu mai mult pregnan un interval modal (intervalul
cu frecvena maxim).
47
Exist distribuii unimodale (cu o singur valoare sau interval ce ating o frecven
maxim), bimodale i multimodale (curbe cu mai multe vrfuri sau cocoae egale sau foarte
apropiate ca mrime), la prima categorie omogenitatea fiind mai mare dect la celelalte. n
cazul distribuiilor bimodale, cu ct distana dintre cocoae este mai mare, cu att distribuia
respectiv este mai puin omogen i deci mai atipic, punndu-se problema identificrii celor
dou grupuri eterogene pentru a fi tratate statistic separat.
4.4.
Aa cum am mai spus, media este pivotul sau centrul de greutate al ntregii distribuii.
Deoarece mediana face abstracie de distana fiecrui caz fa de tendina central, ea nu poate
avea calitatea de centru de greutate al distribuiei. S menionm c relaia dintre cei trei
indicatori de poziie, media, mediana i modul, iese cel mai bine n eviden pentru
distribuiile asimetrice, deoarece n cele normale ele tind s se suprapun, dnd diferene
neglijabile. De altfel, aceast tendin la suprapunere a celor trei indicatori ai tendinei
centrale este un important aspect ce ajut la identificarea normalitii unei distribuii.
i n distribuia de mai jos, asimetric negativ (deplasat spre dreapta), dar i n una
asimetric pozitiv (deplasat spre stnga), exist o distan nsemnat ntre medie i mod,
mediana fiind n ambele situaii mai aproape de medie dect de mod, i anume la o treime din
distana existent ntre acestea. Media se afl ntotdeauna pe creoda (coada) mai lung a
distribuiei, n timp ce modul este cel mai uor de reperat, fiind valoarea de scor cu cea mai
mare frecven, adic vrful distribuiei (sau vrfurile ei, atunci cnd sunt prezente mai multe
moduri).
Figura 4.1. Relaiile dintre medie, median i mod nrtr-o distribuie asimetric dreapta.
48
Figura 4.2. Relaiile dintre medie, median i mod n distribuii cu asimetrii inverse.
De aceea cele trei valori ale poziiei vor interveni n calculul unor indicatori ai formei
distribuiei, n spe simetria sau oblicitatea (skewness). Pentru distribuiile asimetrice, modul
este raportat cel mai adesea cnd exist un interes pentru cea mai probabil valoare sau
interval, n rest media i mediana sunt considerate a fi cei mai relevani indicatori, deoarece
fiecare aduce o informaie specific, iar din mrimea diferenei dintre cei doi indicatoriei i a
sensului acestei diferene se pot trage concluzii n legtur cu mrimea i sensul asimetriei.
Distribuiile trunchiate sunt unele foarte atipice, care au un vrf ascuit al frecvenelor
la una dintre margini i se mai numesc i distribuii n i sau n j, n funcie de sensul i de
orientarea cozii (creodei) curbelor. Ele sunt relativ frecvent ntlnite n pedagogie, unde un
test de cunotine poate fi trecut sau czut de aproape toi elevii sau studenii, n funcie de
dificultatea lui sau de timpul alocat rezolvrii (de unde i teoria nvrii depline).
n ambele tipuri de distribuii trunchiate, media nu mai este o valoare reprezentativ
pentru tendina central, deoarece o bun parte din valorile unei extreme lipsesc i atunci este
preferabil s folosim ca indicatori doar mediana i eventual modul, care i el i pierde
semnificaia de indicator al tendinei centrale, deoarece este situat foarte excentric.
500
350
472
335
300
308
400
388
250
251
300
200
292
194
174
150
200
153
88
Std. Dev = 3.71
50
44
51
Frequency
Frequency
100
Mean = 18.5
N = 1464.00
0
4.0
8.0
6.0
12.0
10.0
16.0
14.0
20.0
18.0
24.0
100
Mean = 8.5
N = 1464.00
0
1.0
22.0
89
50
2.0
3.0
4.0
5.0
6.0
7.0
8.0
9.0 10.0
1.Motricitate grosiera
5.Limbaj
49
Separat sau mpreun, media i mediana sunt cei mai utilizai indicatori ai tendinei
centrale ai unei distribuii.
n distribuiile perfecte cei doi indicatori se suprapun i sunt foarte apropiai n cele
simetrice.
n cazul distribuiilor asimetrice, media tinde s se situeze ctre valorile extreme, spre
dreapta sau spre stnga, n sensul cozii asimetriei. n aceeai situaie mediana ofer o
imagine mai bun a centrului distribuiei, rmnnd mai apropiat de ramura mai
scurt a asimetriei.
n unele situaii un bun remediu ar fi eliminarea valorilor extreme sau aberante ale
distribuiei (vezi criteriul 1,5 IQR, descris de Clocotici i Stan, 2000, pp. 66-67). Este
considerat ca fiind extrem orice valoare care se situeaz la o deprtare mai mare de
1,5 abateri intercuartilice n raport cu prima, respectiv a treia cuartil i aberant atunci
cnd distana este de mai mult de trei cutii.
Folosirea mediei este preferat n cazul distribuiilor simetrice sau relativ simetrice, cu
utilizrile deja menionate anterior.
50
Modul rmne cea mai tipic valoare individual i de clas pentru variabilele
nominale i ordinale, cu o utilitate incomparabil mai restrns fa de ceilali doi
indicatori de poziie, media i mediana.
4.6. Exerciii i aplicaii practice
La un extemporal aplicat la dou clase paralele s-au nregistrat urmtoarele note:
X
10
9
8
7
6
5
4
3
2
1
f
5
7
8
6
8
5
3
2
1
1
fc
X
10
9
8
7
6
5
4
3
2
1
N
Mod
Median
Medie
f
5
7
8
6
8
5
3
2
1
1
46
6
7
6,80
N
Mod
Median
Medie
fc
46
41
34
26
20
12
7
4
2
1
10
9
8
Frequency
Count
0
1
10
Note
2
1
2
1
1.0
2.0
0
3.0
4.0
5.0
6.0
7.0
8.0
9.0
10.0
Note
Rezolvare pentru punctul 3: sunt dou valori modale, scorurile 6 i 8 avnd efectivele
maxime, de cte 8 cazuri.
51
Mediana se afl ntre valoarea a 23-a i a 24-a de rang. De jos n sus, pe linia
frecvenelor cumulate, cea mai apropiat valoare de a 23-a (fr a o depi) este a 20a, corespunznd scorului de 6. Rangurilor 21, 22, 23, 24 i 25 le corespunde scorul de
7 i deci mediana este 7.
Comentarii pentru punctele 5 i 7: distribuia obinut este una negativ (asimetric
spre dreapta, cum indic i curba supra-imprimat de pe histogram). Ea are dou valori
modale, 6 i 8, cu efective de cte 8 cazuri, dar cele dou moduri sunt la mic distan unul
de altul, semn c distribuia este una relativ omogen. Pentru aceasta pledeaz i faptul c
media i mediana au valori foarte apropiate (6,80, respectiv 7), ele fiind chiar la jumtatea
distanei dintre cele dou moduri.
Fiind marcate, barele permit uor identificarea celei mai apropiate valori de scor pn
la care frecvenele cumulate se apropie cel mai mult de a 23-a valoare, fr a o depi. Ea
este scorul 6, deci valoarea imediat urmtoare (7) este mediana. Rangurile pentru scorul 8
sunt de la 27 la al 34, ele depind punctul median.
4.7. Quiz
1. Ce msur a tendinei centrale este mai potrivit atunci cnd:
a. Distribuia are scoruri extreme sau scoruri lips?
................................
b. Avei nevoie de o estimare rapid a tendinei centrale a distribuiei? ................................
c. Avei nevoie s utilizai valoarea cea mai stabil de la un eantion la altul ...........................
2. O distribuie unimodal cu modul 20 i media 25 este un exemplu de (putei avea dou
opiuni):
a. Distribuie negativ.
b. Distribuie pozitiv.
c. Distribuie simetric.
d. Distribuie asimetric stnga.
e. Distribuie asimetric dreapta.
3. O distribuie cu mediana 27 i cu media 29 este probabil o distribuie (pot fi dou opiuni):
a. Distribuie negativ.
b. Distribuie pozitiv.
c. Distribuie simetric.
d. Distribuie asimetric stnga.
e. Distribuie asimetric dreapta.
4. Folosind regulile de rotunjire, raportai cu precizie de dou zecimale urmtoarele 5 numere:
a. 23,85492
b. 3,8751
c. 3,33333
d. 75,66666
e. 101,4999
---------------------------------------------------------52
5. ntr-o cercetare ce avea ca indicator mrimea fratriei s-au obinut urmtoarele rezultate:
X
f
fc
7
1
6
0
5
2
4
3
3
7
2
10
1
25
0
74
Determinai indicatorii tendinei centrale i comentai pe scurt rezultatele obinute.
........................................................................................................................................................
........................................................................................................................................................
........................................................................................................................................................
........................................................................................................................................................
6. ntr-o distribuie care este asimetric spre stnga:
a. Media este mai mare dect mediana.
b. Media este mai mic dect mediana.
c. Media este egal cu mediana.
d. Media, mediana i modul se suprapun.
7. Mediana este preferabil mediei ca indicator de poziie atunci cnd (putei avea mai multe
opiuni):
a. Distribuia este asimetric (stnga sau dreapta).
b. Cnd distribuia este ordonat cresctor sau descresctor.
c. Cnd distribuia are numeroase goluri (valori de scor lips).
d. Cnd distribuia are valori atipice sau extreme.
e. n toate situaiile anterioare (a, b, c, d).
8. ntr-o distribuie asimetric negativ, modul ca indicator al tendinei centrale:
a. Subevalueaz media i mediana.
b. Este aproximativ egal cu media i mediana.
c. Supraevalueaz media i mediana.
d. Subevalueaz doar media, dar nu i mediana.
9. Mediana este preferabil mediei ca indicator de poziie atunci cnd (putei avea dou
opiuni):
a. Distribuia reprezint o variabil nominal.
b. Distribuia reprezint o variabil categorial.
c. Distribuia reprezint o variabil ordinal.
d. Distribuia reprezint o variabil real numeric asimetric sau cu valori extreme.
10. Media nu va fi un indicator concludent al tendinei centrale atunci cnd (putei avea mai
multe opiuni):
a. Variabila este una discontinu (discret).
b. Variabila este una categorial.
c. Variabila are valori atipice sau extreme.
d. Variabila are un numr mic de scoruri (sub 20).
e. Variabila este tipic unei scale de raport.
53
16. Selectai din coloana din dreapta toate literele corespunztoare elementelor pe care le
considerai caracteristice celor trei indicatori ai tendinei centrale, trecndu-i n spaiul punctat
de sub fiecare.
Indicator
Mod
a
............................. b
............................
c
Median
d
............................ e
............................ f
Medie
g
............................ h
............................ i
Caracteristic
Este cea mai tipic valoare a unei distribuii.
Este cea mai indicativ valoare pentru raportul omogenitate/
eterogenitate.
Este cea mai vulnerabil la outlieri.
Este cea mai util n distribuiile asimetrice.
Este mai aproape de coada distribuiei n distribuiile asimetrice.
Este util pentru distribuiile care au la extreme valori de tietur
convenionale.
Nu este influenat de valorile atipice sau extreme.
Este o estimaie nedistorsionat a parametrului omonim al populaiei.
Este cea mai rapid i facil determinare a tendinei centrale.
54
CAPITOLUL 5
MSURI ALE VARIABILITII
Cunoaterea tendinei centrale ne spune foarte mult despre un set de date, dar nu poate
s ne dea o imagine de ansamblu asupra grupului investigat. Dac am avea de exemplu dou
grupuri cu coeficienii medii de inteligen de 103, am putea concluziona asupra faptului c
un grup, luat ca ntreg, este tot att de inteligent ca i cellalt grup, n sensul n care QI-ul o
indic, sau vom atepta ca ele s aibe aceeai performan medie colar sau s se comporte
similar oriunde factorul inteligen este implicat ntr-un mod important. Dar iat c primul
grup nregistreaz valori de la 93 la 113, iar al doilea de la 75 la 125, deci primul este cu mult
mai omogen dect al doilea. Este de aceea de presupus c primul grup va fi mult mai uor de
instruit, n sensul de a putea transmite cunotinele i achiziiona noile idei n acelai ritm,
ceea ce nu se poate spune i despre eterogenul grup de comparaie.
Este foarte pertinent observaia lui Clocotici i Stan (op. cit., p. 63) cnd afirm c
valoarea informaional a unui indicator statistic trebuie apreciat dintr-o tripl perspectiv:
istoric ce s-a ntmplat la un moment dat sau ntr-o situaie dat; comparativ pentru a
putea raporta situaiile similare unele la altele; predictiv ce putem presupune despre
evoluia viitoare a unui fenomen, plecnd de la cunoaterea evoluiei lui de pn la un moment
dat.
Toate aceste argumente sunt importante pentru a arta c, aa cum la tendina central
am cutat cel mai potrivit numr care s o exprime ct mai bine, avem nevoie s lum n
calcul n aceeai form sintetic i ceea ce se petrece spre extremele distribuiei, adic relativ
la mprtiere, pentru a obine indicatori adecvai studiului algebric. n principiu, acetia ar
trebui s condenseze mult informaie, s fie uor de calculat i s se bazeze pe ct mai multe
(dac nu pe toate) dintre observaiile efectuate.
Ataai indicatorilor de poziie, cei de dispersie msoar gradul de mprtiere al
indivizilor ce compun o populaie statistic, n cadrul seriei de valori pe care le iau. Ei vor fi
indicativi pentru raportul omogenitate/eterogenitate n legtur cu caracteristica dat. Uneori,
cnd variabila reflect scri valorice sau ierarhii acceptate social, ca inteligena, venitul etc.
aceti indicatori reflect gradul de inegalitate dintre indivizi. i ntr-o situaie i n cealalt ei
55
reduc gradul de indeterminare (variabilitate) al unui fenomen, fcnd posibile att comparaia,
ct i predicia.
5.1.
Amplitudinea mprtierii
Cea mai simpl msur a mprtierii, dar i cea mai srac, este cu siguran
amplitudinea mprtierii, care se definete ca diferen dintre cea mai mare i cea mai mic
valoare, dup formula:
AI = R (Range) = Xmax Xmin
(5.1)
detectare i eliminare a unor asemenea valori. Exist i alte procedee de a lsa pe dinafar
valorile aflate spre extreme pentru a surprinde mai bine forma unei distribuii, cum ar fi
utilizarea abaterii intercuartilice sau a celei interdecilice. Menionm faptul c, n ciuda
tuturor inconvenientelor artate, determinarea amplitudinii este primul pas pentru stabilirea
mrimii intervalelor, n operaia de grupare n clase a datelor.
5.2.
Abaterea intercuartilic
Exist o multitudine de procedee prin care o distribuie este mprit n mai multe
pri egale, numite cuantile, acestea putnd fi cuartilele (4 pri), decilele (10 pri) sau
centilele (100 de pri). Vom descrie n capitolul urmtor aceast operaie de gradare pe
curb, foarte important n construirea etaloanelor i a baremelor.
Uzual, dup ce se ordoneaz valorile de la cea mai mic la cea mai mare, se determin
trei puncte de pe linia de baz, notate cu Q1 ,Q2 i Q3, numite cuartilul unu, doi i trei, care au
proprietatea de a mpri ntreaga distribuie n patru pri egale ntre ele. Evident, cuartila a
doua, cea care mparte populaia n jumti, este binecunoscuta median.
IQR = Q3 Q1 = 2Q
(5.2)
AQ = (Q3 Q1)/2 = Q
(5.3)
Vom distinge astfel cuartilul inferior - aflat ntre Xmin i Q1, curtilul mediu-inferior - aflat ntre
Q1 i Q2, cuartilul mediu-superior - ntre Q2 i Q3 i cuartilul superior - ntre Q3 i Xmax.
57
140
120
100
BG
80
60
N=
24
33
1.00
2.00
SEX
58
5.3.
X X
N
(5.4)
k X X
N
(5.5)
n care k sunt frecvenele fiecrei clase. Pentru c n cadrul ei intr fiecare valoare a variabilei
din distribuie, abaterea medie absolut este un indicador al distribuiei mult mai precis dect
amplitudinea mprtierii. Faptul c n ambele formule de mai sus diferena de la medie se ia
59
n modul nseamn c se vor lua n calcul doar valorile absolute, fr a se ine seama de
semnul minus al valorilor negative. Exist i o valoare medie a abaterilor de la median, mai
puin utilizat, dei Yule i Kendall (1969, p. 157) au demonstrat c cea mai mic abatere
medie este atunci cnd folosim mediana, i nu media aritmetic.
n cazul distribuiilor simetrice, n intervalul X 1AM se gsesc aproximativ 57% din
cazuri, comparativ cu 68% care se afl n intervalul X 1. Deci o abatere standard este cu
aproximaie egal cu 1,25 abateri medii.
5.4. Abaterea standard i variana/ dispersia
Abaterea standard sau media ptratic a abaterilor de la medie (s sau ) i dispersia
sau variana (s2 sau 2) sunt msurile cele mai reprezentative ale variabilitii, cu o foarte
larg utilizare. Variabilitatea este de altfel una dintre nsuirile remarcabile ale ntregii materii,
cci universul nsui a evoluat de la primul big-bang (explozia originar) prin difereniere i
integrare progresiv. tefan Lupaco formula chiar un principiu al excluziunii, potrivit cruia
nu pot exista doi atomi identici pe aceeai orbit, deci diferenierea ar ncepe chiar de la nivel
subatomic.
Cu att mai mult lucrurile i fenomenele complexe integreaz elemente care, fiind
diferite, contribuie la diversificarea a tot ceea ce exist, adic la variabilitate. Ideea
diferenelor interindividuale, att de important n psihologie, este prezent nc de la Platon
(Republica) i a gsit o larg recunoatere n opera lui Darwin, la care evoluia speciilor (un
principiu universal al lumii vii) se bazeaz pe selecia, dintr-un vast patrimoniu de caractere
ce compune variabilitatea speciilor (unele ereditare, altele dobndite), doar a acelor elemente
care au o valoare adaptativ.
Dincolo de speculaiile filosofice, variabilitatea interuman ca fapt atestat tiinific
(nici chiar gemenii unizigoi nu sunt identici) este important pentru c permite exprimarea
diferenelor dintre oameni ntr-o manier cantitativ. Variabilitatea uman nu se refer doar la
lucruri simple (timp de reacie, sensibilitate a analizatorilor, discriminri de finee), ci are n
vedere toate nivelurile de analiz, de la cel perceptiv la cel cognitiv superior (unii au o
memorie bun, alii o inteligen superioar etc.), de la structurile cunoaterii la cele ale
afectivitii, voinei sau personalitii, de la individ la grup, de la o vrst la alta, fcnd
posibil exprimarea cantitativ, deci formalizarea matematic i descoperirea de legi.
Din punct de vedere statistic variana sau dispersia este egal cu media aritmetic a
ptratelor abaterilor de la media unei distribuiii ea reprezint msura geometric a suprafeei
de sub curba lui Gauss. Radical din aceasta este Abaterea Standard (AS), care este o nitate de
60
(5.6)
f ( X ) 2
N
(5.7)
( X X ) 2
N 1
s2
(5.8)
f ( X X ) 2
N 1
(5.9)
s2
( X ) 2
N
N 1
X 2
(5.10)
s2
(fX ) 2
N
N 1
fX 2
(5.11)
De aici rezult c cea mai uoar cale de a determina abaterea standard manual
pentru date negrupate este aceea de a obine suma valorilor individuale i suma ptratelor
valorilor individuale i de a le introduce n formula 19, care este rdcin ptrat din formula
17. Acest lucru este valabil i pentru obinerea abaterii standard dintr-o distribuie de
frecvene, formula 20, care este rdcina ptrat din formula 18).
( X )
X
N
s
N 1
(fX )
fX
N
N 1
(5.12)
(5.13)
Dintre toi indicatorii dispersiei cel mai utilizat este cu siguran abaterea standard,
pentru c acesta este cel mai exact, avnd marele avantaj c se exprim, ca i media, prin
61
aceleai uniti de msur ca i datele iniiale pe care le prelucrm. De exemplu, dac datele
noastre se bazeaz pe metri, abaterea standard se va exprima tot n metri iar dispersia n metri
ptrai.
Prin faptul c nu cuprinde radicalul expresiei, dispersia pare mai maniabil i mai
avantajoas. De fapt, abaterea standard ofer cele mai mari avantaje legate de discutarea
distribuiilor normale, facilitnd punerea n legtur a distribuiei obinute cu proprietile
matematice ale celei ideale, exprimat prin curba lui Gauss. Prin faptul c deviaia standard
ridic la ptrat diferenele individuale de la medie, inconvenientele semnelor minus ale
abaterii medii (AM) dispar, pstrndu-se doar proprietile matematice, de unde rigurozitatea
crescut a abaterii standard n raport cu abaterea medie. Ea poate fi folosit n operaii
algebrice n sensul n care o scal de interval sau de raport o permite.
Pe un minicalculator cu panou statistic sunt afiate urmtoarele valori:
N
Fete
Total
NX
52
NY
41
NX+NY=NZ
93
X
X
X
X2
6,98
1,81
363
2701
Y
Y
Y
Y2
7,29
1,58
299
2281
Z
Z
X+Y=Z
X2+Y2=Z2
7,12
1,71
662
4982
Din date combinate rezult c media total este de 6,98 iar abaterea standard de 1,71.
n concluzie, la determinarea abaterii standard pentru eantioanele reunite este nevoie de suma
ptratelor valorilor individuale i de suma valorilor individuale.
62
cnd N > 50
R/ = 5
cnd N > 90
R/ = 6
63
De asemenea msoar distana la care se afl o valoare oarecare (brut) n raport cu media.
O distan sau interval dat n cote brute poate fi exprimat n uniti sigmatice, mprind
distana respectiv (X - X) la abaterea standard. Vom avea un punct de referin 0,
corespunznd mediei, i cotele transformate, adic scorurile z, pentru care formula de calcul
n funcie de statisticele eantionului este:
X X
X z X
(5.14)
(5.15)
ntr-o distribuie tipic normal, unde exist 3 abateri sub i peste medie, notele z vor
varia ntre 3 i +3, trecnd prin 0. Cu ajutorul notelor z putem face comparaii directe, ele
reunind cei mai importani indicatori de distribuie (media i abaterea standard), variaiile
diferite fiind aduse la acelai numitor comun.
5.5. Coeficientul de variaie
Dei abaterea standard d o informaie relevant despre gradul de mprtiere al
variabilei n jurul mediei, din care s-ar putea concluziona n legtur cu omogenitatea/
eterogenitatea populaiei respective de date, sau chiar n legtur cu diversitatea i inegalitatea
dintre indivizii statistici care o compun, acest indicator nu poate servi prin el nsui la
comparaii.
Unul dintre avantajele abaterii standard, acela de a se exprima n aceleai uniti de
msur ca ale variabilei respective, este i cel care mpiedic comparaia mai multor abateri
standard ntre ele, cci fiecare se exprim n alte uniti de msur. De exemplu, ar fi greu s
comparm dispersia salariilor exprimate n monede diferite (lire slabe italiene i lire tari
englezeti), sau chiar n aceeai moned la momente de timp diferite (leul slab de la
sfritul a 15 ani de inflaie i leul tare de dup denominaie). O soluie ar fi raportarea la o
moned extern, stabil n timp, dar inflaia lent o poate atinge i pe aceasta.
Pentru a fi posibil comparaia asupra raportului omogenitateeterogenitate ar fi deci
de preferat s avem o valoare amodal (care elimin problema unitii de msur), lucru intuit
de Pearson, care a propus pentru aceasta un indicator numit coeficient de variaie, notat cu V:
V
(5.16)
capcanele pe care acesta le presupune: el este aplicabil doar variabilelor msuratede pe scara
de raport (dar i acolo cu pruden), deoarece prin translaia valorilor, originea poate fi astfel
plasat nct media s devin zero, fcnd ca raportul s nu mai aib sens.
5.6. Indicatori ai formei distribuiei
Problema formei distribuiei se pune cu precdere pentru variabilele continue, care
-prin grupare - evideniaz foarte clar distribuiile frecvenelor. Se pune de asemenea pentru
numerele mari, a cror distribuie tinde spre o regularitate din ce n ce mai accentuat odat cu
creterea numeric. ntruct statistica clasic i distribuiile empirice i gsesc un puternic
suport n curba lui Gauss ca model ideal de distribuie, se impune o dubl comparaie:
a jumtii stngi cu cea dreapt a unei curbe, pentru a determina simetria/ asimetria
acesteia, creia i se mai spune i oblicitate (skewness, n englez);
(5.17)
(X X ) 0
(X X )
N
(5.18)
(X X )
N 3
asimetrie / skewness
(5.19)
(X X )
N 4
3 2 3 kurtosis
(5.20)
n care 2 nlocuiete toat prima parte a expresiei de mai sus (vezi Pitariu, 1994, p. 208).
ntr-o distribuie normal, indicele de boltire 2 este egal cu 3. Atunci cnd kurtosisul ia
valoarea zero, repartiia este numit mezokurtic, dac este mai mare ca zero ea este
leptokurtic (curb nalt, ascuit), iar cnd este sub zero, adic negativ, ea se numete
platikurtic (curb plat, joas sau prbuit). Kurtosisul poate fi determinat i n funcie
(C C25 ) 2 Q 2
de punctele cent
Ku 75
3. Rezultatele unui test de citire pentru clasa a cincea a dat media de 25 i abaterea
standard de 5, n timp ce un alt grup de copii de clasa a opta a obinut la acelai test media de
30 i abaterea standard de 10. Cerine:
a. Reprezentai grafic cele dou distribuii, pe aceeai figur.
b. Ce procentaj din cei de clasa a cincea scoreaz mai bine dect cei de clasa a opta?
4. Calculai media i mediana pentru urmtoarele date:
a. 2 12 27 33 9 21 10 9 6 11 23 25 27 14 10 5
X
152
148
146
138
131
118
105
102
f
3
5
7
5
8
4
3
2
a. asimetric stnga
b. simetric
c. asimetric dreapta.
7. Examinai cu atenie cele patru distribuii de mai jos dup care facei o descriere
detaliat a fiecreia, fcnd referire la mrimea/ volumul distribuiei, la ce se poate spune
dup o inspecie vizual atent n legtur cu indicatorii tendinei centrale, mprtierii i
formei distribuiei.
67
CURSUL 6
INFERENA STATISTIC
6.1. Introducere
Cel mai adesea atunci cnd facem anchete, sondaje, experimente sau teste, avem n
vedere o populaie int mai larg pe care ar trebui s o investigm integral. Practic, de cele
mai multe ori, acest lucru este imposibil din cauza volumului de munc enorm, a costurilor
ridicate, a timpului lung de investigare, a degradrii materialelor i instrumentelor etc. i de
aceea cutm un compromis rezonabil ntre toate acestea i precizia tiinific, alegnd aaanumitul eantion convenabil.
n asemenea cazuri din populaia avut n vedere se extrag eantioane 1, care n
statistic se numesc selecii, termen impropriu dup Smith (1971, p. 29), pentru c el
sugereaz alegerea intenionat selectiv, dup anumite criterii. Ori condiia fundamental n
teoria seleciei este, ca extragerea acestora s se produc la ntmplare, aleator, cci
eantioanele pe baz de ntmplare sunt de nalt improbabilitate (op. cit., p. 3). n final,
concluziile trase de pe asemenea eantioane populaionale sunt extrapolate asupra ntregii
colectiviti vizate prin cercetare, problema care se pune fiind ct ncredere (fundamentat
matematic) putem avea n concluziile noastre.
Orice grup natural intact, luat n compoziia sa dat, poate fi considerat un eantion
extras la ntmplare (dac nu am introdus chiar noi factorii de selecie, aflai sub control
experimental). Aplicnd la mai multe clase de elevi (selecii aleatoare) acelai test, constatm
fluctuaii de la o clas la alta, numite fluctuaii de eantionaj, la nivelul unor procente, medii,
abateri standard etc. n ce msur datele astfel obinute sunt relevante pentru ntreaga
populaie din care lotul de lucru a fost extras este principala problem a inferenei statistice.
Lund ca baz valorile eantionului ales i extrapolndu-le la ntreaga populaie din care el a
fost extras se comite o anumit eroare, a crei valoare evident va trebui s fie ct mai mic.
n psihologie, pedagogie, sociologie multe dintre datele rezultate din msurtoare teste, anchete, chestionare - dac sunt determinate din analiza unor selecii de volum mare i
nedistorsionate (experimental sau natural), tind s se distribuie conform curbei probabilitii
1
Atragem atenia asupra termenului de eantion care, n sens foarte strict, presupune utilizarea unei metode sau a
unui procedeu de eantionare. De aceea este de preferat s folosim termenul de eantion doar n acest caz, n rest
putnd utiliza termenii de lot, grup etc.
68
Figura 6.1. Probabilitile producerii evenimentelor statistice asociate suprafeelor curbei gaussiene
exteriorul acestui interval (5% i 1% fiind distribuite simetric, n dou jumti egale la
capetele curbei). Prin aducerea oricrei distribuii normale reduse la o distribuie etalon, n
note z (cu o medie zero i o abatere standard de 1) s-a generat un tabel al legii normale
reduse, care ne permite s vorbim de semnificaie i ncredere n termeni de ans i de
probabilitate. Conform acestui tabel exist probabilitatea de 95 la sut ca o valoare s cad n
intervalul
cdea n intervalul
cdea n intervalul
69
s
N 1
SX
s
N
(6.1)
(6.2)
n care s este abaterea standard de selecie, iar N este numrul cazurilor (volumul seleciei).
Formula Ea este ntrebuinat pentru a estima ct de mult se apropie media de selecie
de
18
18
1,20
225 15
Se poate afirma c pentru un grad de ncredere limitat (pentru 68% din cazuri) media
real se afl ntre 41,201,20, adic ntre 40 i 42,40; c pentru un nivel mai ridicat de
ncredere (pentru 95% din cazuri) media real se afl ntre 41,201,961,20, deci ntre
41,202,35, adic n intervalul 38,85 i 43,55; i n sfrit pentru un nivel de ncredere foarte
70
ridicat (pentru 99% din cazuri) aceast interval este 41,202,581,20, deci 41,203,10, adic
media cade cu o probabilitate de 99% n intervalul 38,10 i 44,40. n primul caz riscul de
eroare este de 100-68,32 = 31,68% (eroare foarte mare), n al doilea caz de 5% (acceptabil)
iar n ultimul caz de 1% (foarte mic, deci foarte acceptabil).
Se obinuiete s se noteze riscul de a grei pe care ni-l asumm fcnd o aseriune sau
alta i pentru aceasta sa-a introdus conceptul de prag sau nivel de semnificaie. Astfel,
intervalul
2,58Sx se
numete interval de ncredere la pragul de 0,01 (exist risc de eroare doar de 1% din cazuri).
6.4. Eroarea standard a unui cuantum procentual i semnificaia ei
ntr-un studiu am detectat la 6 ani 10 stngaci din 64 de biei investigai i 6 stngace
din 56 de fete. Procentul p al bieilor este de 15,63% iar al fetelor este de 11,11%.
Eroarea frecvenei are urmtoarele valori pentru biei i fete:
Ep S p
15,63 84,37
64
20,60 4,54
la baieti; Ep S p
11,11 88,89
17,64 4,20
56
n care p a fost deja determinat (15,63), iar q este procentajul complementar (q = 100-p, n
cazul nostru q reprezintnd dreptacii); pentru biei q este 84,37 iar pentru fete q este 88,89.
Putem concluziona c pentru biei proporiile reale se afl - la un prag de ncredere de
5% - ntre limitele p1,96Sp n intervalul 15,631,964,54 = 15,638,9, adic ntre 6,73-24,53;
la un prag de ncredere de 1%, ntre limitele p2,58Sp, n intervalul 15,632,584,54 =
15,6311,71, adic ntre 3,92 - 27,34. La fete localizrile proporiilor reale vor fi determinate
n mod analog: 11,111,964,20 = 11,118,23, n intervalul de 2,88 - 19,34, pentru un prag de
ncredere de 5% i 11,112,584,20 = 11,1110,84, n intervalul 0,27 - 21,95, pentru un prag
de ncredere de 1%.
6.5. Sarcini sau probleme de comparaie. Ipoteza de nul
ntr-un exerciiu anterior (aplicaie la cursul 4) pe unul din factorii testului de
personalitate HSPQ 52 de biei aveau
= 10,56
i = 3,40. Diferena mediilor celor dou grupuri (9,75-10,56 = -0,81), era ea suficient de
mare pentru a afirma c nu sunt datorate hazardului i a construi tabele de norme separat
pentru cele dou sexe? Aceast problem o rezolv testul semnificaiei diferenei celor dou
medii, hotrtor n luarea deciziei. Diferena poate fi semnificativ statistic la un anumit prag
de semnificaie (i atunci tratm separat cele dou grupuri) sau nesemnificativ, adic datorat
71
la fete
ntmplrii. n aceast situaie mrirea numeric a eantioanelor sau alegerea altor eantioane
ar putea nivela, eventual chiar inversa sensul diferenei.
Facem urmtoarele precizri: cu ct numrul de cazuri este mai mare, cu att mai mult
aceeai diferen dintre medii crete n semnificaie; cu ct variabilele sunt mai centrate pe
medie (abaterea standard mai mic), cu att diferenele tind s fie mai semnificative.
a
n cazul a i n cazul b de mai sus, valoarea diferenei mediilor nu este aceeai, dar n
primul caz ea este semnificativ (dispersie mic, ce au n comun cele dou eantioane este
mult mai puin dect ceea ce au ele diferit), pe cnd n cazul b poriunea comun este att de
mare (din cauza dispersiei mari) nct ele pot fi considerate ca fcnd parte din aceeai
populaie i tratate n comun. Calculul semnificaiei diferenei dintre dou medii se face n
funcie de mrimea eantioanelor (mari sau mici) i a faptulului dac sunt corelate ntre ele n
vreun fel sau sunt independente.
6.6. Eantioane necorelate de volum mare. Ipoteza de nul
Limita dintre eantioanele de volum mic i cele de volum mare este mai curnd una
arbitrar, tabelele tratnd difereniat problema pentru o valoare critic a lui N de 30 de cazuri.
Pentru unele tipuri de analize, ca analiza factorial de exemplu, numerele mari nseamn ns
sute, uneori mii de participani.
n legtur cu faptul dac eantioanele sunt independente sau corelate trebuie fcute
cteva precizri importante. n principiu distincia are n vedere faptul c participanii la un
experiment sunt msurai o singur dat sau de mai multe ori pe parcursul aceluiai
experiment. Atunci cnd pentru fiecare condiie experimental este alocat un alt grup de
subieci, acelai subiect neparticipnd la mai multe tratamente experimentale, eantioanele se
numesc independente. n acest caz n rezultatul final al interveniei vor interveni cu ponderi
72
diferite dou surse majore ale variabilitii datelor, una care se refer la tratamentul
experimental n sine i alta datorat diferenelor individuale dintre membrii alocai diferitelor
condiii/ grupuri experimentale, care niciodat nu vor fi perfect echivaleni. Acest tip de
eantion n care participanii sunt msurai o singur dat se cheam deci eantioane
independente. Testarea diferenelor mediilor pentru variabila dependent are n vedere testul t
pentru eantioane independente (necorelate).
Din aceast perspectiv pare a fi mult mai avantajos ca acelai grup experimental s
treac prin toate fazele, etapele sau condiiile experimentale, situaie n care variabilitatea
interindividual (fiind aceeai) nu mai intervine n determinarea efectului final, practic ea
nemaicontnd. Acest tip de design experimental are o mult mai mare capacitate de a pune n
eviden efectul curat al unui tratament experimental, dac acesta exist cu adevrat.
Puterea cercetrii (adic posibilitatea rejectrii ipotezei nule) este mai mare n acest al doilea
caz, i atunci apare firesc ntrebarea de ce nu sunt folosite exclusiv acest tip de eantioane,
care prezint i alte avantaje suplimentare. Astfel, eantioanele corelate permit un mult mai
bun control al variabilelor externe ce pot distorsiona rezultatele cercetrii. Exist i un mare
avantaj financiar legat de acest tip de eantioane, deoarece ele sunt mai economice, n msura
n care acelai efect este pus n eviden cu un numr mult mai mic de participani.
Dezavantajele acestui tip de eantionare sunt i ele de luat n calcul n proiectarea
cercetrii. n principal efectele de ordine i efectele de nvate sunt cele care trebuie avute n
vedere cci, participnd la toate condiiile experimentale, apare efectul de ordine n
performan generat de chiar succesiunea n care tratamentele au fost administrate. Acest fapt
ar putea fi rezolvat prin contrabalansare (ordini aleatoare ale tratamentelor), dar expunerea la
msurtorile i tratamentele iniiale genereaz reactivitate, i deci o anumit sensibilizare la
tratamentele ulterioare. Efectul de nvare acioneaz nesistematic, adic n mod inegal
asupra participanilor, de unde i implicaiile negative asupra validitii interne a cercetrii.
Atunci cnd eantioanele sunt de volum mare (peste 30) i independente (necorelate),
procedeul de calcul al semnificaiei diferenei mediilor se face n ase trepte (pai):
a. Se calculeaz cele dou medii.
b. Se calculeaz cele dou abateri standard (de selecie) ale distribuiilor.
c. Se calculeaz erorile standard ale celor dou medii.
d. Se calculeaz eroarea standard a diferenei dintre cele dou medii dup formula:
73
S X Y S X SY
sX
NX 1
sY
NY 1
sX
s
(6.3)
Y
N X 1 NY 1
X Y
S X Y
X Y
2
(6.4)
sX
s
Y
N X 1 NY 1
N
X
10,56 9,75
9,92 11,56
51
41
Fete
42
10,56
3,40
0,81
0,195 0,28 2
0,81
0,81
1,17.
0,477 0,69
n tabelul legii normale de distribuie t, cea mai apropiat valoare de 1,17 este 1,20, la
care ansele de eroare sunt de 23%, mult mai mari dect 5% (primul prag de semnificaie) sau
dect 1% (al doilea prag de semnificaie), deci se poate considera c diferena dintre cele dou
medii este ntmpltoare, datorat hazardului.
n statistic ne micm ntre dou ipoteze contradictorii: ipoteza specific Hs, care este
de fapt ipoteza de cercetare (ce afirm c diferena dintre medii este una real, care nu se
datoreaz ntmplrii) i ipoteza de nul Ho, care presupune c diferenele aprute sunt datorate
hazardului, erorilor de eantionare etc. Dac plasm pe o ax orizontal probabilitatea de
eroare obinem reprezentarea de mai jos:
p=5%
p < 5%
p=1%
p < 1%
a. dac t calculat (sau z, pentru eantioanele cu volum de peste 30 de participani) este mai mare
de 1,96 nsemn c diferena este nesemnificativ statistic, ipoteza de nul neputnd fi
rejectat;
74
b. dac t are valoare mai mare de 2,58 se admite n mod ferm ipoteza specific, la un nivel de
ncredere de 1%;
c. dac t este cuprins ntre 1,96 i 2,58 nseamn c semnificaia diferenei mediilor este una
nesigur, rezultatul rmnnd n dubiu (nivel de ncredere de 5%).
Tradiia a acreditat ca praguri de semnificaie p 0,05 ( sau p .05) pentru situaii n
care riscul lurii unei decizii nu are implicaii practice sau teoretice mari i pragul de p 0,01
(sau p . 01) pentru deciziile majore sau care implic un risc crescut.
6.7. Eantioane de volum mare, corelate
Cnd acelai grup este comparat cu el nsui, nainte i dup introducerea unui factor
experimental sau atunci cnd dou grupuri au fost prealabil comparate, egalizate i puse ntr-o
situaie prin care se influeneaz reciproc, vorbim de eantioane (selecii) corelate. Exist de
asemenea eantioane perechi construite astfel nct fiecrui element dintr-un eantion s-i
corespund un altul din cellalt, cu care formeaz pereche (eantioane apariate). n felul
acesta se pot compara dou procese didactice sau de instruire, la originile sale cele dou
eantioane fiind egalizate dup unul sau mai multe criterii (QI, nivel de cunotine, vrst,
apartenen de gen etc.), cu ct criteriile sunt mai numeroase comparaia fiind mai ntemeiat,
dar cu dificulti i costuri aferente tot mai ridicate. Aa a procedat Gily atunci cnd a
comparat 28 de elevi buni cu 28 de elevi slabi apariai pentru a determina cauzele diferenei
de performan colar, pentru niveluri egale ori direct comparabile de inteligen, vrst, gen
sau profesiunea prinilor. Formula de calcul a erorii diferenei mediilor este n acest caz
urmtoarea:
S X Y S X SY 2rXY S X SY
(6.5)
Apare aici un simbol nou rxy care este coeficientul de corelaie. Se observ c S X Y
(eroarea diferenei celor dou medii ale eantioanelor corelate) este tot mai mic pe msur ce
corelaia crete. Deci corelaii mai mari dau valori tot mai mari ale lui t, cci n rest formula
este aceeai:
X Y
S X Y
(6.6)
75
una datorat ntmplrii? Pentru a rspunde la ntrebarea de mai sus trebuie s calculm
eroarea standard a diferenei dintre cele dou cuatumuri procentuale (procentaje de selecie),
dup formula:
S ( p1 p 2 ) S p21 S p22
S( p1 p 2 )
Cum diferena t
(6.7)
p1 q1 p2 q2
N1
N2
(6.8)
p1 p2
, formula lui t va fi:
S( p1 p 2 )
p1 p2
p1q1 p2q2
N1
N2
(6.9)
n cazul nostru diferena nu este semnificativ statistic pentru c nu atinge un t critic de 1,96
(p = 5%) sau 2,58 (p = 1%), dei n realitate stngacii sunt de aproximativ patru ori mai
frecveni dect stngacele. n cazul nostru:
t
15,63 11,11
64
56
4,52
4,52
0,73.
20,60 17,64 6,18
76
ntmpltoare, rezultate din selecia eantionului. Diferenele dintre cele dou tabele sunt
urmtoarele:
1. Tabelele t dau valori pentru o singur valoare a lui N, care este cuprins ntre 30 i
infinit; tabelele Fisher (z) iau n considerare toate valorile lui N sub 30.
2. Tabelele z opereaz cu probabilitate exprimat n procente din 100 anse, tabela
Fisher opereaz cu fracii zecimale. Astfel p = 0,01 corespunde lui 1% sau o ans din o sut,
iar p = 0,50 cu 50 de anse la o sut (o ans din dou).
3. n tabela z aceasta are un numr de valori care variaz din aproape n aproape (la
una sau dou zecimi), n timp ce t este calculat pentru un numr relativ mic de valori alese
sistematic, cele mai importante fiind cele critice (p = 5%; p = 1%).
4. n tabelele Fisher nu apare n prima coloan din stnga N, ci f, care simbolizeaz
numrul de grade de libertate (degree of freedom). Cnd se lucreaz cu un singur grup sau cu
grupuri corelate f = N-1; cnd se lucreaz cu grupuri independente f = NX + NY - 2; cnd grupul
depete 30, tabelele z i t se egalizeaz.
6.10. Semnificaia diferenei mediilor a dou eantioane de volum mic corelate
Dei n esen metoda de calcul a diferenelor mediilor eantioanelor de volum mic
este aceeai ca i pentru eantioanele de volum mare (calculul lui t, urmat de raportarea la un
tabel i determinarea faptului dac probabilitatea de eroare este sub sau peste un prag critic),
la eantioanele de volun mic apare o mare simplificare: n loc de a calcula dou medii, dou
abateri standard i apoi eroarea standard a diferenelor dintre mediile celor dou eantioane,
aici se lucreaz cu o singur medie, adic media diferenelor de performan a subiecilor n
situaia X i n situaia Y, sau la grupul 1 i grupul 2 cu care a fost egalizat i pus n situaia de
competiie (grupul martor i grupul de control). Ipoteza de nul este n acest caz presupunerea
c diferena mediilor dintre grupuri este zero, iar ipoteza specific este aceea c diferena
mediilor este semnificativ (la un prag specific diferit de zero).
De exemplu, se tie c diabetul juvenil poate ncetini dezvoltarea creterii dac boala
s-a declanat nainte de pubertate. Pentru a verifica acest lucru s-au msurat nlimea i
greutatea pentru dou loturi care au fost egalizate dup criteriul vrstei i al genului.
Pretest
Nr
.
1
nlime
Posttest
Diferena
Pretest
Greutate
Posttest
Diferena
= Y-X
= Y-X
162
164
57
58
77
2
3
4
5
6
7
8
9
10
11
12
13
14
N
154
153
167
133
138
154
162
160
148
142
140
149
131
159
148
163
142
140
156
166
159
163
145
139
170
140
149,50
153,86
5
-5
-4
9
2
2
4
-1
15
3
-1
21
9
61
25
25
16
81
4
4
16
1
225
9
1
441
81
2
993
43
48
60
38
39
47
58
56
50
48
44
49
39
54
50
55
50
39
43
60
60
52
47
45
51
42
48,29
50,43
A. Pentru nlime:
1.
2. s 2
( ) 2
N
N 1
3.
4.
11
2
-5
12
0
-4
2
4
2
-1
1
2
3
30
121
4
25
144
0
16
4
16
4
1
1
4
9
2
350
61
4,36
N 14
993 265,79
55,94 s 55,94 7,48
13
s
7,48
S
2,07
N 1
13
4,36
t
2,11
S 2,07
5. Din tabela lui Fisher selectm pe p. Cea mai apropiat valoare este pe linia f = N-1
(13), n dreptul coloanei a 6-a la 2,16 (comparativ cu 2,11 obinut de noi). Aceasta nseamn
c exist mai mult de 5% anse de eroare n respingerea ipotezei de nul i deci aceasta nu va fi
rejectat. Fr a atinge pragul semnificaiei statistice (p < .05) diferena tinde totui s fie
semnificativ. Mrirea eantionului ar putea duce probabil la atingerea acestui prag minim
necesar respingerii ipotezei nule.
B. Pentru greutate:
1.
2. s 2
3.
4.
30
2,14
N 14
2
350 64,29
2
21,98 s 21,98 4,69
N
13
s
4,69
S
1,30
N 1
13
2,14
t
1,65
S 1,30
78
5. Din tabelul lui Fisher, p la f = 13 este 2,16 pentru 5% anse de eroare iar valoarea
obinut de noi fiind mult sub aceasta, ipoteza de nul nu poate fi respins.
Paii exemplificai prin cele dou exerciii anterioare sunt cei prezentai mai jos:
Etapa 1. Se ntabeleaz valorile obinute de subiecii celor dou grupe mperecheate
(corelate), diferena i ptratul acesteia. Se calculeaz media diferenelor (
= X-Y, care
s2
() 2
N ), dup care abaterea standard (s =
N 1
s
N 1
Etapa 4. l calculm pe t care este ctul dintre media diferenelor i eroarea standard a mediei
YX
cu z S
, care este totui mai greu maniabil, cci presupune dou medii, dou abateri
Y X
standard i dou erori standard ale diferenelor.
Etapa 5. l evalum pe t alegnd de pe coloana f din tabelul lui Fisher numrul gradelor de
libertate echivalent cu N-1 (n cazul nostru 13). n funcie de valoarea gsit vedem dac, n
cazul respingerii ipotezei nule, probabilitatea de eroare este mai aproape de unul dintre
pragurile critice cutate (p = 0,05 sau p = 0,01).
Toate determinrile laborioase evideniate prin exemplele de mai sus pot fi extrem de
mult simplificate dac apelm la o alt modlitate de calcul, dat de formula 6.15 de mai jos.
Aceasta presupune ca datele s fie introduse pe un minicalculator cu panou statistic i
ntabelate ca n exemplul urmtor.
nlime
Greutate
diferena
14
4,36
diferena
14
2,14
79
x
x2
7,16
61
993
4,69
30
350
4,36 4,36
2,27
s
7,16 1,91
, pentru diferena de nlime.
N
14
2,14 2,14
1,70
s
4,69 1,25
, pentru diferena de greutate.
14
N
Cele dou valori rezultate din exemplele de mai sus, dei foarte apropiate de cele
obinute prin metoda precedent, nu sunt totui identice cu acestea. Pentru elegana i
rapiditatea n calcul presupuse de acesta recomandm cel de al doilea procedeu de lucru.
6.11. Semnificaia diferenei mediilor a dou eantioane
Cnd se compar dou eantioane independente de volum mic exist posibilitatea de a
folosi metoda lui Fisher n calculul semnificaiei diferenei. n acest caz erorile standard ale
mediilor de selecie nu se mai calculeaz separat pentru a se combina n vederea obinerii
erorii standard a diferenei, ci ambele selecii sunt considerate mpreun, deoarece ipoteza de
nul presupune c ele reprezint o aceeai populaie. La modul cel mai general, formulele de
lucru pentru testele t destinate eantioanelor de volum mic necorelate sunt 6.10 i 6,11 de
mai jos.
X1 X 2
X 12 X 2 2
N N 2
2
1
N1 N 2
N1 N 2
(6.10)
n care X 1 , X 2 sunt mediile de selecie; N1, N2 numrul de cazuri pentru X1 i X2; X12 i
X22 reprezint suma ptratelor abaterilor individuale de la medie. Singura precauie
important este aceea de a-l cuta pe t n coloana lui Fisher la df = N1 + N2 - 2 grade de
libertate. Cea mai des utilizat modalitate de calcul a testului t pentru eantioanele
independente ale cror dispersii nu difer semnificativ 2, este ns formula 6.11 de mai jos,
unde toate notaiile sunt deja cunoscute. n aceast formul din dispersiile separate ale celor
dou grupuri comparate se obine una singur, cumulat, care este de fapt o estimare a
dispersiei populaiei:
2
Pentru a rspunde la ntrebarea dac cele dou dispersii sunt similare sau diferite n SPSS exist testul Levene
pentru egalitatea varianelor.
80
X1 X 2
( N1 1) s12 ( N 2 1) s2 2
N1 N 2 2
1
1
N
N
2
1
(6.11)
(6.12)
X1 X 2
2
1 2
N1 N 2
(6.13)
n fine, testul t pentru un singur eantion este posibil prin apelul la formula 6.14 de mai jos:
t
X
s
N
(6.14)
s
N
(6.15)
n care la numrtor se afl diferena dintre media eantionului de selecie i cea a populaiei,
s este abaterea standard a eantionului iar N volumul acestuia. Pentru grupe corelate/ apariate,
atunci cnd se fololete ca variabil diferena perechilor (delta), formula 6.14 devine 6.15.
Presupunem c n exemplul de mai jos X i Y sunt dou eantioane independente.
nlime
N
X
X
X
X1
14
149,50
11,36
2093
314581
Greutate
X2
14
153,86
11,07
2154
333002
X1
14
48,29
7,32
676
33338
X2
14
50,43
6,65
706
36178
153,86 149,50
314581 333002 14 14
14 14 2
14 14
4,36
647583 28
26
196
4,36
4,36
0,07
3558,15 59,65
50,43 48,29
33338 36178 14 14
14 14 2
14 14
2,14
69516 28
26 196
2,14
2,14
0,11
381,96 19,54
Cutnd n tabelul lui Fisher la f = 14 + 14 - 2 = 26, gsim c ambele valori sunt foarte
departe de pragurile de semnificaie critice p = 0,05 sau p = 0,01, ceea ce ne ndreptete s
acceptm ipoteza de nul. n concluzie, cele dou grupe fac parte din aceeai populaie.
81
Greutate
dup
Diferena
38
38
39
38
39
36
35
43
33
37
37
37
35
38
41
39
40
35
39
38
34
43
34
37
35
43
43
43
42
42
46
35
35
46
39
34
35
43
41
42
43
42
45
35
42
40
35
46
35
38
36
47
5
5
3
4
6
-1
0
3
5
-2
-2
6
6
4
2
3
5
-1
3
3
0
3
1
1
1
4
26
37,75
2,74
26
40,33
4,18
26
2,58
2,51
Tabelul de mai sus indic greutatea msurat naintea i dup tratamentul efectuat, ca
i diferenele de greutate constatate dup tratament. S se rezolve urmtoarele cerine:
a. Parcurgnd paii din curs determinai dac exist un ctig semnificativ de greutate n
urma aplicrii programului psihoterapeutic.
b. Facei aceeai determinare utiliznd pe N, media i abaterea standard prezente pe
ultimele trei rnduri din tabel, dup algoritmul din curs.
c. Formulai ipoteza specific i raportai rezultatele obinute.
82
X
X
X
SX
Biei
28
10
5,25
280
3544
1,01
Fete
30
14
6,31
420
7035
1,17
Total
N
X
M
54
19,83
2,54
Motricitate
F
M+F
66
20,55
3,39
Cogniie
F
66
38,03
5,13
M
54
36,65
5,57
83
M+F
M
54
56,48
7,35
Total
F
66
58,58
7,82
M+F
X
X
Variana
SX
F-M
t1
t2
1071
21583
1356
28607
1979
74171
2510
97167
3050
175132
3866
230429
Cerine:
a. Testai ipoteza diferenei semnificative a mediilor dintre fete i biei pentru cele trei
perechi de variabile ale testului aplicat.
b. Raportai rezultatele obinute.
c. Agregai datele pentru biei i fete, completnd corect i integral coloana M+F.
d. Determinai variana i eroarea standard a mediei (SX) pentru toate coloanele
tabelului.
e. Determinai pe t1 cu formula 6.11, pe t2 cu formula 6.12 i comentai rezultatele
obinute.
84
CAPITOLUL 7
STUDIUL ASOCIERII DINTRE VARIABILE PRIN CORELAIE
7.1. Introducere
Nicio alt procedur statistic nu a deschis att de multe ci de descoperire tiinific
n psihologie, tiinele comportamentului i educaie ca metoda corelaiei. Dac pn acum
ne-am ocupat de distribuii cu o singur variabil (univariate), prin corelaie avem n vedere
distribuiile bivariate, n legtur cu care ne punem problema gradului de asociere.
Un coeficient de corelaie este un numr unic care indic mrimea relaiei dintre dou
fenomene, procese psihice, lucruri, adic n ce grad variaz unul n paralel cu variaia
celuilalt. Fr corelaie nu ar fi posibil predicia i chiar atunci cnd sunt implicate relaii
ntmpltoare, fr cunoaterea covariaiei (variaiei comune a dou variabile) nu am fi
capabili s controlm o variabil prin manipularea celeilalte.
Iat cteva exemple: exist vreo legtur ntre scorurile la testele de inteligen i
performana colar? dar ntre nlime i greutate; ntre ploaia czut i recolte; ntre statutul
economic, social i cultural al prinilor i prezena elevilor n colile ajuttoare; ntre studiile
prinilor i performana colar a copiilor; ntre inteligena prinilor i inteligena copiilor;
ntre inteligena gemenilor uni- i bivitalieni; dar a frailor ntre ei?
Gradul de paralelism, msura n care dou colecii de msurtori co-variaz se explic
cel mai adesea prin coeficientul de corelaie. n studierea relaiei dintre anumite nsuiri se
pleac de la variaia simultan a datelor, numit covarian, cutnd s desprindem prin
analiza legturii dintre ele, modul lor de asociaie.
Trebuie spus c, spre deosebire de experiment, corelaia nu dezvluie o relaie de tip
cauzefect, nu este deci o msur a cauzalitii, ci doar a gradului de paralelism, a modului
de asociere, natura relaiei urmnd a fi interpretat. O corelaie perfect ntre X i Y (r =1)
arat c cele dou variabile covariaz perfect, la unison, variaia lui X putnd fi cauza
variaiei lui Y, a lui Y cauza lui X sau a amndorura s fie cauzat de o a treia variabil Z.
Dac n experiment relaia este unidirecional (X determin pe Y), ntr-un studiu corelaional
variabilele sunt date i nu manipulate, relaia dintre ele nefiind una vectorizat.
85
A
2
4
B
4
6
C
5
7
D
6
8
E
7
9
F
8
10
G
9
11
H
10
12
I
12
14
J
13
15
Se poate observa faptul c fiecare X este egal cu Y-2 fr nici excepie, deci corelaia
va fi r = 1 (sau Y = X+2). Iat un alt exemplu:
Cazuri
Test P
Test Q
A
1
2
B
3
6
C
4
8
D
5
10
E
7
14
F
8
16
G
9
18
H
11
22
I
12
24
J
15
30
A
1
20
B
3
16
C
5
14
D
7
12
E
9
11
F
11
9
G
12
7
H
14
5
I
16
3
J
20
1
n cazul de mai sus corelaia dintre A i B este aproape perfect, dar negativ (r =
-.99).
Z Greutate
Z Inaltime
-10
-20
-5
-4
-3
-2
-1
12
10
-2
Motricitate grosiera
10
-4
-6
-5
-4
-3
-2
a.
-1
0
0
10
20
Motricitate r = .54
b.
86
c.
30
20
60
50
50
40
40
30
30
20
20
10
Cognitie
Motricitate
10
60
QI geaman 2
30
0
10
20
30
40
50
60
70
80
0
10
20
30
40
50
60
70
80
d.
10
0
-80
-70
-60
-50
-40
-30
-20
-10
QI geaman 1 r= -.97
e.
f.
n diagramele de corelaie de mai sus, numite scattere, avem cteva situaii distincte:
a. o corelaie extrem de sczut i nesemnificativ (r = 0,10, sau r = .10), aproape de a
indica absena oricrei relaii dintre cele dou variabile. n timp ce variabila X are o cretere
clar, variabila Y are un comportament ambiguu;
b. o corelaie foarte slab (.20), n care norul de puncte tinde s se aeze totui pe o
diagonal stnga jos dreapta sus (corelaie pozitiv);
c. aceast relaie devine i mai evident pentru cele dou variabile (.54);
d. corelaia este una extrem de puternic (.87), tendina de norului de puncte de a se
ordona pe o diagonal stnga jos dreapta sus este foarte evident, ceea ce d de acum
posibilitatea de a a prezice cu o oarecare aproximaie pe fiecare X din fiecare Y i invers;
e. relaia este de acelai tip pozitiv dar este una extrem de puternic (.97), norul
de puncte avnd o grosime relativ egal pe toat suprafaa diagramei de corelaie
(homoscedasticitate);
f. ordonarea norului de puncte din aceast diagram este n oglind fa de precedenta:
relaia este una extrem de puternic, dar negativ, deoarece creterea variabilei X se asociaz
cu descreterea variabilei Y i reciproc.
Cu ct norul de puncte tinde s se aeze mai aproape de o dreapt corelaia este mai
mare, atunci putnd vorbi de o relaie liniar ntre X i Y, fapt ce permite deducerea unuia din
cellalt. n psihologie, bivariaia liniar este postulat cel mai adesea de coeficientul de
corelaie, acesta putnd avea valori cuprinse ntre 1 i +1, care nseamn corelaiile maxime
posibile, diferena fiind doar n orientarea norului de puncte, trecnd prin 0, care nseamn
absena oricrei legturi sau interdependena dintre ele. n acest caz norul de puncte tinde s
se distribuie haotic pe toat suprafaa diagramei de corelaie.
87
dac distribuia tinde spre o dreapt, deci ct de intens este relaia dintre variabile;
care este orientarea ei, deci care este sensul relaiei, pozitiv sau negativ;
Cei mai muli coeficinei de corelaie folosesc modelul relaiei liniare i se cunosc
corelaii parametrice (ntre variabile numerice continue) i neparametrice (n care una dintre
variabile (sau chiar ambele) este categorial, discontinu (dihotomic sau trihotomic).
7.2. Calculul coeficientului de corelaie
Formula de definiie a coeficientului de corelaie este cea furnizat de Pearson:
rXY
( X X )(Y Y )
(7.1)
( X X ) 2 (Y Y ) 2
n care X i Y sunt rezultatele obinute la cele dou nregistrri, iar X i Y reprezint mediile
celor dou distribuii. Cantitatea de la numrtor se numete suma produselor, iar la numitor
avem radical din suma ptratelor produselor.
ntr-o distribuie normal a dou variabile vom avea cinci parametri: dou medii i
dou abateri standard i, al cincilea, coeficientul de corelaie. Orice program statistic poate
determina aceti parametri, problema este cum s i calculm cu un minicalculator i mai ales
cum s i interpretm. Minicalculatorul personal ofer date care vor fi trecute astfel:
N
X
X
mediile distribuiilor;
Y 2
Y
2
x
xy
N X 2 ( X ) 2
N Y 2 ( Y ) 2
N X
N XY X Y
2
( X ) 2 N Y 2 ( Y 2 )
88
(7.2)
Mate
X
7
9
10
6
9
8
5
3
7
8
6
7
6
5
X=96
Subiect
1
2
3
4
5
6
7
8
9
10
11
12
13
14
N=14
N
X
n 1
X
X 2
XY
14
6,86
1,88
96
704
640
Fizic
Y
7
8
9
7
10
7
6
4
6
7
7
7
6
6
Y=97
14
6,93
1,44
97
699
377
rXY
X2
49
81
100
36
81
64
25
9
49
64
36
49
36
25
X2=704
Y2
49
64
81
49
100
49
36
16
36
49
49
49
36
36
Y2=699
XY
49
72
90
42
90
56
30
12
42
56
42
49
36
30
XY=696
X Y
N
2
(X )
( Y ) 2
2
2
N
N
XY
(7.3)
O alt formul de lucru pentru corelaia prin metoda produselor este cea de mai sus.
n exemplul dat, coeficientul de corelaie de 0,88 (sau .88 pentru literatura de
specialitate anglo-saxon) este unul extrem de ridicat, ceea ce ne face s presupunem c
legtura dintre fizic i matematic este puternic, performana la ambele fiind determinat de
un factor comun (raionamentul abstract sau factorul general g al inteligenei). Iat nlimile
reale i cele dorite a 14 studente i 2 studeni de la facultatea de psihologie (N = 14+2 = 16).
Subieci
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
IR
169
170
172
160
170
167
167
156
160
172
163
184
193
158
170
158
ID
169
170
172
170
175
167
175
160
160
175
165
180
193
168
170
165
89
GR
58
70
57
52
55
65
55
55
46
50
54
77
113
54
77
49
GD
55
62
60
55
55
55
60
55
49
50
53
80
104
58
65
50
N
X
x
X
X2
x
IR_ID
rIR_ID
16
168,06
9,75
2689
453345
22799
460547
.91
16
170,88
8,00
2734
468132
15356
16
61,69
16,55
987
64993
6549
GR_GD
rGR_GD
16
60,38
13,81
966
61184
45788
62310
.79
Comentarii
Corelaia nlimii actuale cu cea dorit este extrem de ridicat (r = .91), ceea ce
nseamn o proiectare la nivelul sinelui corporal a nlimii dorite n concordan cu
real.
Greutatea real i cea dorit produc o corelaie mai joas, dei tot foarte ridicat (r = .
79), ceea ce nseamn c n imaginea de sine corporal elementul fundamental este
nlimea (mai statornic), i mai puin greutatea (indicator mai variabil i mai
fluctuant).
Lotul nostru (foarte mic), alctuit preponderent din femei (88%), i-ar dori civa
centimentri n plus (2,82 cm) i ceva kilograme n minus (-1,31 kg), dar la praguri
nesemnificative statistic (N este mult prea mic).
Dac vom compara ptratul corelaiilor nlimii cu ptratul corelaiilor greutii (0,91 2
= 0,82 i 0,792 = 0,62) vedem c primul acoper mai mult cu o cincime din variana
comun, fapt care susine ideea c nlimea pare a fi fundamental n raport cu
greutatea.
Aplicaie practic
Calculai i comentai corelaiile dintre nlimea i greutatea real, apoi dintre
nlimea i greutatea dorit. Ce constatri ai putut face? Comentarii posibile: ntre valorile
reale ale nlimii i greutii exist aceeai corelaie ca i ntre cele dorite pentru cele dou
variabile. n raportarea noastr la planul corporal ideal se pare c pstrm aceeai atitudine pe
care o avem asupra eului nostru fizic i n plan real. Rezult deci c n plan antropometric
dorina se conformeaz realitii mai mult dect am fi dispui s credem.
7.2.1. Interpretarea orientativ a coeficientului de corelaie
Cum am artat deja, valorile corelaiei Pearson pot fi pozitive sau negative. Cnd r
este pozitiv, creterea variabilei X se asociaz cu creterea variabilei Y, caz n care se spune c
90
exist o asociere direct ntre cele dou variabile. Cnd r este negativ, n timp ce una dintre
variabile ia valori cresctoare cealalt descrete. Corelaia (pozitiv sau negativ) aflat n
jurul lui zero indic distribuii necorelate (sau independente). n cazul cnd exist legturi de
asociere ntre variabilele X i Y (corelaie), atunci putem stabili ntre nite limite de precizie i
de ncredere pe Y din X, i reciproc, prin aa-numita ecuaie de regresie.
Semnificaia coeficientului de corelaie va fi analizat mai detaliat n cursul urmtor.
n funcie de scopul urmrit i de nivel de exigen interpretarea lui r are multe faete.
Orientativ, se apreciaz c corelaiile de r < .20 sunt extrem de slabe; de la .20 la .40 acestea
sunt slabe; ntre .41 i .60 sunt medii; ntre .61 i .80 sunt puternice, iar cnd r > .81 ele sunt
extrem de puternice. Pentru variabile corelate invers (negativ), interpretarea lui r este similar.
ns, deoarece semnificaia corelaiei depinde de mrimea eantionului (N), ca i cea a lui t ,
determinarea semnificaiei corelaiei presupune raportarea lui acesteia la tabele speciale. Pe de
alt parte r indic i ct din variana comun se explic prin corelaie, ceea ce trimite la
coeficientul de determinare (r2).
Iat cteva corelaii descoperite a exista ntre rude:
ntre persoane diferite
Copii crescui separat
Prini vitregi - copil
Copii crescui mpreun
Rude colaterale
Veri secundari
Veri primari
Unchi nepot
Rude n linie direct
Bunic nepot
Printe (adult) copil
Printe (copil) copil
Alte rude colaterale
Frai crescui aparte
Frai crescui mpreun
Gemeni dizigoi, de sex diferit
Gemeni dizigoi, de aceli sex
Gemeni dizigoi crescui separat
Gemeni monozigoi, crescui mpreun
-0,01
0,20
0,24
0,16
0,26
0,34
0,47
0,50
0,56
0,47
0,55
0,49
0,56
0,75
0,87
ierarhice, fie c este vorba de rezultatele la examene (de exemplu capacitatea, admiterea),
rezultatele la probe sportive, la teste de cunotine, unde diferenele dintre candidai nu sunt
suficient de fine pentru a da gradaiile pe care alte variabile continue (nlimea, greutatea) le
dau. Dac este s citm opinia lui Radu i Szamoskzy 3 rangul este mai stabil ca nota. La
evaluarea succesiv a elevilor de ctre profesor, alternativ prin note sau ranguri, acestea din
urm au o tendin mai accentuat spre stabilitate, notele fiind mult mai variabile.
Atribuirea de ranguri (rangarea) nu este o operaie dificil: subiecii sunt ierarhizai n
ordinea performanei sau scorurilor obinute obinute, de la mare la mic sau invers. n mod
practic, pe o foaie de hrtie se scriu tot attea numere cte ranguri trebuie alocate (egale cu
numrul subiecilor) i se taie rangurile pe msur ce ele se aloc, ceea ce ajut la corecta
gestiune a acestora. Singura precauie important este aceea de a rezolva corect situaia n care
dou, trei sau mai multe cazuri au aceeai valoare de scor a variabilei. De exemplu, dac am
ajuns cu rangarea la al aptelea subiect i urmtorii trei au aceeai performan, din rangurile
8, 9, 10 se selecteaz rangul din mijloc - 9 - care se atribuie tuturor celor trei, urmtorul rang
ce va fi atribuit fiind 11. Dac ar fi fost doi subieci cu acelai scor, atunci pentru rangurile 8,
9 se acord rangul intermediar 8,5, urmtorul rang atribuibil fiind 10. Pentru ca operaia de
calcul s nu produc o distorsiune prea mare a lui rho cazurile de acest fel trebuie s fie ct
mai puine. Dac operaia de rangare a fost corect executat, la sfritul ei toi subiecii vor
avea ranguri i toate rangurile vor fi epuizate, n caz contrar trebuind identificat i corectat
eroarea de rangare.
Un subiect poate fi clasat dup mai multe criterii, avnd deci mai multe ranguri, caz n
care corelaia se va face fiecare rang cu fiecare, dup formula:
1
6d 2
N ( N 2 1)
(7.4)
unde d este diferena rangurilor i N numrul subiecilor. Prin ridicarea lui d la ptrat, semnul
diferenei rangurilor devine ntotdeauna pozitiv.
Exemplu
ntr-o cercetare pe grupuri colare vocaionale 10 elevi de la coala de art au fost
ierarhizai dup crieteriul inteligenei (QI), al reuitei la nvtur aa cum o apreciaz
copiii i profesorii i al talentului pentru activitatea specific (evaluat de profesorul de
specialitate).
3
Radu, I. (coord.), Miclea, M., Albu, M., Moldovan, O., Neme, S., Szamoskzy, S. (1993). Metodologie
psihologic i analiza datelor. Cluj-Napoca: Editura Sincron, p. 122.
92
1
Elev
QI
1.
3
2.
10
3.
4
4.
8
5.
2
6.
5
7.
6,5
8.
6,5
9.
9
10.
1
N=10
1
8
7
9
3
5
6
4
10
2
2
9
3
8
4
5
6
7
10
1
4
9
8
10
2
7
5
1
6
3
1 2 1
d2
d2
d2
d2
d2
d2
1-3
1-4
2-3
2-4
3-4
1-2
1-3
1-4
2-3
2-4
3-4
d2
4
4
9
1
1
0
0,25
6,25
1
1
27,50
0,83
1
1
1
0
4
0
0,25
0,25
1
0
8,50
0,95
d
2
2
-3
-1
-1
0
0,5
2,5
-1
-1
1
1
1
0
-2
0
0,5
-0,5
-1
0
6 27,50
0,83
10100 1
1 3 1
6 8,50
0,95
10100 1
Din exemplul ipotetic de mai sus se poate remarca concordana ridicat dintre
ierarhia inteligenei msurate (QI) i ierarhia rezultatelor colare propus de elevi, corelaie
care nu este totui la fel de mare ca i cea dintre ierarhia inteligenei msurate i performana
la nvtur, exprimat prin mediile colare ( = 0,83 versus = 0,95). Pentru o mai bun
nelegere a modului de lucru recomandm calculul tuturor celorlalte coloane, urmat de
determinarea de fiecare dat a lui rho, ncheiat de interpretarea rezultatelor.
Ca i r, are valori cuprinse ntre 1 i +1, trecnd prin zero, situaie care indic
absena corelaiei (deci a concordanei dintre cele dou ierarhii exprimate prin ranguri).
Reluarea determinrilor prin mrirea eantionului poate duce la apariia unor corelaii
semnificative, chiar dac iniial ele nu atingeau iniial pragul semnificaiei statistice.
Deoarece supraevalueaz uor corelaia (de la 5 miimi spre zonele extreme la 18
miimi pe zona central) dm mai jos tabelul de echivalare ale lui cu r.
.00
.000
.10
.105
.20
.209
.30
.313.
.40
.416
.50
.518
.60
.618
.70
.717
.80
.813
.90
.908
.95
.954
1.00
1.00
93
coloana de pe extrema stnga, corespunznd celui mai apropiat coeficient de corelaie de cel
cutat, iar restul (sutimile) de pe prima linie vertical corespunznd aceluiai coeficient. De
exemplu, coeficientul r = 0,93 este cel mai aproape de .9302 din tabel, care are n stnga 1,6,
iar pe vertical 0,06, ceea ce prin combinare duce la z = 1,66.
1
1
i deci 2
.
N 3
N 3
1
1
0,167
36 6
9
.60
.73
10
.58
.71
11
.55
.68
12
.53
.66
13
.51
.64
14
.50
.62
15
.48
.61
16
.47
.59
17
.46
.58
18
.44
.56
94
19
.43
.55
20
.42
.54
25
.38
.49
30
.35
.45
35
.32
.42
40
.30
.39
45
.29
.37
50
.27
.35
n primul exemplu la N-2 avem 19-2 = 17, valoarea coeficientului critic la pragul de p < 0,05
este cu mult mai mare (0,46), dect valoarea obinut de noi (0,35) i deci corelaia gsit nu
este una semnificativ. Dac am regsi aceast corealie i dup ce am dubla eantionul (n =
N2-2 = 36), am vedea c la acest numr de cazuri el ar deveni semnificativ la p = 0,05. n al
doilea caz vedem c r critic este 0,27, coeficientul nostru fiind mult mai mare; pentru un prag
de semnificaie de 1 din 100, r este 0,35, deci cel gsit de noi (0,50) este puternic semnificativ
statistic (p < 0,01).
n programele statistice computerizate coeficienii de corelaie care ating pragurile de
semnificaie de p = 0,05 i p = 0,01 sunt notate cu o stelu (*), respectiv cu dou (**).
7.6. Interpretarea varianei unui coeficient de corelaie
prin coeficientul de determinare
Un coeficient de corelaie nu este o proporie i trebuie tratat mai curnd ca o msur
tipic unei scale ordinale, care nu poate fi de exemplu adunat cu ali coeficieni de corelaie
pentru a li se determina o medie. Eventual, dac trebuie determinat o valoare reprezentativ
pentru o ntreag clas de coeficieni de corelaie, se poate alege valoarea coeficientului
median, care nu poate fi totui utilizat pentru calcule aritmetice. Un r = 0,60 nu este de dou
ori mai bun dect r = 0,30, iar distana dintre corelaiile 0,40 0,50 nu este deloc echivalent
cu distana dintre 0,80 0,90. O cale de a nelege i interpreta mai bine sensul coeficientului
de corelaie i de a-l aduce la o form accesibil tratamentului algebric este aceea de a vorbi
despre el n termeni de varian, calculnd coeficientul de determinare, care este ptratul
unui coeficient de corelaie.
Variana unei variabile Y (sy) este acea parte din variana lui Y care poate fi prezis sau
atribuit varianei lui X, fiind o msur a informaiei pe care o avem pentru Y de la X (i
reciproc). Dac r = 0,80, r2 = 0,64, deci se poate spune c variana lui X n raport cu Y (numit
covarian) este de 64%, adic avem aproape dou treimi din variana lui X care ne-ar permite
s facem o predicie perfect a lui Y. Deci r2 poate fi interpretat ca o proporie iar r2100 ca un
procentaj. n ncercarea de a conceptualiza gradul de relaie adus de coeficientul de corelaie
este mai util s operm cu ptratele corelaiilor dect cu corelaiile n sine. n micul tabel de
mai jos dm cteva valori reprezentative ale coeficientului de determinare transformat n
procente de covarian, dei calcularea sa nu pune nici un fel de probleme.
r
r2100
.05
0,25
.10
1
.20
4
.30
9
.40
16
.50
25
95
.60
36
.70
49
.80
64
.90
81
.95
90
1.00
100
Diferena dintre coeficientul de corelaie 0,50 i 0,40 este aceea c ultimul aduce 0,50 2
- 0,402 = 25 16 = 9 procente de covarian n plus, necesar n predicia unei
variabile plecnd de la cunoaterea celeilalte; 0,60 i 0,50 dau o diferen de 36 25 =
11 procente, deci ofer cu dou procente mai mult fa de exemplul anterior, dei
diferena brut a fost aceeai (o zecime).
96
bis
- m
media valorilor x pentru elementele clasei superioare (Y > Y );
Y
0
raportul pq/Y se citete dintr-un tabel special 5 p fiind proporia admiilor, bunilor,
talentailor etc., iar q proporia complementar (1-p);
Exemplu
Cota la test
Admii
Respini
Total
0
0
1
1
1
1
2
3
2
0
4
4
3
3
7
10
4
5
13
18
5
10
12
22
6
16
9
25
7
14
4
18
8
6
2
8
9
3
0
3
10
1
0
1
Total
59
54
113
naintea unui curs de instruire profesional, candidaii au parcurs un test psihologic ale
crui rezultate au fost raportate pe o scal C (cu 11 trepte, media 5, abaterea standard 2).
Variabila X este reprezintat tocmai de aceste rezultate. Dup testul psihologic s-a dat i un
examen de admitere, ale crui rezultate finale au fost dihotomice (admis/ respins), aceasta
fiind variabila-criteriu Y. De notat c reuita-eecul nu permit o nuanare mai fin dect
aceasta. Proporia celor admii este p = 59/113 = 0,52, iar cea a respinilor q = 54/113 = 0,48,
adic q = 1-p (q este deci complementul lui p).
Media celor admii este notat cu m, iar a celor respini cu m i se determin astfel:
m = (00 + 11 + 20 + 33 + 45 + 510 + 616 + 714 + 86 + 93 + 101)/59
(0 + 1 + 0 + 9 + 20 + 50 + 96 + 98 + 48 + 10)/59 = 359/59 = 6,08
m = 4,46.
Date suplimentare (mediile i abaterile standard pentru cele dou categorii) sunt date
n tabelul de mai jos.
N
X
Admii
59
6,08
Respini
54
4,96
97
Total
113
5,30
x
x2
1,67
359
2347
1,75
241
1237
1,90
600
3584
rbis
m' m" pq
6,08 4,46
1,62
0,6264
0,6264
y
1
,
90
1
,
90
pq
Eroarea tip:
r2
, n care
pq
Y
1,254 0,532
0,973
0,09.
10,63
113
Deci:
Construirea unor scale sau subscale ale testelor cognitive, educaionale sau de
personalitate n care meninerea sau ndeprtarea unor itemi depinde de corelaia
acestora cu scala.
Alctuirea unor baterii de teste care prezic cu o mai mare acuratee criteriul, graie
modelrii corelaiilor dintre criteriu i predictori prin ecuaia de regresie simpl sau
multipl.
99
Analiza de clustere, similar n multe privine analizei factoriale, dar indicnd ntr-o
form uor de vizualizat nu numai ierarhia factorilor care compun clusterele, dar i
ordinea sau nivelul la care intr n combinaie fiecare variabil cu cele anterioare.
Alegerea celui mai potrivit demers pentru calcularea coeficientului de corelaie
depinde de tipul de variabil (numeric sau categorial; continu sau discontinu; numr mic,
mediu sau mare de indivizi statistici; caracteristici tipice sau atipice) i de sopul urmrit cu
procedeul n cauz. Operaia de baz este ns identificarea prealabil a tipului de scal
metric utilizat, urmat de determinarea normalitii sau anormalitii distribuiei fiecreia
dintre variabilele corelate n parte (normalitate univariat), dar i a fiecrei combinaii de cte
dou variabile corelate (normalitatea bivariat). Dar, pentru a-i cita pe Guilford i Fruchter:
ntotdeauna un coeficient de corelaie este relativ la circumstane i foarte rar, cu siguran,
ntr-un sens absolut.6
Guilford, J.P., Fruchter, B. (1978). Fundamental Statistics in Psychology and Education. Sixth Edition. New
Work: McGraw Hill, p. 88.
100
101
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
N
GR
GD
177
172
174
185
180
166
165
180
182
168
168
176
168
174
178
175
175
193
182
178
189
185
175
180
185
180
175
190
180
182
170
172
185
175
174
180
182
181
180
190
180
191
110
58
60
85
81
58
65
77
74
64
60
58
58
60
73
60
72
76
80
74
76
21
21
21
F E T E
Valori absolute
2
GR
GD
95
68
70
85
76
65
95
75
80
72
63
75
65
60
80
60
77
78
72
70
85
165
161
160
163
160
170
159
169
169
167
166
160
160
173
162
164
170
167
170
165
169
170
168
180
170
170
170
165
175
175
170
166
170
170
170
170
170
165
167
170
165
175
56
55
47
56
56
58
44
68
62
47
54
46
60
65
55
59
55
47
60
59
50
55
47
60
50
50
55
46
60
58
47
50
45
60
63
53
50
50
52
55
53
50
21
21
21
21
21
X
X
X2
x
xy
xy
r
102
Ranguri
D
42
42
42
42
X
X
X2
x
xy
xy
r
7.10. Quiz
Rspundei la urmtoarele 10 ntrebri, fiecare scorat cu cte un punct:
1.
Ce se ntmpl cu corelaiile dintre nlimea real i greutatea real dac adugm
urmtoarele dou cupluri de valori: 200 cm - 100 kg; 155 cm - 42 kg?.......................................
.......................................................................................................................................................
.......................................................................................................................................................
2.
Ce se ntmpl cu corelaiile dintre nlimea real i greutatea real dac prima
valoare
introdus,
177
cm,
ar
fi
fost
tastat
1770
cm? ............................................................................. .................................................................
.......................................................................................................................................................
......................................................................................
3.
Ce s-ar ntmpla cu aceleai corelaii dac, din greeal, am fi introdus primul set de
valori
invers,
177
cm
la
greutate
i
110
kg
la
nlime? .............................................................. ........................................................................
.......................................................................................................................................................
...............................................................................
4.
Enumerai cinci dintre cele mai importante utilizri ale coeficientului de
corelaie. ...............
.......................................................................................................................................................
.......................................................................................................................................................
5.
Ce este norul de puncte i asupra cror caracteristici ne informeaz
el? .................................
.......................................................................................................................................................
.......................................................................................................................................................
6.
Analizai diferenele dintre mediile la R, D, GR i GD pentru biei i fete. Artai
dac
pstrai
sau
respingei
ipoteza
de
nul
i
la
ce
prag
de
semnificaie. .............................................
.......................................................................................................................................................
.......................................................................................................................................................
7.
Unul dintre coeficienii de corelaie are valoarea r = 3,25. Ce putei spune despre el
i
cum
argumentai? .................................................................................................................................
.......................................................................................................................................................
8.
Corelaia IR_ID este de r = .688 iar GR_GD este de r = .811. Cu cte procente este
mai bun a doua corelaie dect prima? Ct din variana criteriului prezis acoper
fiecare? .............
.......................................................................................................................................................
.......................................................................................................................................................
103
9.
Luai separat, pe biei i fete, corelaiile IR_ID i GR_GD sunt mai mici dect dac
punem la comun, ntr-un singur fiier toate datele. De ce se ntmpl acest
lucru? ................................
.......................................................................................................................................................
.......................................................................................................................................................
10. Corelaia dintre IR_GD pentru cele 21 de fete este de r = .379, nesemnificativ statistic.
Cum ar fi fost ea dac numrul fetelor ar fi fost de 42? Dar de 84? ............................................
.......................................................................................................................................................
.......................................................................................................................................................
104
CAPITOLUL 8
UTILIZAREA PREDICTIV A ASOCIERII DINTRE VARIABILE
REGRESIA LINIAR SIMPL I MULTIPL
8.1. Introducere
Termenul de regresie a fost utilizat pentru prima dat de Galton, el neavnd nici o
conotaie negativ. Supuse prelucrrilor statistice, rezultatele obinute din investigarea n
primul laborator de antropometrie din lume (Londra, 1884) a unor caracteristici individuale,
scoteau n eviden tendina valorilor extreme de a regresa spre medie. Cu alte cuvinte, din
prini foarte nali sau foarte scunzi exist tendina natural s se nasc copii mai mici,
respectiv mai mari dect acetia.
Dac n psihanaliz un comportament este numit regresiv atunci cnd persoana se
ntoarce la faze revolute ale copilriei, cznd spre forme de echilibru tipice trecutului,
regresia statistic poart spre viitor, pentru c ea are n vedere n primul rnd anticiparea sau
precizarea unor fenomene, plecnd de la seturi de date actuale. nseamn c regresia
ndeplinete o funcie de baz n tiinele socio-umane, deoarece orice tiin i propune nu
doar s explice faptele care i circumscriu domeniul, ci s le i prezic, anticipeze, prin
postularea de regulariti.
Pentru a fi foarte riguroi, regresia are n vedere ambele dimensiuni ale tiinei,
deoarece ea poate fi utilizat att pentru a explica - regresia n scop explicativ -, ct i pentru a
prezice - regresia n scop predictiv. n prima situaie, dac prin metoda experimental s-a
determinat o relaie cauzal ntre unul sau mai muli factori, numii variabile independente, i
o variabila dependent, atunci ponderea cu care factorii din prima categorie (cauzele) intervin
n cea de a doua categorie (efectele) poate fi modelat matematic printr-o ecuaie de regresie.
De exemplu, se tie c inteligena general, motivaia sau caliti ale voinei intervin cu
ponderi diferite n ceea ce numim reuita academic sau randamentul colar al elevilor. Mai
mult, jocul acestor elemente psihologice se asociaz cu particulariti non-psihologice, cum ar
fi apartenena de gen: n condiii de dotare intelectual egal, fetele obin rezultate colare
semnificativ mai ridicate, ele mobiliznd n reuita colar mult mai mult factorii de
personalitate. Mai mult, ele pot converti ntr-o for pozitiv conformismul social,
105
dezirabilitatea social i locusul extern al controlului (teoretizat de Rotter) ce vor fi puse mai
mult n slujba reuitei colare. Poziia n fratrie, mrimea acesteia, statutul socio-economic al
familiei, studiile prinilor (ale mamei n special), starea de sntate biologic i psihologic,
calitatea proceselor instructiv-educative din coal etc. i nc ali factori pot fi invocai a avea
o legtur cauzal cu reuita colar. Problema care se pune este aceea de a stabili intensitatea
acestor legturi i de a le introduce ntr-un model matematic economic care s dea cea mai
puternic predicie, prin cel mai mic numr de predictori. Deci ntrebarea principal la care
trebuie s rspund regresia utilizat n scop explicativ este aceea dac i n ce msur o
variabil independent (VI) contribuie semnificativ la evoluia variabilei dependente (VD), n
condiiile n care am controlat experimental influena altor factori (variabilele parazite) asupra
acesteia.
Regresia utilizat n scop predictiv folosete i la nivel terminologic alte concepte,
deoarece elementul prezis se numete criteriu, iar elementul/elementele care fac posibil
predicia se numesc chiar predictori. Legtura dintre predictori i criteriu se ncearc a fi
maximizat prin includerea ntr-o ecuaie de regresie a acelor factori dintr-o categorie care au
cea mai mare putere, i aceasta ntr-o anumit ordine, determinat de importana lor. De
exemplu, n comiterea tentativei de suicid anumii factori reprezint un coeficient de risc mai
ridicat
(dispoziia
depresiv,
tendinele
auto-devalorizatoare,
sentimentul
sczutei
autoeficaciti personale, stima de sine diminuat, temperamentul melancolic etc.). Studiindui adecvat, ei pot fi abordai matematic printr-un model predictiv puternic, care s ghideze
aciunile i interveniile suportive ulterioare. Aceeai problem se poate pune n legtur i cu
securitatea rutier, cu anticiparea nivelului reuitei la un curs de formare, cu selecia primar
prin examene psihologice pentru anumite categorii de personal etc. i cea mai important
caracteristic a unui instrument psihodiagnostic, care este validitatea, se sprijin pe acest tip
de demers statistic, n msura n care orice diagnostic psihologic se face n vederea unui
prognostic, n raport cu care un test sau o baterie de teste se spune c se valideaz. ntrebarea
de fond la care trebuie s rspund regresia utilizat n scop predictiv se refer la ci i care
sunt predictorii ce ne ajut s estimm cel mai corect i mai economic criteriul.
A doua distincie major n materie de regresie este diferenierea terminologic ntre
regresia liniar simpl i regresia multiliniar sau multipl. Dac n primul caz este vorba
de o distribuie bivariat, n care exist un singur predictor (variabila independent) i un
singur criteriu (variabila dependent), n a doua situaie avem mai multe surse de variaie,
deoarece ecuaia de regresie include mai muli factori ce intervin cu ponderi diferite n
predicia criteriului.
106
Este evident c modelul multivariat are putere explicativ sau predictiv mai mare
dect cel liniar simplu. Dar i ntr-un caz i n cellalt putem apela la regresia liniar (fie ea
simpl sau multipl) n dou condiii:
-
criteriul (variabila dependent) este msurat pe o scal numeric (de interval sau de
raport), pentru alte tipuri de scale existnd forme specifice de regresie (logistic,
logistic multinominal sau ordinal).
107
s minimizeze suma tuturor erorilor: adunnd abaterile pozitive sau negative ale tuturor
punctelor de la linie, aceast sum ar trebui s fie minim. Numai pe baza acestui criteriu
nu am ti ns cum s trasm efectiv linia, deoarece valorile negative i cele pozitive se
anuleaz reciproc i criteriul nu distinge ntre mulimea de linii care potrivesc punctele;
s minimizeze suma ptratelor tuturor abaterilor de la linie: acesta este un criteriu mai
valid (i singurul!), deoarece se poate demonstra matematic (principiul celor mai mici
ptrate) c exist doar o singur linie care potrivete bine toate punctele, spre deosebire de
situaia precedent. Aadar7, linia de regresie care red cel mai bine norul de puncte este
una singur i ea se construiete dup principiul celor mai mici ptrate (the least squares
Tilda (^) de deasupra variabilei Y, fie ea standard sau brut, arat c valoarea obinut prin ecuaia de regresie
nu este cea real, msurat, ci este valoarea anticipat, expectat prin predicie.
108
n englez) i apeleaz de fapt la proprietile matematice ale ecuaiei unei drepte, care
arat astfel:
^Y = B0 + B1X
(8.1)
n Figura 9.1 de mai sus linia de regresie se poate trasa dnd valoarea zero lui X,
pentru a determina interceptul B0 (care este locul n care linia taie ordonata) i o valoare
oarecare (mai mare) a lui X pentru a obine al doilea punct necesar trasrii dreptei. Pentru
fiecare Xi ecuaia de regresie prezice un Yi, dar cu un grad de eroare, reprezentat mai sus prin
diferena dintre valoarea real observat i valoarea prezis. nsumarea tuturor acestor erori se
exprim prin ceea ce se chiam reziduale, n fond o msur a limitei de precizie a modelului
regresiv. 1 indic panta liniei de regresie, adic cu ct crete Y n condiiile creterii cu o
unitate a lui X.
109
B1 r y
x
(8.2)
unde r este coeficientul de corelaie iar x i y sunt abaterile standard pentru cele dou
variabile. Coeficientul B0 se calculeaz dup formula:
B0 y B1 x
(8,3)
(8.4)
110
(8.5)
Apelm la exemplul anterior, unde corelaia dintre QI i media la matematic era de 0,83:
media lui X = 106,71
x = 13,52
zx1 = (116 - 106,71) / 13,52 = 0,69
zy2?
zy2 = - 1,21
(Y Y ) 2
N 1
sY
(8.6)
(Y Y ) 2
N 1
(8.7)
n formulele anterioare aveam la numitor pe N - 1 pentru c se determin doar un parametru, media populaiei.
n formula care urmeaz la numitor avem N - 2 pentru c acum se estimeaz dou lucruri simultan, panta i
interceptul.
111
sY Y
(Y Y ) 2
N 2
(8.8)
N 2
(8.9)
sY Y sY
(1 r 2 )
(8.10)
Ultima formul, dei nu la fel de precis comparativ cu cea anterioar, este una mult
mai practic, lund n calcul abaterea standard a lui Y i corelaia r, ambii indicatori uor de
determinat. Eliminarea de sub radical a raportului (N - 1)/(N - 2) este justificat de faptul c la
distribuiile mai mari (de peste 30) corecia adus de acest raport este practic nensemnat.
ns n acest caz semnul dintre termeni nu mai este egal, ci aproximativ egal.
Eroarea standard a estimaiei se interpreteaz ca o form special de abatere standard,
deoarece sY Y este chiar deviaia standard a erorilor care apar cnd este folosit ecuaia de
regresie. Este evident c predicia este cu att mai bun cu ct factorul eroare este mai mic,
adic pe msur ce corelaia dintre cele dou variabile devine tot mai puternic. Pentru r = 1
erorile de predicie sunt eliminate, dar aceast situaie nu se ntlnete niciodat n realitate.
Aadar, determinarea ecuaiei i a liniei de regresie nu nseamn ctui de puin
rezolvarea complet a problemei prediciei, cci trebuie calculat i cantitatea de eroare pe
care aceast ecuaie o face posibil atunci cnd se opereaz cu ea. Importana major a
prediciei prin regresia bivariat nu este dect n mod secundar acela de a-l determina pe un
anume Y n funcie de un anume X, ci deriv din aceea c ea descrie bine relaia dintre dou
variabile, indicnd dac se poate face sau nu predicie, i ntre ce limite de precizie. Creterea
puterii i acurateei acestei predicii se face apelnd la regresia multipl prin introducerea de
predictori suplimentari, ceea ce nu conduce la eliminarea rezidualelor, adic a erorilor de
predicie. Cu ct modelul regresiv este mai bun i mai complet, cu att mai mult se elimin
din eroarea rezidual. Dei tot mai bun, predicia nu va putea elimina ns nicicnd definitiv
factorul eroare, adic zona din variana comun rmas neprezis de setul de variabile
predictoare.
Trebuie menionat aici i rolul nefast pe care valorile atipice sau extreme (rezultate
uneori dintr-o simpl tastare incorect la introducerea datelor) l au asupra regresiei. Fiind
legat strns de coeficientul de corelaie, creterea sau descreterea acestuia ca urmare a
112
prezenei valorilor aberante se repercuteaz direct asupra modelului regresiv care este ecuaia
de regresie, mrind substanial componenta de eroare a prediciei.
8.3.1. Regresie versus corelaie
Avantajul corelaiei este acela c ea este reprezentat sintetic printr-un singur numr
care exprim intensitatea asocierii dintre dou variabile. Astfel, corelaia de .75 dintre nlime
i greutate este una substanial i afirm c 56% din variana comun rezult din asocierea
celor dou variabile. Dar acest r ridicat nu ne spune care trebuie s fie greutatea dac
nlimea crete cu 5 centimetri. n situaia cnd vrem s determinmm magnitudinea
schimbrii i arat regresia adevrata utilitate. Regresia multivariat (mai multe variabile
predictoare asociate cu o singur variabil criteriu) arat clar c regresia i corelaia nu se
suparpun ntotdeauna aa de frumos. Astfel, atunci cnd exist o corelaie ridicat ntre doi
predictori i o variabil prezis acest fapt se poate datora unei sau alteia dintre variabile sau
amndurora luate mpreun. Aa se face c n regresia multipl, nainte de a evalua rolul
comun al predictorilor asupra variabilei prezise, trebuie evaluat rolul separat al fiecruia, dar
i intensitatea asocierii dintre acetia.
Semnificaia statistic a pantei ecuaiei de regresie bivariat se sprijin pe formulele de
mai jos, n care t se va interpreta n maniera cunoscut, fcnd apel la tabelele lui Fisher din
Anexe.
b
sY Y
sX N 1
b( s x ) N 1
N 1
N 2
sY (1 r 2 )
(8.11)
113
a fost de fiecare dat notat cu a, zona b din Y fiind cea care rmne de fiecare dat
neexplicat.
Dac n regresia simpl un singur predictor las o mare parte din variana lui Y
neexplicat (zona b), n exemplul urmtor vedem c fiecare predictor explic cte o parte din
variana lui Y, partea b micorndu-se. Exemplul C ne atrage atenia c adugarea de noi
predictori nu face s diminue semnificativ zona b dect atunci cnd ei sunt independeni,
adic necorelai ntre ei. Deoarece X2 i X3 sunt corelai ntre ei, X3 nu contribuie la diminuarea
zonei b n aceeai msur n care o face X2 i de aceea va trebui hotrt dac rmn n ecuaia
de regresie amndoi predictorii, iar dac nu, care va fi cel pstrat.
Dac folosim mai muli predictori (variabile independente), ecuaia de regresie
multipl va avea urmtoarea formul:
^Y = B0 + B1X1 + B2X2 + ... + BnXn
(8.6)
114
R poate fi judecat ca orice coeficient ce corelaie, dar R2 este mai informativ, pentru c
el ne arat ct din dispersia variabilei-criteriu este explicat de un predictor sau de un grup de
predictori i ct din varian explic n plus fiecare nou predictor introdus n model, atunci
cnd abordarea se face prin metoda ierarhic. Practic, atunci cnd un predictor nu
amelioreaz semnificativ predicia criteriului, R2 crete nesemnificativ i acesta este semnul c
acel predictor nu mai trebuie inclus n model. Dac privim cu atenie Figura 7.2 de mai sus X1
i X2 coreleaz strns cu criteriul Y i - necorelnd ntre ele - X2 amelioreaz semnificativ
predicia pe care o realiza numai X1. n schimb, X3 elimin prea puin din b, chiar dac
coreleaz i el cu Y, i aceasta deoarece este el nsui corelat i cu X2. Dintre X2 i X3 va trebui
s pstrm doar un singur predictor, pe cel mai puternic, i aceasta deoarece modelul final
trebuie s dea cea mai bun predicie, cu numrul cel mai mic de predictori, adic trebuie s
fie unul economic.
Pe de alt parte, ANOVA ofer o valoare a lui F, acesta fiind un test de semnificaie
comparabil cu testul t Student, diferena fiind c face comparaia dintre o variabil continu i
una cu mai mult de dou stri (trihotomic, qvadrihotomic etc., adic polihotomic).
Analiznd raportul mediilor ptratice ale varianelor prezise (poriunea a din diagram) i a
celor reziduale (factorii de eroare, adic poriunea b) pentru modelul de regresie construit n
ansamblul sau, F ne informeaz despre semnificaia statistic a acestuia n acelai fel sau
manier ca i testul t Student al lui Gosset.
n al treilea rnd, programul de analiz computerizat a datelor SPSS ofer finalmente
outputuri (vezi figurile de mai jos) pentru metoda ierarhic care are pe ultimele coloane
determinarea lui t i a semnificaiei sale statistice p pentru fiecare dintre componentele
modelului, ajutndu-ne s identificm i s pstrm doar combinaia de predictori care sunt
cel mai semnificativ asociate cu criteriul.
8.4.1. Probleme speciale implicate n analiza de regresie
Analog cu r din corelaia Pearson, coeficientul de corelaie multipl R din regresie
ne vorbete despre ct de mult informaie conine combinaia de variabile independente VI
necesar pentru a putea prezice criteriul (VD). Ca i la ANOVA i n cazul regresiei multiple
exist un test F, care d expresie faptului dac relaia dintre setul de VI i VD este suficient de
mare pentru a fi semnificativ. Interpretarea lui R este de altfel similar cu r al lui Pearson, n
sensul c ridicat la ptrat el devine coeficient de determinare i, nmulit apoi cu 100
(R2100), el va exprima procentajul din variana VD explicat de combinaia de VI din model.
115
117
Coeficieni de regresie: numele general dat pantei i interceptului; adesea se refer doar la
pant (B).
Coeficienii de regresie beta (): sunt cei care rezult nu din distribuia originar, ci dup ce
aseasta a fost standardizat. Cnd avem doar o variabil predictoare (regresie simpl sau
bivariat) beta este dat de mrimea corelaiei dintre cele dou variabile ( = r).
8.5. Exerciii i aplicaii practice
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
N
X
X
X
X2
Ina
real
169
170
172
160
170
167
167
156
160
172
163
184
193
158
170
158
Gre
real
58
70
57
52
55
65
55
55
46
50
54
77
113
54
77
49
Ina
dorit
169
170
172
170
175
167
175
160
60
175
165
180
193
168
170
165
Gre
dorit
55
62
60
55
55
55
60
55
49
50
53
80
104
58
65
50
Calculai ecuaia de regresie pentru prezicerea greutii reale din nlimea real.
118
d.
Determinai eroarea standard a estimrii, att pentru prima, ct i pentru cea de a doua
ecuaie de regresie.
h.
119
CAPITOLUL 9
continu poate fi recodificat n una categorial. Acest fapt se ntmpl n mod curent cu
veniturile populaiei, cu numrul de igri fumate zilnic sau cu vrsta, pentru care este
preferabil utilizarea unui numr mai mic de categorii ce permit o autoraportare mai rapid a
populaiei unui studiu. Dei prin cagorizarea variabilei continue testul statistic pierde din
putere (din capacitatea de a reliefa diferene atunci cnd ele exist cu adevrat), unele tehnici
statistice nici nu sunt posibile dect dac nu exist cel puin o variabil categorial, cazul tipic
fiind al analizei de varian ANOVA.
Formula distribuiei chi-ptrat este cea de mai jos:
z2
( X N P)
N PQ
(9.1)
n cazul a dou variabile categoriale chi-ptrat determin dac ele sunt independente
una n raport cu cealalt, sau dac sunt relaionate sau asociate, adic neindependente.
121
intensitatea asocierii este evaluat printr-o gril propus de Cohen, similar cu cea
destinat lui r;
bucur de o reprezentare grafic specific, care este scatterul, oferind o perspectiv mult mai
nuanat asupra caracteristicilor asocierii, cci se sprijin nu pe niveluri ale variabilelor, ci pe
variabile continue. Faptul c o variabil continu poate deveni una categorial, cu un numr
restrns de condiii, sugereaz ns c testul chi-ptrat pentru asociere poate fi folosit
122
Testul chi-ptrat se aplic doar pentru date indicnd frecvene. Aceast condiie nu
creeaz probleme practice deosebite cci acolo unde categoriile nu exist n mod
natural, ele pot fi create prin operaia de recodificare, utiliznd criterii clare de
categorizare. Atenie ns, cele dou variabile nu trebuie s se intersecteze, ceea ce
nseamn c fiecare observaie intr doar ntr-o singur celul de tabel.
Dac nregistrm evenimente dihotomice, de tipul celor care apar i care nu apar,
trebuie s avem pentru fiecare frecvenele aferente, astfel ca suma lor s fie mereu
aceeai.
Nici o celul a tabelului nu trebuie s aib frecvena expectat mai mic de 1, cci
mprirea la zero (fe este numitor) nu are sens.
9.4. Utilizarea practic a testului chi-ptrat
n determinarea semnificaiei diferenelor dintre medii sau cuantumuri procentuale cel
mai adesea se face apel la corelaie, la testul z (cnd numrul cazurilor este mai mare de 30)
sau la testul Student al lui Gosset, pentru a-l determina sau t (cnd numrul cazurilor este mai
mai mic de 30). Un numr mare de tipuri de ipoteze adecvate datelor categoriale pot fi
verificate cu ajutorul distribuiei chi-ptrat ( 2), care nu este ns la fel de precis ca
procedeele enunate anterior, impunnd de aceea o serie de precauii tehnice.
n mod esenial distribuiile chi-ptrat msoar gradul de suprapunere dintre
frecvenele observate i frecvenele ateptate, pe baza unor anumite ipoteze, numite de aceea
frecvene teoretice, dar i frecvene expectate. Procedeul (matematic, statistic sau
probabilistic) al lui chi-ptrat determin dac abaterile constatate prin calcul de la aceste
distribuii sunt cuprinse n limitele fluctuaiei ntmpltoare (aceasta fiind ipoteza de nul), sau
123
dac dimpotriv le depete (ceea ce d ctig de cauz ipotezei specifice). Pentru a utiliza
corect procedeul chi-ptrat avem nevoie de eantioane suficient de mari (peste 30), ridicate la
ntmplare, dar care se pot clasifica n categorii separate, iar frecvenele nscrise n csuele
tabelului s nu fie prea mici (nu mai mici de 10 i n nici un caz sub 5, situaie n care se pot
comasa anumite clase pentru a depi acest numr critic).
n cazul n care frecvenele observate (fo) se compar cu frecvene dinainte cunoscute
printr-un model teoretic (fe), ce se bazeaz pe curba lui Gauss (stanine, note z, T, Hull, C, note
colare dup norma docimologic etc.), atunci comparaia prin testul chi-ptrat verific
gradul de potrivire (goodness of fit n englez) dintre distribuia teoretic i cea real
nregistrat. Aceast operaie a permis, de exemplu, depistarea unei fraude n cadrul unui
concurs unde divulgarea subiectelor de examen a condus la obinerea unui numr anormal de
mare de note mari. De cele mai multe ori proporiile teoretice nu sunt ns cunoscute i ceea
ce rmne de fcut este ca acestea s fie estimate plecnd de la datele eantioanelor
considerate.
Tehnica chi-ptrat pentru verificarea ipotezelor are o vechime de mai mult de o sut de
ani, fiind pus la punct de cel care a fundamentat corelaia i a fost precursorul analizei
factoriale, englezul Karl Pearson. La modul general metoda presupune doi pai: a. calculul lui
chi-ptrat; b. interpretarea semnificaiei valorii obinute cu ajutorul tabelului de distribuii 2.
Trebuie ns artat c n cazul lui chi-ptrat pentru asociere acest algoritm de lucru este
unul mai complex, el putnd fi desfcut n urmtoarea secven de pai:
Se seteaz pragul pentru care s se rejecteje ipoteza de nul: de regul verificm cele
dou praguri, p < .05 i p < .01.
Se apeleaz la regula de rejectare: rejectm pe H0 dac 2calculat 2critic [df = (R-1)(C1)], unde R nseamn numrul de rnduri iar C numrul de coloane, dup care se caut
n tabel valorile lui 2critic pentru p < .05 i p < .01.
124
N=120)
disponibilitate pentru voluntariat semnificativ mai mare dect cele de gen masculin, mrimea
efectului fiind semnificativ.
9.5. Exemple de aplicare a testului chi-ptrat pentru potrivire i pentru asociere
Exemplul 1
Conform normei docimologice 20% din notele unui profesor ar trebui s fie sub 5;
30% pn la 6,50; 30% pn la 8 i 20% mai mari de 8. La clasele I i a XIIa ale unei coli
cu trei cicluri de nvmnt s-au obinut urmtoarele distribuii ale notelor colare:
Tabel 9.1. Frecvenele brute pentru patru intervale de notare, la nceput i la sfrit de colarizare
Note
Sub 5
5 6,50
6,50 8
8 10
Clasa I
28
64
80
120
Clasa a XIIa
68
140
110
16
Se cere s se calculeze prin tehnica chi-ptrat dac cele dou distribuii se abat semnificativ de
la norma docimologic.
Tabel 9.2. Frecvenele observate i cele teoretice necesare pentru determinarea lui chi-ptrat
Note
<5
56,50
6,508
8-10
Total
Frecvene
fo
fe
28
64
80
120
292
58
88
88
58
292
fo - f e
-30
-24
-8
62
(fo-fe)
900
576
64
3844
(fo-fe) / fe
15,25
6,55
0,73
66,28
2=89,08
Frecvene
fo
fe
68
140
110
16
67
100
100
67
fo - f e
1
40
10
-51
(fo-fe)2
1
1600
100
2601
(fo-fe)2/ fe
0,02
16
1
38,82
2=55,84
(9.2)
Interpretarea valorii lui chi-ptrat se face prin raportare valorii obinute la o tabel
construit de Fisher, asemntoare ca form cu tabelele de calcul pentru z, valorile fiind
exprimate tot n numere zecimale, iar coloana df dnd numrul gradelor de libertate (degree
of freedom). Acestea se determin dup formula df = (R-1)(C-1), n care R este numrul de
rnduri i C numrul de coloane. n cazul n care avem un singur rnd i mai multe coloane df
= C-1, iar cnd avem mai multe coloane i un singur rnd df = C-1. n situaia prezentat df =
(4-1) = 3. Pentru ambele exemple valorile obinute depesc cu mult pragul de semnificaie
cel mai exigent: pentru o probabilitate mai mic de unu la sut (p < 0,01), la trei grade de
libertate avem valoarea lui chi-ptrat critic de 11,345, comparativ cu care 89,08, respectiv
55,84, care sunt mult mai mari, ceea ce permite respingerea ferm a ipotezei de nul. Se poate
deci afirma c abaterea n notare de la norma docimologic nu este datorat hazardului. n
primul caz frecvenele observate sunt mult sub cele teoretice pentru notele mici, n cel de al
doilea pentru notele mari, ceea ce ne ndreptete s afirmm c notarea i stilul de evaluare
al profesorilor se modific odat cu vrsta elevilor.
Este tiut c mediile colare erau relativ mari la nceputul ciclului primar (media
mediilor unei clase fiind peste 9), avnd o descretere progresiv lent n primul i apoi n cel
de al doilea ciclu colar, pentru ca la liceu media mediile generale ale unei clase obinuite s
scad sub 7. Se pune problema atunci pentru care vrste, materii sau ani de studiu mai este
operaional norma decimologic, pentru c la vrste sau clase egale, la aceeai materie
profesori diferii au stiluri diferite de notare, unele materii dnd posibilitatea obinerii
ntregului spectru de note, n proporiile expectate, altele nu. Astfel, matematica avansat a
claselor terminale de liceu permite tot mai puin obinerea unei curbe simetrice n notare,
notele de 7, 8, 9 fiind mari, iar 10 extrem de rar obinut.
Ca i pentru tabelele z i t pragurile de semnificaie ce vor reime atenia sunt p de 0,05
(valoare peste care se admite valabilitatea ipotezei nule, sub aceasta ea respingndu-se) i de
0,01 (nivel de la care ipoteza nul este ferm respins, pentru a se admite ipoteza specific a
cercetrii). Zona dintre aceste dou repere (indicat n tabel de valoarea 0,02) este una
intermediar ntre cele dou praguri, fiind mai aproape de ipoteza specific dect de ipoteza
nul. Valorile excesiv de mici ale lui chi-ptrat (corespunznd unei probabiliti de eroare mai
mari de 95%) apar tot att de rar n urma variaiilor ntmpltoare ca i cele foarte mari i de
aceea ele pot constitui de asemenea temeiuri consistente pentru respingerea ipotezei de nul.
126
Dei testul matematic al lui chi-ptrat are foarte multe ntrebuinri speciale, el nu este
la fel de riguros ca cel bazat pe distribuiile z, mai ales cnd este aplicat distribuiilor
discontinue. Unul dintre punctele sale slabe al acestei tehnici este acela c, avnd nevoie de
frecvene teoretice mai mari de 5 (sau i mai sigur de 10), nu este operant pentru eantioanele
mici. Al doilea punct slab provine din aceea c procedeul nu poate ine cont de direcia
abaterilor frecvenelor observate de la cele teoretice, cci semnele minus din expresia f0 - fe
dispar prin ridicarea la ptrat. n al treilea rnd, determinarea gradelor de libertate nu este
ntotdeauna o chestiune aa de simpl sau de uor rezolvabil cum pare la prima vedere.
Exemplul 2
Decizia obligativitii nceperii colarizrii la 6 ani n urm cu peste dou decenii a dus
la nfiinarea unor comisii de amnare cu un an a debutului colarizrii pentru anumite
categorii de copii, considerai a fi nepregtii s nceap coala la aceast vrst. Pe parcursul
unui deceniu de activiate, doi psihologi din comisia judeean de amnare au examinat 4588
de copii, situaia acestora fiind rezumat n tabelul de mai jos.
Tabel 9.3. Situaia pe un deceniu a amnrilor colare funcie de QI la doi psihologi
ProQI
A fo1
fe
B fo2
fe
fo1+fo2
centaje
100
280
254
86
112
366
275
3185
3184
1403
1404
4588
2,2
6,7
16,1
25
50
69
358
70
174
31
70-79
644
213
268
94
80-89
1249
513
526
226
90-99
654
796
349
351
100
280
1593
86
702
Se cere s se determine:
1. dac cele dou distribuii sunt semnificativ diferite ntre ele;
2. dac cele dou distribuii se abat semnificativ de la distribuia gaussian, care indic
pentru QI sub 69 = 2,2 procente; ntre 70-79 = 6,70 procente; ntre 80-89 = 16,1 procente;
ntre 90-99 = 25 de procente; QI peste 100 = 50 de procente.
n prima jumtate de tabel avem doar frecvenele observate (fo) totalizate pe rnduri i
pe coloane, frecvenele expectate nefiind deduse din distribuii ideale sau din alte regulariti
prestabilite. Frecvenele expectate apar prin calculul efectuat asupra datelor tabelului nsui.
Astfel prima csu din stngasus (psihologul A) se prezint astfel: fo = 358
127
fe = ?
532 3185
369,32 369
4588
(fiind vorba de persoane, care sunt indivizibile, se rotunjete). n acelai fel se calculeaz fe
pentru celelalte zone de QI ale rndului. Pentru rndul al doilea (psiholog B), prima csu din
stnga se prezint astfel: fo = 174.
fe = ?
fe
532 1403
162,68 163
4588
( f o f e )2
fe
Calculele implicate de formula de mai sus se fac pornind din celula din stnga-sus i
de la stnga la dreapta, pe primul, apoi pe cel de al doilea rnd:
2
633
...
86 112 2
112
128
213
706
n dreptul lui f = 4, pentru o probabilitate p < 0.01, este necesar un 2critic de 13,277,
deci valoarea gsit de noi (6133,57) este att de mare nct ipoteza de nul poate fi respins cu
fermitate. Cu o probabilitate apropiat de certitudine se poate deci afirma c eantionul de
copii amnai colar difereau foarte semnificativ ca dotare intelectual de eantionul normal,
deoarece principalul motiv al amnrii colare a fost chiar deficitul intelectual.
Exemplul 3
A fost investigat un numr de 270 de diabetici juvenil. Comparaia dup criteriul
apartenenei de gen i al echilibrriineechilibrrii medicale a bolii respective a dat
urmtoarea distribuie:
Biei
fo
fe
fo
fe
Fete
Total
Echil.
60
a
100
c
160
Neechil
100
b
10
d
110
Total
160
110
270
Biei
Fete
fo
fe
fo
fe
Total
Echil.
60
95
100
65
160
Neechil
100
65
10
45
110
Total
160
110
270
Prin procedeul clasic determinm doar prima frecven expectat (fe) de stnga sus, celelalte
deducndu-se automat prin diferena de pe total linie i coloan. Calculul se poate face clasic:
2
60 95 2 100 65 2 100 65 2 10 45 2
95
65
65
45
ad bc 2 T
a b c d a c b d
129
(9.3)
n care T este totalul general, iar numitorul este produsul totalurilor marginale, adic 2 =
77,02, valoare aproape identic cu cea obinut anterior, mica diferen rezultnd din faptul c
n primul caz s-a efectuat rotunjirea.
Exemplul 4
Exemplul de mai jos se refer la utilizarea proporiilor i a cuantumurilor procentuale,
pentru a clarifica probleme ce au aprut nc de la exemplul 2. Reamintim c testele chi-ptrat
opereaz numai cu frecvene, unica cale corect de a le efecua fiind aceea a transformrii
proporiilor i procentelor n frecvene. Chiar dac am elimina zecimalele i am rotunji
numerele la ntreguri, proporiile procentuale nu sunt date legitime pentru acest tip de analiz.
Iat de ce procentele trebuie convertite obligatoriu n frecvene.
ntr-un grup de 1740 de persoane, din care 1040 sunt femei iar 700 brbai, o proporie
de 62,7% dorete s fac voluntariat, ceilali nu. Repartiia lor dup apartenena de gen i
dorina de a face voluntariat este indicat n tabelul de mai jos. Trebuie determinat dac exist
o asociere semnificativ ntre aprtenena de gen i faptul de a dori s fac voluntariat.
Apartenena de gen
Femei
Brbai
78%
40%
22%
60%
1040
700
Dispui la voluntariat
Nedispui la voluntariat
Numr
Tabelul de mai sus poate fi cu uurin convertit n frecvene, rezultnd un alt tabel, pe
care se poate face testul chi-ptrat.
Dispui la
voluntariat
Nedispui la
voluntariat
Total
Femei
811
(652)
Brbai
280
(439)
Total
1091
229
(388)
420
(261)
649
1040
700
1740
= 258,38.
2
439
388
261
Df este de 1 iar chi-ptrat critic pentru p = 0,05 este de 3,84, ceea ce nseamn
respingerea ipotezei nule. Pentru acest exemplu determinm i mrimea efectului dup
formula 9.4 ce va fi explicitat ulterior:
130
258,38
0,39
1740
(9.4)
2
N
(9.5)
2
N ( L 1)
coloane. De exemplu, ntr-un tabel 3x2, L+1 = 2+1 = 1, ceea ce transform formula 9.5 n
formula 9.4; ntr-un tabel 4x3, L-1 = 2 i numitorul va cpta valoarea 2N.
Interpretarea coeficienilor este similar pn la un punct cu cea a corelaiilor r,
sau R care prin ridicare la ptrat i nmulire cu 100 explic proporia comun din variana a
dou variabile prin coeficientul de determinare. Ca pentru toate celelalte determinri ale
mrimii efectului, Cohen a furnizat repere i pentru interpretarea lui sau Cramer: valorile sub
0,10 indic un efect foarte mic, n jur de 0,25 un efect mediu iar n jur de 0,40 un efect mare.
Raportarea rezultatelor chi-ptrat va include ntre paranteze numrul gradelor de
libertate i volumul eantionului, dup care urmeaz valoarea testului, pragul de semnificaie
i valoarea mrimii efectului. Ea poate arta astfel: 2(5, N=137) = 5, p > .05, extrem de mic,
indicnd faptul c frecvenele de apariie ale celor ase fee ale zarului nu sunt semnificativ
deprtate de cele ateptate prin ans i deci zarul nu este unul msluit. Aa cum se observ,
partea cifric a raportrii este urmat de un scurt comentariu care rezum n form narativ
datele cifrice obinute.
131
fo
fe
Pajur
63
50
Total
100
100
2. La un joc de noroc valorile obinute prin aruncarea unui zar sunt cele sumarizate n
tabelul de mai jos (fo). Dat fiind numrul relativ mare de aruncri se atepta ca frecvena de
apariie a celor ase fee s fie una foarte apropiat, adic n jur de 1/6 (16,67%). Trebuie s se
determine dac suspiciunea c zarul este unul trucat se poate susine cu argumente statistice.
Faa
fo
fe
3.
1
23
23
2
32
23
3
19
23
4
22
23
5
25
23
6
17
23
Total
138
138
de Statistic. Ipoteza de lucru a fost aceea c cei care provin din secii realiste ale liceelor
urmate vor trece examenul respectiv ntr-o proporie semnificativ mai mare prin comparaie
cu cei care au urmat secii umaniste. Cerine: parcurgei toi paii prezentai n curs pentru
testul chi-ptrat, de la formularea ipotezelor (de nul i specific), la efectuarea testului chiptrat, la determinare lui fi i la raportarea (cifric i narativ) a rezultatelor.
Real
Uman
Total
Trecui
42
19
61
Picai
8
11
19
Total
50
30
80
Republican
132
Democrat
Ortodox
Catolic
Protestant
240
280
354
222
288
200
400
150
150
M
56
29
21
18
F
41
24
18
12
Alcoolici
Populaia
Melancolic
32
19%
Temperament
Coleric
Flegmatic
41
23
29%
25%
Sangvinic
26
27%
de baz
6. ntr-un studiu pentru demonstrarea eficacitii unui nou antipsihotic, pacienii care au fost
tratai cu acest medicament au fost comparai cu cei care au primit doar placebo. Un
numr de 720 din totalul de 1058 al celor care au primit placebo au nregistrat recderi ale
bolii, n timp ce acest fenomen s-a petrecut doar pentru 625 dintre cei 2240 de pacieni
tratai cu medicamentul antipsihotic. Argumentai statistic dac acest medicament a fost
unul efectiv n prevenirea recderilor.
133
CAPITOLUL 10
10
134
Cardiaci
75 21 14 32 18
6
25 16
40
12
Renali
8
15 24
Inspecia vizual a celor dou distribuii arat c testul t pentru eantioane independente
nu poate fi aplicat pentru c numrul de cazuri este extrem de redus iar scorurile de 75 i de 40
sunt valori atipice, posibil chiar extreme. De aceea vom aplica testul U, echivalentul lui t
pentru date de acest tip. Primul pas n acest sens este operaia de atribuire de ranguri pentru
fiecare scor, la comun pentru cele dou loturi. n procesul de rangare, descris anterior n
capitolul dedicat determinrii corelaiei prin metoda rangurilor (rho al lui Spearman), se tie c
nu conteaz dac atribuirea rangurilor pornete de la valorile de scor mici sau invers (ascendent
sau descendent).
Singura situaie care trebuie rezolavat corect i unitar este aceea n care exist mai
multe valori de scor egale, situaie pentru care sunt posibile mai multe tipuri de rezolvri. 11 Ca
11
135
i n cazul corelaiei rho, soluia cea mai frecvent adoptat de diveri autori este de a acorda
rangul intermediar pentru valorile respective de scor i de a sri apoi la rangul urmtor
nealocat, astfel ca n final numrul rangurilor alocate s coincid cu numrul datelor prezente.
Pentru a putea avea n orice moment o situaie clar a rangurilor care au fost deja acordate i a
celor care urmeaz s fie alocate se poate proceda astfel: se scriu pe orizontal, n ordine
cresctoare, rangurile ce vor fi atribuite, egale ca numr cu numrul datelor de rangat. n cazul
de fa vor fi scrise pe orizontal numerele de la 1 la 18 i, pe msur ce rangurile se vor aloca,
ele se vor i tia cu o bar, pentru a ti astfel n orice moment ce rang urmeaz s fie acordat.
Pentru cele dou scoruri de 8 ale stresului, n locul rangurilor 14 i 15 de alocat (care se i taie
de pe list), se d valoarea intermediar 14,5, urmtorul rang disponibil fiind deci 16. Dup ce
operaia de rangare va fi ncheiat, tabelul anterior va arta astfel:
Scor
Rang
Nr.
rang
75
1
21
6
14
10
1
2
3
Cardiaci = 68
Cardiaci
32 18
6
3
7 12,
4
25
4
16
18
8
14,
5
6
7
8
Renali = 103
5
9
40
2
10
4
16
12
11
3
17
11 12 13
Total = 171
Renali
8
15
14, 9
5
14
15
24
5
16
0
18
6
12
17
,5
18
Din acest tabel se observ cu uurin c suma rangurilor acordate cardiacilor i al celor
acordate renalilor este dinainte tiut (este 1+2+3+ ... +18 = 171), aadar putem determina doar
una din ele, cci cealalt putnd rezulta automat.
Secvena complet de urmat n cazul testului U al lui Mann-Whitney este urmtoarea:
1. Rangarea scorurilor pentru ambele grupe combinate, n ordine ascendent sau descendent.
2. Se nsumeaz rangurile primului grup, rezultatul fiind R1, i ale celui de al doilea grup (R2).
3. Dup obinerea lui R1 se aplic formula 10.1 de mai jos:
N ( N 1)
(10.1)
U N1 N 2 1 1
R1
2
4. Dup determinarea lui U se calculeaz U dup formula 10.2 de mai jos:
U ' N1 N 2 U
(10.2)
5. Dintre cele dou valori U i U se alege cea mai mic pentru a efectua testul de semnificaie.
6. Ipoteza nul H0 este aceea c ambele eantioane au fost extrase din aceeai populaie.
Ipoteza specific (H1) este aceea c cele dou populaii sunt diferite.
7. Cel mai mic dintre U i U este comparat cu valoarea critic a lui U din tabelul prezentat n
Anexa 17. Specificul acestui tabel este acela c ipoteze nul poate fi respins numai dac
valoarea obinut este mai mic sau egal cu valoarea tabelar.
136
De fapt, tot algoritmul de mai sus se reduce la dou comparaii: a lui U cu U i, dup
alegerea celui mai mic dintre acetia, comparaia valorii alese cu valoarea tabelar, pentru N1 i
N2 corespunztori situaiei concrete de testare la nivelul de semnificaie ales, de .05 sau de .
01. n tabelul respectiv cifrele boldate sunt pentru primul prag de semnificaie ( =.05).
Exemplificm cu cazul analizat:
10(8 1)
U 10 8
68 80 45 68 57
2
U = 57.
U 10 8 57 80 57 23.
Pentru celula corespunztoare din tabel la =.05, N1 = 10 i N2 = 8 valoarea U critic
este de 13, n raport cu care 23 este mai mare, ceea ce nu permite respingerea ipotezei de nul.
Se observ uor c pentru =.01 situaia este i mai conservatoare, deoarece valoarea critic
necesar (7) este de aproape dou ori mai mic dect anterior. Aceasta este raiunea pentru care
cercetm nti pragul de semnificaie p = .05, mai liberal, i numai dac avem motive ducem
comparaia i spre al doilea prag de semnificaie.
Cercetnd numrul valorilor critice afiate, tabelul 17 las s se ntrevad c el ar fi
operaional doar pn la N = 20. n realitate, testul U al lui Mann-Whitney poate fi utilizat i
pentru valori numerice mai mari, dar fr a mai face apel la acest tabel, ci la cel al distribuiilor
z. Procesul de interpretarea a lui z este cel cunoscut, dar acest lucru devine posibil numai dup
conversia n note z a celui mai mic dintre U i U , utiliznd urmtoarea formul:
N1 N 2
2
N1 N 2 ( N1 N 2 1)
12
U
(10.3)
S admitem c n cazul nostru valoarea reinut dup comparaia dintre U i U ar fi fost tot de
23, dar N1 ar fi fost de 30 i N2 de 25. n acest caz:
z
30 25
23 375 352
2
5,95.
30 25 (30 25 1)
750 56 59,16
12
12
23
Interpretarea lui z este urmtoarea: dac valoarea obinut este de cel puin 1,96, H 0 se
respinge pentru o probabilitate de p .05, iar dac ea este n jur de 2,58 respingerea este la un
prag mai sever (p .01). Aceasta este valabil n cazul ipotezelor bidirecionale, pentru ipoteze
unidirecionale pragurile fiind mai liberale. Astfel, pentru p .05 este nevoie de o valoare a lui
t de doar 1,64.
137
Logica alegerii valorii celei mai mici dintre U i U pare neobinuit n condiiile n
care la testele parametrice respingerea ipotezei nule este condiionat de valori mai mari dect
cele ale pragurilor critice din tabel. Pentru testul Mann-Whitney ipoteza de nul se sprijin pe
faptul c, atunci cnd volumul loturilor comparate este unul apropiat, suma rangurilor ar trebui
s fie ct mai apropiat, dac nu identic, pentru a putea susine c ele provin din aceeai
populaie. Cu ct una dintre valorile calculate U i U este mai mic, cu att cealalt este mai
mare, cci suma tuturor rangurilor rmne aceeai. Aadar, diferena dintre ele descrete pe
msur ce una dintre valori este mai mic i, n consecin, valoarea U sau U mai mic dect
cea tabelar justific respingerea ipotezei de nul.
O formul alternativ pentru determinarea lui z este cea de mai jos.
U Media
z
Eroarea _ sta
N1 ( N1 N 2 1)
30 56
23
2
2 13,81.
59,56
N1 N 2 ( N1 N 2 1)
12
(10.4)
1. Formulai ipoteza de nul i ipoteza specific (de cercetare) legat de diferenele de gen
privind performana la testul de vocabular, n dou forme: bidirecional i unidirecional.
2. Argumentai care sunt motivele pentru care este preferabil testul U ca alternativ la testul t
pentru eantioane independente.
3. Aplicai testul t pentru eantioane independente de volum mic (dispersii cumulate) i
determinai dac ipoteza de cercetare se confirm, n condiiile formulrii ei bidirecionale
i unidirecionale.
138
4. Percurgei paii prezentai n curs pentru determinarea lui U i luai decizia potrivit n
legtur cu respingerea ipotezei nule, cercetnd ambele praguri prezentate n tabel ( = .05,
= .01).
5. Raportai cifric i narativ rezultatele obinute.
6. Determinai-l pe z pentru situaia n care ambele efective comparate ar fi fost mai mari cu
15.
1
2
3
4
5
6
7
8
nainte
34
14
21
28
16
21
29
54
Dup
21
14
17
25
18
17
20
30
13
0
4
3
-2
4
9
24
139
||
13
0
4
3
2
4
9
24
Rang
2
Semn
+
5
7
8
5
3
1
+
+
+
+
+
9
10
6
18
7
14
Ranguri de acordat
1
Sume ranguri
= 17
-1
4
2
1
4
3
4 5
+ = 28
9
5
6
+
7 8 9
Total = 45
n tabel s-au introdus cteva coloane suplimentare, dintre care una d expresie
diferenei dintre cele 10 perechi de valori ale anxietii de dinainte i de dup examen. Atragem
atenia c, atunci cnd pentru o pereche se obine diferen nul (zero), aceasta se elimin din
calcul. n cazul analizat diferena de la perechea a doua este zero i de aceea ea se elimin, ceea
ce nseamn c vor rmne numai 9 ranguri de alocat i nu 10, cum era iniial. Cea de a patra
coloan red diferenele n modul i, eliminnd semnele plus i minus, acum devine mai uor
de alocat cele 9 ranguri. Rezultatul acestei operaii este prezentat n coloana a 5-a, ultima
coloan fiind cea care separ semnele plus de cele minus pentru a putea face mai uor suma
rangurilor la categoria cea mai mic. n cazul de fa exist 2 de minus i 7 de plus, deci pentru
categoria minus se vor aduna cele dou ranguri: 9 + 8 = 17. n anexa 18 n dreptul lui 9
(numrul de ranguri efectiv alocate) valoarea critic pentru p .05 este de 6. Valoarea obinut
de noi fiind mai mare, H0 nu poate fi rejectat i deci nu putem susine ntemeiat c nivelul
anxietii generale a diminuat semnificativ dup susinerea examenului.
Asemnrile testului T Wilcoxon cu testul U Mann-Whitney sunt evidente:
1. n ambele este implicat operaia de rangare.
2. n ambele ipoteza specific se susine cu att mai mult cu ct valoarea obinut la test este
mai mic dect valoarea tabelar pentru situaia respectiv.
3. Ambele sunt teste de putere mic, care n principiu ar avea nevoie de numere mari pentru a
fi mai concludente, dar n realitate se aplic pentru numere mici, de regul sub 20 de cazuri.
4. Pentru ambele, efectivele mai mari sunt aproximate prin distribuia normal z.
5. Pentru ambele exist programe statistice care uureaz considerabil volumul de munc
implicat, producnd date acurate, pentru care singura problem real rmne cea a
interpretrii i raportrii corecte a rezultatelor.
O parte dintre asemnrile semnalate anterior provin din aceea c ambele metode au
fost imaginate i create de acelai cercettor, Wilcoxon, testul U primind numele de la cei care
au perfecionat procedura (Mann i Whitney), pentru a-l putea distinge mai clar de regula
semnului, integral creditat lui Wilcoxon.
n cazul testului T al semnului pentru eantioane ce depesc ca volum numrul de 20
de cazuri, reprezentarea distribuiei normale z se face dup formula:
140
N ( N 1)
4
N ( N 1)(2 N 1)
24
T
(10.5)
Guilford (1978) apreciaz c punctul forte al acestei metode neparametrice este acela c
ea se poate aplica fr a mai ine cont de forma distribuiei i de egalitatea varianelor celor
dou serii se date. n acest caz diferena nu mai trebuie determinat cu acuratee, cci nu ea este
cea care conteaz, ci direcia n care aceasta se manifest. De aici provine ns i una dintre
slbiciunile metodei, care nu utilizeaz toat informaia disponibil de la cele dou variabile.
Astfel, dac msurtoarea s-a fcut pe o scal de interval (uniti de msur egale pe toat
scala), n care diferenele ar puteam fi comparate nu numai ca direcie, ci i ca mrime, testul
semnului va ignora acest fapt. Aa se face c, exceptnd eantioanele mici, acest test are doar
60% din puterea unui test t pentru eantioane corelate, atunci cnd ambele se aplic simultan.
Pentru creterea puterii testului T, astfel nct aceasta s devin comparabil cu a
testului parametric t corespondent, cercetrorul va fi obligat s creasc numrul subiecilor
investigai, dar n acest caz se ajunge s fie preferabil utilizarea distribuiilor z (formula 10.5).
Acest lucru devine aproape obligatoriu datorit faptului c diferena de sensibilitate n
detectarea unor efecte real existente (adic puterea testului statistic) este apreciabil de mult n
favoarea testului parametric pentru eantioane corelate, comparativ cu perechea sa
neparametric. Testul T poate rmne ns n continuare singura alternativ valabil i pentru
eantioanele mai mari, care ns se abat semnificativ de la condiia de normalitate a distribuiei.
23 13 15 17 19
13 10 9 14 21
23
10
25 10
20 10
16
13
141
N
8
5
7
0
12 41
10 20
13
13
X
17,62 11,92
X
9,07
6,01
X
229
155
2
X
5021
2281
XY
3219
142
Candidat B
16
14
12
11
9
Candidat C
3114
27
24
16
13
Se cere s se determine dac cele trei serii de date reprezint o aceeai populaie sau
populaii diferite. Pentru a putea ilustra modul de lucru al testului H furnizm mai jos formula
sa:
12
Ri2
H
3( N 1)
N ( N 1) N i
n care:
(10.6)
N reprezint numrul total de observaii, rezultat prin combinarea celor trei situaii;
Ni reprezint numrul de observaii n fiecare dintre cele trei situaii;
Ri reprezint suma rangurilor din fiecare dintre cele trei situaii.
Din formul de mai sus rezult c operaia de debut a testului este aceea de rangare, dup
regulile cunoscute, a celor trei serii de date reunite. n aceast situaie tabelul de mai sus va
arta astfel:
Candidat A
Brut
Rang
29
14
22
11
18
10
15
7
14
5,5
ranguriA = 47,5
Candidat B
Brut
Rang
16
8,5
14
5,5
12
3
11
2
9
1
ranguriB = 20
Candidat C
Brut
Rang
31
15
27
13
24
12
16
8,5
13
4
ranguriC = 52,5
12
R2
12 47,52 202 52,52
N ( N 1) N i
15 16 5
5
5
Valoarea tabelar se va identifica lund n calcul numrul gradelor de libertate, care este
este egal cu numrul de eantioane K, minus 1: df = K 1, adic 3 2 = 1. Pentru acest df
143
valoarea tabelar este de 5,99. Deoarece tabelul de referin este unul de tip chi ptrat (2)
valoarea testului H trebuie s fie mai mare sau egal cu cea tabelar pentru a fi semnificativ,
ceea ce n cazul nostru se i ntmpl. De aceea putem concluziona c cele trei serii de valori
ale candidailor nu reprezint o aceeai populaie de scoruri, deci ei sunt diferii. Pentru a
determina unde apar diferenele va trebui s aplicm suplimentar testul U pentru fiecare
pereche dar, cum se observ clar, similitudinea dintre scorurile primului i ale celui de al treilea
candidat este foarte mare, ceea ce ne rmne fiind s-l comparm pe al doilea (cazul cu cele
mai mici scoruri) cu fiecare dintre ceilali doi.
Pentru aceasta vom folosi formulele 10.1 i 10.2:
U N1 N 2
N1 ( N1 1)
56
R1 5 5
47,5 7,5 U ' N1 N 2 U 25 (7,5) 32,5
2
2
U N 2 N3
N 2 ( N 2 1)
56
R2 5 5
20 20
2
2
U ' N 2 N 3 U 25 20 5
Valoarea tabelar semnificativ este de 2, n raport cu care ambele valori ale testului de
mai sus sunt mai mari i deci nesemnificative. Aadar, ipoteza de nul nu poate fi respins la
nivelul comparaiilor pe perechi, probabil i datorit faptului c acestea sunt extrem de reduse
numeric.
Din exemplul anterior s-ar putea crede c grupurile comparate trebuie s fie unele egale
numeric, fapt care nu este real, grupurile comparate putnd diferi ca ordin de mrime.
Extinderea numeric a grupurilor comparate, dar i a numrului de grupuri implicate n acest
test statistic amplific mult volumul de munc i implicit probabilitatea de eroare, metoda
putnd fi considerabil simplificat prin utilizarea unui program statistic adecvat.
Prezentm mai jos un al doilea exemplu care pleac de la presupunerea c inteligena
emoional este asociat cu ordinea n fratrie. Pentru a verifica aceast ipotez s-a aplicat un
test sociometric unui numr de 21 de studeni, din care 7 au fost primi nscui, 8 al doilea
nscut i 5 de la al treilea nscut n sus. Rezultatele sunt ntabelate alocnd pentru fiecare
categorie o coloan cu scorurile brute obinute la test i una cu rangul alocat acestor scoruri,
dar numai dup cumularea celor trei efective.
Primul nscut
Brut
Rang
25
18
24
17
23
16
20
15
19
14
Al doilea nscut
Brut
Rang
30
21
27
20
26
19
18
12,5
15
10
144
Al treilea nscut
Brut
Rang
14
7,5
12
5,5
10
4
7
3
4
1,5
18
15
12,5
10
ranguriA = 102,5
ranguri_total=231
15
10
14
7,5
12
5,5
ranguriB = 105,5
1,5
ranguriC = 23
Ntotal = 21
21 22
7
8
6
Valoarea tabelar a lui H la df = 2 este de 5,99 pentru p = .05 i de 9,21 pentru p = .01.
Cum valoarea testului obinut de noi este mai mare, rezult c ipoteza de nul poate fi rejectat
cu o forte mic probalilitatea (sub un procent) ca aceste diferene s fi aprut din ntmplare.
Rmne de determinat n continuare care sunt grupurile ntre care aceste diferene ating pragul
semnificaiei statistice.
10.7. Exerciii i aplicaii practice
Unui grup de studeni li s-a aplicat un test de atenie distributiv cu o durat de 30 de
minute. Ipoteza cercetrii a fost aceea a existenei unor diferene semnificative de performan
a celor studeni n funcie de tipul de temperament al fiecruia, identificat cu un chestionar
adecvat. Datele brute ale cercetrii sunt sumarizate n tabelul de mai jos.
Sangvinic
32
19
26
28
24
21
17
33
29
27
Flegmatic
24
26
22
19
29
23
18
19
Coleric
33
28
12
17
24
15
29
31
14
17
26
Melancolic
28
19
17
23
15
16
10
145
4. Selectai rezultatele pe perechi, dup criteriul extraversie-introversie i stabilitateinstabilitate emoional, utiliznd tabelul de mai jos. Formulai ipotezele specifice
pentru cele dou situaii i verificai-le parcurgnd toate etapele testului U MannWhitney.
5. Transformai valorile testului U n scoruri z dup formula de calcul corespunztoare.
Extraveri
32
19
26
28
24
21
17
33
29
27
33
28
12
17
24
15
29
31
14
17
26
Stabili
emoional
32
19
26
28
24
21
17
33
29
27
24
26
22
19
29
23
18
19
Introveri
24
26
22
19
29
23
18
19
28
19
17
23
15
16
10
Instabili
emoional
33
28
12
17
24
15
29
31
14
17
26
28
19
17
23
15
16
10
146
Subiect
1
2
3
4
5
6
7
8
Stima_1
Brut
Rang
24
1
14
2
22
1
20
1
22
3
19
2
15
2
29
1
ranguri1 = 13
Stima_2
Brut
Rang
26
3
13
1
22
2
21
2
20
2
19
1
12
1
29
2
ranguri2 = 14
Stima_3
Brut
Rang
25
2
17
3
25
4
22
3
18
1
20
3
15
3
31
3
ranguri3 = 22
Stima 4
Brut
Rang
28
4
19
4
24
3
25
4
22
4
24
4
17
4
34
4
ranguri4 = 31
Ceea ce este specific acestei metode este n primul rnd modul de alocare a rangurilor.
Ele nu se mai acord prin punerea la comun a celor patru seturi de scoruri pentru a costrui o
singur colecie de date, numrul de ranguri alocate ne mai trebuind s fie suma celor patru
efective, ca n cazul celorlalte teste neparametrice prezentate anterior. Dimpotriv, se acord
ranguri doar de la 1 la 4 (numrul de ranguri fiind egal cu cte msurtori repetate au fost)
comparnd scorurile obinute de acelai subiect la cele 4 condiii i dnd rangul 1 scorului cel
mai mic, doi urmtorului .a.m.d. n pasul al doilea, suma acestor ranguri se face pe coloan,
totalurile trecndu-se n rubrica de jos. Deci scorurile se rangheaz pentru fiecare participant
separat i apoi se adun pe coloan pentru a obine totalurile fiecrei coloane n parte. Dup
aceea se evalueaz variabilitatea celor patru sume dup formula:
F 2
12
Ri2 3 N (k 1)
Nk (k 1)
(10.7)
n care:
N reprezint numrul de subieci;
k reprezint numrul de condiii (de msurtori repetate);
Ri reprezint suma rangurilor pentru fiecare din cele trei condiii.
n situaia analizat:
F2
12
12
Ri2 3 N (k 1)
132 142 222 312 3 8 5 137,75 120 17,75
Nk (k 1)
845
Prof_1
7,20
8,75
6,20
10
5,75
8,40
7,80
9,75
6,60
7,25
9,00
7,50
Prof_2
7,50
8,25
6,80
9,20
6,25
8,25
8,00
9,50
6,80
7,00
9,25
7,25
148
Prof_3
7,30
8,40
7,00
9,40
6,15
8,60
8,10
9,40
7
8,00
9,15
7,75
Prof_4
7,00
8,80
6,50
9,80
6,00
8,10
8,25
10
6,50
7,75
9,30
7,60
149
a Da
a Da
b Nu
b Nu
a Da
b Nu
6. Pentru datele culese pe o scal ordinal putem face media deoarece aceasta are proprietatea
aditivitii.
a Da
b Nu
7. Numii tipul de scal utilizabil n msurarea categoriilor de mai jos, alocnd cifrele 1, 2, 3
i 4 pentru scalele nominal, ordinal, de interval i de raport:
scala Celsius
scala Kelvin numrul camerelor de hotel ordinea sosirii la maraton
scorul final la acest examen
presiunea sanguin
genul
greutatea.
8. Pentru datele culese pe o scal ordinal putem face media deoarece aceasta are proprietatea
aditivitii.
a Da
b Nu
II. Statistici descriptive univariate
Privii cu atenie distribuia erorilor nregistrate de un psiholog la o prob de memorie, redat
n diagrama de mai jos, i rspundei la ntrebrile subiacente.
150
10
9
8
Frequency
3
2
2
1
6.0
7.0
8.0
9.0
0
0.0
1.0
2.0
3.0
4.0
5.0
a 2,50
b3
c2
d Nu se poate
a 2,54
b 2,63
c 2,71
d 2,66
a9
b6
c1
d 1,50
a 0.42
b 0.40
c 0.39
d 0.50
a asimetric negativ
b simetric
c indefinit
d asimetric pozitiv
Histogram
Diagram cu bare
Poligonul frecvenelor
17. La distribuia de mai sus tendina central e cel mai bine indicat de:
Medie
Median
Mod
III. Statistic bivariat i inferenial
Privii cu atenie cele dou scattere de mai jos i rspundei la ntrebrile formulate.
10
10
6
4
4
2
Viteza
Timp
-2
-2
10
0
-2
Erori
Erori
B
151
10
a -0.60
b 0.70
c -0.80
d 0.90
d 0.95
a -0.60
b 0.70
c -0.80
d 0.90
d 0.95
20. ncercuii n diagrama A cele trei puncte care mresc cel mai mult corelaia.
21. ncercuii n diagrama B cele trei puncte care coboar cel mai mult corelaia.
22. Adugai n spaiul diagramei A un punct astfel nct el s omoare maximal corelaia.
23. Adugai n spaiul diagramei B un punct care s umfle inflaionist maximal corelaia.
24. Desenai cu atenie, ct mai adecvat, linia de regresie pentru ambele diagrame A i B.
25. Studiind corelaiile dintre Erori-Timp i Erori-Vitez, corelaia dintre Timp i Vitez va fi:
a Negativ mic
b Negativ medie
c Spre zero
d Pozitiv medie
e Pozitiv mare
26. Cele mai sigure predicii ale lui Y n raport cu X se pot face din:
a Diagrama A
b Diagrama B
3 8 4 10 2 5 6 10 8 9 6 7 9 5 4 6 8 9
4 7 5 8 3 5 7 9 10 8 6 4 9 6 6 7 7 10
Ranguri de alocat:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
r = .........
= .........
29. Rangai corect cele dou serii de valori, folosind spaiul de deasupra i de dedesubt.
30. Determinai corelaia celor dou serii de valori prin metoda produselor a lui Pearson (r).
31. Determinai corelaia celor dou serii de valori prin metoda rangurilor a lui Spearman ().
32. Testai ipoteza existenei unei diferene semnificative a mediilor, ca i cum ar fi dou
distribuii de eantioane independente.
33. Evaluai, comentai i raportai corespunztor rezultatul obinut. .........................................
.......................................................................................................................................................
.......................................................................................................................................................
.......................................................................................................................................................
.......................................................................................................................................................
.....................................................................................................................................................
152
Bibliografie
1. American Psychological Association (2001). Publication Manual of the American
Psychological Association. 5th Edition. Washington, DC.
2. Buchner, A., Erdfelder, E., & Faul, F. (2001). How to Use the G*Power,
http://www.psycho.uni-duesseldorf.de, accesat la 01.10.2010.
3. Chatfiled, C. (1985). The initial examination of data. In Journal of the Royal Statistical
Society; Series A (General), 148(3): 214-253.
4. Clark-Carter, D. (2004). Quantitative psychological research. A student's handbook. Hove
and New York: Psycholohy Press.
5. Clinciu, A. I. (2012). Statistici multivariate pentru psihologie. Braov: Editura Universitii
Transilvania.
153
17. Guadagnoli, E., & Velicer, W. F. (1988). Relation of sample size to the stability of
component pattern. Psychological Bulletin, 103: 267-275.
18. Guilford, J. P., Fruchter, B. (1978). Fundamental Statistics in Psychology and Education,
New York: McGraw Hill Book Company.
19. Havrneanu, C. (2000). Cunoaterea psihologic a persoanei. Posibiliti de utilizare a
computerului n psihologia aplicat. Iai: Editura Polirom.
20. Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2009). Multivariate Data
Analysis. Seventh Edition, New York: Pearson Prentice Hall.
21. Hinton, P. R., Brownlow, C., McMurray, I., & Cozens, B. (2004). SPSS Explained.
London and New York: Routledge, Taylor & Francis Group.
22. Howell, D. C. (2008). Fundamental Statisctics fot Behaviooral Sciences. Sixth Edition.
Thomson Wadsworth.
23. Howitt, D., & Cramer, D. (2008). Introduction to Reasearch Methods in Psychology.
Edinburgh Gate, Harlow: Pearson Education Limitid.
24. Hoyle, R. H. (1999). Statistical Strategies for Small Sample Research. Thousand Oaks,
London, New Delhi: Sage Publications.
25. Issac, S., W. B. Michael (1972). Handbook of Research and Evaluation. San Diego,
California, 92107: Robert R. Knapp Publisher.
26. Jaun, A. K., Murtz, M. N., & Flynn, P. J. (1999). Data Clustering: A review. ACM
Computing Surveys 31(3): 364-323.
27. Kinnear, P. R., & Gray, C. D. (2006). SPSS 14 made simple. Hove and New York:
Psychological Press. Taylor & Francis Group.
28. Labr, A. V. (2008). SPSS pentru tiinele educaiei. Iai: Editura Polirom.
29. Lungu, O. (2001). Ghid introductiv pentru SPSS 10.0. Seria psihologie experimental i
aplicat. Iai: S.C. Erota Tipo S.R.L.
30. Mertler, C. A., & Vannatta, R. A. (2005). Advanced and Multivariate Statistical Methods.
Practical Applications and Interpretation. Third edition. Glendale: Pyrczak Publishing.
31. Milligan, G. (1980). An Examination of the Effect of Six Types of Error Perturbation of
Fifteen Clustering Algoritms. Psychometrika 45 (September): 325-342.
32. Milligan, G. W., & Cooper, M. C. (1985). An Examination of Procedures for Determining
the Number of Clusters in a Data Set. Psihometrika 50(2), 159-179.
33. Nicol, A. A. M., Pexman, P. M. (1999). Presenting your findings. A practical guide for
creating tables. Washinton DC, USA: American Psychological Association.
154
34. Pedhazur, E. J., Schmelkin, L. (1991). Mesurement, design and analysis: an integrated
approach. Hillsdale, USA: Lawrence Erlbaum Associates, Inc.
35. Popa, M. (2008). Statistic pentru psihologie. Teorie i aplicaii SPSS. Iai: Editura
Polirom.
36. Popa, M. (2010). Statistici multivariate aplicate n psihologie. Iai: Editura Polirom.
37. Quick, D. (2004). Making Tables and Figures. In G. A. Morgan, N. L. Leech, G. W.
Gloeckner, and K. C. Barrett, SPSS for Introductory Statistics. Use and Interpretation.
Second Edition. London: Lawrence Erlbaum Associates, Publishers.
38. Rateau, P. (2004). Metodele i statisticile experimentale n tiinele umane. Iai: Editura
Polirom.
39. Reuchlin, M. (1992). Introduction a la recherche en psychologie. Paris: Hathan Universit
40. Rosenthal, R., Rosnow, R. L., Rubin, D. B. (2000). Contrasts and correlations in effectsize estimation. Psychological Sciences, 11(6), 446-453.
41. Sava, F. A. (2004). Analiza datelor n cercetarea psihologic. Metode statistice
complementare. Cluj-Napoca: Editura ASCR.
42. Sava, F. A., Mricuoiu, L. P. (2007). PowerStaTim. Manualul utilizatorului. Timioara:
Editura Universitii de Vest.
43. Sava, F. A. (2011). Analiza datelor n cercetarea psihologic. Cluj-Napoca: Editura
ASCR.
44. Sava, F. A. (2013). Psihologia valifat tiinific. Ghid practic de cercetare n psihologie.
Iai: Editura Polirom.
45. Stilis, D. L. (Ed.) (1989). International enciclopedia of the social sciences: Biographical
supplement (vol. 18). New York: Macmillan.
46. Tabachnick, B. G., & Fidell, L. S. (2007). Using Multivariate Statistics. Fifth edition.
Boston, New York, San Francisco etc.: Pearson Education, Inc., Allyn and Bacon.
47. Thorne, B., & Giesen, G. M. (2003). Statistics for the Social Sciences. Boston, Burr Ridge
etc.: Mc Graw Hill.
48. Vogt, W. P. (1999). Dictionary of Statistics and Methodology. A Nontechnical Guide for
the Social Sciences, Second edition. Thousand Oaks, London, New Delhi: Sage
Publications.
49. Weaver, K. (2000). Basic Statistic Analysis. Sixth Edition. Study Guide. Boston, London
etc.: Allyn and Bacon. NeedhamHeights, Massachusetts.
155
A N E X E CU U T I L I T I S T A T I S T I C E
STATISTICA DESCRIPTIV
CENTRU
Tendina
central
Media
Mediana
Modul
FORM MPRTIERE
Crostabulare
Variabilitatea
AI=Range
Variana
Abaterea
standard
Corelaie
Diferene de medii
Tabele bivariate
Forma curbei
Simetria (Skewness)
Boltirea (Kurtosis)
Scatter-ploturi
Ploturi clasificatorii
Curba normal
Scorurile z
Distribuia normal standard
INFERENA STATISTIC
Eantionarea
distribuiilor
Eroarea
standard
Teorema limit
central
Nivelul de semnificaie
Ipoteza de nul
Testarea ipotezelor
Intervale de
ncredere
Ipoteze
alternative
Eroarea de tip I
Eroarea de tip II
Puterea cercetrii
Mrimea efectului
156
Diferen
eantioane
corelate
Media i SD
Mrimea
efectului d
Boxploturi/
histograme
Test t pentru
eantioane
corelate
Diferen
eantioane
independe
nte
Media i SD
Mrimea
efectului d
Boxploturi/
histograme
Test t pentru
eantioane
independente
Dou
eantioa
ne
Diferen
Un
eantion
FENOMEN
UL DE
INTERES
Relaie
Media i SD
Mrimea
Diferena
pe un
eantion
Testul t pentru
un eantion
Relaie
utiliznd
ranguri
(rho)
Spearman
(tau) Kendall
Scatter-plot
Se examineaz
valoarea p
pentru sau
Relaie
liniar
utiliz.
scoruri
r al lui Pearson
Scatter-plot
Se examineaz
valoarea p
a lui r
STATISTICI
DESCRIPTIVE
STATISTICI
INFERENIA
LE
157
Calitative
(categoriale)
Tip de
categorizar
e
Ovariabil
categorial
Potrivire
(g.o.f.) 2
Dou
variabile
categorial
e
Tabele de
contingen
2
Grad
relaie
Intere
s
prima
r
Continu
TIP DE
DATE
Relaii
Numr
de
predictori
Unul
Formarea
relaiei
Msur
Ranguri
Muli
Corelaie
r Pearson
Regresie
multipl
Regresie
Spearman
t pt.
dou
eantioan
Independ.
Cantitative
(de msur)
Tip de
ntrebare
Dou
Relaii
dintre
MannWhitney
eantioan
Ea Corel
One-way
ANOVA
Depend.
Wilcoxon
Diferene
Independ.
Numr de
grupuri
Mai
multe
Relaii
dintre
NrVariab.
Msurto
ri
repetate
eantioan
Depend.
KruskalWallis
Multe
ANOVA
factorial
Friedman
158
Un
159
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,00000
0,03983
0,07926
0,11791
0,15542
0,19146
0,22575
0,25804
0,28814
0,31594
0,34134
0,36433
0,38493
0,40320
0,41924
0,43319
0,44520
0,45543
0,46407
0,47128
0,47725
0,48214
0,48610
0,48928
0,49180
0,49379
0,49534
0,49653
0,49744
0,49813
0,49865
0,49903
0,49931
0.49952
0,49966
0,49977
0,49984
0,49989
0,49993
0,49995
0,49997
0,00399
0,04380
0,08317
0,12172
0,15910
0,19497
0,22907
0,26115
0,29103
0,31859
0,34375
0,36650
0,38686
0,40490
0,42073
0,43448
0,44630
0,45637
0,46485
0,47193
0,47778
0,48257
0,48645
0,48956
0,49202
0,493%
0,49547
0,49664
0,49752
0,49819
0,49869
0,49906
0,49934
0,49953
0,49968
0,49978
0,49985
0,49990
0,49993
0,49995
0,49997
0,00798
0,04776
0,08706
0,12552
0,16276
0,19847
0,23237
0,26424
0,29389
0,32121
0,34614
0,36864
0,38877
0,40658
0,42220
0,43574
0,44738
0,45728
0,46562
0,47257
0,47831
0,48300
0,48679
0,48983
0,49224
0,49413
0,49560
0,49674
0,49760
0,49825
0,49874
0,49910
0,49936
0,49955
0,49969
0,49978
0,49985
0,49990
0,49993
0,49996
0,49997
0,01197
0,05172
0,09095
0,12930
0,16640
0,20194
0,23565
0,26730
0,29673
0,32381
0,34849
0,37076
0,39065
0,40824
0,42364
0,43699
0,44845
0,45818
0,46638
0,47320
0,47882
0,48341
0,48713
0,49010
0,49245
0,49430
0,49573
0,49683
0,49767
0,49831
0,49878
0,49913
0,49938
0,49957
0,49970
0,49979
0,49986
0,49990
0,49994
0,49996
0,49997
0,01595
0,05567
0,09483
0,13307
0,17003
0,20540
0,23891
0,27035
0,29955
0,32639
0,35083
0,37286
0,39251
0,40988
0,42507
0,43822
0,44950
0,45907
0,46712
0,47381
0,47932
0,48382
0,48745
0,49036
0,49266
0,49446
0,49585
0,49693
0,49774
0,49836
0,49882
0,49916
0,49940
0,49958
0,49971
0,49980
0,49986
0,49991
0,49994
0,49996
0,49997
0,01994
0,05962
0,09871
0,13683
0,17364
0,20884
0,24215
0,27337
0,30234
0,32894
0,35314
0,37493
0,39435
0,41149
0,42647
0,43943
0,45053
0,45994
0,46784
0,47441
0,47982
0,48422
0,48778
0,49061
0,49286
0,49461
0,49598
0,49702
0,49781
0,49841
0,49886
0,49918
0,49942
0,49960
0,49972
0,49981
0,49987
0,49991
0,49994
0,49996
0,49997
0,02392
0,06356
0,10257
0,14058
0,17724
0,21226
0,24537
0,27637
0,30511
0,33147
0,35543
0,37698
0,39617
0,41309
0,42785
0,44062
0,45154
0,46080
0,46856
0,47500
0,48030
0,48461
0,48809
0,49086
0,49305
0,49477
0,49609
0,49711
0,49788
0,49846
0,49889
0,49921
0,49944
0,49961
0,49973
0,49981
0,49987
0,49992
0,49994
0,49996
0,49998
0,02790
0,06749
0,10642
0,14431
0,18082
0,21566
0,24857
0,27935
0,30785
0,33398
0,35769
0,37900
0,39796
0,41466
0,42922
0,44179
0,45254
0,46164
0,46926
0,47558
0,48077
0,48500
0,48840
0,49111
0,49324
0,49492
0,49621
0,49720
0,49795
0,49851
0,49893
0,49924
0,49946
0,49962
0,49974
0,49982
0,49988
0,49992
0,49995
0,49996
0,49998
0,03188
0,07142
0,11026
0,14803
0,18439
0,21904
0,25175
0,28230
0,31057
0,33646
0,35993
0,38100
0,39973
0,41621
0,43056
0,44295
0,45352
0,46246
0,46995
0,47615
0,48124
0,48537
0,48870
0,49134
0,49343
0,49506
0,49632
0,49728
0,49801
0,49856
0,49896
0,49926
0,49948
0,49964
0,49975
0,49983
0,49988
0,49992
0,49995
0,49997
0,49998
0,03586
0,07535
0,11409
0,15173
0,18793
0,22240
0,25490
0,28524
0,31327
0,33891
0,36214
0,38298
0,40147
0,41774
0,43189
0,44408
0,45449
0,46327
0,47062
0,47670
0,48169
0,48574
0,48899
0,49158
0,49361
0,49520
0,49643
0,49736
0,49807
0,49861
0,49900
0,49929
0,49950
0,49965
0,49976
0,49983
0,49989
0,49992
0,49995
0,49997
0,49998
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
160
4,1
4,2
4,3
4,4
4,5
4,6
4,7
4,8
4,9
5
5,1
52
5,3
5,4
5,5
5,6
5,7
5,8
5,9
6
0,49998
0,49999
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,49998
0,49999
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,49998
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,49998
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,49998
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,49998
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,49998
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
.05
.02
.01
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
0
2
4
6
8
11
14
17
21
25
30
35
40
46
52
59
66
73
81
89
0
2
3
5
7
10
13
16
20
24
28
33
38
43
49
56
62
69
77
0
2
3
5
7
10
13
16
20
23
28
32
38
43
44
55
61
68
0,49998
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
161
0,49999
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,49999
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
anse din
100
84
69
55
42
32
23
16
11
7
5.0
4,5
3,6
2,8
2,1
1,6
1,2
1,0
0,9
0,7
0,5
0,4
0,27
0,19
0,14
0.10
0,07
0,046
0,032
0,014
0,006
0,0006
0,00006
df
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
df
0,10
6,314
2,920
2,353
2,132
2,015
1,943
1,895
1,860
1,833
1,812
1,796
1,782
1,771
1,761
1,753
1,746
1,740
1,734
1,729
1,725
1,721
1,717
1,714
1,711
1,708
1,706
1,703
1,701
1,699
1,697
1,64485
0,10
0,10
0,05
12,706
4,303
3,182
2,776
2,571
2,447
2,365
2,306
2,262
2,228
2,201
2,179
2,160
2,145
2,131
2,120
2,110
2,101
2,093
2,086
2,080
2,074
2,069
2,064
2,060
2,056
2,052
2,048
2,045
2,042
1,95996
0,05
0,05
0,02
31,821
6,965
4,541
3,747
3,365
3,143
2,998
2,896
2,821
2,764
2,781
2,681
2,650
2,624
2,602
2,583
2,567
2,552
2,539
2,528
2,518
2,508
2,500
2,492
2,485
2,479
2,473
2,467
2,462
2,457
2,32634
0,02
0,02
0,01
63,657
9,925
5,841
4,604
4,032
3,707
3,499
3,355
3,250
3,169
3,106
3,055
3,012
2,977
2,947
2,921
2,898
2,878
2,861
2,845
2,831
2,819
2,807
2,797
2,787
2,779
2,771
2,763
2,756
2,750
2,57582
0,01
162
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
120
= 0,10
3,078
1,886
1,638
1,533
1,476
1,440
1,415
1,397
1,383
1,372
1,363
1,356
1,350
1,345
1,341
1,337
1,333
1,330
1,328
1,325
1,323
1,321
1,319
1,318
1,316
1,315
1,314
1,313
1,311
1,310
1,303
1,296
1,289
1,282
= 0,05
6,314
2,920
2,353
2,132
2,015
1,943
1,895
1,860
1,833
1,812
1,796
1,782
1,771
1,760
1,753
1,746
1,740
1,734
1,729
1,725
1,721
1,717
1,714
1,711
1,708
1,706
1,703
1,701
1,699
1,697
1,684
1,671
1,658
1,645
= 0,025
12,706
4,303
3,182
2,776
2,571
2,447
2,365
2,306
2,262
2,228
2,201
2,179
2,160
2,145
2,131
2,120
2,110
2,101
2,093
2,086
2,080
2,074
2,069
2,064
2,060
2,056
2,052
2,048
2,045
2,042
2,021
2,000
1,980
1,960
163
= 0,01
31,821
6,950
4,541
3,747
3,365
3,143
2,998
2,896
2,821
2,764
2,718
2,681
2,650
2,624
2,602
2,583
2,567
2,552
2,539
2,528
2,528
2,508
2,500
2,492
2,485
2,479
2,473
2,467
2,462
2,457
2,423
2,390
2,358
2,326
= 0,005
63,657
9,925
5,841
4,604
4,032
3,707
3,499
3,355
3,250
3,169
3,106
3,055
3,102
2,977
2,947
2,921
2,898
2,878
2,861
2,845
2,831
2,819
2,807
2,797
2,787
2,779
2,771
2,763
2,756
2,750
2,704
2,660
2,617
2,576
=0,0005
636,620
31,598
12,924
8,610
6,869
5,959
5,408
5,041
4,781
4,587
4,437
4,318
4,221
4,140
4,073
4,015
3,965
3,922
3,883
3,850
3,819
3,792
3,767
3,745
3,725
3,707
3,690
3,674
3,659
3,646
3,551
3,460
3,373
3,291
df
10%
p = .10
5%
p = .05
2%
p = .02
1%
p = .01
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
35
40
45
50
60
70
80
90
100
110
120
6.3138
2.9200
2.3534
2.1318
2.0150
1.9432
1.8946
1.8595
1.8331
1.8125
1.7959
1.7823
1.7709
1.7613
1.7531
1.7459
1.7396
1.7341
1.7291
1.7247
1.7207
1.7171
1.7139
1.7109
1.7081
1.7056
1.7033
1.7011
1.6991
1.6973
1.6869
1.6839
1.6794
1.6759
1.6706
1.6669
1.6641
1.6620
1.6602
1.6588
1.6577
1.6449
12.7062
4.3027
3.1824
2.7764
2.5706
2.4469
2.3646
2.3060
2.2622
2.2281
2.2010
2.1788
2.1604
2.1448
2.1315
2.1199
2.1098
2.1009
2.0930
2.0860
2.0796
2.0739
2.0687
2.0639
2.0595
2.0555
2.0518
2.0484
2.0452
2.0423
2.0301
2.0211
2.0141
2.0086
2.0003
1.9944
1.9901
1.9867
1.9840
1.9818
1.9799
1.9600
31.8207
6.9646
4.5407
3.7469
3.3649
3.1427
2.9980
2.8965
2.8214
2.7638
2.7181
2.6810
2.6503
2.6245
2.6025
2.5835
2.5669
2.5524
2.5395
2.5280
2.5177
2.5083
2.4999
2.4922
2.4851
2.4786
2.4727
2.4671
2.4620
2.4573
2.4377
2.4233
2.4121
2.4033
2.3901
2.3808
2.3739
2.3685
2.3642
2.3607
2.3598
2.3263
63.6574
9.9248
5.8409
4.6041
4.0322
3.7074
3.4995
3.3554
3.2498
3.1693
3.1058
3.0545
3.0123
2.9768
2.9467
2.9208
2.8982
2.8784
2.8609
2.8453
2.8314
2.8188
2.8073
2.7969
2.7874
2.7787
2.7707
2.7633
2.7564
2.7500
2.7238
2.7045
2.6896
2.6778
2.6603
2.6479
2.6387
2.6316
2.6259
2.6213
2.6174
2.5758
Surs: D.B. Owen, Handbook of Statistical Tables (1962), Reading, MA: Addison-Wesley, pp. 28-30.
Copyright 1962 by Addison-Wesley Publishing Company.
164
df intergrup (between)
1
10
161,4476
18,5128
10,1280
7,7086
6,6079
5,9874
5,5914
5,3177
5,1174
4,9646
4,8443
4,7472
4,6672
4,6001
4,5431
4,4940
4,4513
4,4139
4,3807
4,3512
4,3248
4,3009
4,2793
4,2597
4,2417
199,5000
19,0000
9,5521
6,9443
5,7861
5,1433
4,7374
4,4590
4,2565
4,1028
3,9823
3,8853
3,8056
3,7389
3,6823
3,6337
3,5915
3,5546
3,5219
3,4928
3,4668
3,4434
3,4221
3,4028
3,3852
215,7073
19,1643
9,2766
6,5914
5,4095
4,7571
4,3468
4,0662
3,8625
3,7083
3,5874
3,4903
3,4105
3,3439
3,2874
3,2389
3,1968
3,1599
3,1274
3,0984
3,0725
3,0491
3,0280
3,0088
2,9912
224,5832
19,2468
9,1172
6,3882
5,1922
4,5337
4,1203
3,8379
3,6331
3,4780
3,3567
3,2592
3,1791
3,1122
3,0556
3,0069
2,9647
2,9277
2,8951
2,8661
2,8401
2,8167
2,7955
2,7763
2,7587
230,1619
19,2964
9,0135
6,2561
5,0503
4,3874
3,9715
3,6875
3,4817
3,3258
3,2039
3,1059
3,0254
2,9582
2,9013
2,8524
2,8100
2,7729
2,7401
2,7109
2,6848
2,6613
2,6400
2,6207
2,6030
233,9860
19,3295
8,9406
6,1631
4,9503
4,2839
3,8660
3,5806
3,3738
3,2172
3,0946
2,9961
2,9153
2,8477
2,7905
2,7413
2,6987
2,6613
2,6283
2,5990
2,5727
2,5491
2,5277
2,5082
2,4904
236,7684
19,3532
8,8867
6,0942
4,8759
4,2067
3,7870
3,5005
3,2927
3,1355
3,0123
2,9134
2,8321
2,7642
2,7066
2,6572
2,6143
2,5767
2,5435
2,5140
2,4876
2,4638
2,4422
2,4226
2,4047
238,8827
19,3710
8,8452
6,0410
4,8183
4,1468
3,7257
3,4381
3,2296
3,0717
2,9480
2,8486
2,7669
2,6987
2,6408
2,5911
2,5480
2,5102
2,4768
2,4471
2,4205
2,3965
2,3748
2,3551
2,3371
240,5433
19,3848
8,8123
5,9988
4,7725
4,0990
3,6767
3,3881
3,1789
3,0204
2,8962
2,7964
2,7144
2,6458
2,5876
2,5377
2,4943
2,4563
2,4227
2,3928
2,3660
2,3419
2,3201
2,3002
2,2821
4,2252
4,2100
4,1960
4,1830
4,1709
3,3690
3,3541
3,3404
3,3277
3,3158
2,9752
2,9604
2,9467
2,9340
2,9223
2,7426
2,7278
2,7141
2,7014
2,6896
2,5868
2,5719
2,5581
2,5454
2,5336
2,4741
2,4591
2,4453
2,4324
2,4205
2,3883
2,3732
2,3593
2,3463
2,3343
2,3205
2,3053
2,2913
2,2783
2,2662
2,2655
2,2501
2,2360
2,2229
2,2107
241,8817
19,3959
8,7855
5,9644
4,7351
4,0600
3,6365
3,3472
3,1373
2,9782
2,8536
2,7534
2,6710
2,6022
2,5437
2,4935
2,4499
2,4117
2,3779
2,3479
2,3210
2,2967
2,2747
2,2547
2,2365
2,2197
2,2043
2,1900
2,1768
2,1646
Not: Acest tabel este aplicabil pentru maximum 11 grupuri (dfBetween = 10 i dfWithin maxim = 30).
165
df
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
35
40
45
50
60
70
80
90
100
p = 0,10
0,988
0,900
0,805
0,729
0,669
0,622
0,582
0,549
0,521
0,497
0,476
0,458
0,441
0,426
0,412
0,400
0,389
0,378
0,369
0,36
0,352
0,344
0,337
0,330
0,323
0,317
0,311
0,306
0,301
0,296
0,275
0,257
0,243
0,231
0,211
0,195
0,183
0,173
0,164
p = 0,25
Bilateral
p = 0,05
0,997
0,950
0,878
0,811
0,754
0,707
0,666
0,632
0,602
0,576
0,553
0,532
0,514
0,497
0,482
0,468
0,456
0,444
0,433
0,423
0,413
0,404
0,396
0,388
0,381
0,374
0,367
0,361
0,355
0,349
0,325
0,304
0,288
0,273
0,250
0,232
0,217
0,205
0,195
166
p = 0,01
p = 0,005
p = 0,02
0,9995
0,980
0,934
0,882
0,833
0,789
0,750
0,716
0,685
0,658
0,634
0,612
0,592
0,574
0,558
0,542
0,528
0,516
0,503
0,492
0,482
0,472
0,462
0,453
0,445
0,437
0,430
0,423
0,416
0,409
0,381
0,358
0,338
0,322
0,295
0,274
0,256
0,242
0,230
p = 0,01
0,9999
0,990
0,959
0,917
0,874
0,834
0,798
0,765
0,735
0,708
0,684
0,661
0,641
0,623
0,606
0,590
0,575
0,561
0,549
0,537
0,526
0,515
0,505
0,496
0,487
0,479
0,471
0,463
0,456
0,449
0,418
0,393
0,372
0,354
0,325
0,302
0,283
0,267
0,254
Anexa 8. Valori critice ale corelaiei r, df = N 2, unde N este numrul perechilor de scoruri.
df
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
5%
.997
.950
.878
.811
.754
.707
.666
.632
.602
.576
.553
.532
.514
.497
.482
.468
.456
.444
.433
.423
.413
.404
.396
df
24
25
26
27
28
29
30
35
40
45
50
60
70
80
90
100
125
150
200
300
400
500
1000
1%
1.000
.990
.959
.917
.874
.834
.798
.765
.735
.708
.684
.661
.641
.623
.606
.590
.575
.561
.549
.537
.526
.515
.505
5%
.388
.381
.374
.367
.361
.355
.349
.325
.304
.288
.273
.250
.232
.217
.205
.195
.174
.159
.138
.113
.098
.088
.062
1%
.496
.487
.478
.470
.463
.456
.449
.418
.393
.372
.354
.325
.302
.283
.267
.254
.228
.208
.181
.148
.128
.115
.081
Surs: Table VII din Fisher and Yates: Statistical Tables for Biological, Agricultural and Medical
Research. Longman Group Ltd., London.
167
p=0,10
p=0,05
p=0,025
p=0,01
0,81
0,73
0,67
0,62
0,58
0,55
0,52
0,50
0,48
0,46
0,44
0,43
0,41
0,40
0,39
0,38
0,37
0,36
0,32
0,30
0,27
0,26
0,24
0,23
0,88
0,81
0,75
0,71
0,67
0,63
0,60
0,58
0,55
0,53
0,51
0,50
0,48
0,47
0,46
0,44
0,43
0,42
0,38
0,35
0,32
0,30
0,29
0,27
0,93
0,88
0,83
0,79
0,75
0,72
0,69
0,66
0,63
0,61
0,59
0,57
0,56
0,54
0,53
0,52
0,50
0,49
0,45
0,41
0,38
0,36
0,34
0,32
0,96
0,92
0,87
0,83
0,80
0,76
0,73
0,71
0,68
0,66
0,64
0,62
0,61
0,59
0,58
0,56
0,55
0,54
0,49
0,45
0,42
0,39
0,37
0,35
Anexa 10. Valori ale corelaiei rangurilor pentru dou praguri de semnificaie
Nr. perechi
5
6
7
8
9
10
12
14
16
18
20
22
24
26
28
30
p=0,05
1,000
0,886
0,786
0,738
0,683
0,648
0,591
0,544
0,506
0,475
0,450
0,428
0,409
0,392
0,377
0,364
168
p=0,01
-1,000
0,929
0,881
0,833
0,974
0,777
0,714
0,665
0,625
0,591
0,562
0,537
0,515
0,496
0,478
Anexa 11. Valorile critice pentru testul de corelaie a rangurilor (rho) al lui Spearman
Test unilateral
N
= 0,05
= 0,10
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
0.900
0,829
0,714
0,643
0,600
0,564
0,523
0.497
0,475
0,457
0,441
0,425
0,412
0,399
0,388
0,377
0,368
0,359
0,351
0,343
0,336
0,329
0,323
0,317
0,311
0,305
= 0,025
= 0,01
Test bilateral
= 0,05
= 0,02
0,886
0,786
0,738
0,683
0,648
0,623
0,591
0,566
0,545
0,525
0,507
0,490
0,476
0,462
0,450
0,438
0,428
0,418
0,409
0,400
0,392
0,385
0,377
0,370
0,364
169
0,943
0,893
0,833
0,783
0,745
0,736
0,703
0,673
0,646
0,623
0,601
0,582
0,564
0,549
0,534
0,521
0,508
0,496
0,485
0,475
0,465
0,456
0,448
0,440
0,432
= 0,005
= 0,01
0,881
0,833
0,794
0,818
0,780
0,745
0,716
0,689
0,666
0,645
0,625
0,608
0,591
0,576
0,562
0,549
0,537
0,526
0,515
0,505
0,496
0,487
0,478
0,0000
0,0100
0,0200
0,0300
0,0400
0,0500
0,0600
0,0700
0,0800
0,0900
0,1000
0,0000
0,0100
0,0200
0,0300
0,0400
0,0500
0,0601
0,0701
0,0802
0,0902
0,1003
0,2600
0,2700
0,2800
0,2900
0,3000
0,3100
0,3200
0,3300
0,3400
0,3500
0,3600
0,2667
0,2769
0,2877
0,2986
0,3095
0,3205
0,3316
0,3428
0,3541
0,3654
0,3769
0,5200
0,5300
0,5400
0,5500
0,5600
0,5700
0,5800
0,5900
0,6000
0,6100
0,6200
0,5763
0,5901
0,6042
0,6184
0,6328
0,6475
0,6625
0,6777
0,6931
0,7089
0,7250
0,7800
0,7900
0,8000
0,8100
0,8200
0,8300
0,8400
0,8500
0,8600
0,8700
0,8800
1,0454
1,0714
1,0986
1,1270
1,1568
1,1881
1,2212
1,2562
1,2933
1,3331
1,3758
0,1100
0,1200
0,1300
0,1400
0,1500
0,1600
0,1104
0,1206
0, 1307
0, 1409
0,1511
0,1614
0,3700
0,3800
0,3900
0,4000
0,4100
0,4200
0,3834
0,4001
0,4118
0,4236
0,4356
0,4477
0,6300
0,6400
0,6500
0,6600
0,6700
0,6800
0,7414
0,7582
0,7753
0,7928
0,8307
0,8291
0,8900
0,9000
0,9100
0,9200
0,9300
0,9400
1,4219
1,4722
1,5275
1,5890
1,6584
1,7380
0,1700
0,1800
0,1900
0,2000
0,2100
0,2200
0,1717
0,1820
0,1923
0,2027
0,2132
0,2237
0,4300
0,4400
0,4500
0,4600
0,4700
0,4800
0,4599
0,4722
0,4847
0,4973
0,5101
0,5230
0,6900
0,7000
0,7100
0,7200
0,7300
0,7400
0,8480
0,8673
0,8872
0,9076
0,9287
0,9505
0,9500
0,9600
0,9700
0,9800
0,9900
1,8318
1,9459
2,0923
2,2976
2,6467
0,2300
0,2400
0,2500
0,2342
0,2448
0,2554
0,4900
0,5000
0,5100
0,5361
0,5493
0,5627
0,7500
0,7600
0,7700
0,9730
0,9962
1,0203
170
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,07
0,08
0,09
0,0
0,1
0,2
0,3
0,4
0,0000
0,0997
0,1974
0,2913
0,3800
0,0100
0,1096
0,2070
0,3004
0,3885
0,0200
0,1191
0,2165
0,3095
0,3969
0,0300
0,1293
0,2260
0,3185
0,4053
0,0400
01391
0,2355
0,3275
0,4136
0,0500
0,1489
0,2449
0,3364
0,4219
0,0599
0,1586
0,2543
0,3452
0,4301
0,0699
0,1684
0,2636
0,3540
0,4382
0,0699
0,1684
0,2636
0,3540
0,4382
0,0699
0,1684
0,2636
0,3540
0,4382
0,0898
0,1877
0,2821
0,3714
0,4542
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
0,4621
0,5370
0,6044
0,6640
0,7163
0,4699
0,5441
0,6107
0,6696
0,7211
0,4777
0,5511
0,6169
06751
0,7529
0,4854
0,5580
0,6231
06805
0,7306
0,4930
0,5649
0,6291
0,6858
0,7352
0,5005
0,5717
0,6351
0,6911
0,7398
0,5080
0,5784
0,6411
0,6963
0,7443
0,5154
0,5850
0,6469
0,7014
0,7487
0,5154
0,5850
0,6469
0,7014
0,7487
0,5154
0,5850
0,6469
0,7014
0,7487
0,5299
0,5980
0,6584
0,7114
0,7574
0,5
0,6
0,7
0,8
0,9
1,0
1,1
1,5
1,3
1,4
0,7616
0,8005
0,8337
0,8617
0,8854
0,7658
0,8041
0,8367
0,8643
0,8875
0,7699
0,8076
0,8397
0,8668
0,8896
0,7739
0,8110
0,8426
0,8692
0,8917
0,7779
0,8144
0,8455
0,8717
0,8937
0,7818
0,8178
0,8483
0,8741
0,8957
0,7857
0,8210
08511
0,8764
0,8977
0,7895
0,8243
0,8538
0,8787
0,8996
0,7895
0,8243
0,8538
0,8787
0,8996
0,7895
0,8243
0,8538
0,8787
0,8996
0,7969
0,8306
0,8591
0,8832
0,9033
1,0
1,1
1,5
1,3
1,4
1,5
1,6
1,7
1,8
1,9
0,9051
0,9217
0,9354
0,94681
0,95624
0,9069
0,9232
0,9366
0,94783
0,95709
0,9087
0,9246
0,9379
0,94884
0,95792
0,9104
0,9261
0,9391
0,94983
0,95873
0,9121
0,9275
0,9402
0,95080
0,95953
0,9138
0,9289
0,9414
0,95175
0,96032
0,9154
0,9302
0,9425
0,95268
0,96109
0,9170
0,9316
0,9436
0,95359
0,96185
0,9170
0,9316
0,9436
0,95359
0,96185
0,9170
0,9316
0,9436
0,95359
0,96185
0,9201
0,9341
0,9458
0,95537
0,96331
1,5
1,6
1,7
1,8
1,9
2,0
2,1
2,2
2,3
2,4
0,96403
0,97045
0,97574
0,98010
0,98367
0,96473
0,97103
0,97622
0,98049
0,98399
0,96541
0,97159
0,97668
0,98087
0,98431
0,96009
0,97215
0,97714
0,98124
0,98462
0,96675
0,97269
0,97759
0,98161
0,98492
0,96739
0,97323
0,97803
0,98197
0,98522
0,96803
0,97375
0,97846
0,98233
0,98551
0,96865
0,97426
0,97888
0,98267
0,98579
0,96865
0,97246
0,97888
0,98267
0,98579
0,96865
0,97246
0,97888
0,98267
0,98579
0,96986
0,97526
0,97970
0,98335
0,98635
2,0
2,1
2,2
2,3
2,4
2,5
2,6
2,7
2,8
2,9
0,98661
0,98903
0,99101
0,99263
0,99396
0,98688
0,98924
0,99118
0,99292
0,99408
0,98714
0,98945
0,99136
0,99292
0,99420
0,98739
0,98966
0,99153
0,99306
0,99431
0,98764
0,98987
0,99170
0,99320
0,99443
0,98788
0,99007
0,99186
0,99333
0,99454
0,98812
0,90026
0,99202
0,99346
0,99464
0,98835
0,99045
0,99218
0,99359
0,99475
0,98858
0,99064
0,99233
0,99372
0,99485
0,98858
0,99064
0,99233
0,99372
0,99485
0,98881
0,99083
0,99248
0,99384
0,99495
2,5
2,6
2,7
2,8
2,9
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,07
0,08
0,09
171
p
0,025
5,02
7,38
9,35
11,14
12,83
14,45
16,01
17,53
19,02
20,48
21,92
23,34
24,74
26,11
27,49
28,85
30,19
31,53
32,85
34,17
35,48
36,78
38,08
39,36
40,65
41,92
43,19
44,46
45,72
46,98
59,34
71,42
83,29
95,02
106,63
118,14
129,56
0,05
3,84
5,99
7,81
9,49
11,07
12,59
14,07
15,51
16,92
18,31
19,68
21,03
22,36
23,68
25,00
26,30
27.59
28,87
30,14
31,41
32,67
33,92
35,17
36,42
37,65
38,88
40,11
41,34
42,56
43,77
55,76
67,50
79,08
90,53
101,88
113,15
124,34
172
0,01
6,64
9,21
11,34
13,28
15,09
16,81
18,48
20,09
21,67
23,21
24,72
26,22
27,69
29,14
30,58
32,00
33,41
34,80
36,19
37,57
38,93
40,29
41,64
42,98
44,31
45,64
46,96
48,28
49,59
50,89
63,69
76,15
88,38
100,42
100,43
124,12
135,81
0,995
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
0,99
0,975
0,95
0,9
0,1
0,05
0,025
0,01
0,005
0,001
2,706
4,605
6,251
7,779
9,236
10,64
12,02
13,36
14,68
15,99
17,28
18,55
19,81
21,06
22,31
23,54
24,77
25,99
27,20
28,41
29,62
30,81
32,01
33,20
34,38
35,56
36,74
37,92
39,09
40,26
3,841
5,991
7,815
9,488
11,07
12,59
14,07
15,51
16,92
18,31
19,68
21,03
22,36
23,68
25,00
26,30
27,59
28,87
30,14
31,41
32,67
33,92
35,17
36,42
37,65
38,89
40,11
41,34
42,56
43,77
5,024
7,378
9,348
11,14
12,83
14,45
16,01
17,53
19,02
20,48
21,92
23,34
24,74
26,12
27,49
28,85
30,19
31,53
32,85
34,17
35,48
36,78
38,08
39,36
40,65
41,92
43,19
44,46
45,72
46,98
6,635
9,210
11,34
13,28
15,09
16,81
18,48
20,09
21,67
23,21
24,73
26,22
27,69
29,14
30,58
32,00
33,41
34,81
36,19
37,57
33,93
40,29
41,64
42,98
44,31
45,64
46,96
48,28
49,59
50,89
7,879
10,60
12,84
14,86
16,75
18,55
20,28
21,95
23,59
25,19
26,76
28,30
29,82
31,32
32,80
34,27
35,72
37,16
38,58
40,00
41,40
42,80
44,18
45,56
46,93
48,29
49,65
50,99
52,34
53,67
10,83
13,82
16,27
18,47
20,51
22,46
24,32
26,12
27,88
29,59
31,26
32,91
34,53
36,12
37,70
39,25
40,79
42,31
43,82
45,31
46,80
48,27
49,73
51,18
52,62
54,05
55,48
56,89
58,30
59,70
173
10
12
14
16
18
20
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0
1
2
0
3
1
6
2
8
4
11
6
13
7
15
9
18
11
20
13
1
2
0
3
1
5
2
8
4
11
6
14
9
17
11
21
13
24
16
27
18
2
4
1
6
2
8
4
13
7
17
11
22
15
26
18
31
22
36
26
41
30
3
0
5
2
8
4
11
6
17
11
23
16
29
21
36
26
42
31
48
37
55
42
4
1
7
3
11
6
14
9
22
15
29
21
37
27
45
34
53
41
61
47
69
54
5
1
9
4
13
7
17
11
26
18
36
26
45
34
55
42
64
50
74
58
83
67
6
2
11
5
I5
9
21
13
31
22
42
31
53
41
64
50
75
60
86
70
98
79
7
2
12
6
18
11
24
16
36
26
48
37
61
47
74
|58
86
70
99
81
112
92
8
3
14
8
20
13
27
18
41
30
55
42
69
54
83
67
98
79
112
92
127
105
4
5
6
8
10
12
14
16
18
20
174
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
175
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,5000
0,5398
0,5793
0,6179
0,6554
0,6915
0,7257
0,7580
0,7881
0,6159
0,8413
0,8643
0,8849
0,9032
0,9192
0,9332
0,9452
0,9554
0,9641
0,9713
0,9772
0,9821
0,9861
0,9893
0,9918
0,9938
0,9953
0,9965
0,9974
0,9981
0,9987
0,9990
0,9993
0,9995
0,9997
0,5040
0,5438
0,5832
0,6217
0,6591
0,6950
0,7291
0,7611
0,7910
0,8186
0,8438
0,8665
0,8869
0,9049
0,9207
0,9345
0,9463
0,9564
0,9649
0,9719
0,9778
0,9826
0,9864
0,9896
0,9920
0,9940
0,9955
0,9966
0,3975
0,9982
0,9987
O.S991
0,9993
0,9995
0,9997
0,5080
0,5478
0,5871
0,6255
0,6628
0,6985
0,7324
0,7642
0,7939
0,8212
0,8461
0,8686
0,8888
0,9066
0,9222
0,9357
0,9474
0,9573
0,9656
0,9726
0,9783
0,9830
0,9868
0,9893
0,9922
0,9941
0,9956
0,9967
0,9976
0,9932
0,9987
0,9991
0,9994
0,9995
0,9997
0,5120
0,5517
0,5910
0,6293
0,6664
0,7019
0,7357
0,7673
0,7967
0,8238
0,8485
0,8708
0,8907
0,9082
0,9236
0,9370
0,9484
0,9582
0,9664
0,9732
0,9788
0,9834
0,9871
0,9901
0,9925
0,9943
0,9957
0,9968
0,9977
0,9983
0,9988
0,9991
0,9994
0,9996
0,9997
0,5160
0,5557
0,5948
0,6331
0,6700
0,7054
0,7389
0,7704
0,7995
0,8264
0,8508
0,8729
0,8925
0,9099
0,9251
0,9382
0,9495
0,9591
0,9671
0,9738
0,9793
0,9838
0,9875
0,9904
0,9927
0,9945
0,9959
0,9969
0,9977
0,9984
0,9988
0,9992
0,9994
0,9996
0,9997
0,5199
0,5596
0,5987
0,6368
0,6736
0,7088
0,7422
0,7734
0,8023
0,8289
0,8531
0,8749
0,8944
0,9115
0,9265
0,9394
0,9505
0,9599
0,9678
0,9744
0,9798
0,9842
0,9878
0,9906
0,9929
0,9946
0,9960
0,9970
0,9978
0,9984
0,9989
0,9992
0,9994
0,9996
0,9997
0,5239
0,5636
0,6026
0,6406
0,6772
0,7123
0,7454
0,7764
0,8051
0,8315
0,8554
0,8770
0,8962
0,9131
0,9279
0,9406
0,9515
0,9608
0,9686
0,9750
0,9803
0,9846
0,9881
0,9909
0,9931
0,9948
0,9961
0,9971
0,9979
0,9965
0,9989
0,9992
0,9994
0,9996
0,9997
0,5279
0,5675
0,6064
0,6443
0,6808
0,7157
0,7486
0,7794
0,8078
0,8340
0,8577
0,8790
0,8980
0,9147
0,9292
0,9418
0,9525
0,9616
0,9693
0,9756
0,9808
0,9850
0,9884
0,9911
0,9932
0,9949
0,9962
0,9972
0,9979
0,9985
0,9989
0,9992
0,9995
0,9996
0,9997
0,5319
0,5714
0,6103
0,6480
0,6844
0,7190
0,7517
0,7823
0,8106
0,8365
0,8599
0,8810
0,8997
0,9162
0,9306
0,9429
0,9535
0,9625
0,9699
0,9761
0,9812
0,9854
0,9887
0,9913
0,9934
0,9951
0,9963
0,9973
0,9980
0,9986
0,9990
0,9993
0,9995
0,9996
0,9997
0,5359
0,5753
0,6141
0,6517
0,6879
0,7224
0,7549
0,7852
0,8133
0,8389
0,8621
0,8830
0,9015
0,9177
0,9319
0,9441
0,9545
0,9633
0,9706
0,9767
0,9817
0,9857
0,9890
0,9916
0,9936
0,9952
0,9964
0,9974
0,9981
0,9986
0,9990
0,9993
0,9995
0,9997
0,9998
176
fb
frecvena brut
fr
fc
frecven cumulat
fbc
frc
Xmin
Xmax
Ci
centrul de interval
li
ls
AI=Range
modul
Md
mediana
media eantionului
media populaiei
X X
Formule
X
177
X
N
X
Md
N 1
2
kX
N
Md li (
N
i
fc )
2
fi
Q1, Q2, Q3
IQR
abaterea intercuartilic
AQ
abaterea cuartilic
1,5 IQR
AS=SD
abterea standard
s2
Formule
Formula pentru Amplitudinea mprtierii
AM
AM
X X
N
k X X
N
( X ) 2
N
N 1
X 2
s2
(fX ) 2
N
s2
2
N
1
( X )
X 2
N
s
N 1
fX 2
(fX )
N
N 1
fX 2
X X
X z X .
probabilitatea de eroare
p(A)
p(A sau B)
p(A, B)
1,96
2,58
ES=SX
eroarea standard
Ep=Sp
H0
ipoteza de nul
H1
ipoteza de cercetare
df
CI
tX
X2
tcal
t calculat
tcrit
X
sX
sX
X2
Formule
179
ES S X
tx
1 x2
s
N 1
X1 X 2
sX 1 X
X1 X 2
2
s1 s2
N1 N 2
X1 X 2
( N1 1) s12 ( N 2 1) s2 2
N1 N 2 2
1
1
N
N
2
1
X1 X 2
X 1 X 2 2
N N 2
1
2
N1 N 2
N1 N 2
X
s
N
p1 p2
p1q1 p2q2
N1
N2
rbis
rpunctbis
rtris
180
coeficientul de corelaie fi
zx, zy
r2, 2
Formule
Formula de definiie a corelaiei r
rXY
rXY
( X X )(Y Y )
( X X ) 2 (Y Y ) 2
N X
N XY X Y
2
( X ) 2 N Y 2 ( Y 2 )
6 d 2
N ( N 2 1)
Formule
^Y = B0 + B1X
^Y = B0 + B1X1 + B2X2 + ... + BnXn
zy = r z x
B0 y B1 x
sY Y
B1 r
(Y Y ) 2
N 2
y
x
181
2calc
chi-ptrat calculat
numr de rnduri
numr de coloane
fo
frecvena observat
fe
frecvena expectat
df
grade de libertate
z2
( X N P)
N PQ
( f o f e )2
fe
2
N
Cramer
2
N ( L 1)
df = (R-1)(C-1)
N1, N2
R1, R2
Ni
numrul de observaii
182
Ri
numrul de eantioane
F2
Formule
N1 ( N1 1)
R1
2
U N1 N 2
U ' N1 N 2 U
N1 N 2
2
N1 N 2 ( N1 N 2 1)
12
N ( N 1)
4
N ( N 1)(2 N 1)
24
12
R2
i 3( N 1)
N ( N 1) N i
F 2
183
12
Ri2 3 N (k 1)
Nk (k 1)
SERIA PSIHOLOGIE
Au aprut:
Elena Cocorad Didactica psihologiei
Aurel Ion Clinciu Statistici multivariate pentru psihologie
Ana-Maria Cazan Strategii de autoreglare a nvrii
Aurel Ion Clinciu Statistici aplicate n psihologie
n pregtire:
184