Documente Academic
Documente Profesional
Documente Cultură
STATISTIC
APLICAT N
PSIHOLOGIE
500091 Braov,
B-dul Iuliu Maniu 41A
Tel:0268 476050
Fax: 0268 476051
E-mail : editura@unitbv.ro
Tiprit la:
Cuprins
Cuvnt nainte .................................................................................................................
Capitolul 1. Introducere
1.1. Scurt istoric al statisticii ....................................................................................
10
12
13
17
19
20
20
20
21
21
21
22
23
24
25
26
27
28
31
31
31
34
35
37
39
40
44
47
48
50
51
52
56
57
59
60
63
64
65
65
66
68
69
70
71
71
72
75
76
76
6.10. Semnificaia diferenei mediilor a dou eantioane de volum mic corelate ....
77
80
82
86
89
91
93
96
96
97
99
99
100
101
102
105
106
108
109
114
114
116
118
118
119
121
122
124
124
126
9.6. Mrimea efectului pentru testul chi-ptrat al asocierii dintre variabile .............
133
133
136
139
140
143
143
147
148
150
151
Bibliografie .................................................................................................................
154
157
177
184
Cuvnt nainte
Prezena Statisticii ca materie obligatorie la tiinele socio-umane, n spe la
specializarea Psihologie, este justificat printre altele de faptul c eafodarea acesteia ca
tiin a depins n mod esenial de ncorporarea experimentului - i implicit a msurtorii - ca
metod de baz n constituirea corpului su de cunotine i legi. Pe de alt parte, naterea
psihologiei aplicate i extinderea sa pervaziv spre toate domeniile socialului nu ar fi fost
posibil fr apelul la cuantificare, msurtoare i cifr. Deci, att psihologul practician, care
colecteaz, stocheaz i prelucreaz n mod constant date cantitative, ct i cel din spaiul
academic, care trebuie s fie la zi cu cercetarea tiinific din domeniul su, ca i din cele
conexe (medicin, biologie, sociologie au tiinele educaiei), trebuie s aib cel puin o
iniiere, dac nu chiar o formare solid n domeniul Statisticii, fr de care nu se poate pstra
contactul cu progresele tiinei.
Apare astfel ca inexplicabil rezistena activ i rezerva aproape ostil a studentului de
la tiinele socio-umane fa de Statistic, care vede adesea n acest obiect de studiu ceva ce ar
contraveni chiar dimensiunii umaniste a tiinei n care el se iniiaz. Exist multe explicaii
posibile pentru faptul semnalat. Una dintre cele mai plauzibile ar fi aceea c studenii de la
Psihologie, Pedagogie, Sociologie sau Asisten social au o formaie iniial umanist, cu un
grad de elaborare i consolidare mai sczute a conceptelor i deprinderilor intelectuale de tip
matematic. Acest fapt poate produce din start o rezerv fa de abordrile de tip cantitativ. Pe
de alt parte, progresele incredibile din ultimele decenii n domeniile metodologiei i al
prelucrrii datelor fac ca centrarea pe metodele statistice elementare s nu mai fie deloc
suficient pentru a ine pasul cu evoluiile din domeniu, ceea ce transform n mod obligatoriu
Statistica ntr-un obiect de studiu al nvrii permanente.
n cel de al treilea rnd extinderea progresiv, uneori exploziv, a arsenalului de
metode statistice genereaz tot mai mari dificulti de mai pstra unitatea intern i
perspectiva coerent asupra corpului de cunotine al acestui domeniu. n cazul n care se
nzuiete spre acest lucru, alocarea permanent de resurs cognitiv pentru a menine n
priz domeniul statistic devine o condiie intrinsec a progresului i evoluiei n carier.
Tendina la entropie a informaiei ce intr n sistemul cognitiv uman, adic la uniformizare i
la tergere a diferenelor specifice, ca urmare a marii varieti de tehnici i procedee ce apar
fr ncetare n cadrul acestei tiine att de dinamice i evolutive, poate genera sentimentul c
Statistica este unul dintre principalii contributori la imperialismul metodologic din tiin.
bivariat. Acest capitol face doar trimiteri la regresia multivariat, rmnnd cantonat
preponderent n zona regresiei simple, deoarece regresia multipl depete nivelul iniierii
statistice, fiind greu de prezentat fr cunotine avansate i fr apelul la programe puternice
de tratare a datelor. Ultimele dou capitole trimit la testarea ipotezelor statistice prin teste
neparametrice, aplicabile datelor nominale i categoriale, cum sunt testele chi-ptrat, ManWhitney, Wilcoxon, Kruskal-Wallis sau Friedman. Aa cum se poate observa cu uurin,
lucrarea a acordat un spaiu amplu testrii ipotezelor statistice, fiind prezentat aproape toat
gama procedeelor tehnice destinate acestui scop. Nu am inclus aici i tehnicile analizei de
varian ANOVA care, prin multitudine i complexitate, fac obligatoriu apel la un program
automat de prelucrare computerizat a datelor, fiind mai potrivit s fie incluse n volumul
destinat statisticilor multivariate. Menionm, de asemenea, c am preferat s prezentm toate
metodele de testare a ipotezelor incluse n acest volum fr a face n nici un fel apel la
resursele SPSS, cci acest lucru face obiectul unui curs special elaborat cu aceast misiune.
Fiind destinat nceptorului, lucrarea de fa a ncercat s in cont maximal de
principiul accesibilitii, prin simplificarea discursului teoretic i prin reliefarea constant mai
ales a informaiei utile. Pe de alt parte, o lege a nvrii leag temeinicia i calitatea acesteia
de calitatea i profunzimea interaciunii cu materialul de nvat. Pentru a facilita centrarea pe
aspectele aplicative, toate capitolele, inclusiv cel introductiv, sunt nsoite de exerciii i
aplicaii practice, de teste rapide de verificare a cunotinelor (quiz, pstrnd terminologia
englez) i de testul final de sintez i evaluare de ansamblu, destinat autoverificrii stadiului
atins n nvarea statisticilor introductive. Pentru majoritatea acestor aplicaii practice s-au
oferit soluiile problemelor propuse, nsoite deseori de explicaii adiionale care s contribuie
la mai buna lor nelegere. Astfel, o seciune final a lucrrii ofer soluia rezolvrii corecte a
majoritii problemelor prezentate cu scop de autoevaluare la sfritul fiecrei uniti de curs.
Lucrarea de fa i are continuarea ntr-un al doilea volum, destinat deprinderii i
perfecionrii n utilizarea procedurilor computerizate de prelucrare a datelor cu SPSS, dar i
de un al treilea volum, destinat prezentrii statisticilor avansate (Statistici multivariate pentru
psihologie). Ordinea apariiei lor editoriale nu este cea din secvena prezentat anterior, acest
volum introductiv fiind eleaborat ultimul, complexitatea i mai ales miza lui pedagogic
deosebit genernd cele mai mari probleme de elaborare i editare. n felul acesta se poate
vorbi de o trilogie statistic, ce se constituie ntr-un ghid complex de monitorizare a
formrii i perfecionrii n domeniul abordrilor de tip cantitativ. Feedback-ul primit din
partea principalilor si utilizatori, studenii, va contribui la mbuntirea calitii acestui
volum, motiv pentru care sugestiile acestora sunt ateptate cu real i legitim interes.
9
CAPITOLUL 1
INTRODUCERE
naionale de statistic din timpurile moderne. De altfel, chiar i etimologic statistic pleac de
la status, care poate fi interpretat att ca stare de fapt, ct i ca stat, deci statistica ar putea fi
considerat o tiin de stat. Aceasta corespunde i etimologiei propuse de cel considerat a fi
introdus termenul de statistic, Achenwall.
Corespondena susinut dintre Pascal i Fermat (1654) a stat la baza fundamentrii
unei teorii matematice asupra verosimilitii, n timp ce cooperarea mai tardiv dintre Gauss i
Laplace (1809-1812) s-a concretizat n conceptul de distribuie normal (clopotul lui Gauss).
Dei problemele demografice i economice au fost primordiale n conturarea
obiectului statisticii, contactul psihologiei cu aceast tiin avea s fie fundamental pentru
destinul ei. Iat cteva aspecte mai semnificative:
Cel care a introdus psihologia n registrele de stare civil, dup inspirata expresie a
lui Pavelcu, n anii 1730 i 1732, Christian Wolff (prin lucrrile Psihologia empirica
i Psihologia rationalis) anticipa chiar de atunci necesitatea existenei unei subramuri
matematice a acesteia, pe care el a numit-o, inspirat, psihometrie. Dei termenul va
cpta o cu totul alt semnificaie la cei care au studiat fenomenele paranormale n
Anglia secolului al XIX-lea (care au i creat o Societate Regal de Psihometrie),
sensul iniial va fi cel care se va impune, prin ncercrile lui Galton i Binet de a
dezvolta domeniile aplicative ale psihologiei, indestructibil legate de un aparat
matematic de tip statistic.
Este meritul unui astronom belgian, Qutelet (1796-1874) de a fi extins aplicarea unor
legi ale statisticii, cum ar fi legea distribuiei normale sau binomial, derivat din
luarea n considerare a distribuiilor probabiliste, spre alte domenii dect cele sociale,
aici incluzndu-se i cele psihologice.
Galton, iniiatorul colii psihometrice engleze (al crei punct forte va fi chiar ideea de
msurtoare i cuantificare a faptului psihic) a creat metode statistice de abordare a
legilor ereditii (metoda gemenilor i a genealogiilor, de exemplu), avndu-i ca
succesori pe Pearson, teoreticianul metodei corelaiei prin metoda produselor (1896),
pe Spearman, creatorul metodei corelaiei prin metoda rangurilor i ntemeietorul
analizei factoriale (1904). Continuatorii acestora (Fisher, Burt i Vernon) vor merge
mai departe pe liniile de for ale colii engleze de statistic, considerat principala
contributoare n conturarea domeniului acesteia. n domeniul personalitii, H. J.
Eysenck i R. B. Cattell (ultimul a imigrat n America dup perioada de formare n
Anglia) vor fi exponeni strlucii ai metodelor statistice i cu precdere ai analizei
factoriale.
11
Utilizarea ei extensiv, pentru un numr tot mai mare de beneficiari: ageni economici,
organizaii, partide, guverne etc., n scopuri diagnostice, dar i prognostice, care
fundamenteaz decizii de o mare importan social.
datelor, care poate fi interindividual (cel mai adesea), dar i intraindividual. Acesta
angajeaz alte concepte, cum ar fi cel de surs de variaie (previzibil sau imprevizibil,
sistematic sau aleatoare, determinabil sau nedeterminabil), sau cel de msurare. Dac
14
sursele previzibile de variaie sunt dinainte tiute i circumscrise din start de investigaia n
cauz (a se vedea controlul variabilelor de la metoda experimental, variabilele test, subiect i
examinator, la metoda testului), exist i o multitudine de surse fortuite de variaie (variabilele
externe necontrolate, n primul exemplu, i variabila situaional, n cel de al doilea). Analiza
statistic ncearc s deceleze ponderea fiecrei surse de variaie n efectul final. Deoarece
datele numerice de natur statistic reprezint rezultatul amalgamrii unui mare numr de
cauze, este posibil ca statistica s fie continuarea fireasc a experimentului, pe care tinde s l
nlocuiasc (Yule i Kendall, 1969, p. 16), ntruct ea ... va determina care sunt cauzele cele
mai importante i care sunt rezultatele observrii ce pot fi atribuite fiecrei categorii de
cauze.
Msurarea este operaia prin care se atribuie numere unor aspecte ale obiectelor sau
evenimentelor, potrivit unei reguli (Smith, 1974). Dup cum arta i Piaget, problema metriei
este una fundamental n psihologie, deoarece puine din domeniile sau fenomenele sale se
preteaz, n sens strict, la cuantificare. Aceasta poate fi chiar una dintre cauzele (dac nu
cumva i cea mai important) pentru care psihologia are un trecut lung, dar o istorie scurt ca
tiin (Ebbinghaus). Msurarea aduce cu sine problema scalei de msur, care trebuie s fie
corect, constant (produce date identice pentru fenomene identice, n condiii de msurare
identice), exhaustiv (ea poate msura toate entitile crora le este destinat) i reciproc
exclusiv (n urma msurtorii, fiecare entitate capt o valoare i numai una). Principalele
tipuri de scale cunoscute (nominal, ordinal, de interval i de raport) evideniaz proprieti
care dau conotaii i aplicaii specifice msurtorilor ce rezult din fiecare tip, astfel nct cele
mai complexe nglobeaz caracteristicile celor mai simple, dar aducnd aducnd suplimentar
elemente i posibuiliti noi, difereniatoare.
Caracteristicile variabilei pot fi calitative i cantitative, continue i discontinue.
Distribuiile obinute aduc n discuie problema frecvenelor (absolute i relative, simple sau
cumulate), dar i a modalitilor de a le reprezenta grafic: poligon al frecvenelor, histograme,
curbe, grafice, scatter etc.
O bun parte a statisticii descriptive urmrete definirea celor mai importante tendine
centrale, adic media, mediana i modul, dar i a tendinelor extreme, cum ar fi amplitudinea
mprtierii, abaterea medie, abaterea semiinterquartil, abaterea standard sau dispersia,
variana. Distribuia n sine poate fi judecat din punctul de vedere al formei (simetrie sau
boltire, adic skewness i kurtosis, n englez). Toate aceste noiuni, unele dintre ele derivate
din teoria probabilitilor, prin care sunt fundamentate matematic valorile tipice ale
15
variabileleor, dar i repartiiile de diverse tipuri, contureaz mai exact domeniul statisticii
descriptive.
Statistica inferenial, pe lng conceptele deja amintite (populaie, eantion
eantionare, estimare), include i testarea ipotezelor statistice. n capitole distincte, statistica
trateaz corelaia, asocierea datelor cantitative i calitative, analiza dispersional, unifactorial
sau bifactorial, analiza factorial i analiza de cluster. Cursul de fa este unul de iniiere, n
consecin el va acoperi doar o parte dintre problemele enunate, adic elementele care
fundamenteaz cunoaterea statistic n scopul aplicrii ei la situaii uzuale, comune.
Pentru atingerea acestui obiectiv avem n vedere dou aspecte importante:
comprimarea la minimum a prii de ntemeiere matematic a subiectelor tratate, problem
care rmne n grija teoreticienilor statisticii, adic a celor ce contureaz dimensiunea
savant, tiinific a domeniului; permanenta preocupare de a oferi exemple sau aplicaii
concrete, pentru a evidenia puterea real a procedeelor de lucru prezentate. n fond, acest curs
se adreseaz n principal studenilor de la psihologie i pedagogie, cel mai adesea avnd o
dominant umanist a formaiei i pregtirii lor. Intenia noastr a fost aceea de a nu-i inhiba
cu demonstraii abstracte, de factur matematic, ci de a-i familiariza cu cele mai des ntlnite
aplicaii statistice, prin care s fie capabili s-i valorifice cercetrile proprii. Cursul are de
asemenea n vedere practicianul din aceste domenii, cel care, dup ce acumuleaz o cantitate
de date brute prin metoda testlor sau a chestionarelor, tinde s le valorifice sau s le
gestioneze mai bine.
Aplicaiile speciale sau savante ale statisticii presupun, pe lng aceast iniiere,
stagii de pregtire mai avansate, susinute de programe computerizate (SPSS, SAS sau
NCSS). Extraordinara lor putere de lucru, precizia, elegana, multitudinea opiunilor i alte
faciliti de acerst gen par a transforma o ntreag evoluie a domeniului (i procedee de lucru
altdat extensiv utilizate) n istorie. Susinem ns opinia potrivit creia sensul acestor
aplicaii computerizate nu poate fi dedus fr o cultur a domeniului, fr un stagiu prealabil
de iniiere dup procedeele i cu mijloacele clasice (creion, caiet de matematic, rigl,
minicalculator cu panou de lucru statistic), prin care vom deslui cele mai importante aplicaii
statistice n situaiile curente. Saltul spre puternicele programe computerizate va fi astfel mult
facilitat, deoarece vom ti ce s cerem computerului, la ce tip de prelucrri s facem apel i ce
relevan vor avea datele pe care acesta ni le ofer cu generozitate.
16
17
18
CAPITOLUL 2
MSURAREA
ORGANIZAREA COLECIEI DE DATE
19
Din punct de vedere matematic msurarea este o operaie prin care fiecrui element
din mulimea de obiecte (domeniul de definiie al variabilei) i se ataeaz un numr i numai
unul din mulimea n care aceasta ia valori (domeniul variabilei). Se stabilete astfel o relaie
de izomorfism ntre mulimea obiectelor i mulimea msurilor obiectelor, fiecare obiect fiind
definit de o singur msur.
Sistemul de reguli impus de teoria i practica din domeniu definete mai multe tipuri
de msurare n funcie de tipul de scal utilizat: nominal, ordinal, de interval i de raport.
Alegerea celui mai potrivit tip de scal este impus de numrul i mai ales de tipul de relaii
existente ntre elementele investigate. De remarcat un fapt esenial: toate caracteristicile unei
scale de rang inferior se regsesc la cele de ordin superior, care ns adaug posibiliti
suplimentare. Aadar fiecare scal permite doar anumite operaii i procedee matematice. Cu
ct este mai sus n aceast ierarhie, cu att ea este mai precis, permind prelucrri statistice
mai complexe i implicit concluzii mai fundamentate matematic.
2.2.1. Magnitudinea
O scal are aceast proprietate atunci cnd se poate spune c o caracteristic a
atributului msurat reprezint mai mult, mai puin sau la fel (tot att, adic egal) o cantitate
sau nsuire, comparativ cu o alt stare a aceluiai atribut. n ceea ce privete talia, de
exemplu, putem afirma c George este mai nalt, mai scund sau la fel de nalt ca Horia, deci
scala nlimii are proprietatea magnitudinii. Numerele de pe tricourile fotbalitilor nu au n
schimb aceast nsuire, deoarece ele sunt atribuite ca nite etichete, servind doar la
identificarea juctorilor.
Intervale egale
Zero absolut
Nominal
Nu
Nu
Nu
Ordinal
Da
Nu
Nu
De interval
Da
Da
Nu
De raport
Da
Da
Da
Tip de scal
n sintez, pot fi reinute cteva aspecte mai importante pentru acest tip de scal:
Scala nominal este mai degrab una calitativ, ea fiind de fapt o premsurare.
Ea se preteaz foarte bine pentru datele culese prin observaie, anchet, chestionar,
care vor fi repartizate n categorii distincte, astfel nct un element s se afle numai
ntr-o categorie (clas) i numai una.
Literele sau cifrele folosite ca etichet nu vor face obiectul calculelor statistice, ci
vor servi doar la reperarea claselor, la determinarea frecvenelor brute i a celor
relative. Fiecare element al unei clase (categorii) este considerat a fi echivalent cu
toate celelalte din aceeai clas.
22
Cel mai important indicator al tendinei centrale este n cest caz mediana.
Specificul scalei de interval este proprietatea aditivitiii (intervalele - i nu valorile! pot fi adunate i sczute).
23
La acest nivel se pot aplica procedee statistice mai elaborate, cum ar fi corelaia r prin
produsul momentelor a lui Pearson, testele de semnificaie t i z ale lui Fisher, ca i
analiza de regresie.
n afara unor situaii de excepie (mrimi fizice de intrare, puse n legtur cu timpul
de reacie, de exemplu), psihologii, pedagogii i sociologii nu sunt ndreptii s
foloseasc un asemenea tip de scal.
Corespunztor tipurilor de scal amintite, vom avea tipuri de variabile (nominale,
ordinale sau numerice), care sunt definite de domeniul de variaie, adic de registrul de valori
pe care acestea le pot lua. Cnd lum n considerare numrul indivizilor sau al cazurilor
susceptibile de a prezenta aceast modalitate, vorbim de domeniul de definiie. De exemplu, la
o prob de motricitate, tapping, numrul de puncte btute cu mn dreapt, adunat cu numrul
punctelor btute cu mna stng ia valori diferite n funcie de vrst, sex i de lateralizare
(dreptaci sau stngaci). De pild, la 6 ani acest numr poate s ia valori de la 10 la 60, acesta
fiind domeniul de variaie, n timp ce numrul subiecilor ce nregistreaz aceste valori, pentru
fiecare punctaj, d domeniul de definiie (al frecvenelor).
24
R
Rou
800-620
O
Oranj
619-590
G
Galben
589-575
V
Verde
574-510
A
Albastru
509-480
I
Indigo
479-450
V
Violet
449-430
2.1. Precizai numele fiecrui tip de scal, indicnd avantajele i locul lor de utilizare.
2.2. Lumina este o variabil continu sau discontinu? (Argumentai).
160
168
170
156
158
163
180
155
162
61
70
72
52
55
66
80
49
53
Y N
N 1
4.8. Extragei rdcin ptratic din valoarea numeric a expresiei de mai sus.
5. Utilizai datele de mai sus pentru a arta c:
5.1. (X+Y) = X + Y
5.2. XY XY
5.3. CX = CX, n care C este o constant.
5.4. X2 (X)2
5.5. (X+C) = X + NC, n care N este numrul de cazuri iar C are valoarea 3.
6. Poate o variabil ordinal s fie msurat cu o scal continu (de interval sau de raport)?
Poate o variabil continu s fie msurat cu o scal ordinal? Argumentai folosind cte un
exemplu adecvat.
7. Notele colare trecute n catalog sunt msurtori tipice unei scale ordinale sau uneia de
interval? Dar mediile colare pentru fiecare obiect n parte (rotunjite)? Dar media general
(nerotunjit)?
8. Media (nerotunjit) de la Matematic i cea de la Purtare sunt msurate pe acelai tip de
scal? (Argumentai rspunsul).
26
2.6. Quiz: Da Nu
(Exemplu) Pentru scalele de interval suntem ndreptii s utilizm frecvenele absolute
1.
(count) i pe cele relative (procente). Rspuns: Adevrat, pentru c, dei tipice scalelor ordinale,
procedeele respective sunt prezente i la scalele de interval i de raport, tiut fiind c scalele de rang
superior ncorporeaz proprietile celor de rang inferior.
2.
Magnitudinea unei scale este proprietatea matematic ce permite ierarhizarea populaiei de
date de la mic la mare sau invers.
Deoarece distana (n cunotine sau deprinderi) dintre nota 8 i nota 9 este egal cu distana
3.
dintre nota 3 i nota 4, nseamn c sistemul de notare colar are proprietile scalei de interval.
4.
Atunci cnd codificm genul masculin cu 1 i pe cel feminin cu 2 efectum o operaie de
msurare.
5.
6.
raport.
Scala care msoar era noastr are un zero natural naterea lui Iisus fiind deci o scal de
7.
IQ-ul se msoar pe o scal ordinal deoarece distana de 10 puncte dintre IQ 50 i 60 are
aceeai semnificaie psihologic ca i diatana dintre IQ 120 i 130.
Pentru datele de observaie, de anchet i de chestionar sunt utilizate scalele nominale, care
8.
fac de fapt o premsurare.
La un chestionar s-a utilizat o scal Likert n 5 trepte cu urmtoarea semnificaie:
1=Foarte rar 2=Uneori 3=Aa i aa 4=Deseori 5=Foarte des.
Se poate determina o valoare numeric medie a rspunsurilor pentru ntregul chestionar? Argumentai.
9.
10.
Pentru datele culese pe o scal ordinal putem face media deoarece aceasta are proprietatea
aditivitii.
11.
n tiinele socio-umane nivelul de msurtoare maximal este al scalelor de interval iar cel
uzual al scalelor ordinale.
Scala de interval permite deplasarea punctului zero (adic a originii) spre stnga sau spre
12.
dreapta scalei i, de asemenea, permite comprimarea sau dilatarea acesteia.
13.
Scalele de msurare a timpului (calendarele iulian, gregorian, iudaic, mahomedan, maya
etc.) pot fi transpuse unul n altul i obinute valori echivalente deoarece au uniti de scal egale.
14.
Scalele nominale i ordinale sunt categoriale, cele de interval i raport sunt real numerice.
15.
n sistemul romnesc de notare colar domeniul de definiiei al variabilei l reprezint
elevii iar domeniul ei de variaie intervalul de notare 1-10.
16.
Notele colare i centilarea/decilarea nu fac dect s stabileasc ierarhii, adic s rangheze
subiecii cresctor sau descresctor.
n principiu notele colare nu pot fi adunate pentru a se determina media pe materii
17.
deoarece scala de notare nu are proprietatea matematic a intervalelor egale.
Nu pot fi inventate uniti de msur valabile, tipice scalelor de interval, pentru iubire,
18.
fric, simpatie sau depresie.
19.
Funciile cognitive senzaiile, gndirea, memoria se bucur de scale de msur mai
tari dect funciile afective.
20. Numii tipul de scal de msurare reprezentat de categoriile de mai jos, alocnd cifrele 1, 2, 3 i 4
pentru scalele nominal, ordinal, de interval i de raport: scala Celsius, scala Kelvin,
numrul de pe uile camerelor unui hotel, ordinea de sosire la maraton, scorul la acest test QUIZ,
presiunea sanguin, genul i greutatea. (Se acord punctul pentru minimum 5 rspunsuri
corecte din cele 8 posibile).
27
CAPITOLUL 3
DISTRIBUII I FRECVENE
Pentru determinarea celor mai importani indicatori statistici este nevoie de frecvene.
n domeniul variabilei, fiecare mrime are un numr de reprezentani, numit efectiv. n
statistic efectivul se numete frecven sau frecven absolut. Cnd frecvena este
transformat n procente, ea se numete frecven relativ i este foarte util pentru
compararea, de exemplu, a dou colective diferite ca mrime, i aceasta pentru c
transformarea n procente pstreaz echivalena i proporia n ce privete distribuia i
caracteristicile ei.
Fete
57 56 48 36 24 23 28 23 33 26 16
57 56 45 35 36 43 26 34 46 24 25
53 34 22 34 34 42 34 25 24 29 18
53 55 55 48 43 48 35 36 27 27 26
60 33 51 40 47 36 36 29 26 22 14
60 62 44 57 70 36 38 35 28 31 19
52 34 60 61 56 34 22 28 30 23 34
52 53 56 49 46 37 48 33 27 19 29
51 64 37 33 36 28 35 19 18 15
51 58 44 51 38 48 26 36 22 25 15.
28
Vor fi preferate nu mai puin de 5 - 7 intervale i nu mai mult de 20. Pentru gruparea
datelor, uzual se folosesc ntre 9 i 15 clase.
Ca mrime a intervalului este preferabil s folosim numere impare (3, 5 sau 7), pentru
a avea ca valori centrale de interval numere ntregi.
29
intervale, iar dac am dori intervale de 5, atunci ar rezulta 55/5 = 11 intervale. Pentru c avem
o distribuie relativ mic, optm pentru a doua variant. Delimitm prin linii verticale clasele
astfel obinute (10-14, 15-19, 20-24, , 70-74) i n dreptul fiecreia se vor trece n mijlocul
clasei i n partea ei de sus frecvenele clasei respective, rezultate prin nsumarea valorilor
individuale din interiorul fiecrui interval (1, 5, 8, 8, ..., 0, pentru biei; 0, 3, 2, 10, , 1,
pentru fete).
Trebuie inut cont c percepia noastr opereaz din ce n ce mai greu cu intervale care
depesc cifra 12, chiar dac mrimea populaiei i lungimea spectrului de variaie ar impuneo. De aici recomandarea de a nu avea nici prea puine intervale (prin gruparea datelor se
pierde o parte din informaia primar, pentru c nu se mai cunoate exact valoarea msurat a
fiecrei observaii), i nici prea multe (intervalele rezultate sunt mai greu de manevrat i de
sesizat perceptiv), de unde regula deja enunat a celor 9 -15 clase de grupare a datelor.
Sturges (citat de Rotariu et al.,1999, p. 33) propune o formul de lucru pentru aceast
operaie prin care se determin numrul intervalelor de grupare, lund n calcul amplitudinea
variaiei i numrul de cazuri:
i=
X max X min
1 + 3,222 log N
(3.1)
Utiliznd formula lui Sturges, se obine urmtorul tabel orientativ pentru stabilirea numrului
de interval (clase) de grupare n funcie de mrimea eantionului:
Tabel 3.1. Numrul de interval de grupare dup formula lui Sturges.
Nr. de observaii
Nr. de clase
15-24
25-44
45-89
90-179
180-359
360-719
720-1500
10
11
Aplicat n cazul nostru, pentru biei, i = (64-14)/(1+3,322 log54) = 50/6,755 = 7,40; pentru
fete vom avea i = (70-15)/(1+3,322 log55) = 55/7,77 = 7,21. Pentru numrul de cazuri ale
distribuiei noastre am avea teoretic nevoie de 8 intervale. S reinem i regula practic a celor
7 - 12 intervale, care realizeaz cel mai bun echilibru ntre nevoia de condensare a datelor i
aceea de a avea pierderi de informaie ct mai mici.
30
poligonul frecvenelor. Diferena dintre dou tipuri de grafice este nu numai de form
(scalar - la histogram, linii drepte care unesc ntre ele puncte - la poligon), ci este dat de
chiar asumpia lor de baz. Astfel, la histogram toate valorile dintr-un interval sunt egale
ntre ele ca frecven, i egale cu valoarea centrului de interval, n timp ce la poligonul
frecvenelor datele tind s se grupeze de o parte i de alta a acestei valori centrale.
Histograma ofer o imagine mai clar a numrului de cazuri din fiecare interval, dar
d o imagine cu totul confuz cnd pe aceeai linie de baz se redau, pentru comparaie, dou
sau mai multe distribuii. n acest caz este evident c poligonul frecvenelor apare ca mult mai
indicat, comparaia putndu-se face fie n valori absolute (cnd nu exist diferene prea mari
numeric ntre cele dou distribuii), fie n frecvene relative (procentuale), caz n care
comparaia devine posibil, deoarece distribuiile sunt redate proporional.
De asemenea poligonul frecvenelor poate s se refere la frecvenele brute simple sau
cumulate, dar i la cazul frecvenelor relative simple sau cumulate, cnd se obine aa-numita
ogiv a lui Galton.
32
20
160
140
120
100
80
10
Frequency
60
40
Std. Dev = 21.99
20
Mean = 132.2
Mean = 35.1
N = 1408.00
N = 54.00
0
5.
17
0
5.
16
0
5.
15
0
5.
14
0
5.
13
0
5.
12
0
5.
11
0
5.
10
.0
95
.0
85
.0
75
.0
65
.0
55
.0
45
15.0 20.0 25.0 30.0 35.0 40.0 45.0 50.0 55.0 60.0 65.0
RVBAIETI
MF_Metoda+Fisa
Figura 3.1. Dou histograme ale frecveelor brute pentru o distribuie foarte mare i una mic.
Cnd numrul indivizilor din cele dou grupuri difer foarte mult apare o problem de
comparaie grafic: deorece disparitatea este foarte mare, se pune problema unei scale care s
le cuprind pe amndou, asfel nct s fie pe deplin perceptibil distribuia mai mic, n
condiiile n care cea mai mare nu depete nite limite rezonabile. n acest caz este foarte
util conversia frecvenelor brute n frecvene relative (procentuale), situaie n care apare ca
i cnd am avea dou distribuii cu un numr egal de cazuri, i anume 100, ariile celor dou
poligoane, forma curbei i dispersia devenind pe deplin comparabile. Transformarea
procentual este extrem de simpl. Iat un exemplu preluat din Guilford (1978, p. 34).
Tabelul 3.2. Frecvenele brute i relative pentru dou grupuri.
Scoruri
140-149
130-139
120-129
110-119
100-109
90-99
80-89
70-79
60-69
50-59
40-49
30-39
Suma
f1
1
0
3
5
6
14
7
11
4
N1 = 51
f2
8
32
48
29
18
14
5
5
0
1
N2 = 160
33
p1
2,0
0,0
5,9
9,8
11,8
27,5
13,7
21,6
7,8
= 100,1
p2
5,0
20,0
30,0
18,10
11,20
8,8
3,1
3,1
0,0
0,6
= 99,9
Pe coloana f1 sunt 51 de cazuri. Prin regula de trei-simpl tim c dac un 1 caz din 51
reprezint x din 100, atunci x are valoarea 1100/51 = 1,96. Acest numr (1,96) devine
factorul de multiplicare pentru toat coloana respectiv (f1), ceea ce va da coloana p1 (p de la
procente). La fel se va proceda pentru coloana f2 (unde factorul de multiplicare este 1100/160
= 0,625) din care se va obine coloana p2.
Datele din tabel se convertesc ntr-o imagine grafic prin care cele dou poligoane ale
frecvenelor devin direct comparabile. Aa cum rezult dup construcia diagramei, este
evident c al doilea grup are valori medii mult mai mari dect primul, suprapunerea dintre ele
find foarte mic; forma amndurora este asimetric, primul fiind deplasat spre stnga, al
doilea spre dreapta; grupul al doilea este mai omogen dect primul (are un singur punct care
concentreaz frecvena maxim, numit mod, n jurul cruia se repartizeaz celelalte valori, n
timp ce primul grup are dou cocoae, adic dou zone de acumulare a cazurilor); frecvena
maxim este apropiat procentual la ambele grupuri. Comparaia evideniaz elocvent faptul
c acestea sunt dou grupuri foarte diferite, care trebuie tratate statistic separat.
34
Tabelul 3.3. Valorile frecvenelor brute i relative, simple i cumulate, pentru biei la RV.
Scoruri
clase
65-69
60-64
55-59
50-54
45-49
40-44
35-39
30-34
25-29
20-24
15-19
10-14
Limite
exacte
Punctul
central
64,5-69,5
59,5-64,5
54,5-59,5
49,5-54,5
44,5-49,5
39,5-44,5
34,5-39,5
29,5-34,5
24,5-29,5
19,5-24,5
14,5-19,5
9,5-14,5
67
62
57
52
47
42
37
32
27
22
17
12
Frecvene
brute
fb
0
4
3
4
2
2
6
11
8
8
5
1
N=54
Frecvene
brute
cumulate
fbc
54
54
50
47
43
41
39
33
22
14
6
1
Frecvene
relative
fr
0
7,4
5,6
7,4
3,7
3,7
11,1
20,4
14,8
14,8
9,3
1,8
=100
Frecvene
relative
cumulate
frc
100
100
92,6
87
79,6
75,9
72,2
61,1
40,7
25,9
11,1
1,8
Numr
interval
fb X
0
248
171
208
94
84
222
352
216
176
85
12
=1868
12
11
10
9
8
7
6
5
4
3
2
1
35
Cnd distribuia noncumulativ (obinuit) este simetric, cea cumulativ are o form
foarte apropiat de litera S.
Ogiva lui Galton este de fapt o curb construit plecnd de la frecvenele relative
cumulate. n mijlocul fiecrei clase se trece un punct, corespunznd frecvenei relative
cumulate a clasei respective, iar n final se traseaz o curb care nu trece exact prin fiecare
punct, ci este ajustat astfel nct s ia forma cea mai regulat n raport cu punctele
respective (figura 2). De aceea forma ei de S este mai bine reliefat ca n cazul precedent, iar
cnd distribuia noncumulativ este simetric, acest lucru este cu att mai evident.
n cazul de fa se remarc o bun regularitate pentru prima jumtate a ogivei i un
deficit sau lips n partea ei superioar, dat de asimetria distribuiei noncumulative. O
raiune pentru care se ajusteaz ogiva, cnd acest lucru se poate face n mod rezonabil, este
aceea de a nivela anumite iregulariti ale distribuiei ce ar rezulta dintr-un numr prea mic
al cazurilor din eantion cu scopul de a ti cum ar arta de fapt distribuia probabil a
populaiei mai largi.
Deoarece pentru fiecare punct al curbei se poate determina numrul cazurilor care cad
sub el, ogiva lui Galton poate servi la construirea etaloanelor prin procedeul centilelor sau al
decilelor.
36
O distribuie poate fi simetric, atunci cnd cele dou cozi ale sale se repartizeaz
simetric n raport cu tendina central care este media. Dar ea poate fi asimetric spre stnga,
situaie n care cel mai mare volum de date se aglomereaz spre latura stng, astfel c creoda
(coada) stng a distribuiei este mai scurt dect cea dreapt. O asemenea distribuie se
cheam pozitiv. Situaia invers este cea a datelor aglomerate spre dreapta, unde creoda
stng este clar mai lung dect cea dreapt. O asemenea distribuie se cheam negativ.
Exist i situaii n care anormalitatea distribuiei este mai mult dect evident, atunci
cnd ea este una trunchiat, n form de i sau de j, situaii n care modul este repartizat n
extrema stng, respectiv n cea dreapt a distribuiei, ca n exemplul al doilea de mai jos.
F2 Anorexie
CEDA total
100
50
48
45
35
90
43
40
38
37
60
30
25 26
30
27
40
2020
17
15
12
10
10 10
Mean = 12.8
4
66
57
22
20
Frequency
80
Frequency
40
N = 424.00
47
40
28
20
22
15
Mean = 3.6
9 10
7 6
N = 424.00
.5
2 1 .5
2 0 .5
1 9 .5
1 8 .5
1 7 .5
1 6 .5
1 5 .5
1 4 .5
1 3 .5
1 2 .5
1 1 .5
10
5
9.
5
8.
5
7.
5
6.
5
5.
5
4.
5
3.
5
2.
5
1.
.5
.0
57.0
55.0
53.0
51.0
49.0
47.0
45.0
43.0
41.0
39.0
37.0
35.0
331.0
39.0
2 .0
27.0
25.0
23.0
21.0
19.0
17.0
15.0
13.0
110
9.0
7.0
5.0
3.0
1.
F2 Anorexie
CEDA total
Figura 3.3. Dou distribuii asimetrice stnga dintre care cea de a doua este trunchiat (n i).
boltirea (excesul) distribuiei este una normal, adic dac distribuia este suficient de nalt
(normokurtic) sau dimpotriv prea joas (prbuit, cu deficit), situaie n care ea se numete
platikurtic. Dac distribuia este prea ascuit, adic prea nalt, adic acumuleaz un exces
de frecvene pe zona central, ea se numete leptokurtic. n figurile de mai jos, ambele
37
distribuii sunt asimetrice, una negativ, alta pozitiv, i ambele sunt leptokurtice (cu exces), la
cea care red nlimea excesul fiind mai accentuat dect la cea care red greutatea.
Inaltime
Greutate
350
350
352
331
300
300
250
227
200
264
250
255
232
223
200
188
177
150
150
154
133
100
50
0
56 54
18
Frequency
Frequency
100
Mean = 117.5
31
20
N = 1559.00
107
93
70
50
0
12.0
16.0
0
2.
14 .0
8
13 0
4.
13 .0
0
13 .0
6
12 .0
2
12 .0
8
11 .0
4
11 .0
0
11 .0
6
10 .0
2
10
.0
98
.0
94
.0
90
.0
86
.0
82
.0
78
14.0
20.0
18.0
24.0
22.0
28.0
26.0
32.0
30.0
N = 1539.00
17
36.0
34.0
Figura 3.4. Dou distribuii cu asimetrii n sensuri opuse, dar ambele leptokurtice.
25
25
20
19
16
15
15
14 14
12
11
10
10
9
Frequency
8
6
5
3
3 3
0
0
4.
192.0
19 .0
0
198.0
186.0
18 .0
4
182.0
180.0
18 .0
8
176.0
174.0
17 .0
2
170.0
178.0
16 .0
6
16 .0
4
162.0
16 .0
0
168.0
156.0
15 .0
4
152.0
15
Figura 3.5. O distribuie bimodal (cu dou cocoae) pentru variabila nlime.
Atragem atenia asupra faptului c distribuiile cu dou sau mai multe moduri sunt cu
att mai probabile cu ct ele sunt mai reduse numeric. Bi- sau multimodalitatea nu indic
ntotdeauna necesitatea de a trata separat grupurile eterogene dintr-o distribuie, ci i nevoia
de a lrgi suficient de mult eantionul. Dac i n cazul unui eantion extins se pstreaz cele
38
dou aglomerri de date, atunci separarea grupurilor este cu att mai necesar cu ct distana
dintre moduri (i implicit eterogenitatea) este mai mare.
33
35
37
55
27
40
33
39
28
34
29
44
36
22
51
29
21
28
29
33
42
15
36
41
20
25
38
47
32
15
27
27
33
46
10
16
34
18
14
46
21
19
26
19
17
24
21
27
16
Pentru prelucrarea primar a acestor date se vor parcurge toate etapele descrise n curs:
se deseneaz linia de baz a scorurilor, se determin frecvenele pentru fiecare valoare
individual a variabilei, se stabilesc intervalele de grupare a datelor (din 5 n 5), se ntabeleaz
rezultatele cu toate rubricile de la exemplul anterior din curs i apoi se traseaz poligonul
frecvenelor brute (simpl i cumulat) i poligonul frecvenelor relative (simple i cumulate).
S se comenteze pe scurt rezultatele.
3. Artai pe scurt care sunt asemnrile i deosebirile dintre histogram i poligonul
frecvenelor ca mijloace de reprezentare i vizualizare a datelor.
4. Comentai asemnrile i deosebirile dintre cele dou distribuii ale stimei de sine
pentru biei i fete aa cum rezult ele din histogramele de mai jos.
Stima de sine total
Baieti
Fete
22
22
20
20
21
18
18
18
16
16
14
12
12
10
10
9
10
6
6
2
0
2
-70.0
2
-50.0
-30.0 -10.0
-60.0 -40.0
-20.0
10.0
0.0
30.0
20.0
50.0
40.0
14
13
11
Frequency
Frequency
16
14
70.0
60.0
2
-50.0
Mean = 22.8
N = 104.00
-30.0 -10.0
-20.0
39
-60.0 -40.0
-70.0
80.0
4
2
0
0.0
10.0
30.0
20.0
50.0
40.0
70.0
60.0
80.0
CAPITOLUL 4
distribuiei.
X=
X
i =1
X =
adic:
(4.1)
X =
X 1 + X 2 + X 3 + ... + X n
N
(4.2)
(4.3)
n care X este media, simbolul grecesc nseamn sum de (unele notaii prefer utilizarea
lui S de la Sum), X este fiecare dintre scorurile msurate, iar N este numrul acestora. Prima
formul este complet explicit matematic, deorce Xi desemneaz o singur msur observat,
fiecare din seria de msurtori X1, X2, X3, , Xn, adic prima, a doua, a treia i respectiv a n-a
msurtoare. Acest lucru este indicat de semnele de sub i de deasupra simbolului pentru a
arta c valorile nsumate (desemnate de Xi) merg de la primul la ultimul element din irul N
de valori. Dar, deoarece formula a doua este mai uor de neles i de citit fr simboluri
adiionale, optm pe tot parcursul lucrrii de fa pentru acest al doilea tip de scriere, mai
sintetic, dar mai puin complet matematic. Formulele de mai sus i gsesc echivalentul
k X
urmtor pentru datele ordonate:
(4.4)
X=
N
40
formul care spune c este mai simplu s nmulim frecvenele k ale unei valori cu ea nsi de
k ori, dect s o adunm cu ea nsi de k ori. Aceasta este o formul aplicabil deci datelor
ordonate, n care variabila ia valori individuale precizate, toi indivizii statistici ai populaiei
respective contribuind la generarea mediei prin valorile lor determinate prin msurtoare. De
aceea formulele 4.1 i 4.3 dau valori exacte ale mediei, fr pierdere de informaie.
Cnd datele sunt ordonate, dar i grupate n k clase (intervale), pentru determinarea
mediei se utilizeaz urmtoarea formul:
X =
(4.5)
deoarece diferena mediilor lor nu este statistic semnificativ (testarea semnificaiei diferenei
fiind una dintre importantele aplicaii ale mediei aritmetice, cum vom vedea ulterior), vom
obine un numr total N = 52 + 41 = 93, X = 363 + 299 = 662 i media X = 662/93 = 7,12,
adic o valoare care se afl ntre cele dou medii.
x
xx
_____________________x xx x xx
0 1 2 3 4 5
variabile X
0 0 1 2 1 5
frecvene f
produsul fX
0 0 2 6 4 25
media X pentru eantionul de biei:
x
xx
xx
xx
xx
6
9
54
xx
xx
xx
xx
xx
7
10
70
41
x
xx
xx
xx
xx
xx
xx
8
13
104
x
xx
xx x
xx xx________________________
9 10
7
3
N = 52
63 30 fX = 363
363/52 = 6,98
Se remarc faptul c distribuia de mai sus este uor asimetric, deplasat spre dreapta
(adic negativ, cum se va vedea ulterior), valoarea central numit mod fiind 8, cu frecvena
de 13, iar media este foarte aproape de 7 (6,98). n calculul mediei este evident utilitatea
formulei 4.4 pentru datele ordonate. Mediana, adic valoarea de scor care mparte distribuia
n dou jumti a cte 21 de cazuri, va cdea undeva ntre 6 i 7, pentru care frecvenele
cumulate sunt 19, respectiv 29.
x
_________________________x_ xx
variabile X
0 1 2 3 4
frecvene f
0 0 0 1 3
produsul fX
0 0 0
3 12
media X pentru eantionul de fete:
x
xx
5
3
15
x
xx
6
3
18
xx
xx
xx
xx
xx
xx
7
12
84
x
xx
xx
xx
xx
xx
8
11
88
xx
xx
9
4
36
xx
xx________________________
10
4
N = 41
40 fX = 296
294/4 = 7,22
Se remarc faptul c valorile mediei (7,17), medianei (aflat ntre 6 i 7) i modului (7)
sunt foarte apropiate pentru cele dou eantioane, singura valoare care este uor diferit fiind
amplitudinea mprtierii R (de la englezescul Range), ceva mai mare la biei dect la fete
(8, comparativ cu 6). Acestea sunt argumente suficient de puternice pentru a reuni cele dou
eantioane n unul singur i a le trata statistic n comun, determinnd principalele valori ale
tendinei centrale, ceea ce poate constitui o sarcin pentru autoevaluarea de parcurs.
Media aritmetic are cteva proprieti remarcabile:
42
Aceasta datorit faptului c suma deviaiilor ptratice de la medie este cea mai mic
prin comparaie cu deviaia de la oricare alt indicator, ca mediana, de exemplu
(Guilford i Fruchter, 1978, p. 54).
Din acest motiv media este considerat indicatorul cel mai strns legat de eantion ca
ntreg, ea respectnd principiul matematic al celor mai mici ptrate. Aceasta este
raiunea pentru care calculul abaterii standard i al dispersiei se sprijin pe medie, i
nu pe median.
Media poate fi o valoare pe care nu o ia nici un individ statistic, ba - mai mult - poate
s nu fie reprezentativ sau s nu aib sens la nivelul indivizilor concrei (Rotariu et
al., 1999). Este de ajuns s exemplificm cu costurile medii de producie, care se pot
exprima n lei, bani i fraciuni ai acestora, cu dimensiunea medie a unei familii, care
poate da fraciuni dintr-o persoan, sau chiar cu nlimea medie a unui grup,
neregsibil ca atare la niciunul dintre membrii acelui grup.
Aceasta duce la concluzia c, chiar dac media este o valoare care cade ntotdeauna n
interiorul spectrului de variaie, adic ntre valoarea minim i cea maxim, ea nu este
neaprat i valoarea cea mai tipic sau valoarea mijlocie a seriei respective. Uneori ea
poate mpri acest serie n dou pri foarte inegale. Astfel, dac vom considera 5
coeficieni de inteligen: 68, 84, 90, 100 i 160, media lor este 100,40 sub care cad 4
valori, doar una fiind deasupra sa.
Aceasta nseamn c media aritmetic aduce doar o parte din informaia necesar
interpretrii unei distribuii, deci c este nevoie i de ali indicatori ai tendinei centrale
i ai mprtierii pentru a avea o idee mai complet despre aceasta. Pentru a-i cita pe
Rotariu i colab. (1999) media, ca orice indicator, nu poate reflecta dect o parte
din informaia surprins n caracteristic i este evident c, cu ct populaia este mai
omogen, cu att media va reproduce mai mult din aceast informaie (p. 46).
43
Pentru a localiza o valoare dintr-o distribuie. Nota 7 la matematic este una slab n
clasele primare, dar una bun la o clas realist de liceu, nivelul mediu al performanei
fiind foarte diferit pentru cele dou colectiviti.
Cnd un eantion a fost supus mai multor surse de variaie sistematic, se calculeaz
media asociat cu fiecare dintre strile sursei de variaie respective, pentru a se putea
descompune variaiile nregistrate n mai multe efecte, ce urmeaz a fi analizate
fiecare sub raportul ponderei n efectul final (regresia simpl i regresie multipl).
n analiza itemilor unui test, pentru a vedea dac acetia se supun unor exigene de
construcie (vezi Clocotici i Stan, 2000, pp. 56-57).
4.2. Mediana
Pentru a evita confuziile legate de acest indicator, uor de definit, dar care ridic
destule probleme cu determinarea sa n variate situaii concrete, vom spune c mediana nu
este nici un scor, nici o frecven sau vreo alt msur particular, ci este un punct aflat pe
scara scorurilor, sub i peste care se afl exact jumtate din numrul cazurilor.
Determinarea medianei (Me, Med sau Md) presupune deci ca o condiie prealabil
ordonarea cresctoare sau descresctoare a datelor furnizate de indivizii ce compun populaia
statistic respectiv. Locul pe care l ocup mediana n acest ir ordonat de date se determin
prin urmtoarea formul de lucru:
N +1
(4.6)
2
Iat, de exemplu, urmtorul ir ordonat al unor msurtori: 2, 4, 7, 8, 9, 10, 14. Deoarece
Md =
numrul lor este impar (N+1)/2 este (7+1)/2 = 4, deci mediana este a patra valoare din ir,
adic 8, deoarece ea mparte irul n dou jumti egale. Iat i un alt exemplu de msurtori:
7, 9, 10, 11, 13, 15, 17, 21. Deoarece numrul total este par (8), vom avea Md = (8+1)/2 = 4,5;
deci mediana se afl la jumtatea distanei dintre a 4-a i a 5-a valoare, adic ntre 11 i 13 i
aceasta nu poate fi dect 12.
44
Procedeul pare a fi foarte simplu, dar intervin o mulime de situaii particulare mai
greu de rezolvat. Iat un alt exemplu al unui ir ordonat de valori: 11, 11, 11, 11, 13, 13, 13,
15, 17, 17. Sunt 10 valori, deci mediana va trebui s fie situat la distana de (10+1)/2 = 5,5
fa de unul din capete, ori acesta se afl ntre 13 i 13! Este evident c vom avea nevoie de
un alt raionament, care va introduce n calcul limitele de interval, conform crora 11 se afl
amplasat n intervalul situat ntre 10,5 i 11,5; 12 n intervalul 11,5 i 12,5; 13 n intervalul
12,5 i 13,5 etc. Deoarece avem deja primele patru valori, care sunt 4 de 11, mai avem nevoie
doar de una pentru a putea determina punctul median. n intervalul 12,5 13,5 avem 3 valori
de 13; o singur valoare nseamn o treime din acest interval, adic 1/3 = 0,33, valoare care se
adaug la limita lui inferioar. Deci punctul median determinat cu exactitate va fi 12,50+0,33
= 12,83 = Md. n SPSS valoarea median indicat pentru acest set de date este 13: pentru
simplificarea algoritmului de lucru se ia frecvena cumulat cea mai apropiat de cea cutat,
fr a mai determina coreciile necesare, ceea ce este mai practic.
Determinarea medianei din datele grupate presupune un procedeu de lucru care se va
regsi i la determinarea cuartilelor, centilelor sau a decilelor, adic la ceea ce n statistic se
cheam cuantile. Tabelul 4.1 prezint datele pe care s-a lucrat n capitolul precedent.
Tabelul 4.1. Procedeul practic pentru determinarea medianei pentru date grupate (N = 54).
Limite
exacte
Frecvene
brute
Frec. brute
cumulate
Frec. brute
65 - 69
64,5 - 69,5
54
11
60 - 64
59,5 - 64,5
54
10
55 - 59
54,5 - 59,5
50
50 - 54
49,5 - 54,5
47
11
45 - 49
44,5 - 49,5
43
13
40 - 44
39,5 - 44,5
41
15
35 - 39
34,5 - 39,5
39
21
30 - 34
29,5 - 34,5
11
33
32
25 - 29
24,5 - 29,5
22
40
20 - 24
19,5 - 24,5
14
48
15 - 19
14,5 - 19,5
53
10 - 14
9,5 - 14,5
54
Nr.
Scoruri clase
12
cumulate
45
n acest caz, formulele de lucru pentru determinarea medianei plecnd de jos n sus,
respectiv de sus n jos, sunt urmtoarele:
N
i
(4.7)
Md = li + ( f c )
2
fi
n care:
Md = ls (
N
i
fc )
2
fi
(4.8)
fc este totalul frevenelor cumulate situate sub el (prima formul) sau deasupra lui (a
doua formul);
46
8. Valoarea gsit se scade din limita de sus a intervalului ce conine mediana. Dac
toate calculele au fost fcute corect, atunci rezultatele vor fi, evident, identice.
Prezentm paii 7 i 8 pentru exemplul de fa: N/2 = 27 i clasa care este cel mai
apropiat ca valoare este, de sus n jos, cea care are, prin cumulare, 21 de cazuri; deci mai
trebuie 27-21 = 6 cazuri; 65/11 = 2,73 i 34,5-2,73 = 31,77, adic se obine aceeai valoare a
punctului median.
n determinarea medianei pot fi posibile i situaii speciale:
Situaia (norocoas) cnd nu mai este nevoie de nici o interpolare, deoarece jumtate
din totalul cazurilor cutate se regsesc, pe coloana frecvenelor cumulate, n
ntregime ntr-o anumit clas, a crei limit superioar (cnd se vine de jos n sus)
este chiar mediana. De exemplu, dac n clasa 24,5-29,5 am fi avut frecvena cumulat
54/2 = 27, atunci mediana ar fi fost 29,5.
Situaia n care mediana cade ntr-un interval care are zero cazuri, mediana se ia
arbitrar ca mijloc al acestui interval, dei aceast estimare este brut i susceptibil
de o anumit eroare, care este cu att mai mare cu ct intervalul de grupare este mai
mare, dar este bun pentru intervale mici de 2, 3 sau chiar 4 uniti.
Situaia cnd mai multe intervale din zona medianei au frecvena zero, nu se mai poate
face nici o estimare corect a acesteia, dei n principiu se poate lua ca median
punctul mijlociu al acestor intervale cumulate de frecven zero.
Toate aceste precauii sau artificii devin inutile prin prelucrarea automat a datelor
printr-un program computerizat, care are algoritmi de lucru adecvai pentru rezolvarea unei
mare diversiti de situaii. Singura precauie care mai rmne este aceea de ti s operm
corect cu semnificaia termenului, n circumstane adecvate.
4.3. Modul
Modul (Mo) este valoarea care are cea mai mare frecven, deci cea care
caracterizeaz individul tipic al populaiei statistice respective. Ea este foarte uor de reperat
pe un poligon al frecvenelor, unde modul corespunde punctului de maxim al acestei linii. n
cazul distribuiilor discontinue, nominale sau ordinale, modul este categoria cu cea mai mare
frecven, dar n cazul distribuiilor continue largi, acestea evideniaz deseori distribuii zigzagate, cu mai multe vrfuri care au nlimi egale sau apropiate. De aceea este necesar ca
datele s fie grupate, operaie prin care se va evidenia cu mai mult pregnan un interval
modal (intervalul cu frecvena maxim).
47
Exist distribuii unimodale (cu o singur valoare sau interval ce ating o frecven
maxim), bimodale i multimodale (curbe cu mai multe vrfuri sau cocoae egale sau foarte
apropiate ca mrime), la prima categorie omogenitatea fiind mai mare dect la celelalte. n
cazul distribuiilor bimodale, cu ct distana dintre cocoae este mai mare, cu att distribuia
respectiv este mai puin omogen i deci mai atipic, punndu-se problema identificrii celor
dou grupuri eterogene pentru a fi tratate statistic separat prin spargerea distribuiei.
Figura 4.1. Relaiile dintre medie, median i mod nrtr-o distribuie asimetric dreapta.
48
Figura 4.2. Relaiile dintre medie, median i mod n distribuii cu asimetrii inverse.
Cele trei valori ale poziiei vor interveni n calculul unor indicatori ai formei
distribuiei, n spe simetria sau oblicitatea (skewness). Pentru distribuiile asimetrice, modul
este raportat cel mai adesea cnd exist un interes pentru cea mai probabil valoare sau
interval. n rest, media i mediana sunt considerai cei mai relevani indicatori ai tendinei
centrale, cci fiecare aduce o informaie specific, iar din mrimea diferenei dintre cei doi
indicatori, dar i a sensului acestei diferene, se pot trage concluzii valide n legtur cu
mrimea i sensul asimetriei.
Distribuiile trunchiate sunt unele foarte atipice, care au un vrf ascuit al frecvenelor
la una dintre marginile seriei de variaie. Acestea se mai numesc distribuii n i sau n j, n
funcie de sensul i de orientarea cozii (creodei). Ele sunt relativ frecvent ntlnite n
pedagogie, unde un test de cunotine poate fi trecut sau czut de aproape toi elevii sau
studenii, n funcie de dificultatea lui sau de timpul alocat rezolvrii testului.
n ambele tipuri de distribuii trunchiate, media nu mai este o valoare reprezentativ
pentru tendina central, deoarece o bun parte din valorile uneia dintre extreme lipsesc i
atunci este preferabil s folosim ca indicatori doar mediana i eventual modul. Fiind situate
foarte excentric i modul i pierde semnificaia de indicator al tendinei centrale.
500
350
472
335
300
308
400
388
250
251
300
200
292
194
174
150
200
153
88
Frequency
Frequency
100
Std. Dev = 3.71
50
44
51
Mean = 18.5
N = 1464.00
0
4.0
8.0
6.0
12.0
10.0
16.0
14.0
20.0
18.0
24.0
100
Mean = 8.5
N = 1464.00
0
1.0
22.0
89
50
2.0
3.0
4.0
5.0
6.0
7.0
8.0
9.0
10.0
1.Motricitate grosiera
5.Limbaj
49
Separat sau mpreun, media i mediana sunt cei mai utilizai indicatori ai tendinei
centrale ai unei distribuii.
n distribuiile perfecte cei doi indicatori se suprapun, fiind foarte apropiai n cele
simetrice.
n cazul distribuiilor asimetrice, media tinde s se situeze ctre valorile extreme, spre
dreapta sau spre stnga, n sensul cozii asimetriei. n aceeai situaie mediana ofer o
imagine mai bun a centrului distribuiei, rmnnd mai apropiat de ramura mai
scurt a asimetriei.
Folosirea mediei este preferat n cazul distribuiilor simetrice sau relativ simetrice, cu
utilizrile deja menionate anterior.
Distribuiile asimetrice, sau cele care au frecvent valori atipice (valori extreme i
aberante, adic outlieri sau parazii statistici) impun folosirea prioritar i uneori
exclusiv doar a medianei, n cadrul unor statistici ordinale, deoarece valorile atipice
pot afecta profund media.
50
Modul rmne cea mai tipic valoare individual i de clas pentru variabilele
nominale i ordinale, cu o utilitate incomparabil mai restrns fa de ceilali doi
indicatori de poziie, media i mediana.
fb1
5
7
8
6
8
5
3
2
1
1
fb2
1
1
2
4
5
9
6
7
5
2
fb2c
X
10
9
8
7
6
5
4
3
2
1
N
Mod
Median
Medie
fb1
5
7
8
6
8
5
3
2
1
1
46
6
7
6,80
N
Mod
Median
Medie
fb1c
46
41
34
26
20
12
7
4
2
1
1. Completai coloana frecvenelor cumulate pentru fb2 dup modelul pentru fb1, deja rezolvat.
2. Trasai pentru fb2 poligonul i histograma frecvenelor brute.
3. Determinai pentru fb2 valorile pentru indicatorii de poziie (indicatorii tendinei centrale).
4. Pe poligonul frecvenelor de la punctul 2 redai grafic modul, mediana i media pentru fb2.
5. Comentai rezultatele pentru fb2 fcnd referin la forma distribuiei rezultate.
6. Cum ai utiliza histograma din figura b de mai jos pentru a determina mediana?
10
9
6
6
4
3
0
1
10
Frequency
C ount
Note
2
Std. Dev = 2.25
1
1.0
2.0
Mean = 6.8
N = 46.00
0
3.0
4.0
5.0
6.0
7.0
8.0
9.0
10.0
7. Plecnd de la histograma frecvenelor brute pentru pentru fb2 determinai media, mediana
i modul. Comentai rezultatele obinute ca n modelul de mai jos.
51
Mediana pentru fb1 se afl ntre valoarea a 23-a i a 24-a de rang. De jos n sus, pe
linia frecvenelor cumulate, cea mai apropiat valoare de a 23-a (fr a o depi) este
a 20-a, corespunznd scorului de 6. Rangurilor 21, 22, 23, 24 i 25 le corespunde
scorul de 7 i, deoarece el include rangurile 23i 24, mediana este 7.
La fb1 sunt dou valori modale, scorurile 6 i 8, avnd efective de cte 8 cazuri.
4.7. Quiz
1. Ce msur a tendinei centrale este mai potrivit atunci cnd:
a. Distribuia are scoruri extreme sau scoruri lips?
............................
b. Avei nevoie de o estimare rapid a tendinei centrale a distribuiei?
............................
c. Avei nevoie s utilizai valoarea cea mai stabil de la un eantion la altul ...........................
2. O distribuie unimodal cu modul 20 i media 25 este un exemplu de (sunt valabile dou
opiuni):
a. Distribuie negativ.
b. Distribuie pozitiv.
c. Distribuie simetric.
d. Distribuie asimetric stnga.
e. Distribuie asimetric dreapta.
3. O distribuie cu mediana 27 i cu media 29 este probabil o distribuie (pot fi dou opiuni):
a. Distribuie negativ.
b. Distribuie pozitiv.
c. Distribuie simetric.
d. Distribuie asimetric stnga.
e. Distribuie asimetric dreapta.
4. Folosind regulile de rotunjire, raportai cu precizie de dou zecimale urmtoarele 5 numere:
a. 23,85492
b. 3,8751
c. 3,33333
d. 75,66666
e. 101,4999
---------------------------------------------------------52
5. ntr-o cercetare ce avea ca indicator mrimea fratriei s-au obinut urmtoarele rezultate:
X
fb
fc
7
1
6
0
5
2
4
3
3
7
2
10
1
25
0
74
Determinai indicatorii tendinei centrale i comentai pe scurt rezultatele obinute.
........................................................................................................................................................
........................................................................................................................................................
........................................................................................................................................................
........................................................................................................................................................
6. ntr-o distribuie care este asimetric spre stnga:
a. Media este mai mare dect mediana.
b. Media este mai mic dect mediana.
c. Media este egal cu mediana.
d. Media, mediana i modul se suprapun.
7. Mediana este preferabil mediei ca indicator de poziie atunci cnd (putei avea mai multe
opiuni):
a. Distribuia este asimetric (stnga sau dreapta).
b. Cnd distribuia este ordonat cresctor sau descresctor.
c. Cnd distribuia are numeroase goluri (valori de scor lips).
d. Cnd distribuia are valori atipice sau extreme.
e. n toate situaiile anterioare (a, b, c, d).
8. ntr-o distribuie asimetric negativ, modul ca indicator al tendinei centrale:
a. Subevalueaz media i mediana (adic este mai mic dect acestea).
b. Este aproximativ egal cu media i mediana.
c. Supraevalueaz media i mediana (adic este mai mare dect acestea).
d. Subevalueaz doar media, dar nu i mediana.
9. Mediana este preferabil mediei ca indicator de poziie atunci cnd (putei avea dou
opiuni):
a. Distribuia reprezint o variabil nominal.
b. Distribuia reprezint o variabil categorial.
c. Distribuia reprezint o variabil ordinal.
d. Distribuia reprezint o variabil real numeric asimetric sau cu valori extreme.
10. Media nu va fi un indicator concludent al tendinei centrale atunci cnd (putei avea mai
multe opiuni):
a. Variabila este una discontinu (discret).
b. Variabila este una categorial.
c. Variabila are valori atipice sau extreme.
d. Variabila are un numr mic de scoruri (sub 20).
e. Variabila este tipic unei scale de raport.
53
16. Selectai din coloana din dreapta toate literele corespunztoare elementelor pe care le
considerai caracteristice celor trei indicatori ai tendinei centrale, trecndu-i n spaiul punctat
de sub fiecare.
Indicator
a
Mod
............................. b
............................
c
d
Median
............................ e
............................ f
g
Medie
............................ h
............................ i
Caracteristic
Este cea mai tipic valoare a unei distribuii.
Este cea mai indicativ valoare pentru raportul omogenitate/
eterogenitate.
Este cea mai vulnerabil la outlieri.
Este cea mai util n distribuiile asimetrice.
Este mai aproape de coada distribuiei n distribuiile asimetrice.
Este util pentru distribuiile care au la extreme valori de tietur
convenionale.
Nu este influenat de valorile atipice sau extreme.
Este o estimaie nedistorsionat a parametrului omonim al populaiei.
Este cea mai rapid i facil determinare a tendinei centrale.
54
CAPITOLUL 5
Cunoaterea tendinei centrale ne spune foarte mult despre un set de date, dar nu poate
s ne dea o imagine de ansamblu asupra grupului investigat. Dac am avea de exemplu dou
grupuri cu coeficienii medii de inteligen de 103, am putea concluziona asupra faptului c
un grup, luat ca ntreg, este tot att de inteligent ca i cellalt grup, n sensul n care QI-ul o
indic, sau vom atepta ca ele s aibe aceeai performan medie colar sau s se comporte
similar oriunde factorul inteligen este implicat ntr-un mod important. Dar iat c primul
grup nregistreaz valori de la 93 la 113, iar al doilea de la 75 la 125, deci primul este cu mult
mai omogen dect al doilea. Este de aceea de presupus c primul grup va fi mult mai uor de
instruit, n sensul de a putea transmite cunotinele i achiziiona noile idei n acelai ritm,
ceea ce nu se poate spune i despre eterogenul grup de comparaie.
Este foarte pertinent observaia lui Clocotici i Stan (op. cit., p. 63) cnd afirm c
valoarea informaional a unui indicator statistic trebuie apreciat dintr-o tripl perspectiv:
istoric ce s-a ntmplat la un moment dat sau ntr-o situaie dat; comparativ pentru a
putea raporta situaiile similare unele la altele; predictiv ce putem presupune despre
evoluia viitoare a unui fenomen, plecnd de la cunoaterea evoluiei lui de pn la un moment
dat.
Toate aceste argumente sunt importante pentru a arta c, aa cum la tendina central
am cutat cel mai potrivit indicator care s o exprime ct mai bine, avem nevoie s lum n
calcul n aceeai form sintetic i ceea ce se petrece spre extremele distribuiei, adic relativ
la mprtiere, pentru a obine indicatori adecvai studiului algebric. n principiu, acetia ar
trebui s condenseze mult informaie, s fie uor de calculat i s se bazeze pe ct mai multe
(dac nu pe toate) dintre observaiile efectuate.
Ataai indicatorilor de poziie, cei de dispersie msoar gradul de mprtiere al
indivizilor ce compun o populaie statistic, n cadrul seriei de valori pe care le iau. Ei vor fi
indicativi pentru raportul omogenitate/eterogenitate n legtur cu caracteristica dat. Uneori,
cnd variabila reflect scri valorice sau ierarhii acceptate social, ca inteligena, venitul etc.
aceti indicatori reflect gradul de inegalitate dintre indivizi. i ntr-o situaie i n cealalt ei
55
reduc gradul de indeterminare (variabilitate) a unui fenomen, fcnd posibile att comparaia,
ct i predicia.
5.1.Amplitudinea mprtierii
Cea mai simpl msur a mprtierii, dar i cea mai srac, este cu siguran
amplitudinea mprtierii, care se definete ca diferen dintre cea mai mare i cea mai mic
valoare, dup formula:
AI = R (Range) = Xmax Xmin
(5.1)
detectare i eliminare a unor asemenea valori. Exist i alte procedee de a lsa pe dinafar
valorile aflate spre extreme pentru a surprinde mai bine forma unei distribuii, cum ar fi
utilizarea abaterii intercuartilice sau a celei interdecilice. Menionm faptul c, n ciuda
tuturor inconvenientelor artate, determinarea amplitudinii este primul pas pentru stabilirea
mrimii intervalelor, n operaia de grupare n clase a datelor.
IQR = Q3 Q1 = 2Q
(5.2)
AQ = (Q3 Q1)/2 = Q
(5.3)
Vom distinge astfel cuartilul inferior - aflat ntre Xmin i Q1, curtilul mediu-inferior - aflat ntre
Q1 i Q2, cuartilul mediu-superior - ntre Q2 i Q3 i cuartilul superior - ntre Q3 i Xmax.
57
140
120
100
BG
80
60
N=
24
33
1.00
2.00
SEX
58
AM =
X X
N
(5.4)
n modul nseamn c se vor lua n calcul doar valorile absolute, fr a se ine seama de
semnul minus al valorilor negative. Exist i o valoare medie a abaterilor de la median, mai
puin utilizat, dei Yule i Kendall (1969, p. 157) au demonstrat c cea mai mic abatere
medie este atunci cnd folosim mediana, i nu media aritmetic.
n cazul distribuiilor simetrice, n intervalul X 1AM se gsesc aproximativ 57% din
cazuri, comparativ cu 68% care se afl n intervalul X 1. Deci o abatere standard este cu
aproximaie egal cu 1,25 abateri medii.
=
=
N
N
(5.7)
s2 =
( X X ) 2
N 1
s2 =
(5.8)
f ( X X ) 2
N 1
(5.9)
s2 =
(X ) 2
N
N 1
X 2
(5.10)
s2 =
(fX )2
N
N 1
fX 2
(5.11)
De aici rezult c cea mai uoar cale de a determina abaterea standard manual
pentru date negrupate este aceea de a obine suma valorilor individuale i suma ptratelor
valorilor individuale i de a le introduce n formula 5.12, care este rdcin ptrat din
formula 5.10. Acest lucru este valabil i pentru obinerea abaterii standard dintr-o distribuie
de frecvene, formula 5.13, care este rdcina ptrat din formula 5.11).
s=
( X )
N
N 1
X 2
(5.12)
s=
(fX )
N
N 1
fX 2
(5.13)
Dintre toi indicatorii dispersiei cel mai utilizat este cu siguran abaterea standard,
pentru c acesta este cel mai exact, avnd marele avantaj c se exprim, ca i media, prin
61
aceleai uniti de msur ca i datele iniiale pe care le prelucrm. De exemplu, dac datele
noastre se bazeaz pe metri, abaterea standard se va exprima tot n metri iar dispersia n metri
ptrai.
Prin faptul c nu cuprinde radicalul expresiei, dispersia pare mai maniabil i mai
avantajoas dect abaterea standard. De fapt, abaterea standard ofer cele mai mari avantaje
legate de discutarea distribuiilor normale, facilitnd punerea n legtur a distribuiei obinute
cu proprietile matematice ale celei ideale, exprimat prin curba lui Gauss. Prin faptul c
deviaia standard ridic la ptrat diferenele individuale de la medie, inconvenientele semnelor
minus ale abaterii medii (AM) dispar, pstrndu-se doar proprietile matematice, de unde
rigurozitatea crescut a abaterii standard n raport cu abaterea medie. Ea poate fi folosit n
operaii algebrice n sensul n care o scal de interval sau de raport o permite.
Pe un minicalculator cu panou statistic sunt afiate urmtoarele valori:
N
Fete
NX
52
6,98
1,81
363
2701
X
X
X2
Total
41
NY
Y
7,29
1,58
299
2281
Y
Y
Y2
NX+NY=NZ
Z
Z
X+Y=Z
X2+Y2=Z2
93
7,12
1,71
662
4982
Din date combinate rezult c media total este de 7,12 iar abaterea standard de 1,71.
n concluzie, la determinarea abaterii standard pentru eantioanele reunite este nevoie de suma
ptratelor valorilor individuale i de suma valorilor individuale.
62
cnd N > 50
R/ = 5
cnd N > 90
R/ = 6
63
De asemenea msoar distana la care se afl o valoare oarecare (brut) n raport cu media.
O distan sau interval dat n cote brute poate fi exprimat n uniti sigmatice, mprind
distana respectiv (X - X) la abaterea standard. Vom avea un punct de referin 0,
corespunznd mediei, i cotele transformate, adic scorurile z, pentru care formula de calcul
n funcie de statisticele eantionului este:
z=
XX
(5.14)
(5.15)
ntr-o distribuie tipic normal, unde exist 3 abateri sub i peste medie, notele z vor
varia ntre 3 i +3, trecnd prin 0. Cu ajutorul notelor z putem face comparaii directe, ele
reunind cei mai importani indicatori de distribuie (media i abaterea standard), variaiile
diferite fiind aduse la acelai numitor comun.
V=
(5.16)
X
El reprezint raportul abatere standard/medie i arat de fapt ce fraciune din medie i
corespunde unei abateri standard. Prin faptul c unitile de msur apar i la numrtor i la
numitor, prin simplificare se obine un indicator amodal. Elegana lui este ns subminat de
64
capcanele pe care acesta le presupune: el este aplicabil doar variabilelor msuratede pe scara
de raport (dar i acolo cu pruden), deoarece prin translaia valorilor, originea poate fi astfel
plasat nct media s devin zero, fcnd ca raportul s nu mai aib sens.
a jumtii stngi cu cea dreapt a unei curbe, pentru a determina simetria/ asimetria
acesteia, creia i se mai spune i oblicitate (skewness, n englez);
1 =
(5.17)
2 =
(X X ) = 0
(X X )
N
=2
(5.18)
3 =
(X X )
N 3
= asimetrie / skewness
(5.19)
65
4 =
(X X )
N 4
3 = 2 3 = kurtosis
(5.20)
n care 2 nlocuiete toat prima parte a expresiei de mai sus (vezi Pitariu, 1994, p. 208).
ntr-o distribuie normal, indicele de boltire 2 este egal cu 3. Atunci cnd kurtosisul ia
valoarea zero, repartiia este numit mezokurtic, dac este mai mare ca zero ea este
leptokurtic (curb nalt, ascuit), iar cnd este sub zero, adic negativ, ea se numete
platikurtic (curb plat, joas sau prbuit). Kurtosisul poate fi determinat i n funcie
de punctele percentile C10, C25, C75 i C90
Ku =
(C75 C25 ) 2 Q 2
(5,21)
=
= 0,2632
C90 C10
D
Curba leptokurtic i platikurtic dau valori mai mici, respectiv mai mari dect 0,2632
(vezi Pitariu, op. cit., p. 208). Exemple pentru cele trei tipuri de distribuii sunt prezente n
figura de mai jos.
3. Rezultatele unui test de citire pentru clasa a cincea a dat media de 25 i abaterea
standard de 5, n timp ce un alt grup de copii de clasa a opta a obinut la acelai test media de
30 i abaterea standard de 10. Cerine:
a. Reprezentai grafic cele dou distribuii, pe aceeai figur.
b. Ce procentaj din cei de clasa a cincea scoreaz mai bine dect elevul mediu de a opta?
4. Calculai media, abaterea standard i mediana pentru urmtoarele date:
a. 2 12 27 33 9 21 10 9 6 11 23 25 27 14 10 5
X
152
148
146
138
131
118
105
102
fb
3
5
7
5
8
4
3
2
b. simetric
c. asimetric dreapta.
7. Examinai cu atenie cele patru distribuii de mai jos dup care facei o descriere
detaliat a fiecreia, fcnd referire la mrimea/ volumul distribuiei, la ce se poate spune
dup o inspecie vizual atent n legtur cu indicatorii tendinei centrale, mprtierii i
formei distribuiei.
67
CURSUL 6
INFERENA STATISTIC
6.1. Introducere
Cel mai adesea atunci cnd facem anchete, sondaje, experimente sau teste, avem n
vedere o populaie int mai larg pe care ar trebui s o investigm integral. Practic, de cele
mai multe ori, acest lucru este imposibil din cauza volumului de munc enorm, a costurilor
ridicate, a timpului lung de investigare, a degradrii materialelor i instrumentelor etc. i de
aceea cutm un compromis rezonabil ntre toate acestea i precizia tiinific, alegnd aaanumitul eantion convenabil.
n asemenea cazuri din populaia avut n vedere se extrag eantioane1, care n
statistic se numesc selecii, termen impropriu dup Smith (1971, p. 29), pentru c el
sugereaz alegerea intenionat selectiv, dup anumite criterii. Ori condiia fundamental n
teoria seleciei este ca extragerea acestora s se produc la ntmplare, aleator, cci
eantioanele pe baz de ntmplare sunt de nalt improbabilitate (op. cit., p. 3). n final,
concluziile trase de pe asemenea eantioane populaionale sunt extrapolate asupra ntregii
colectiviti vizate prin cercetare, problema care se pune fiind ct ncredere (fundamentat
matematic) putem avea n concluziile noastre.
Orice grup natural intact, luat n compoziia sa dat, poate fi considerat un eantion
extras la ntmplare (dac nu am introdus chiar noi factorii de selecie, aflai sub control
experimental). Aplicnd la mai multe clase de elevi (selecii aleatoare) acelai test, constatm
fluctuaii de la o clas la alta, numite fluctuaii de eantionaj, la nivelul unor procente, medii,
abateri standard etc. n ce msur datele astfel obinute sunt relevante pentru ntreaga
populaie din care lotul de lucru a fost extras este principala problem a inferenei statistice.
Lund ca baz valorile eantionului ales i extrapolndu-le la ntreaga populaie din care el a
fost extras se comite o anumit eroare, a crei valoare evident c va trebui s fie ct mai mic.
n psihologie, pedagogie, sociologie multe dintre datele rezultate din msurtoare teste, anchete, chestionare - dac sunt determinate din analiza unor selecii de volum mare i
1
Atragem atenia asupra termenului de eantion care, n sens foarte strict, presupune utilizarea unei metode sau a
unui procedeu de eantionare. De aceea este de preferat s folosim termenul de eantion doar n acest caz, n rest
putnd utiliza termenii de lot, grup etc.
68
Figura 6.1. Probabilitile producerii evenimentelor statistice asociate suprafeelor curbei gaussiene
Cum se observ, n poriunea haurat X 1,96 cad 95% din cazuri, 5% fiind n
afara acestei zone; n poriunea X 2,58 cad 99% din cazuri, doar 1% din cazuri fiind n
exteriorul acestui interval (5% i 1% fiind distribuite simetric, n dou jumti egale la
capetele curbei). Prin aducerea oricrei distribuii normale reduse la o distribuie etalon, n
note z (cu o medie zero i o abatere standard de 1) s-a generat un tabel al legii normale
reduse, care ne permite s vorbim de semnificaie i ncredere n termeni de ans i de
probabilitate. Conform acestui tabel exist probabilitatea de 95 la sut ca o valoare s cad n
intervalul X 1,96 i de 5 la sut n afara acestui interval; probabilitatea de 99 la sut de a
cdea n intervalul X 2,58 i doar de 1 sut n afara acestui interval; de 999 la mie de a
cdea n intervalul X 3,3 i numai o ans dintr-o mie de a fi n afara lui.
msurrilor pe diferite eantioane din aceeai populaie este mai mic. A doua condiie este ca
volumul eantionului s fie mare, cci cu ct volumul su crete, precizia valorilor msurate
crete i ea (dac eantionul este aleator i nedistorsionat). De aceea conceptul de semnificaie
implic att variabilitatea (adic pe ) ct i numrul (N).
ES = S X =
Cnd N este mai mare de 100:
s
N 1
(6.1)
s
N
(6.2)
SX =
n care s este abaterea standard de selecie, iar N este numrul cazurilor (volumul seleciei).
Formulele de mai sus sunt ntrebuinate pentru a estima ct de mult se apropie media de
selecie X de media populaiei totale ().
Exemplu: la testul Domino 48 (D 48) 226 de copii de 15 ani au obinut valoarea medie
a scorului de 41,20 cu o abatere standard de 18.
ES = S X =
18
18
=
= 1,20
225 15
Se poate afirma c, pentru un grad de ncredere limitat (pentru 68% din cazuri), media
real se afl ntre 41,201,20, adic ntre 40 i 42,40; c pentru un nivel mai ridicat de
70
ncredere (pentru 95% din cazuri) media real se afl ntre 41,201,961,20, deci ntre
41,202,35, adic n intervalul 38,85 i 43,55; i, n sfrit, pentru un nivel de ncredere foarte
ridicat (pentru 99% din cazuri) aceast interval este 41,202,581,20, deci 41,203,10, adic
media cade cu o probabilitate de 99% n intervalul 38,10 i 44,40. n primul caz riscul de
eroare este de 100-68,32 = 31,68% (eroare foarte mare), n al doilea caz de 5% (acceptabil) iar
n ultimul caz de 1% (foarte mic, deci foarte acceptabil).
Se obinuiete s se noteze riscul de a grei pe care ni-l asumm fcnd o aseriune sau
alta i pentru aceasta s-a introdus conceptul de prag sau nivel de semnificaie. Astfel,
intervalul X 1,96Sx se numete interval de ncredere la pragul de 0,05 (exist riscul de
eroare de 5% ca adevrata medie s cad n afara acestui interval); intervalul de X 2,58Sx se
numete interval de ncredere la pragul de 0,01 (exist risc de eroare doar de 1% din cazuri).
15,63 84,37
11,11 88,89
= 20,60 = 4,54 la baieti; Ep = S p =
= 17,64 = 4,20 la fete
64
56
n care p a fost deja determinat (15,63), iar q este procentajul complementar (q = 100-p, n
cazul nostru q reprezintnd dreptacii); pentru biei q este 84,37 iar pentru fete q este 88,89.
Putem concluziona c pentru biei proporiile reale se afl - la un prag de ncredere de
5% - ntre limitele p1,96Sp n intervalul 15,631,964,54 = 15,638,9, adic ntre limitele
6,73 - 24,53; la un prag de ncredere de 1%, ntre limitele p2,58Sp, n intervalul
15,632,584,54 = 15,6311,71, adic ntre limitele 3,92 - 27,34. La fete localizrile
proporiilor reale vor fi determinate n mod analog: 11,111,964,20 = 11,118,23, n
intervalul 2,88 - 19,34, pentru un prag de ncredere de 5% i 11,112,584,20 = 11,1110,84,
n intervalul 0,27 - 21,95, pentru un prag de ncredere de 1%.
71
dou genuri? Aceast problem o rezolv testul semnificaiei diferenei celor dou medii,
hotrtor n luarea deciziei. Diferena poate fi semnificativ statistic la un anumit prag de
semnificaie (i atunci tratm separat cele dou grupuri) sau nesemnificativ, adic datorat
ntmplrii. n aceast situaie mrirea numeric a eantioanelor sau alegerea altor eantioane
ar putea nivela, eventual chiar inversa sensul diferenei.
Facem urmtoarele precizri: cu ct numrul de cazuri este mai mare, cu att mai mult
aceeai diferen dintre medii crete ca semnificaie; cu ct variabilele sunt mai centrate pe
medie (abaterea standard mai mic), cu att diferenele tind s fie mai semnificative.
a
n cazul a i n cazul b de mai sus, valoarea diferenei mediilor nu este aceeai, dar n
primul caz ea este semnificativ (dispersie mic, ce au n comun cele dou eantioane este
mult mai puin dect ceea ce au ele diferit), pe cnd n cazul b poriunea comun este att de
mare (din cauza dispersiei mari) nct ele pot fi considerate ca fcnd parte din aceeai
populaie i tratate n comun. Calculul semnificaiei diferenei dintre dou medii se face n
funcie de mrimea eantioanelor (mari sau mici) i a faptulului dac sunt corelate ntre ele n
vreun fel sau sunt independente.
72
experiment. Atunci cnd pentru fiecare condiie experimental este alocat un alt grup de
subieci, acelai subiect neparticipnd la mai multe tratamente experimentale, eantioanele se
numesc independente. n acest caz n rezultatul final al interveniei vor interveni cu ponderi
diferite dou surse majore ale variabilitii datelor, una care se refer la tratamentul
experimental n sine i alta datorat diferenelor individuale dintre membrii alocai diferitelor
condiii/ grupuri experimentale, care niciodat nu vor fi perfect echivaleni. Acest tip de
eantion n care participanii sunt msurai o singur dat se cheam eantioane independente.
Testarea diferenelor mediilor pentru variabila dependent are n vedere testul t pentru
eantioane independente (necorelate).
Din aceast perspectiv pare a fi mult mai avantajos ca acelai grup experimental s
treac prin toate fazele, etapele sau condiiile experimentale, situaie n care variabilitatea
interindividual (fiind aceeai) nu mai intervine n determinarea efectului final, practic ea ne
mai contnd. Acest tip de design experimental are o mult mai mare capacitate de a pune n
eviden efectul curat al unui tratament experimental, dac acesta exist cu adevrat.
Puterea cercetrii (adic posibilitatea rejectrii ipotezei nule) este mai mare n acest al doilea
caz, i atunci apare firesc ntrebarea de ce nu sunt folosite exclusiv acest tip de eantioane,
care prezint i alte avantaje suplimentare. Astfel, eantioanele corelate permit un mult mai
bun control al variabilelor externe ce pot distorsiona rezultatele cercetrii. Exist i un mare
avantaj financiar legat de acest tip de eantioane, deoarece ele sunt mai economice, n msura
n care acelai efect este pus n eviden cu un numr mult mai mic de participani.
Dezavantajele acestui tip de eantionare sunt i ele de luat n calcul n proiectarea
cercetrii. n principal efectele de ordine i efectele de nvate sunt cele care trebuie avute n
vedere cci, participnd la toate condiiile experimentale, apare efectul de ordine n
performan generat de chiar succesiunea n care tratamentele au fost administrate. Acest fapt
ar putea fi rezolvat prin contrabalansare (ordini aleatoare ale tratamentelor), dar expunerea la
msurtorile i tratamentele iniiale genereaz reactivitate, i deci o anumit sensibilizare la
tratamentele ulterioare. Efectul de nvare acioneaz nesistematic, adic n mod inegal
asupra participanilor, de unde i implicaiile negative asupra validitii interne a cercetrii.
Atunci cnd eantioanele sunt de volum mare (peste 30) i independente (necorelate),
procedeul de calcul al semnificaiei diferenei mediilor se face n ase trepte (pai):
a. Se calculeaz cele dou medii.
b. Se calculeaz cele dou abateri standard (de selecie) ale distribuiilor.
c. Se calculeaz erorile standard ale celor dou medii.
73
d. Se calculeaz eroarea standard a diferenei dintre cele dou medii dup formula:
2
S X Y = S X SY
sY
sX
=
+
=
N 1 N 1
X
Y
sX
s
+ Y
N X 1 NY 1
(6.3)
X Y
=
S X Y
X Y
2
(6.4)
sX
s
+ Y
N X 1 NY 1
t=
10,56 9,75
3,152 3,402
+
51
41
Fete
52
42
9,75
10,56
3,15
3,40
10,56 9,75
0,81
0,81
0,81
=
=
=
= 1,17.
9,92 11,56
0,195 + 0,28 2
0,477 0,69
+
51
41
n tabelul legii normale de distribuie t, cea mai apropiat valoare de 1,17 este 1,20, la
care ansele de eroare sunt de 23%, mult mai mari dect 5% (primul prag de semnificaie) sau
dect 1% (al doilea prag de semnificaie), deci se poate considera c diferena dintre cele dou
medii este una ntmpltoare, datorat hazardului, fluctuaiilor de eantionaj etc.
n statistic ne micm ntre dou ipoteze contradictorii: ipoteza specific Hs, care este
de fapt ipoteza de cercetare (ce afirm c diferena dintre medii este una real, care nu se
datoreaz ntmplrii) i ipoteza de nul Ho, care presupune c diferenele aprute sunt datorate
hazardului, erorilor de eantionare etc. Dac plasm pe o ax orizontal probabilitatea de
eroare obinem reprezentarea de mai jos:
p=5%
p < 5%
p=1%
p < 1%
74
a. dac t calculat (sau z, pentru eantioanele cu volum de peste 30 de participani) este mai
mic de 1,96 nseamn c diferena este nesemnificativ statistic, ipoteza de nul neputnd fi
rejectat;
b. dac t are valoare mai mare de 2,58 se admite n mod ferm ipoteza specific, la un nivel de
ncredere de 1%;
c. dac t este cuprins ntre 1,96 i 2,58 nseamn c semnificaia diferenei mediilor este una
nesigur, rezultatul rmnnd n dubiu (nivel de ncredere de 5%).
Tradiia a acreditat ca praguri de semnificaie p 0,05 ( sau p .05), pentru situaii n
care riscul lurii unei decizii nu are implicaii practice sau teoretice mari, i pragul de p 0,01
(sau p . 01) pentru deciziile majore sau care implic un risc crescut.
S X Y = S X + SY 2rXY S X SY
(6.5)
Apare aici un simbol nou rxy care este coeficientul de corelaie. Se observ c S X Y
(eroarea diferenei celor dou medii ale eantioanelor corelate) este tot mai mic pe msur ce
corelaia crete. Deci corelaii mai mari dau valori tot mai mari ale lui t, cci n rest formula
este aceeai:
t=
X Y
S X Y
75
(6.6)
S( p1 p 2 ) = S p21 S p22
S( p1 p2 ) =
Cum diferena t =
(6.7)
p1q1 p2 q2
+
N1
N2
(6.8)
p1 p2
, valoarea lui t pentru N mai mare de 30 va fi dat de formula 6.9
S ( p1 p 2 )
t=
p1 p 2
p1q1 p 2 q 2
+
N1
N2
1
1
p 2
p1
2 N1
2N2
t=
p1q1 p 2 q 2
+
N1
N2
(6.9)
(6.10)
n cazul nostru diferena nu este semnificativ statistic pentru c nu atinge un t critic de 1,96
(p = 5%) sau 2,58 (p = 1%), dei n realitate stngacii sunt de aproximativ patru ori mai
frecveni dect stngacele. n cazul nostru:
t=
15,63 11,11
=
15,63 84,37 11,11 88,89
+
64
56
4,52
4,52
=
= 0,73.
20,60 + 17,64 6,18
76
diferena mediilor este semnificativ (la un prag specific diferit de zero). De exemplu, se tie
c diabetul juvenil poate ncetini dezvoltarea creterii dac boala s-a declanat nainte de
pubertate. Pentru a verifica acest lucru s-au msurat nlimea i greutatea pentru dou loturi
care au fost egalizate dup criteriul vrstei i al genului.
nlime
Greutate
Pretest
Posttest
Diferena
Pretest
Posttest
Nr
= Y-X
162
164
154
= Y-X
57
58
159
25
43
54
11
121
153
148
-5
25
48
50
167
163
-4
16
60
55
-5
25
133
142
81
38
50
12
144
138
140
39
39
154
156
47
43
-4
16
162
166
16
58
60
160
159
-1
56
60
16
10
148
163
15
225
50
52
11
142
145
48
47
-1
12
140
139
-1
44
45
13
149
170
21
441
49
51
14
131
140
81
39
42
149,50
153,86
61
993
48,29
50,43
30
350
A. Pentru nlime:
61
=
= 4,36
N 14
1. =
2. s 2 =
3. S =
4. t =
( ) 2
N = 993 265,79 = 55,94
N 1
13
s
7,48
=
= 2,07
N 1
13
4,36
=
= 2,11
S 2,07
78
s = 55,94 = 7,48
Diferena
5. Din tabela lui Fisher selectm pe p. Cea mai apropiat valoare este pe linia f = N-1
(13), n dreptul coloanei a 6-a la 2,16 (comparativ cu 2,11 obinut de noi). Aceasta nseamn
c exist mai mult de 5% anse de eroare n respingerea ipotezei de nul i deci aceasta nu va
putea fi rejectat. Fr a atinge pragul semnificaiei statistice (p < .05) diferena tinde totui s
fie semnificativ. Mrirea eantionului ar putea duce probabil la atingerea acestui prag minim
necesar respingerii ipotezei nule.
B. Pentru greutate:
30
=
= 2,14
N 14
1. =
2. s 2 =
3. S =
4. t =
( ) 2
N = 350 64,29 = 21,98
N 1
13
s = 21,98 = 4,69
s
4,69
=
= 1,30
N 1
13
2,14
=
= 1,65
S 1,30
5. Din tabelul lui Fisher, valoarea lui p la f = 13 este de 2,16 pentru 5% anse de
eroare. Valoarea obinut de noi fiind mult sub aceasta, ipoteza de nul nu poate fi respins.
Paii exemplificai prin cele dou exerciii anterioare sunt cei prezentai mai jos:
Etapa 1. Se ntabeleaz valorile obinute de subiecii celor dou grupe mperecheate
(corelate), diferena i ptratul acesteia. Se determin media diferenelor ( = X - Y, care de
regul nu se calculeaz, dar este un bun mijloc de control al corectitudinii n calcul).
() 2
N ), dup care abaterea standard (s
N 1
= s2 )
Etapa 3. Se calculeaz eroarea standard a mediei diferenelor: S =
79
s
N 1
Etapa 4. Se calculeaz t care este ctul dintre media diferenelor i eroarea standard a mediei
diferenelor: t =
cu t =
YX
, care este totui mai greu maniabil, cci presupune dou medii, dou abateri
SY X
Greutate
(diferena)
(diferena)
14
14
4,36
2,14
7,16
4,69
61
30
x2
993
350
t=
t=
4,36 4,36
=
=
= 2,27 , pentru diferena de nlime.
s
7,16 1,91
N
14
2,14 2,14
=
=
= 1,70 , pentru diferena de greutate.
4,69 1,25
s
14
N
Cele dou valori rezultate din exemplele de mai sus, dei foarte apropiate de cele
obinute prin metoda precedent, nu sunt totui identice cu acestea. Pentru elegana i
rapiditatea n calcul presupuse de acesta recomandm cel de al doilea procedeu de lucru.
80
t=
mai jos.
n care
X1 X 2
(6.11)
X 12 + X 2 2 N1 + N 2
N + N 2 N N
2
1 2
1
variabilele X1 i X2; X12 i X22 reprezint suma ptratelor abaterilor individuale de la medie.
O precauie important este aceea de a-l cuta pe t n coloana lui Fisher la df = N1 + N2 - 2
grade de libertate.
Cea mai des utilizat modalitate de calcul a testului t pentru eantioanele independente
ale cror dispersii nu difer semnificativ2, este ns formula 6.12 de mai jos, unde toate
notaiile sunt deja cunoscute. n aceast formul din dispersiile separate ale celor dou grupuri
comparate se obine una singur, cumulat, care este de fapt o estimare a dispersiei populaiei:
X1 X 2
t=
(6.12)
( N1 1) s12 + ( N 2 1) s2 2 1
1
N1 + N 2 2
N1 N 2
t=
X1 X 2
sX X
1
t=
(6.12)
X1 X 2
12
N1
22
(6.13)
N2
n fine, testul t pentru un singur eantion este posibil prin apelul la formula 6.14 de mai jos:
t=
X
s
N
t=
(6.14)
s
N
(6.15)
2
Pentru a rspunde la ntrebarea dac cele dou dispersii sunt similare sau diferite, n SPSS exist testul Levene
pentru egalitatea varianelor. Valorile acestui test sunt indicate ntotdeauna nainte de testul t, ghidnd selecia
celei mai potrivite valori a acestuia.
81
n care la numrtor se afl diferena dintre media eantionului de selecie i cea a populaiei,
s este abaterea standard a eantionului iar N volumul acestuia. Pentru grupe corelate/ apariate,
atunci cnd se fololete ca variabil diferena perechilor (delta), formula 6.14 devine 6.15, n
care s devine s.
Presupunem c n exemplul de mai jos X i Y sunt dou eantioane independente.
nlime
Greutate
X1
14
X2
14
X1
14
X2
14
X
X
149,50
11,36
2093
314581
153,86
11,07
2154
333002
48,29
7,32
676
33338
50,43
6,65
706
36178
153,86 149,50
=
314581 + 333002 14 + 14
14 + 14 2
14 14
4,36
4,36
4,36
=
=
= 0,07
647583 28
3558,15 59,65
26
196
50,43 48,29
=
33338 + 36178 14 + 14
14 + 14 2
14 14
2,14
2,14
2,14
=
=
= 0,11
69516 28
381,96 19,54
26 196
Greutate
Greutate
Diferena
nainte
dup
38
43
38
43
39
42
38
42
39
46
36
35
-1
35
35
43
46
33
39
10
37
34
-2
11
37
35
-2
12
37
43
13
35
41
14
38
42
15
41
43
16
39
42
17
40
45
18
35
35
-1
19
39
42
20
38
40
21
34
35
22
43
46
23
34
35
24
37
38
25
35
36
26
43
47
26
26
26
37,75
40,33
2,58
2,74
4,18
2,51
83
Biei
28
10
Fete
30
14
5,25
280
3544
1,01
6,31
420
7035
1,17
Total
84
Teste
Motricitate
Gen
54
Cogniie
M+F
66
54
19,83
20,55
2,54
X
X
Total
M+F
66
54
66
36,65
38,03
56,48
58,58
3,39
5,57
5,13
7,35
7,82
1071
1356
1979
2510
3050
3866
21583
28607
74171
97167
175132
230429
M+F
Variana
SX
F-M
t1
t2
Cerine:
a. S se testeze ipoteza diferenei semnificative a mediilor dintre fete i biei pentru
cele trei perechi de variabile ale testului aplicat.
b. S se raporteze rezultatele obinute.
c. Agregai datele pentru biei i fete, completnd corect i integral coloana M+F.
d. S se determine variana i eroarea standard a mediei (SX) pentru toate coloanele
tabelului.
e. S se determine t1 cu formula 6.12, t2 cu formula 6.13 i s se comenteze rezultatele
obinute.
85
CAPITOLUL 7
7.1. Introducere
Nicio alt procedur statistic nu a deschis att de multe ci de descoperire tiinific
n psihologie, tiinele comportamentului i educaie ca metoda corelaiei. Dac pn acum
ne-am ocupat de distribuii cu o singur variabil (univariate), prin corelaie avem n vedere
distribuiile bivariate, n legtur cu care ne punem problema gradului de asociere dintre
variabile.
Un coeficient de corelaie este un numr unic care indic mrimea relaiei dintre dou
fenomene, procese psihice, lucruri, adic n ce grad variaz unul n paralel cu variaia
celuilalt. Fr corelaie nu ar fi posibil predicia i chiar atunci cnd sunt implicate relaii
ntmpltoare, fr cunoaterea covariaiei (a variaei comune a dou variabile) nu am fi
capabili s controlm o variabil prin manipularea celeilalte.
Iat cteva exemple: exist vreo legtur ntre scorurile la testele de inteligen i
performana colar? dar ntre nlime i greutate; ntre ploaia czut i recolte; ntre statutul
economic, social i cultural al prinilor i prezena elevilor n colile ajuttoare; ntre studiile
prinilor i performana colar a copiilor; ntre inteligena prinilor i inteligena copiilor;
ntre inteligena gemenilor uni- i bivitelini; dar a frailor ntre ei?
Gradul de paralelism, msura n care dou colecii de msurtori co-variaz se explic
cel mai adesea prin coeficientul de corelaie. n studierea relaiei dintre anumite nsuiri se
pleac de la variaia simultan a datelor, numit covarian, prin analiza legturii dintre ele
cutnd s identificm modul lor de asociere.
Trebuie spus c, spre deosebire de experiment, corelaia nu dezvluie o relaie de tip
cauzefect, nu este deci o msur a cauzalitii, ci doar a gradului de paralelism, a modului
de asociere, natura relaiei urmnd a fi interpretat. O corelaie perfect ntre X i Y (r
1)
arat c cele dou variabile covariaz perfect, la unison, variaia lui X putnd fi cauza
variaiei lui Y, a lui Y cauza lui X sau a amndurora s fie cauzat de o a treia variabil Z.
Dac n experiment relaia este unidirecional (X determin pe Y), ntr-un studiu corelaional
variabilele sunt date i nu manipulate, relaia dintre ele nefiind una vectorizat.
86
Test X
10
12
13
Test Y
10
11
12
14
15
Se poate observa faptul c fiecare X este egal cu Y-2 fr nicio excepie, deci corelaia
va fi r = 1 (sau Y = X+2). Iat un alt exemplu:
Cazuri
Test P
11
12
15
Test Q
10
14
16
18
22
24
30
Test A
11
12
14
16
20
Test B
20
16
14
12
11
n cazul de mai sus corelaia dintre A i B este aproape perfect, dar negativ (r = .99).
12
10
-2
Z G re u ta te
Z In a ltim e
-10
M o tric ita te g ro s ie ra
10
-20
-5
-4
-3
-2
-1
-4
-6
-5
-4
-3
-2
a.
-1
0
0
10
20
Motricitate r = .54
b.
87
c.
30
20
C og nitie
M o tric ita te
10
0
10
20
30
40
50
60
70
80
60
60
50
50
40
40
30
30
20
20
QI geaman 2
30
10
0
10
20
30
40
50
60
70
80
d.
10
0
-80
-70
-60
-50
-40
-30
-20
-10
QI geaman 1 r= -.97
e.
f.
Diagramele de corelaie de mai sus, numite scattere, prezint cteva situaii distincte:
a. o corelaie extrem de sczut i nesemnificativ (r = 0,10, sau r = .10), aproape de a
indica absena oricrei relaii dintre cele dou variabile. n timp ce variabila X are o cretere
clar, variabila Y are un comportament ambiguu;
b. o corelaie foarte slab (.20), n care norul de puncte tinde s se aeze totui pe o
diagonal stnga jos dreapta sus (corelaie pozitiv);
c. aceast relaie devine mult mai evident pentru cele dou variabile (.54);
d. corelaia este una extrem de puternic (.87), tendina de norului de puncte de a se
ordona pe o diagonal stnga jos dreapta sus fiind foarte evident, ceea ce d acum
posibilitatea de a prezice cu o oarecare aproximaie pe fiecare X din fiecare Y, i invers;
e. relaia este de acelai tip pozitiv dar este una extrem de puternic (.97), norul
de puncte avnd o grosime relativ egal pe toat suprafaa diagramei de corelaie
(homoscedasticitate);
f. ordonarea norului de puncte din aceast diagram este n oglind fa de precedenta
reprezentare grafic: relaia este una extrem de puternic, dar negativ, deoarece creterea
variabilei X se asociaz cu descreterea variabilei Y, i reciproc.
Cu ct norul de puncte tinde s se aeze mai aproape de o dreapt corelaia este mai
mare, atunci putnd vorbi de o relaie liniar ntre X i Y, fapt ce permite deducerea unei
varianile din cellalt. n psihologie, bivariaia liniar este postulat cel mai adesea de
coeficientul de corelaie, acesta putnd avea valori cuprinse ntre 1 i +1, care nseamn
corelaiile maxime posibile, trecnd prin 0, care nseamn absena oricrei legturi sau
interdependena dintre ele. Diferena dintre corelaiile pozitive i negative rezult n principal
din orientarea norului de puncte. n cazul corelaiilor nule sau foarte mici norul de puncte
tinde s se distribuie haotic pe toat suprafaa diagramei de corelaie.
88
cu ct distribuia tinde mai mult spre o dreapt (linia de regresie), cu att mai
intens este relaia dintre variabile;
care este orientarea ei, deci care este sensul relaiei, pozitiv sau negativ;
dac exist o egalitate a grosimii norului de puncte de-a lungul liniei de regresie
(homoscedasticitate).
Cei mai muli coeficieni de corelaie folosesc modelul relaiei liniare, putndu-se
identifica relaii parametrice (ntre variabile numerice continue) i neparametrice, n care una
dintre variabile (sau chiar ambele) este categorial, discontinu (dihotomic sau trihotomic).
( X X )(Y Y )
( X X ) 2 (Y Y ) 2
(7.1)
n care X i Y sunt rezultatele obinute la cele dou nregistrri, iar X i Y reprezint mediile
celor dou distribuii. Cantitatea de la numrtor se numete suma produselor, numitorul
reprezentnd radical din suma ptratelor produselor.
ntr-o distribuie normal a dou variabile vom putea fi identificai cinci parametri:
dou medii i dou abateri standard i, al cincilea, coeficientul de corelaie. Orice program
statistic computerizat poate determina aceti parametri, problema fiind legat de calcularea
acestora cu un minicalculator. Cu minicalculatorul statistic se obin cteva date care vor fi
trecute astfel:
N
mediile distribuiilor;
x
xy
XY
rXY =
[NX
(7.2)
N XY X Y
2
][
(X ) 2 NY 2 (Y 2 )
Mate
Fizic
Subiect
X2
Y2
XY
49
49
49
81
64
72
10
100
81
90
36
49
42
10
81
100
90
64
49
56
25
36
30
16
12
49
36
42
10
64
49
56
11
36
49
42
12
49
49
49
13
36
36
36
14
25
36
30
N=14
X=96
Y=97
X2=704
Y2=699
XY=696
14
14
6,86 6,93
n 1
1,88 1,44
X
X 2
96
x y
XY
97
704 699
640 377
696
X Y
N
2
2 (X ) 2 (Y ) 2
X N Y N
XY
rXY =
(7.3)
O alt metd de lucru pentru corelaia prin metoda produselor este formul 7.3 de mai
sus. n exemplul dat, coeficientul de corelaie de 0,88 (sau .88, pentru literatura de specialitate
anglo-saxon) este unul foarte de ridicat. Aceasta ne conduce la presupunerea c legtura
90
dintre fizic i matematic este una puternic, performana la ambele fiind determinat de un
factor comun (raionamentul abstract sau factorul general g al inteligenei).
Iat nlimile reale i cele dorite a 14 studente i 2 studeni de la facultatea de
psihologie (N = 14+2 = 16).
Subieci
IR
ID
GR
GD
169
169
58
55
170
170
70
62
172
172
57
60
160
170
52
55
170
175
55
55
167
167
65
55
167
175
55
60
156
160
55
55
160
160
46
49
10
172
175
50
50
11
163
165
54
53
12
184
180
77
80
13
193
193
113
104
14
158
168
54
58
15
170
170
77
65
16
158
165
49
50
16
16
16
16
168,06
170,88
61,69
60,38
9,75
8,00
16,55
13,81
2689
2734
987
966
453345
468132
64993
61184
22799
15356
6549
45788
X
2
X
x
IR_ID
460547
GR_GD
62310
rIR_ID
.91
rGR_GD
.79
Comentarii
Corelaia nlimii actuale cu cea dorit este extrem de ridicat (r = .91), ceea ce
nseamn c proiectare la nivelul sinelui corporal a nlimii dorite este n concordan
cu nimea real.
91
Greutatea real i cea dorit produc o corelaie mai joas, dei tot foarte ridicat (r =
.79), ceea ce nseamn c n imaginea de sine corporal elementul fundamental este
nlimea (mai statornic), i mai puin greutatea (indicator mai variabil i mai
fluctuant n funcie de circumstane).
Lotul nostru (foarte mic), alctuit preponderent din femei (88%), i-ar dori civa
centimentri n plus (2,82 cm) i ceva kilograme n minus (-1,31 kg), dar la praguri
nesemnificative statistic (N este mult prea mic).
Aplicaie practic
Calculai i comentai corelaiile dintre nlimea i greutatea reale, apoi dintre
nlimea i greutatea dorite. Ce constatri ai putut face? Comentarii posibile: ntre valorile
reale ale nlimii i greutii exist aceeai corelaie ca i ntre cele dorite pentru cele dou
variabile. n raportarea noastr la planul corporal ideal se pare c pstrm aceeai atitudine pe
care o avem asupra eului nostru fizic i n plan real. Rezult deci c n plan antropometric
dorina se conformeaz realitii mai mult dect am fi dispui s credem.
-0,01
0,20
0,24
Rude colaterale
Veri secundari
0,16
Veri primari
0,26
Unchi nepot
0,34
0,47
0,50
0,56
0,47
0,55
0,49
0,56
0,75
0,87
Spearman, care este unul non-parametric. Multe dintre datele obinute de subieci n coal
permit asemenea clasificri ierarhice, fie c este vorba de rezultate la examene (de exemplu
capacitatea, admiterea la liceu), rezultate la probe sportive, la teste de cunotine, unde
93
diferenele dintre candidai nu sunt suficient de fine pentru a evidenia gradaiile pe care alte
variabile continue (nlimea, greutatea) le dau. Este cazul aici s invocm opinia lui Radu i
Szamoskzy3: rangul este mai stabil ca nota. La evaluarea succesiv a elevilor de ctre
profesor, alternativ prin note sau ranguri, acestea din urm indic o tendin mai accentuat
spre stabilitate, notele fiind mult mai variabile.
Atribuirea de ranguri (rangarea) nu este o operaie dificil: subiecii sunt ierarhizai n
ordinea performanei sau a scorurilor obinute, de la mare la mic sau invers. n mod practic, pe
o foaie de hrtie se scriu tot attea numere cte ranguri trebuie alocate (egale cu numrul
subiecilor) i se taie rangurile pe msur ce ele se aloc, ceea ce ajut la corecta gestiune a
acestora. Singura precauie important este aceea de a rezolva corect situaia n care dou, trei
sau mai multe cazuri au aceeai valoare de scor a variabilei. De exemplu, dac am ajuns cu
rangarea la al aptelea subiect i urmtorii trei au aceeai performan, din rangurile 8, 9, 10
se selecteaz rangul din mijloc - 9 - care se atribuie tuturor celor trei, urmtorul rang ce va fi
atribuit fiind 11. Dac ar fi fost doi subieci cu acelai scor, atunci pentru rangurile 8, 9 s-ar fi
acordat rangul intermediar 8,5, urmtorul rang atribuibil fiind 10. Pentru ca operaia de calcul
s nu produc o distorsiune prea mare a lui rho cazurile de acest fel trebuie s fie ct mai
puine. Dac operaia de rangare a fost corect executat, la sfritul ei toi subiecii vor avea
ranguri i toate rangurile vor fi epuizate, n caz contrar trebuind identificat i corectat
eroarea de rangare.
Un subiect poate fi clasat dup mai multe criterii, avnd deci mai multe ranguri, caz n
care corelaia se va face fiecare rang cu fiecare, dup formula:
=1
6d 2
N ( N 2 1)
(7.4)
unde d este diferena rangurilor i N numrul perechilor de subieci. Prin ridicarea lui d la
ptrat, semnul diferenei rangurilor devine ntotdeauna pozitiv.
Radu, I. (coord.), Miclea, M., Albu, M., Moldovan, O., Neme, S., Szamoskzy, S. (1993). Metodologie
psihologic i analiza datelor. Cluj-Napoca: Editura Sincron, p. 122.
94
d2
d2
d2
d2
d2
d2
1-3
1-4
2-3
2-4
3-4
1-2
1-3
1-4
2-3
2-4
3-4
Elev
QI
1.
2.
10
3.
-3
4.
10
-1
5.
-1
-2
6.
7.
6,5
0,5
0,5
0,25 0,25
8.
6,5
2,5
-0,5
6,25 0,25
9.
10
10
-1
-1
10.
-1
0
2
N=10
1 2 = 1
6 27,50
= 0,83
10(100 1)
27,50 8,50
0,83 0,95
1 3 = 1
6 8,50
= 0,95
10(100 1)
Din exemplul ipotetic de mai sus se poate remarca concordana ridicat dintre
ierarhia inteligenei msurate (QI) i ierarhia rezultatelor colare propus de elevi, corelaie
care nu este totui la fel de mare ca i cea dintre ierarhia inteligenei msurate i performana
la nvtur, exprimat prin mediile colare ( = 0,83 versus = 0,95). Pentru o mai bun
nelegere a modului de lucru recomandm calculul tuturor celorlalte coloane, urmat de
determinarea de fiecare dat a lui rho, ncheiat de interpretarea rezultatelor.
Ca i r, are valori cuprinse ntre 1 i +1, trecnd prin zero, situaie care indic
absena corelaiei (deci a concordanei dintre cele dou ierarhii exprimate prin ranguri).
Reluarea determinrilor prin mrirea eantionului poate duce la apariia unor corelaii
semnificative, chiar dac iniial ele nu atingeau iniial pragul semnificaiei statistice.
Deoarece supraevalueaz uor corelaia (de la 5 miimi spre zonele extreme, la 18
miimi pe zona central) dm mai jos tabelul de echivalare ale lui cu r.
.00
.10
.20
.30
.40
.50
.60
.70
.80
.90
.95
1.00
.000
.105
.209
.313.
.416
.518
.618
.717
.813
.908
.954
1.00
95
1
1
i deci 2 =
.
N 3
N 3
1 1
= = 0,167
36 6
96
p .05
.60
.58 .55
.48 .47
p .01
.73
.71 .68
.61 .59
10
11
12
13
14
15
16
17
18
19
20
25
30
35
40
45
50
.27
.35
mai mare; pentru un prag de semnificaie de 1 din 100, r este 0,35, deci cel gsit de noi (0,50)
este puternic semnificativ statistic (p < 0,01).
n programele statistice computerizate coeficienii de corelaie care ating pragurile de
semnificaie de p = 0,05 i p = 0,01 sunt notate cu o stelu (*), respectiv cu dou (**) iar
semnificaia steluelor este indicat de legenda aflat la subsolul tabelului.
97
coeficientul de corelaie este mai util s se opereze cu ptratele corelaiilor dect cu corelaiile
n sine. Dei calcularea sa nu pune probleme speciale, tabelul de mai jos furnizeaz cteva
valori reprezentative ale coeficientului de determinare transformat n procente de covarian.
r
.05
.10
.20
.30
.40
.50
.60
.70
.80
.90
.95
1.00
r 100
0,25
16
25
36
49
64
81
90
100
Diferena dintre coeficientul de corelaie 0,50 i 0,40 este aceea c ultimul aduce 0,502
- 0,402 = 25 16 = 9 procente de covarian n plus, necesar n predicia unei
variabile plecnd de la cunoaterea celeilalte; coeficienii 0,60 i 0,50 dau o diferen
de 36 25 = 11 procente, deci ofer cu dou procente mai mult fa de exemplul
anterior, dei diferena brut dintre ambele perechi a fost aceeai (o zecime).
Enumerm cteva din cauzele care pot afecta precizia unui coeficient de corelaie:
Distribuiile anormale care, prezentnd valori atipice sau extreme la capetele seriei de
variaie (valori atipice sau outlieri extremi), accentueaz mult variabilitatea datelor,
fapt ce conduce la creterea artificial (inflaionist) a coeficientului de corelaie.
greutate vor fi introduse din neatenie invers (75 pentru nlime i 168 pentru
greutate), corelaia va descrete dramatic.
descrete, i invers.
98
grupul);
-
raportul pq/Y se citete dintr-un tabel special5 p fiind proporia admiilor, bunilor,
talentailor etc., iar q proporia complementar (adic 1-p);
Exemplu
Cota la test
10
Total
Admii
10
16
14
59
Respini
13
12
54
Total
10
18
22
25
18
113
naintea unui curs de instruire profesional, candidaii au parcurs un test psihologic ale
crui rezultate au fost raportate pe o scal C (cu 11 trepte, media 5, abaterea standard 2).
Variabila X este reprezintat tocmai de aceste rezultate. Dup testul psihologic s-a dat i un
examen de admitere, ale crui rezultate finale au fost dihotomice (admis/respins), aceasta
fiind variabila-criteriu Y. De notat c reuita-eecul nu permit o nuanare mai fin dect
aceasta. Proporia celor admii este p = 59/113 = 0,52, iar cea a respinilor q = 54/113 = 0,48,
adic q = 1-p (q este deci complementul lui p).
99
Media celor admii este notat cu m, iar a celor respini cu m i se determin astfel:
m = (00 + 11 + 20 + 33 + 45 + 510 + 616 + 714 + 86 + 93 + 101)/59
Respini
Total
59
54
113
6,08
4,96
5,30
1,67
1,75
1,90
359
241
600
2347
1237
3584
x
2
rbis =
Eroarea tip:
Deci:
1,90
y
1,90
pq
r2
Y
, n care
N
opiunea pentru coeficientul W al lui Kendall este prezent alturi de r al lui Pearson i de rho
al lui Spearman.
O atenie special trebuie acordat coeficientului de corelaie multipl R, care st la
baza modelrii relaiilor dintre variabilele predictoare cu variabila criteriu prin regresia
multipl. Corelaia multipl poate fi utilizat de exemplu n clasarea unei ri ntr-o ierarhie
dup mai muli indicatori care intervin cu ponderi diferite sau n predicia reuitei colare,
acolo unde aspectele biologice (starea de sntate i constituia fizic), cognitive (atenie,
inteligen, memorie, creativitate), emoional-afective, temperamental-caracteriale, calitile
voluntare, nivelul de aspiraie, ali factori de personalitate, calitatea educaiei printeti i a
instruciei colare, calitatea colectivului de elevi i de profesori, a materialelor didactice
utilizate etc. pot interveni cu ponderi difereniate n efectul final (media general).
n general, la un efect X concur X1, X2, ... Xn factori a cror importan trebuie
cunoscut pentru a le da ponderea corespunztoare n efectul final sau n bateria de teste care
anticipeaz acest efect. Pentru a fi unul economicos, sistemul de predictori sau bateria de teste
utilizat trebuie s rein un numr nu prea mare de criterii (respectiv teste) care coreleaz
puin ntre ele, dar coreleaz strns cu criteriul prezis. Ca i strategii de determinare a acestor
ponderi, care se numesc coeficienii B (nestandardizai) sau (Beta, standardizai), se pot
folosi algoritmul condensrii pivotante a lui Aitken sau metoda Doolitle, care presupun
procedee de calcul laborioase, programele computerizate oferind soluii mult mai rapide.
Programul SPSS ofer mai multe metode de modelare a regresiei, la sfritul crora se
obine coeficientul de corelaie multipl R, care arat intensitatea relaiei dintre criteriul prezis
i variabilele predictoare, moderate de factorii B sau Beta. Ca i pentru r2, ridicarea la ptrat a
lui R d un coeficient de determinare, prin care se apreciaz sub forma unei proporii
procentuale ct la sut din variana criteriului este prezis de combinaia de predictori reinui
n ecuaia de regresie multipl.
Construirea unor scale sau subscale ale testelor cognitive, educaionale sau de
personalitate n care meninerea sau ndeprtarea unor itemi depinde de corelaia
acestora cu scala.
101
n selectarea dintr-o multitudine de itemi ai unei scale daor a itemilor celor mai buni
pentru a genera, prin analiza factorial, scale omogene, care msoar acelai construct
(scale unifactoriale, cu puritate factorial ridicat). Relevana unui item pentru
constructul n cauz este dat de saturaia acestuia n factorul identificat, care se
exprim tot printr-o corelaie.
Alctuirea unor baterii de teste care prezic cu o mai mare acuratee criteriul, graie
modelrii corelaiilor dintre criteriu i predictori prin ecuaia de regresie simpl sau
multipl.
Analiza de clustere, similar n multe privine analizei factoriale, dar indicnd ntr-o
form uor de vizualizat nu numai ierarhia factorilor care compun clusterele, dar i
ordinea sau nivelul la care intr n combinaie fiecare variabil cu cele anterioare.
3.
Guilford, J. P., Fruchter, B. (1978). Fundamental Statistics in Psychology and Education. Sixth Edition. New
York: McGraw Hill, p. 88.
102
103
B I E I
Valori absolute
Ranguri
Nr.
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
N
X
x
X
X2
x
xy
xy
r
GR
GD
177
172
174
185
180
166
165
180
182
168
168
176
168
174
178
175
175
193
182
178
189
185
175
180
185
180
175
190
180
182
170
172
185
175
174
180
182
181
180
190
180
191
110
58
60
85
81
58
65
77
74
64
60
58
58
60
73
60
72
76
80
74
76
21
21
21
GR
GD
95
68
70
85
76
65
95
75
80
72
63
75
65
60
80
60
77
78
72
70
85
165
161
160
163
160
170
159
169
169
167
166
160
160
173
162
164
170
167
170
165
169
170
168
180
170
170
170
165
175
175
170
166
170
170
170
170
170
165
167
170
165
175
56
55
47
56
56
58
44
68
62
47
54
46
60
65
55
59
55
47
60
59
50
55
47
60
50
50
55
46
60
58
47
50
45
60
63
53
50
50
52
55
53
50
21
21
21
21
21
42
N
X
x
X
X2
x
xy
xy
r
F E T E
Valori absolute
42
42
Ranguri
D
42
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
104
7.10. Quiz
Rspundei la urmtoarele 10 ntrebri, fiecare scorat cu cte un punct:
1.Ce se ntmpl cu corelaiile dintre nlimea real i greutatea real dac adugm
urmtoarele dou cupluri de valori: 200 cm - 100 kg; 155 cm - 42 kg?.......................................
.......................................................................................................................................................
.......................................................................................................................................................
2. Ce se ntmpl cu corelaiile dintre nlimea real i greutatea real dac prima valoare
introdus, 177 cm, ar fi fost tastat 1770 cm? .............................................................................
.......................................................................................................................................................
.......................................................................................................................................................
3. Ce s-ar ntmpla cu aceleai corelaii dac, din greeal, am fi introdus primul set de valori
invers, 177 cm la greutate i 110 kg la nlime? ..............................................................
.......................................................................................................................................................
.......................................................................................................................................................
4. Enumerai cinci dintre cele mai importante utilizri ale coeficientului de corelaie. ...............
.......................................................................................................................................................
.......................................................................................................................................................
5. Ce este norul de puncte i asupra cror caracteristici ne informeaz el? .................................
.......................................................................................................................................................
.......................................................................................................................................................
6. Analizai diferenele dintre mediile la R, D, GR i GD pentru biei i fete. Artai dac
pstrai sau respingei ipoteza de nul i la ce prag de semnificaie. .............................................
.......................................................................................................................................................
.......................................................................................................................................................
7. Unul dintre coeficienii de corelaie are valoarea r = 3,25. Ce putei spune despre el i cum
argumentai? .................................................................................................................................
.......................................................................................................................................................
8. Corelaia IR_ID este de r = .688 iar GR_GD este de r = .811. Cu cte procente este mai
bun a doua corelaie dect prima? Ct din variana criteriului prezis acoper fiecare? .............
.......................................................................................................................................................
.......................................................................................................................................................
9. Luai separat, pe biei i fete, corelaiile IR_ID i GR_GD sunt mai mici dect dac punem
la comun, ntr-un singur fiier toate datele. De ce se ntmpl acest lucru? ................................
.......................................................................................................................................................
.......................................................................................................................................................
10. Corelaia dintre IR_GD pentru cele 21 de fete este de r = .379, nesemnificativ statistic.
Cum ar fi fost ea dac numrul fetelor ar fi fost de 42? Dar de 84? ............................................
.......................................................................................................................................................
.......................................................................................................................................................
105
CAPITOLUL 8
8.1. Introducere
Termenul de regresie a fost utilizat pentru prima dat de Galton, el neavnd nici o
conotaie negativ. Supuse prelucrrilor statistice, rezultatele obinute din investigarea n
primul laborator de antropometrie din lume (Londra, 1884) a unor caracteristici individuale,
scoteau n eviden tendina valorilor extreme de a regresa spre medie. Cu alte cuvinte, din
prini foarte nali sau foarte scunzi exist tendina natural s se nasc copii mai mici,
respectiv mai mari dect acetia.
Dac n psihanaliz un comportament este numit regresiv atunci cnd persoana se
ntoarce la faze revolute ale copilriei, cznd spre forme de echilibru tipice trecutului,
regresia statistic poart spre viitor, pentru c ea are n vedere n primul rnd anticiparea sau
mult n slujba reuitei colare. Poziia n fratrie, mrimea acesteia, statutul socio-economic al
familiei, studiile prinilor (ale mamei n special), starea de sntate biologic i psihologic,
calitatea proceselor instructiv-educative din coal etc. i nc ali factori pot fi invocai a avea
o legtur cauzal cu reuita colar. Problema care se pune este aceea de a stabili intensitatea
acestor legturi i de a le introduce ntr-un model matematic economic care s dea cea mai
puternic predicie, prin cel mai mic numr de predictori. Deci ntrebarea principal la care
trebuie s rspund regresia utilizat n scop explicativ este aceea dac i n ce msur o
variabil independent (VI) contribuie semnificativ la evoluia variabilei dependente (VD), n
condiiile n care am controlat experimental influena altor factori (variabilele parazite) asupra
acesteia.
Regresia utilizat n scop predictiv folosete i la nivel terminologic alte concepte,
deoarece elementul prezis se numete criteriu, iar elementul/elementele care fac posibil
predicia se numesc chiar predictori. Legtura dintre predictori i criteriu se ncearc a fi
maximizat prin includerea ntr-o ecuaie de regresie a acelor factori dintr-o categorie care au
cea mai mare putere, i aceasta ntr-o anumit ordine, determinat de importana lor. De
exemplu, n comiterea tentativei de suicid anumii factori reprezint un coeficient de risc mai
ridicat
(dispoziia
depresiv,
tendinele
auto-devalorizatoare,
sentimentul
sczutei
autoeficaciti personale, stima de sine diminuat, temperamentul melancolic etc.). Studiindui adecvat, ei pot fi abordai matematic printr-un model predictiv puternic, care s ghideze
aciunile i interveniile suportive ulterioare. Aceeai problem se poate pune n legtur i cu
securitatea rutier, cu anticiparea nivelului reuitei la un curs de formare, cu selecia primar
prin examene psihologice pentru anumite categorii de personal etc. i cea mai important
caracteristic a unui instrument psihodiagnostic, care este validitatea, se sprijin pe acest tip
de demers statistic, n msura n care orice diagnostic psihologic se face n vederea unui
prognostic, n raport cu care un test sau o baterie de teste se spune c se valideaz. ntrebarea
de fond la care trebuie s rspund regresia utilizat n scop predictiv se refer la ci i care
sunt predictorii ce ne ajut s estimm cel mai corect i mai economic criteriul.
A doua distincie major n materie de regresie este diferenierea terminologic ntre
regresia liniar simpl i regresia multiliniar sau multipl. Dac n primul caz este vorba
de o distribuie bivariat, n care exist un singur predictor (variabila independent) i un
singur criteriu (variabila dependent), n a doua situaie avem mai multe surse de variaie,
deoarece ecuaia de regresie include mai muli factori ce intervin cu ponderi diferite n
predicia criteriului.
107
Este evident c modelul multivariat are putere explicativ sau predictiv mai mare
dect cel liniar simplu. Dar i ntr-un caz i n cellalt putem apela la regresia liniar (fie ea
simpl sau multipl) n dou condiii:
-
criteriul (variabila dependent) este msurat pe o scal numeric (de interval sau de
raport), pentru alte tipuri de scale existnd forme specifice de regresie (logistic,
logistic multinominal sau ordinal).
108
s minimizeze suma tuturor erorilor: adunnd abaterile pozitive sau negative ale tuturor
punctelor de la linie, aceast sum ar trebui s fie minim. Numai pe baza acestui criteriu
nu am ti ns cum s trasm efectiv linia, deoarece valorile negative i cele pozitive se
anuleaz reciproc i criteriul nu distinge ntre mulimea de linii care potrivesc punctele;
s minimizeze suma ptratelor tuturor abaterilor de la linie: acesta este un criteriu mai
valid (i singurul!), deoarece se poate demonstra matematic (principiul celor mai mici
ptrate) c exist doar o singur linie care potrivete bine toate punctele, spre deosebire de
situaia precedent. Aadar7, linia de regresie care red cel mai bine norul de puncte este
una singur i ea se construiete dup principiul celor mai mici ptrate (the least squares
Tilda (^) de deasupra variabilei Y, fie ea standard sau brut, arat c valoarea obinut prin ecuaia de regresie
nu este cea real, msurat, ci este valoarea anticipat, expectat prin predicie.
109
n englez) i apeleaz de fapt la proprietile matematice ale ecuaiei unei drepte, care
arat astfel:
Y = B0 + B1 X
(8.1)
n Figura 9.1 de mai sus linia de regresie se poate trasa dnd valoarea zero lui X,
pentru a determina interceptul B0 (care este locul n care linia taie ordonata) i o valoare
oarecare (mai mare) a lui X pentru a obine al doilea punct necesar trasrii dreptei. Pentru
fiecare Xi ecuaia de regresie prezice un Yi, dar cu un grad de eroare, reprezentat mai sus prin
diferena dintre valoarea real observat i valoarea prezis. nsumarea tuturor acestor erori se
exprim prin ceea ce se chiam reziduale, n fond o msur a limitei de precizie a modelului
regresiv. 1 indic panta liniei de regresie, adic cu ct crete Y n condiiile creterii cu o
unitate a lui X.
110
y
x
(8.2)
unde r este coeficientul de corelaie iar x i y sunt abaterile standard pentru cele dou
variabile. Coeficientul B0 se calculeaz dup formula:
B0 = Y B1 X
(8,3)
zy = zx
n care (beta) se cheam chiar coeficient de regresie standardizat. Dar, deoarece valoarea
coeficientului de regresie standardizat este exprimat de coeficientul de corelaie dintre
variabile, formula anterioar devine:
zy = r zx
(8.5)
111
r=
zy
zx
(8.6)
Apelm la exemplul anterior, unde corelaia dintre QI i media la matematic era de 0,83:
media lui X = 106,71
x = 13,52
zx1 = (116 - 106,71) / 13,52 = 0,69
zy1 = ?
zy2?
zy2 = - 1,21
predicie. Erorile asociate cu prediciile reprezint abaterea standard a lui Y (sY) care tim c
este definit astfel:
(Y Y ) 2
sY =
N 1
sY =
(8.7)
(Y Y ) 2
N 1
(8.8)
112
linia de regresie se bazeaz pe abaterile ptratice ale lui Y obinut de la cel prezis, msura
erorilor aleatorii poate fi scris astfel8:
sY Y =
(Y Y ) 2
N 2
(8.9)
N 1
sY Y = sY (1 r 2 )
N 2
(8.10)
sY Y sY (1 r 2 )
(8.11)
Ultima formul, dei nu la fel de precis comparativ cu cea anterioar, este una mult
mai practic, lund n calcul abaterea standard a lui Y i corelaia r, ambii indicatori uor de
determinat. Eliminarea de sub radical a raportului (N - 1)/(N - 2) este justificat de faptul c la
distribuiile mai mari (de peste 30) corecia adus de acest raport este practic nensemnat.
ns n acest caz semnul dintre termeni nu mai este egal, ci aproximativ egal.
Eroarea standard a estimaiei se interpreteaz ca o form special de abatere standard,
deoarece sY Y este chiar deviaia standard a erorilor care apar cnd este folosit ecuaia de
regresie. Este evident c predicia este cu att mai bun cu ct factorul eroare este mai mic,
adic pe msur ce corelaia dintre cele dou variabile devine tot mai puternic. Pentru r = 1
erorile de predicie sunt eliminate, dar aceast situaie nu se ntlnete niciodat n realitate.
Aadar, determinarea ecuaiei i a liniei de regresie nu nseamn ctui de puin
rezolvarea complet a problemei prediciei, cci trebuie calculat i cantitatea de eroare pe
care aceast ecuaie o face posibil atunci cnd se opereaz cu ea. Importana major a
prediciei prin regresia bivariat nu este dect n mod secundar acela de a-l determina pe un
anume Y n funcie de un anume X, ci deriv din aceea c ea descrie bine relaia dintre dou
variabile, indicnd dac se poate face sau nu predicie, i ntre ce limite de precizie. Creterea
puterii i acurateei acestei predicii se face apelnd la regresia multipl prin introducerea de
predictori suplimentari, ceea ce nu conduce la eliminarea rezidualelor, adic a erorilor de
predicie. Cu ct modelul regresiv este mai bun i mai complet, cu att mai mult se elimin
din eroarea rezidual. Dei tot mai bun, predicia nu va putea elimina ns nicicnd definitiv
n formulele anterioare aveam la numitor pe N - 1 pentru c se determin doar un parametru, media populaiei.
n formula care urmeaz la numitor avem N - 2 pentru c acum se estimeaz dou lucruri simultan, panta i
interceptul.
113
factorul eroare, adic zona din variana comun rmas neprezis de setul de variabile
predictoare.
Trebuie menionat aici i rolul nefast pe care valorile atipice sau extreme (rezultate
uneori dintr-o simpl tastare incorect la introducerea datelor) l au asupra regresiei. Fiind
legat strns de coeficientul de corelaie, creterea sau descreterea acestuia ca urmare a
prezenei valorilor aberante se repercuteaz direct asupra modelului regresiv care este ecuaia
de regresie, mrind substanial componenta de eroare a prediciei.
B
sY Y
sX N 1
B( s X ) N 1
=
sY
N 1
(1 + r )
N 2
(8.12)
corelaie multipl, care - atunci cnd este ridicat la ptrat (R2) devine coeficient de
determinare multipl, pentru c ne arat care este variaia din variabila dependent Y
(criteriul) explicat de variabilele predictoare (sau variabila independent X).
Dac am reda prin cercuri variaia total a unei variabile am obine diagrame Venn de
tipul celor de mai jos. Zona din variana comun (numit covarian) explicat de r2 sau de R2
a fost de fiecare dat notat cu a, zona b din Y fiind cea care rmne de fiecare dat
neexplicat.
Dac n regresia simpl un singur predictor las o mare parte din variana lui Y
neexplicat (zona de eroare b), n exemplul urmtor vedem c fiecare predictor explic cte o
parte din variana lui Y, partea de eroare micorndu-se succesiv. Exemplul C ne atrage
atenia c adugarea de noi predictori nu face s diminue semnificativ zona b dect atunci
cnd acetia sunt independeni, adic necorelai ntre ei. Deoarece X2 i X3 sunt corelai ntre
ei, X3 nu contribuie la diminuarea zonei b n aceeai msur n care o face X2 i de aceea va
trebui hotrt dac vor rmne n ecuaia de regresie amndoi predictorii, iar dac nu, care va
fi cel pstrat.
Dac folosim mai muli predictori (variabile independente), ecuaia de regresie
multipl va avea urmtoarea formul:
^Y = B0 + B1X1 + B2X2 + ... + BnXn
115
(8.13)
cazul regresiei multiple exist un test F, care d expresie faptului dac relaia dintre setul de
variabile independente i VD este suficient de mare pentru a fi semnificativ. Interpretarea lui
R este de altfel similar cu r al lui Pearson, n sensul c ridicat la ptrat el devine coeficient
de inflaie a varianei (Variance Inflation Factor = VIF) pentru fiecare predictor n parte.
Cnd VIF pentru o VI este mare, acest fapt indic o combinaie liniar puternic ntre aceast
variabil i ceilali predictori. Formula sa (VIF = 1/(1 Rje) este furnizat de programele de
prelucrare computerizat a datelor, o valoare mai mare de 10 fiind indicativ pentru existena
multicoliniaritii. Relaia dintre toleran i VIF este urmtoarea: VIF = 1/toleran.
Combaterea multicoliniaritii are n vedere mai multe procedee, dintre care cel mai
radical este eliminarea efectiv din analiz a variabilei respective. Pentru al doilea procedeu
mai dezirabil pornim de la un exemplu. S presupunem c utilizm factorii de atmosfer
familial i competen educaional a prinilor pentru predicia insatisfaciei legat de
aspectul fizic al sinelui adolescentin. Cum cele dou VI sunt puternic intercorelate, cea mai
bun rezolvare a problemei este agregarea lor ntr-un indicator sintetic prin care vom combate
117
i coliniaritatea, dar vom avea i o nou VI mai stabil. A treia metod de combatere a
multicoliniaritii ine cont de necesitatea parcimoniei modelului regresiv, care trebuie s
ofere cea mai bun predicie cu cel mai redus numr de predictori. Aceasta impune selecia
celui mai bun set de predictori, fapt care presupune deinerea n avans a unei informaii
semnificative despre relaiile existente ntre variabile, prin matricea de intercorelaii, combinat
cu caracteristicele i mrimea eantionului pe care se lucreaz. Cum augmentarea eantionului
este mai pretenioas i mai costisitoare, pare mult mai rezonabil s meninem numrul de
predictori la un nivel ct mai sczut.
Linia de regresie prin cele mai mici ptrate: linie de regresie determinat prin minimizarea
diferenelor ptratice dintre Y obinut i cel prezis.
Coeficienii de regresie beta (): sunt cei care rezult nu din distribuia originar, ci dup ce
aseasta a fost standardizat. Cnd avem doar o variabil predictoare (regresie simpl sau
bivariat) beta este dat de mrimea corelaiei dintre cele dou variabile ( = r).
Exerciii i aplicaii practice
Ina.
Gre.
Ina.
Gre.
real
real
dorit
dorit
169
58
169
55
170
70
170
62
172
57
172
60
160
52
170
55
170
55
175
55
167
65
167
55
167
55
175
60
156
55
160
55
160
46
160
49
10
172
50
175
50
11
163
54
165
53
12
184
77
180
80
13
193
113
193
104
14
158
54
168
58
15
170
77
170
65
16
158
49
165
50
N
X
X
X
X2
119
120
CAPITOLUL 9
ANOVA, neprezentat n aceste volum) se mai numesc i teste parametrice. Ele se cheam
astfel deoarece pleac de la estimarea unor parametri ai populaiei din care a fost extras
eantionul considerat, cum ar fi media () i abaterea standard (). Dei mai precise i mai
ntemeiate matematic dect testele neparametrice, care vor fi prezentate n ultimele dou
capitole ale lucrrii de fa, acest tip de teste se sprijin pe supoziia normalitii distribuiei
pentru variabila msurat la nivelul populaiei, fiind nevoie ca aceasta s fie msurat pe scale
real numerice, adic scale de interval sau de raport.
Testele nonparametrice sunt destinate de asemenea testrii ipotezelor statistice, dar
fr a mai face inferene asupra parametrilor populaiei i fr a testa ipoteze legate de acetia,
de unde i numele lor de tehnici sau teste neparametrice. Deoarece ele nu pleac de la
premisa normalitii distribuiei, acestea sunt teste independente de forma distribuiilor. Dar
i aceasta pare a fi diferena esenial comparativ cu testele parametrice ele sunt aplicabile
doar datelor ce nu sunt realnumerice, de tip categorial i nominal, fiind prin aceasta utile n
zone n care testele parametrice nu mai sunt operaionale.
Distribuiile pe care le presupun testele nonparametrice sunt fie cele dihotomice (cu
doar dou categorii de valori, reciproc exclusive, de tipul admis-respins, masculin-feminin,
da-nu etc.), motiv pentru care se numesc binomiale, fie cele care, dei tot categoriale, pot
prezenta mai mult de dou valori de scor, distribuii care se numesc multinomiale. Aceste
categorii sunt rezultate fie n mod natural (ca grupele sanguine, anotimpurile anului, tipul de
afiliere religioas etc.), fie n urma unui proces de mprire n clase a unei variabile continue,
dup anumite criterii. n statistic, variabilele continue real-numerice sunt preferabile celor
discontinue-categoriale pentru c ele permit tratamente mai puternice sau mai elaborate ale
datelor. Dar cnd distribuia unei variabile continue real numerice este una anormal
(bimodal, adic cu o mare eterogenitate provocat de acumularea valorilor variabilei n jurul
a dou valori de scor, sau este puternic asimetric sau chiar trunchiat), ori cnd exist alte
121
motive ntemeiate, variabila continu poate fi recodificat n una categorial. Acest fapt se
ntmpl n mod curent cu veniturile populaiei, cu numrul de igri fumate zilnic sau cu
vrsta, pentru care este preferabil utilizarea unui numr mai mic de categorii ce permit o
autoraportare mai rapid a populaiei unui studiu. Dei prin cagorizarea variabilei continue
testul statistic pierde din putere (adic din capacitatea de a reliefa diferene atunci cnd ele
exist cu adevrat), unele tehnici statistice nici nu sunt posibile dect dac exist cel puin o
variabil categorial, cazul tipic fiind cel al analizei de varian ANOVA.
Formula distribuiei chi-ptrat este cea de mai jos:
X N P
z2 =
N P Q
(9.1)
n cazul a dou variabile categoriale chi-ptrat determin dac ele sunt independente
una n raport cu cealalt, sau dac sunt relaionate ori asociate, adic neindependente.
Acest tip de test se cheam chi-ptrat pentru asocierea datelor categoriale, n
efectuarea sa fiind necesar introducerea datelor ntr-un tabel de contingen.
Tabel de contingen: este un tabel bidimensional, adic cu dou intrri, n care fiecare
observaie este clasificat simultan pe baza celor dou variabile categoriale. ntr-un
asemenea tabel se trec obligatoriu frecvenele observate (fo) n mrime absolut (i nu
procentual) i, pe o linie separat sau n paranteze, frecvenele expectate (fe),
determinate dup un algoritm specific. Cnd se determin chi-ptrat, tabelul de
contingen are ntotdeauna o ultim linie i coloan pe care se fac totalurile
marginale, necesare determinrii frecvenelor expectate.
Variabil categorial: este o variabil discontinu care prezint dou sau mai multe categorii
distincte ce permit clasificarea fiecrei observaii doar n una dintre categorii. n acest
fel se poate determina frecvena observat pentru fiecare categorie.
Totaluri marginale: rezult din nsumarea totalurile nivelurilor unei variabile categoriale,
nsumarea fiind n funcie de nivelurile celeilalte variabile. Prin nsumare, totalurile pe
linii i totalurile pe coloane dau totalul general, simbolizat prin N, ce reprezint
numrul tuturor evenimentelor sau grupurilor pe care se face analiza. N se raporteaz
cifric odat cu chi-ptrat.
Asociere: cuvntul asociere ne duce automat cu gndul la corelaie. Apare astfel inevitabil
ntrebarea dac chi-ptrat pentru asociere poate fi considerat tot un test de corelaie.
Rspunsul este afirmativ, fr nici un echivoc, cci:
intensitatea asocierii este evaluat printr-o gril propus de Cohen, similar cu cea
destinat lui r;
reprezentare grafic specific, care este scatterul, oferind o perspectiv mult mai nuanat
asupra caracteristicilor asocierii, cci se sprijin nu pe niveluri ale variabilelor, ci pe variabile
123
continue. Faptul c o variabil continu poate deveni una categorial, cu un numr restrns de
condiii sau de categorii, sugereaz ns c testul chi-ptrat pentru asociere poate fi folosit
substitutiv nu numai pentru r, ci i pentru ANOVA, atunci cnd violarea condiiei de
normalitate este una puternic.
Testul chi-ptrat se aplic doar pentru date indicnd frecvene. Aceast condiie nu
creeaz probleme practice deosebite, cci acolo unde categoriile nu exist n mod
natural, ele pot fi create prin operaia de recodificare, utiliznd criterii clare de
categorizare. Atenie ns, cele dou variabile nu trebuie s se intersecteze, ceea ce
nseamn c fiecare observaie intr doar ntr-o singur celul de tabel.
Dac nregistrm evenimente dihotomice, de tipul celor care apar i care nu apar,
trebuie s avem pentru fiecare frecvenele aferente, astfel ca suma lor s fie mereu
aceeai.
Nici o celul a tabelului nu trebuie s aib frecvena expectat mai mic de 1, cci
mprirea la zero (fe este numitor) nu are sens.
124
probabilistic) al lui chi-ptrat determin dac abaterile constatate prin calcul de la aceste
distribuii sunt cuprinse n limitele fluctuaiei ntmpltoare (aceasta fiind ipoteza de nul), sau
dac, dimpotriv, le depete (ceea ce d ctig de cauz ipotezei specifice). Pentru a utiliza
corect procedeul chi-ptrat avem nevoie de eantioane suficient de mari (peste 30), ridicate la
ntmplare, dar care se pot clasifica n categorii separate, iar frecvenele nscrise n csuele
tabelului s nu fie prea mici (nu mai mici de 10 i n nici un caz sub 5, situaie n care se pot
comasa anumite clase pentru a depi acest numr critic).
n cazul n care frecvenele observate (fo) se compar cu frecvene dinainte cunoscute
printr-un model teoretic (fe), ce se bazeaz pe curba lui Gauss (stanine, note z, T, Hull, C, note
colare dup norma docimologic etc.), atunci comparaia prin testul chi-ptrat verific
gradul de potrivire (goodness of fit n englez) dintre distribuia teoretic i cea real
nregistrat. Aceast operaie a permis, de exemplu, depistarea unei fraude n cadrul unui
concurs unde divulgarea subiectelor de examen a condus la obinerea unui numr anormal de
ridicat de note mari n raport cu ce se atepta de la distribuia respectiv. De cele mai multe
ori proporiile teoretice nu sunt ns cunoscute i ceea ce rmne de fcut n aceast situaie
este ca acestea s fie estimate plecnd de la datele eantioanelor considerate.
Tehnica chi-ptrat pentru verificarea ipotezelor are o vechime de mai mult de o sut de
ani, fiind pus la punct de cel care a fundamentat corelaia i a fost precursorul analizei
factoriale, englezul Karl Pearson. La modul general metoda presupune doi pai: a. calculul lui
chi-ptrat; b. interpretarea semnificaiei valorii obinute cu ajutorul tabelului de distribuii 2.
Trebuie ns artat c, n cazul lui chi-ptrat pentru asociere, acest algoritm de lucru este unul
mai complex, el putnd fi desfcut n urmtoarea secven de pai:
de apartenena de gen.
Se seteaz pragul pentru care se va rejecta ipoteza de nul. De regul verificm cele
1)], unde R nseamn numrul de rnduri iar C numrul de coloane, dup care se caut
n tabel valorile lui 2critic pentru p < .05 i p < .01.
125
Exemplu: 2(1,
N=120)
disponibilitate pentru voluntariat semnificativ mai mare dect cele de gen masculin, mrimea
efectului fiind semnificativ.
Clasa I
Clasa a XIIa
Sub 5
28
68
5 6,50
64
140
6,50 8
80
110
8 10
120
16
292
334
Se cere s se calculeze prin tehnica chi-ptrat dac cele dou distribuii se abat semnificativ de
la norma docimologic.
Tabel 9.2. Frecvenele observate i cele teoretice necesare pentru determinarea lui chi-ptrat
Frecvene
Frecvene
Note
fo
fe
fo - fe
(fo-fe)
<5
28
58
-30
56,50
64
88
6,508
80
8-10
120
Total
292
(fo-fe)2
(fo-fe)2/ fe
0,02
100
40
1600
16
110
100
10
100
16
67
-51
2601
(fo-fe) / fe
fo
fe
900
15,25
68
67
-24
576
6,55
140
88
-8
64
0,73
58
62
3844
66,28
292
=89,08
334
334
fo - fe
38,82
2
=55,84
Tabelul 9.2 de mai sus nfieaz frecvenele observate (fo) i frecvenele teoretice/
expectate (fe), deduse prin transformarea procentajelor normei docimologice n efective de
subieci: regula de trei simpl arat c dac la 100 de cazuri avem 20 de subieci cu note sub
126
5, la 292 vom avea (29220):100 = 58. Coloana a treia face diferena fo - fe, iar coloana a
cincea determin raportul (fo-fe)2/fe. Chi-ptrat este suma acestei ultime coloane, fiind 89,08
pentru primul exemplu i 55,84 pentru cel de al doilea.
Formula de calcul utilizat pentru determinarea lui chi-ptrat este urmtoarea:
2 =
( f o fe )2
fe
(9.2)
Interpretarea valorii lui chi-ptrat se face prin raportare valorii obinute la un tabel
construit de Fisher (Anexa 14), asemntor ca form cu tabelele de calcul pentru z, valorile
fiind exprimate tot n numere zecimale, iar coloana df dnd numrul gradelor de libertate
(degree of freedom). Acestea se determin dup formula df = (R-1)(C-1), n care R este
numrul de rnduri i C numrul de coloane. n cazul n care avem un singur rnd i mai
multe coloane df = C-1, iar cnd avem mai multe rnduri i o singur coloan df = R-1. n
situaia prezentat df sunt (4-1) = 3. Pentru ambele exemple valorile obinute depesc cu
mult pragul de semnificaie cel mai exigent: pentru o probabilitate mai mic de unu la sut (p
< 0,01), la trei grade de libertate valoarea lui chi-ptrat critic este de 11,345, comparativ cu
care 89,08, respectiv 55,84, sunt mult mai mari, ceea ce permite respingerea ferm a ipotezei
de nul. Se poate deci afirma c abaterea n notare de la norma docimologic nu este datorat
hazardului. n primul caz frecvenele observate sunt mult sub cele teoretice pentru notele mici,
n cel de al doilea caz pentru notele mari, ceea ce ne ndreptete s afirmm c notarea i
stilul de evaluare al profesorilor se modific odat cu vrsta elevilor.
Este tiut c mediile colare erau relativ mari la nceputul ciclului primar (media
mediilor generale ale unei clase fiind peste 9), avnd o descretere progresiv lent n primul
i apoi n cel de al doilea ciclu colar, pentru ca la liceu media mediile generale ale unei clase
obinuite s scad adesea sub 7. Se pune problema atunci pentru care vrste, materii sau ani
de studiu mai este operaional norma decimologic, pentru c la vrste sau clase egale, la
aceeai materie profesori diferii au stiluri diferite de notare, unele materii dnd posibilitatea
obinerii ntregului spectru de note, n proporiile expectate, altele nu. Astfel, matematica
avansat a claselor terminale de liceu permite tot mai puin obinerea unei curbe simetrice n
notare, notele de 7, 8, 9 fiind mari, iar 10 extrem de rar obinut.
Ca i pentru tabelele z i t pragurile de semnificaie ce vor reine atenia sunt p de 0,05
(valoare peste care se admite valabilitatea ipotezei nule, sub aceasta ea respingndu-se) i de
0,01 (nivel de la care ipoteza nul este ferm respins, pentru a se admite ipoteza specific a
cercetrii). Zona dintre aceste dou repere (indicat n tabel de valoarea 0,02) este una
127
intermediar ntre cele dou praguri, fiind mai aproape de ipoteza specific dect de ipoteza
nul. Valorile excesiv de mici ale lui chi-ptrat (corespunznd unei probabiliti de eroare mai
mari de 95%) apar tot att de rar n urma variaiilor ntmpltoare ca i cele foarte mari i de
aceea ele pot constitui de asemenea temeiuri consistente pentru respingerea ipotezei de nul.
Dei testul matematic al lui chi-ptrat are foarte multe ntrebuinri speciale, el nu este
la fel de riguros ca cel bazat pe distribuiile standardizate z, mai ales cnd este aplicat
distribuiilor discontinue. Unul dintre punctele slabe al acestei tehnici este acela c, avnd
nevoie de frecvene teoretice mai mari de 5 (sau i mai sigur de 10), nu este operant pentru
eantioanele mici. Al doilea punct slab provine din aceea c procedeul nu poate ine cont de
direcia abaterilor frecvenelor observate de la cele teoretice, cci semnele minus din expresia
fo - fe dispar prin ridicarea la ptrat. n al treilea rnd, determinarea gradelor de libertate nu
este ntotdeauna o chestiune aa de simpl sau de uor rezolvabil cum apare la prima vedere.
Exemplul 2
Decizia obligativitii nceperii colarizrii la 6 ani n urm cu cteva decenii a dus la
nfiinarea unor comisii de amnare cu un an a debutului colarizrii pentru anumite categorii
de copii, considerai a fi nepregtii s nceap coala la aceast vrst. Pe parcursul unui
deceniu de activitate, doi psihologi din comisia judeean de amnare au examinat 4588 de
copii, situaia acestora fiind rezumat n tabelul de mai jos.
2,2%
6,7%
16%
25%
50%
QI
69
70-79
80-89
90-99
100
Total
69
70-79
80-89
90-99
100
A fo1
358
644
1249
654
280
3185
358
644
1249
654
280
fe1
369
633
1232
696
254
3184
70
213
513
796
1593
B fo2
174
268
526
349
86
1403
174
268
526
349
86
fe2
163
279
543
307
112
1404
31
94
226
351
702
fo1+fo2
532
912
1775
1003
366
4588
206
680
1430
730
275
Se cere s se determine:
1. dac cele dou distribuii sunt semnificativ diferite ntre ele;
128
2. dac cele dou distribuii se abat semnificativ de la distribuia gaussian, care indic
pentru QI sub 69 = 2,2 procente; ntre 70-79 = 6,70 procente; ntre 80-89 = 16 procente;
ntre 90-99 = 25 de procente; QI peste 100 = 50 de procente.
n prima jumtate de tabel avem doar frecvenele observate (fo) totalizate pe rnduri i
pe coloane, frecvenele expectate nefiind deduse din distribuii ideale sau din alte regulariti
prestabilite. Frecvenele expectate apar prin calculul efectuat asupra datelor tabelului nsui.
Astfel, prima csu din stngasus (psihologul A) se prezint astfel: fo = 358
fe = ?
fe =
532 3185
= 369,32 = 369
4588
(fiind vorba de persoane, care sunt indivizibile, se rotunjete). n acelai fel se calculeaz fe
pentru celelalte zone de QI ale rndului. Pentru rndul al doilea (psiholog B), prima csu din
stnga se prezint astfel: fo = 174.
fe = ?
fe =
532 1403
= 162,68 = 163
4588
2 =
( fo fe )2
fe
Calculele implicate de formula de mai sus se fac pornind din celula din stnga-sus i
de la stnga la dreapta, pe primul, apoi pe cel de al doilea rnd:
2 =
633
112
2 =
213
706
n dreptul lui f = 4, pentru o probabilitate p < .01, este necesar un 2critic de 13,277,
deci valoarea gsit n cazul de fa (6133,57) este att de mare nct ipoteza de nul poate fi
respins cu fermitate. Cu o probabilitate apropiat de certitudine se poate afirma c eantionul
de copii amnai colar difereau foarte semnificativ ca dotare intelectual de eantionul
normal, deoarece principalul motiv al amnrii colare a fost chiar deficitul intelectual.
Exemplul 3
A fost investigat un numr de 270 de diabetici juvenil. Comparaia dup criteriul
apartenenei de gen i al echilibrriineechilibrrii medicale a bolii respective a dat
urmtoarea distribuie:
Biei
Fete
Echil.
Neechil
Total
fo1
60
100
160
fe1
fo2
100
10
fe2
160
110
Total
110
Biei
Fete
Echil.
Neechil
Total
fo1
60
100
160
fe1
95
65
fo2
100
10
fe2
65
45
160
110
Total
270
110
270
Ipoteza specific este aceea a asocierii formei echilibrate a bolii cu genul feminin,
fetele avnd un conformism social i o complian terapeutic mai ridicat. Prin regula de trei
simpl se determin doar prima frecven expectat (fe) de stnga sus, celelalte rezultnd
automat prin diferena de pe total linie i coloan. Calculul se poate face clasic astfel:
2 =
65
65
45
2 =
(ad bc )2 T
(a + b )(c + d )(a + c )(b + d )
130
(9.3)
n care T este totalul general, iar numitorul este produsul totalurilor marginale, adic 2 =
77,02, valoare aproape identic cu cea obinut anterior, mica diferen rezultnd din faptul c
n primul caz s-a efectuat rotunjirea.
Exemplul 4
Exemplul de mai jos se refer la utilizarea proporiilor i a cuantumurilor procentuale,
pentru a clarifica probleme ce au aprut nc de la exemplul 2. Reamintim c testele chi-ptrat
opereaz numai cu frecvene, unica cale corect de a efectua fiind aceea a transformrii
Brbai
Dispui la voluntariat
78%
40%
Nedispui la voluntariat
22%
60%
Numr
1040
700
Tabelul de mai sus poate fi cu uurin convertit n frecvene, rezultnd un alt tabel, pe
care se poate face testul chi-ptrat.
Femei
Brbai
Total
Dispui la
811
280
1091
voluntariat
(652)
(439)
229
420
voluntariat
(388)
(261)
Total
1040
700
Nedispui la
2 =
439
388
261
131
649
1740
Df este de 1 iar chi-ptrat critic pentru p = 0,05 este de 3,84, ceea ce nseamn c
valoarea obinut permite respingerea ipotezei nule. Pentru acest exemplu determinm i
mrimea efectului dup formula 9.4 ce va fi explicitat ulterior:
258,38
= 0,39.
1740
2
N
(9.4)
Cramer =
2
N ( L 1)
(9.5)
132
Pajur
Total
fo
37
63
100
fe
50
50
100
2. La un joc de noroc valorile obinute prin aruncarea unui zar sunt cele sumarizate n
tabelul de mai jos (fo). Dat fiind numrul relativ mare de aruncri se ateapt ca frecvena de
apariie a celor ase fee s fie una foarte apropiat, adic n jur de 1/6 (16,67%). Trebuie s se
determine dac suspiciunea c zarul este unul trucat se poate susine cu argumente statistice.
Faa
1
Total
fo
23
32
19
22
25
17
138
fe
23
23
23
23
23
23
138
133
Trecui
Picai
Total
Real
42
50
Uman
19
11
30
Total
61
19
80
Republican
Democrat
Ortodox
240
222
400
Catolic
280
288
150
Protestant
354
200
150
Temperament
Nonalcoolic
56
41
Alcoolism uor
29
24
Alcoolici
32
41
23
26
Alcoolism mediu
21
18
Populaia
19%
29%
25%
27%
Alcoolism mare
18
12
de baz
Melancolic
Coleric
Flegmatic
Sangvinic
6. ntr-un studiu pentru demonstrarea eficacitii unui nou antipsihotic, pacienii care au fost
tratai cu acest medicament au fost comparai cu cei care au primit doar placebo. Un
numr de 720 din totalul de 1058 al celor care au primit placebo au nregistrat recderi ale
bolii, n timp ce acest fenomen s-a petrecut doar pentru 625 dintre cei 2240 de pacieni
tratai cu medicamentul antipsihotic. S se argumenteze statistic dac acest medicament a
fost unul efectiv n prevenirea recderilor.
134
CAPITOLUL 10
deoarece testele de acest tip se bazeaz pe ranguri (mult mai stabile), i nu pe valorile brute ale
scorurilor, ca n cazul testelor parametrice: prin rangare forma distribuiei devine mai puin
important.
10
135
75
21
14
32
18
Renali
25
16
40
12
15
24
Inspecia vizual a celor dou distribuii arat c testul t pentru eantioane independente
nu poate fi aplicat pentru c numrul de cazuri este extrem de redus iar scorurile de 75 i de 40
sunt valori atipice, posibil chiar extreme. De aceea vom aplica testul U, echivalentul lui t
pentru date de acest tip. Primul pas n acest sens este operaia atribuirii de ranguri pentru
fiecare scor, la comun pentru cele dou loturi. n procesul de rangare, descris anterior n
capitolul dedicat determinrii corelaiei prin metoda rangurilor (rho al lui Spearman), se tie c
nu conteaz dac atribuirea rangurilor pornete de la valorile de scor mici sau invers (ascendent
sau descendent).
136
n rangare singura situaie care trebuie rezolavat corect i unitar este aceea n care
exist mai multe valori de scor egale, situaie pentru care sunt posibile mai multe tipuri de
rezolvri.11
Ca i n cazul corelaiei rho, soluia cea mai frecvent adoptat de diveri autori este
aceea de a acorda rangul intermediar pentru valorile respective de scor i de a sri apoi la
rangul urmtor nealocat, astfel ca n final numrul rangurilor alocate s coincid cu numrul
datelor prezente. Aa cum s-a mai artat i la corelaia rangurilor rho, pentru a putea avea n
orice moment o situaie clar a rangurilor care au fost deja acordate i a celor care urmeaz s
fie alocate se poate proceda astfel: se scriu pe orizontal, n ordine cresctoare, rangurile ce vor
fi atribuite, egale ca numr cu numrul datelor de rangat. n cazul de fa vor fi scrise pe
orizontal numerele de la 1 la 18 i, pe msur ce rangurile se vor aloca, ele se vor tia cu o
bar, pentru a ti astfel n orice moment ce rang urmeaz s fie acordat. Pentru cele dou
scoruri de 8 ale stresului, n locul rangurilor 14 i 15 de alocat (care se i taie de pe list), se d
valoarea intermediar 14,5, urmtorul rang disponibil fiind deci 16. Dup ce operaia de
rangare va fi ncheiat, tabelul anterior va arta astfel:
Cardiaci
Renali
Scor
75
21
14
32
18
25
16
40
12
15
24
Rang
10
12,
18
14,
16
11
17
14,
18
12
5
Nr.
rangur
Cardiaci ranguri = 68
5
10
11
12
13
14
,5
15
16
17
Din acest tabel se observ cu uurin c suma rangurilor acordate cardiacilor i al celor
acordate renalilor este dinainte tiut (este 1+2+3+ ... +18 = 171), aadar putem determina doar
una din ele, cealalt putnd rezulta automat.
Secvena complet de urmat n cazul testului U al lui Mann-Whitney este urmtoarea:
1. Se rangheaz scorurilor pentru ambele grupe combinate, n ordine ascendent sau
descendent.
2. Se nsumeaz rangurile primului grup, rezultatul fiind R1, i ale celui de al doilea grup (R2).
3. Dup obinerea lui R1 se aplic formula 10.1 de mai jos:
U = N1 N 2 +
11
N1 ( N1 + 1)
R1
2
137
(10.1)
18
U ' = N1 N 2 U
(10.2)
5. Dintre cele dou valori U i U se alege cea mai mic pentru a efectua testul de semnificaie.
6. Ipoteza nul H0 este aceea c ambele eantioane au fost extrase din aceeai populaie.
Ipoteza specific (H1) este aceea c cele dou populaii sunt diferite.
7. Cel mai mic dintre U i U este comparat cu valoarea critic a lui U din tabelul prezentat n
Anexa 17. Specificul acestui tabel este acela c ipoteze nul poate fi respins numai dac
valoarea obinut este mai mic sau egal cu valoarea tabelar.
De fapt, tot algoritmul de mai sus se reduce la dou comparaii: a lui U cu U i, dup
alegerea celui mai mic dintre acetia, comparaia valorii alese cu valoarea tabelar, pentru N1 i
N2 corespunztori situaiei concrete de testare la nivelul de semnificaie ales, de .05 sau de
.01. n tabelul respectiv cifrele boldate sunt pentru primul prag de semnificaie ( =.05).
Exemplificm cu cazul analizat:
10(8 + 1)
U = 10 8 +
68 = 80 + 45 68 = 57
2
U = 10 8 57 = 80 57 = 23.
U = 57.
z. Procesul de interpretarea a lui z este cel cunoscut, dar acest lucru devine posibil numai dup
conversia n note z a celui mai mic dintre U i U, utiliznd urmtoarea formul (Thorne i
Giesen, 203, p. 351):
z=
N1 N 2
2
N1 N 2 ( N1 + N 2 + 1)
12
U
138
(10.3)
S admitem c n cazul prezentat valoarea reinut dup comparaia dintre U i U ar fi fost tot
de 23, dar N1 ar fi fost de 30 i N2 de 25. n acest caz:
z=
30 25
23 375 352
2
=
=
= 5,95.
30 25 (30 + 25 + 1)
750 56 59,16
12
12
23
Interpretarea lui z este urmtoarea: dac valoarea obinut este de cel puin 1,96, H0 se
respinge pentru o probabilitate de p .05, iar dac ea este n jur de 2,58 respingerea este la un
prag mai sever (p .01). Aceasta este valabil n cazul ipotezelor bidirecionale, pentru ipoteze
unidirecionale pragurile fiind mai liberale. Astfel, pentru p .05 este nevoie de o valoare a lui
t de doar 1,64.
Logica alegerii valorii celei mai mici dintre U i U pare neobinuit n condiiile n
care la testele parametrice respingerea ipotezei nule este condiionat de valori mai mari dect
cele ale pragurilor critice din tabel. Pentru testul Mann-Whitney ipoteza de nul se sprijin pe
faptul c, atunci cnd volumul loturilor comparate este unul apropiat, suma rangurilor ar trebui
s fie i ea ct mai apropiat, dac nu identic, pentru a putea susine c cele dou loturi provin
din aceeai populaie. Cu ct una dintre valorile calculate U i U este mai mic, cu att cealalt
este mai mare, cci suma tuturor rangurilor rmne aceeai. Aadar, diferena dintre ele
descrete pe msur ce una dintre valori este mai mic i, n consecin, valoarea U sau U mai
mic dect cea tabelar justific respingerea ipotezei de nul.
39
29 45
80
Fete
22
68 50 74 19 49 94 126 87
Rang
10
19 11
Nr.
10 11 12
13
14
1.
39
22
14,5 17,5
15
16
N1 = 11;
65
80
4,5 9
17
18
N2 = 8
Formulai ipoteza de nul i ipoteza specific (de cercetare) legat de diferenele de gen
privind performana la testul de vocabular, n dou forme: bidirecional i unidirecional.
139
57
19
2. Argumentai care sunt motivele pentru care n cazul prezentat este preferabil testul U ca
alternativ la testul t pentru eantioane independente.
3. Aplicai testul t pentru eantioane independente de volum mic (dispersii cumulate) i
determinai dac ipoteza de cercetare se confirm, n condiiile formulrii ei bidirecionale
i unidirecionale.
4. Percurgei paii prezentai n curs pentru determinarea lui U i luai decizia potrivit n
legtur cu respingerea ipotezei nule, cercetnd ambele praguri prezentate n tabel ( = .05,
= .01).
5. Raportai cifric i narativ rezultatele obinute.
6. S se determine z pentru situaia n care efectivele comparate ar fi fost mai mari cu 15 i U
ar fi avut aceeai valoare.
140
nainte
Dup
||
Rang
Semn
34
21
13
13
14
14
21
17
28
25
16
18
21
17
29
20
54
30
24
24
10
18
14
Ranguri de acordat
Sume ranguri
= 17
+ = 28
Total = 45
n tabel s-au introdus cteva coloane suplimentare, dintre care una d expresie
diferenei dintre cele 10 perechi de valori ale anxietii de dinainte i de dup examen. Atragem
atenia c, atunci cnd pentru o pereche se obine diferen nul (zero), aceasta se elimin din
calcul. n cazul analizat diferena de la perechea a doua este zero i de aceea ea se elimin, ceea
ce nseamn c vor rmne numai 9 ranguri de alocat i nu 10, cum era situaia iniial. Cea de
a patra coloan red diferenele de ranguri n modul i, eliminnd semnele plus i minus, acum
devine mai uor de alocat cele 9 ranguri. Rezultatul acestei operaii este prezentat n coloana a
5-a, ultima coloan fiind cea care separ semnele plus de cele minus pentru a putea face mai
uor suma rangurilor la categoria cea mai mic. n cazul de fa exist 2 de minus i 7 de plus,
deci pentru categoria minus se vor aduna cele dou ranguri: 9 + 8 = 17. n anexa 17 n dreptul
lui 9 (numrul de ranguri efectiv alocate) valoarea critic pentru p .05 este de 6. Valoarea
obinut de noi fiind mai mare, H0 nu poate fi rejectat i deci nu putem susine ntemeiat c
nivelul anxietii generale a diminuat semnificativ dup susinerea examenului.
141
3. Ambele sunt teste de putere mic, care n principiu ar avea nevoie de numere mari pentru a
fi mai concludente, dar n realitate se aplic pentru numere mici, de regul sub 20 de cazuri.
4. Pentru ambele, efectivele mai mari sunt aproximate prin distribuia normal z.
5. Pentru ambele exist programe statistice care uureaz considerabil volumul de munc
implicat, producnd date acurate, pentru care singura problem real rmne cea a
interpretrii i raportrii corecte a rezultatelor.
O parte dintre asemnrile semnalate anterior provin din aceea c ambele metode au
fost imaginate i create de acelai cercettor, Wilcoxon, testul U primind numele de la cei care
au perfecionat procedura (Mann i Whitney), pentru a-l putea distinge mai clar de regula
semnului, integral creditat lui Wilcoxon.
n cazul testului T al semnului pentru eantioane ce depesc ca volum numrul de 20
de cazuri, reprezentarea distribuiei normale z se face dup formula (Howell, 2008, p. 507):
N ( N + 1)
4
N ( N + 1)( 2 N + 1)
24
T
z=
(10.5)
Guilford (1978) apreciaz c punctul forte al acestei metode neparametrice este acela c
ea se poate aplica fr a mai ine cont de forma distribuiei i de egalitatea varianelor celor
dou serii se date. n acest caz diferena nu mai trebuie determinat cu acuratee, cci nu ea este
cea care conteaz, ci direcia n care aceasta se manifest. De aici provine ns i una dintre
slbiciunile metodei, care nu utilizeaz toat informaia disponibil de la cele dou variabile.
Astfel, dac msurtoarea s-a fcut pe o scal de interval (uniti de msur egale pe toat
scala), n care diferenele ar putea fi comparate nu numai ca direcie, ci i ca mrime, testul
semnului va ignora acest fapt. Aa se face c, exceptnd eantioanele mici, acest test are doar
60% din puterea unui test t pentru eantioane corelate, atunci cnd ambele teste se aplic
simultan.
Pentru creterea puterii testului T, astfel nct aceasta s devin comparabil cu a
testului parametric t corespondent, cercetrorul va fi obligat s creasc numrul subiecilor
investigai, dar n acest caz se ajunge s fie preferabil utilizarea distribuiilor z (formula 10.5).
Acest lucru devine aproape obligatoriu datorit faptului c diferena de sensibilitate n
detectarea unor efecte real existente (adic puterea testului statistic) este apreciabil de mult n
favoarea testului parametric pentru eantioane corelate, comparativ cu perechea sa
neparametric. Testul T poate rmne ns n continuare singura alternativ valabil i pentru
eantioanele mai mari, care ns se abat semnificativ de la condiia de normalitate a distribuiei.
142
23 13 15 17 19
13 10 9 14 21
23
10
25 10
20 10
16
13
N
8
5
7
0
12 41
10 20
X
X
X
X2
13
13
17,62 11,92
9,07
6,01
229
155
5021 2281
XY = 3219
r=?
mediile a mai mult de dou grupuri. n acest caz rezultaltul testului H ne ajut s decidem dac
aceste grupuri provin dintr-o aceeai populaie (ipoteza de nul H0).
Comparaia cu tehnica ANOVA pe o cale evideniaz o asemnare major cu aceasta n
sensul c rezultatul testului H Kruskal-Wallis este unul de tip omnibus, ca i F din analiza de
varian clasic. Ca i n analiza post-hoc din ANOVA, dac H este gsit semnificativ, atunci
pot fi desfurate mai departe analize de comparaie a grupurilor de cte dou prin testul U
Mann-Whitney, pentru a determina ntre care dintre variabilele analizate diferenele sunt
semnificative.
Pornind de la ipoteza de nul distribuiile grupurilor comparate sunt similare i deci ele
provin dintr-o aceeai populaie se poate infera c suma rangurilor este apropiat sau foarte
similar pentru toate grupurile comparate. Sumele rangurilor care sunt semnificativ diferite
ntre ele vor duce la rejectarea ipotezei nule i la admiterea ipotezei specifice (de cercetare).
Pentru a nelege mai bine similitudinile testului H cu testul U Mann-Whitney, dar i
specificul acestei metode, vom porni de la un exemplu concret. La un test de leadership, cei
trei candidai au obinut urmtoarele scoruri brute:
Candidat A
Candidat B
Candidat C
29
16
31
22
14
27
18
12
24
15
11
16
14
13
Se cere s se determine dac cele trei serii de date reprezint o aceeai populaie sau
populaii diferite. Pentru a putea ilustra modul de lucru al testului H furnizm mai jos formula
sa:
H=
n care:
12
R2
i 3( N + 1)
N ( N + 1) N i
(10.6)
N reprezint numrul total de observaii, rezultat prin combinarea celor trei situaii;
Ni reprezint numrul de observaii n fiecare dintre cele trei situaii;
Ri reprezint suma rangurilor n fiecare dintre cele trei situaii.
Din formula de mai sus rezult c operaia de debut a testului este aceea de rangare,
dup regulile cunoscute, a celor trei serii de date reunite. n aceast situaie tabelul de mai sus
va arta astfel:
144
Candidat A
Candidat B
Candidat C
Brut
Rang
Brut
Rang
Brut
Rang
29
14
16
8,5
31
15
22
11
14
5,5
27
13
18
10
12
24
12
15
11
16
8,5
14
5,5
13
ranguriA = 47,5
ranguriB = 20
ranguriC = 52,5
12
12 47,52 202 52,52
R2
3 16 = 0,05 1082,5 48 = 6,125.
i 3( N + 1) =
+
+
15 16 5
5
5
N ( N + 1) N i
N1 ( N1 + 1)
56
R1 = 5 5 +
47,5 = 7,5 U ' = N1 N 2 U = 25 (7,5) = 32,5
2
2
U = N 2 N3 +
N 2 ( N 2 + 1)
56
R2 = 5 5 +
20 = 20
2
2
U ' = N 2 N 3 U = 25 20 = 5
Valoarea tabelar semnificativ este de 2, n raport cu care ambele valori ale testului de
mai sus sunt mai mari i deci nesemnificative. Aadar, ipoteza de nul nu poate fi respins la
nivelul comparaiilor pe perechi, aceasta i datorit faptului c ele sunt extrem de reduse
numeric.
145
Din exemplul anterior s-ar putea crede c grupurile comparate trebuie s fie unele egale
numeric, fapt care nu este real, grupurile comparate putnd diferi ca ordin de mrime.
Extinderea numeric a grupurilor comparate, dar i a numrului de grupuri implicate n acest
test statistic amplific mult volumul de munc i implicit probabilitatea de eroare, metoda
putnd fi considerabil simplificat prin utilizarea unui program statistic adecvat.
Prezentm mai jos un al doilea exemplu care pleac de la presupunerea c inteligena
emoional este asociat cu ordinea n fratrie. Pentru a verifica aceast ipotez s-a aplicat un
test sociometric unui numr de 21 de studeni, din care 7 au fost primul nscut, 8 al doilea
nscut i 5 de la al treilea nscut n sus. Rezultatele sunt ntabelate alocnd pentru fiecare
categorie o coloan cu scorurile brute obinute la test i una cu rangul alocat acestor scoruri,
dar numai dup cumularea celor trei efective.
Primul nscut
Al doilea nscut
Al treilea nscut
Brut
Rang
Brut
Rang
Brut
Rang
25
18
30
21
14
7,5
24
17
27
20
12
5,5
23
16
26
19
10
20
15
18
12,5
19
14
15
10
1,5
18
12,5
15
10
1,5
15
10
14
7,5
12
5,5
ranguriA = 102,5
ranguriB = 105,5
ranguri_total=231
ranguriC = 23
Ntotal = 21
H=
+
+
21 22 7
8
6
Valoarea tabelar a lui H la df = 2 este de 5,99 pentru p = .05 i de 9,21 pentru p = .01.
Cum valoarea testului obinut de n cazul de fa este mai mare, rezult c ipoteza de nul
poate fi rejectat, existnd deci o foarte mic probalilitatea (sub un procent) ca aceste diferene
s fi aprut din ntmplare. Rmne de determinat n continuare care sunt grupurile ntre care
aceste diferene ating pragul semnificaiei statistice.
146
Flegmatic
Coleric
Melancolic
32
24
33
28
19
26
28
19
26
22
12
17
28
19
17
23
24
29
24
15
21
23
15
16
17
18
29
10
33
19
31
29
14
27
17
26
147
Stabili
Instabili
Extraveri
Introveri
emoional
emoional
32
24
32
33
19
26
19
28
26
22
26
12
28
19
28
17
24
29
24
24
21
23
21
15
17
18
17
29
33
19
33
31
29
28
29
14
27
19
27
17
33
17
24
26
28
23
26
28
12
15
22
19
17
16
19
17
24
10
29
23
15
23
15
29
18
16
31
19
10
14
17
26
148
Stima_2
Stima_3
Stima_4
Subiect
Brut
Rang
Brut
Rang
Brut
Rang
Brut
Rang
24
26
25
28
14
13
17
19
21
22
25
24
20
21
22
25
22
20
18
23
19
18
20
24
15
12
16
17
29
30
31
34
ranguri1 = 13
ranguri2 = 14
ranguri3 = 22
ranguri4 = 31
Ceea ce este specific acestei metode este n primul rnd modul de alocare a rangurilor.
Ele nu se mai acord prin punerea la comun a celor patru seturi de scoruri pentru a costrui o
singur colecie de date, numrul de ranguri alocate nemaitrebuind s fie suma celor patru
efective, ca n cazul celorlalte teste neparametrice prezentate anterior. Dimpotriv, se acord
ranguri doar de la 1 la 4 (numrul de ranguri fiind egal cu cte msurtori repetate au fost)
comparnd scorurile obinute de acelai subiect la cele 4 condiii i dnd rangul 1 scorului cel
mai mic, 2 urmtorului .a.m.d. n pasul al doilea, suma acestor ranguri se face pe coloan,
totalurile trecndu-se n rubrica de jos. Deci scorurile se rangheaz pentru fiecare participant
separat i apoi se adun pe coloan pentru a obine totalurile fiecrei coloane n parte. Dup
aceea se evalueaz variabilitatea celor patru sume dup formula:
F2 =
12
Ri2 3 N (k + 1)
Nk (k + 1)
(10.7)
n care:
N reprezint numrul de subieci;
k reprezint numrul de condiii (de msurtori repetate);
Ri reprezint suma rangurilor pentru fiecare din cele trei condiii.
n situaia analizat:
F 2 =
12
12
Ri2 3 N (k + 1) =
132 + 142 + 222 + 312 3 8 5 = 137,75 120 = 17,75
Nk (k + 1)
845
149
Prof_1
Prof_2
Prof_3
Prof_4
7,20
7,50
7,30
7,00
8,75
8,25
8,40
8,80
6,20
6,80
7,00
6,50
10
9,20
9,40
9,80
5,75
6,25
6,15
6,00
8,40
8,25
8,60
8,10
7,80
8,00
8,10
8,25
9,75
9,50
9,40
10
6,60
6,80
6,50
10
7,25
7,00
8,00
7,75
11
9,00
9,25
9,15
9,30
12
7,50
7,25
7,75
7,60
150
a Da
a Da
b Nu
b Nu
a Da
b Nu
6. Pentru datele culese pe o scal ordinal se poate face media deoarece aceasta are
proprietatea aditivitii.
a Da
b Nu
7. Numii tipul de scal utilizabil n msurarea categoriilor de mai jos, alocnd cifrele 1, 2, 3
i 4 pentru scalele nominal, ordinal, de interval i de raport:
scala Celsius
scala Kelvin numrul camerelor de hotel ordinea sosirii la maraton
scorul final la acest examen
presiunea sanguin
genul
greutatea.
8. Pentru datele culese pe o scal ordinal putem face media deoarece aceasta are proprietatea
aditivitii.
a Da
b Nu
151
10
9
8
Frequency
3
2
2
1
6.0
7.0
8.0
9.0
0
0.0
1.0
2.0
3.0
4.0
5.0
a 2,50
b3
c2
d Nu se poate
a 2,54
b 2,63
c 2,71
d 2,66
a9
b6
c1
d 1,50
a 0.42
b 0.40
c 0.39
d 0.50
a asimetric negativ
b simetric
c nedefinit
d asimetric pozitiv
Histogram
Diagram cu bare
Poligonul frecvenelor
17. La distribuia de mai sus tendina central este cel mai bine indicat de:
Medie
Median
Mod
10
6
4
4
2
Viteza
Timp
-2
-2
10
0
-2
Erori
Erori
B
152
10
a -0.60
b 0.70
c -0.80
d 0.90
d 0.95
a -0.60
b 0.70
c -0.80
d 0.90
d 0.95
20. ncercuii n diagrama A cele trei puncte care mresc cel mai mult corelaia.
21. ncercuii n diagrama B cele trei puncte care coboar cel mai mult corelaia.
22. Adugai n spaiul diagramei A un punct astfel nct el s omoare maximal corelaia.
23. Adugai n spaiul diagramei B un punct care s umfle inflaionist maximal corelaia.
24. Desenai cu atenie, ct mai adecvat, linia de regresie pentru ambele diagrame A i B.
25. Studiind corelaiile dintre Erori-Timp i Erori-Vitez, corelaia dintre Timp i Vitez va fi:
a Negativ mic
b Negativ medie
c Spre zero
d Pozitiv medie
e Pozitiv mare
26. Cele mai sigure predicii ale lui Y n raport cu X se pot face din:
a Diagrama A
b Diagrama B
3 8 4 10 2 5 6 10 8 9 6 7 9 5 4 6 8 9
4 7 5 8 3 5 7 9 10 8 6 4 9 6 6 7 7 10
Ranguri de alocat:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
r = .........
= .........
29. Rangai corect cele dou serii de valori, folosind spaiul de deasupra i de dedesubt.
30. Determinai corelaia celor dou serii de valori prin metoda produselor a lui Pearson (r).
31. Determinai corelaia celor dou serii de valori prin metoda rangurilor a lui Spearman ().
32. Testai ipoteza existenei unei diferene semnificative a mediilor, ca i cum ar fi dou
distribuii de eantioane independente.
33. Evaluai, comentai i raportai corespunztor rezultatul obinut. .........................................
.......................................................................................................................................................
.......................................................................................................................................................
.......................................................................................................................................................
.......................................................................................................................................................
.......................................................................................................................................................
153
Bibliografie
1. American Psychological Association (2001). Publication Manual of the American
Psychological Association. 5th Edition. Washington, DC.
2. Buchner, A., Erdfelder, E., & Faul, F. (2001). How to Use the G*Power,
http://www.psycho.uni-duesseldorf.de, accesat la 01.10.2010.
3. Chatfiled, C. (1985). The initial examination of data. In Journal of the Royal Statistical
Society; Series A (General), 148(3): 214-253.
4. Clark-Carter, D. (2004). Quantitative psychological research. A student's handbook. Hove
and New York: Psycholohy Press.
5. Clinciu, A. I. (2012). Statistici multivariate pentru psihologie. Braov: Editura Universitii
Transilvania.
18. Guilford, J. P., Fruchter, B. (1978). Fundamental Statistics in Psychology and Education,
New York: McGraw Hill Book Company.
19. Havrneanu, C. (2000). Cunoaterea psihologic a persoanei. Posibiliti de utilizare a
computerului n psihologia aplicat. Iai: Editura Polirom.
20. Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2009). Multivariate Data
Analysis. Seventh Edition, New York: Pearson Prentice Hall.
21. Hinton, P. R., Brownlow, C., McMurray, I., & Cozens, B. (2004). SPSS Explained.
London and New York: Routledge, Taylor & Francis Group.
22. Howell, D. C. (2008). Fundamental Statisctics fot Behaviooral Sciences. Sixth Edition.
Thomson Wadsworth.
23. Howitt, D., & Cramer, D. (2008). Introduction to Reasearch Methods in Psychology.
Edinburgh Gate, Harlow: Pearson Education Limitid.
24. Hoyle, R. H. (1999). Statistical Strategies for Small Sample Research. Thousand Oaks,
London, New Delhi: Sage Publications.
25. Issac, S., Michael, W. B. (1972). Handbook of Research and Evaluation. San Diego,
California, 92107: Robert R. Knapp Publisher.
26. Jaun, A. K., Murtz, M. N., & Flynn, P. J. (1999). Data Clustering: A review. ACM
Computing Surveys 31(3): 364-323.
27. Kinnear, P. R., & Gray, C. D. (2006). SPSS 14 made simple. Hove and New York:
Psychological Press. Taylor & Francis Group.
28. Labr, A. V. (2008). SPSS pentru tiinele educaiei. Iai: Editura Polirom.
29. Lungu, O. (2001). Ghid introductiv pentru SPSS 10.0. Seria psihologie experimental i
aplicat. Iai: S.C. Erota Tipo S.R.L.
30. Mertler, C. A., & Vannatta, R. A. (2005). Advanced and Multivariate Statistical Methods.
Practical Applications and Interpretation. Third edition. Glendale: Pyrczak Publishing.
31. Milligan, G. (1980). An Examination of the Effect of Six Types of Error Perturbation of
Fifteen Clustering Algoritms. Psychometrika 45 (September): 325-342.
32. Milligan, G. W., & Cooper, M. C. (1985). An Examination of Procedures for Determining
the Number of Clusters in a Data Set. Psihometrika 50(2), 159-179.
33. Nicol, A. A. M., Pexman, P. M. (1999). Presenting your findings. A practical guide for
creating tables. Washinton DC, USA: American Psychological Association.
34. Pedhazur, E. J., Schmelkin, L. (1991). Mesurement, design and analysis: an integrated
approach. Hillsdale, USA: Lawrence Erlbaum Associates, Inc.
155
35. Popa, M. (2008). Statistic pentru psihologie. Teorie i aplicaii SPSS. Iai: Editura
Polirom.
36. Popa, M. (2010). Statistici multivariate aplicate n psihologie. Iai: Editura Polirom.
37. Quick, D. (2004). Making Tables and Figures. In G. A. Morgan, N. L. Leech, G. W.
Gloeckner, and K. C. Barrett, SPSS for Introductory Statistics. Use and Interpretation.
Second Edition. London: Lawrence Erlbaum Associates, Publishers.
38. Rateau, P. (2004). Metodele i statisticile experimentale n tiinele umane. Iai: Editura
Polirom.
39. Reuchlin, M. (1992). Introduction a la recherche en psychologie. Paris: Hathan Universit
40. Rosenthal, R., Rosnow, R. L., Rubin, D. B. (2000). Contrasts and correlations in effectsize estimation. Psychological Sciences, 11(6), 446-453.
41. Sava, F. A. (2004). Analiza datelor n cercetarea psihologic. Metode statistice
complementare. Cluj-Napoca: Editura ASCR.
42. Sava, F. A., Mricuoiu, L. P. (2007). PowerStaTim. Manualul utilizatorului. Timioara:
Editura Universitii de Vest.
43. Sava, F. A. (2011). Analiza datelor n cercetarea psihologic. Cluj-Napoca: Editura
ASCR.
44. Sava, F. A. (2013). Psihologia valifat tiinific. Ghid practic de cercetare n psihologie.
Iai: Editura Polirom.
45. Stilis, D. L. (Ed.) (1989). International enciclopedia of the social sciences: Biographical
supplement (vol. 18). New York: Macmillan.
46. Tabachnick, B. G., & Fidell, L. S. (2007). Using Multivariate Statistics. Fifth edition.
Boston, New York, San Francisco etc.: Pearson Education, Inc., Allyn and Bacon.
47. Thorne, B., & Giesen, G. M. (2003). Statistics for the Social Sciences. Boston, Burr Ridge
etc.: Mc Graw Hill.
48. Vod, V. (1977). Gndirea statistic un mod de gndire al viitorului. Bucureti: Editura
Albatros.
49. Vogt, W. P. (1999). Dictionary of Statistics and Methodology. A Nontechnical Guide for
the Social Sciences, Second edition. Thousand Oaks, London, New Delhi: Sage
Publications.
50. Weaver, K. (2000). Basic Statistic Analysis. Sixth Edition. Study Guide. Boston, London
etc.: Allyn and Bacon. NeedhamHeights, Massachusetts.
156
A N E X E CU U T I L I T I S T A T I S T I C E
STATISTICA DESCRIPTIV
CENTRU
Tendina
central
Media
Mediana
Modul
FORM MPRTIERE
Crostabulare
Variabilitatea
AI=Range
Variana
Abaterea
standard
Corelaie
Diferene de medii
Tabele bivariate
Forma curbei
Simetria (Skewness)
Boltirea (Kurtosis)
Scatter-ploturi
Ploturi clasificatorii
Curba normal
Scorurile z
Distribuia normal standard
INFERENA STATISTIC
Eantionarea
distribuiilor
Eroarea
standard
Teorema limit
central
Nivelul de semnificaie
Ipoteza de nul
Testarea ipotezelor
Ipoteze
alternative
Intervale de
ncredere
Eroarea de tip I
Eroarea de tip II
Puterea cercetrii
Mrimea efectului
157
Diferen
eantioane
corelate
Media i SD
Mrimea
efectului d
Boxploturi/
histograme
Test t pentru
eantioane
corelate
Diferen
eantioane
independe
nte
Media i SD
Mrimea
efectului d
Boxploturi/
histograme
Test t pentru
eantioane
independente
Dou
eantioa
ne
Diferen
Un
eantion
FENOMEN
UL DE
INTERES
Relaie
Diferena
pe un
eantion
Media i SD
Mrimea
efectului d
Boxploturi/
histograme
Testul t pentru
un eantion
Relaie
utiliznd
ranguri
(rho) Spearman
(tau) Kendall
Scatter-plot
Se examineaz
valoarea p
pentru sau
Relaie
liniar
utiliz.
scoruri
r al lui Pearson
Scatter-plot
Se examineaz
valoarea p
a lui r
STATISTICI
DESCRIPTIVE
STATISTICI
INFERENIA
LE
158
Tip de
categorizare
Calitative
(categoriale)
TIP DE
DATE
Relaii
Ovariabil
categorial
Potrivire
(g.o.f.) 2
Dou
variabile
categoriale
Tabele de
contingen
2
Numr
de
predictori
Grad
relaie
Continu
Interes
primar
Ranguri
Spearman
Unul
Msur
Muli
Regresie
multipl
Dou
Relaii
dintre
MannWhitney
eantioan
Ea Corel
Formarea
relaiei
Corelaie
r Pearson
Regresie
t pt. dou
eantioan
Independ.
Cantitative
(de msur)
Tip de
ntrebare
One-way
ANOVA
Depend.
Wilcoxon
Diferene
Numr de
grupuri
Mai
multe
Independ.
NrVariab.
Depend.
Msurto
ri repetate
Relaii
dintre
eantioan
Friedmzz
zccan
159
Un
KruskalWallis
Multe
ANOVA
factorial
z
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
2
2,1
2,2
2,3
2,4
2,5
2,6
2,7
2,8
2,9
3
3,1
3,2
3,3
3,4
3,5
3,6
3,7
3,8
3,9
4
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,00000
0,03983
0,07926
0,11791
0,15542
0,19146
0,22575
0,25804
0,28814
0,31594
0,34134
0,36433
0,38493
0,40320
0,41924
0,43319
0,44520
0,45543
0,46407
0,47128
0,47725
0,48214
0,48610
0,48928
0,49180
0,49379
0,49534
0,49653
0,49744
0,49813
0,49865
0,49903
0,49931
0.49952
0,49966
0,49977
0,49984
0,49989
0,49993
0,49995
0,49997
0,00399
0,04380
0,08317
0,12172
0,15910
0,19497
0,22907
0,26115
0,29103
0,31859
0,34375
0,36650
0,38686
0,40490
0,42073
0,43448
0,44630
0,45637
0,46485
0,47193
0,47778
0,48257
0,48645
0,48956
0,49202
0,493%
0,49547
0,49664
0,49752
0,49819
0,49869
0,49906
0,49934
0,49953
0,49968
0,49978
0,49985
0,49990
0,49993
0,49995
0,49997
0,00798
0,04776
0,08706
0,12552
0,16276
0,19847
0,23237
0,26424
0,29389
0,32121
0,34614
0,36864
0,38877
0,40658
0,42220
0,43574
0,44738
0,45728
0,46562
0,47257
0,47831
0,48300
0,48679
0,48983
0,49224
0,49413
0,49560
0,49674
0,49760
0,49825
0,49874
0,49910
0,49936
0,49955
0,49969
0,49978
0,49985
0,49990
0,49993
0,49996
0,49997
0,01197
0,05172
0,09095
0,12930
0,16640
0,20194
0,23565
0,26730
0,29673
0,32381
0,34849
0,37076
0,39065
0,40824
0,42364
0,43699
0,44845
0,45818
0,46638
0,47320
0,47882
0,48341
0,48713
0,49010
0,49245
0,49430
0,49573
0,49683
0,49767
0,49831
0,49878
0,49913
0,49938
0,49957
0,49970
0,49979
0,49986
0,49990
0,49994
0,49996
0,49997
0,01595
0,05567
0,09483
0,13307
0,17003
0,20540
0,23891
0,27035
0,29955
0,32639
0,35083
0,37286
0,39251
0,40988
0,42507
0,43822
0,44950
0,45907
0,46712
0,47381
0,47932
0,48382
0,48745
0,49036
0,49266
0,49446
0,49585
0,49693
0,49774
0,49836
0,49882
0,49916
0,49940
0,49958
0,49971
0,49980
0,49986
0,49991
0,49994
0,49996
0,49997
0,01994
0,05962
0,09871
0,13683
0,17364
0,20884
0,24215
0,27337
0,30234
0,32894
0,35314
0,37493
0,39435
0,41149
0,42647
0,43943
0,45053
0,45994
0,46784
0,47441
0,47982
0,48422
0,48778
0,49061
0,49286
0,49461
0,49598
0,49702
0,49781
0,49841
0,49886
0,49918
0,49942
0,49960
0,49972
0,49981
0,49987
0,49991
0,49994
0,49996
0,49997
0,02392
0,06356
0,10257
0,14058
0,17724
0,21226
0,24537
0,27637
0,30511
0,33147
0,35543
0,37698
0,39617
0,41309
0,42785
0,44062
0,45154
0,46080
0,46856
0,47500
0,48030
0,48461
0,48809
0,49086
0,49305
0,49477
0,49609
0,49711
0,49788
0,49846
0,49889
0,49921
0,49944
0,49961
0,49973
0,49981
0,49987
0,49992
0,49994
0,49996
0,49998
0,02790
0,06749
0,10642
0,14431
0,18082
0,21566
0,24857
0,27935
0,30785
0,33398
0,35769
0,37900
0,39796
0,41466
0,42922
0,44179
0,45254
0,46164
0,46926
0,47558
0,48077
0,48500
0,48840
0,49111
0,49324
0,49492
0,49621
0,49720
0,49795
0,49851
0,49893
0,49924
0,49946
0,49962
0,49974
0,49982
0,49988
0,49992
0,49995
0,49996
0,49998
0,03188
0,07142
0,11026
0,14803
0,18439
0,21904
0,25175
0,28230
0,31057
0,33646
0,35993
0,38100
0,39973
0,41621
0,43056
0,44295
0,45352
0,46246
0,46995
0,47615
0,48124
0,48537
0,48870
0,49134
0,49343
0,49506
0,49632
0,49728
0,49801
0,49856
0,49896
0,49926
0,49948
0,49964
0,49975
0,49983
0,49988
0,49992
0,49995
0,49997
0,49998
0,03586
0,07535
0,11409
0,15173
0,18793
0,22240
0,25490
0,28524
0,31327
0,33891
0,36214
0,38298
0,40147
0,41774
0,43189
0,44408
0,45449
0,46327
0,47062
0,47670
0,48169
0,48574
0,48899
0,49158
0,49361
0,49520
0,49643
0,49736
0,49807
0,49861
0,49900
0,49929
0,49950
0,49965
0,49976
0,49983
0,49989
0,49992
0,49995
0,49997
0,49998
160
z
4,1
4,2
4,3
4,4
4,5
4,6
4,7
4,8
4,9
5
5,1
52
5,3
5,4
5,5
5,6
5,7
5,8
5,9
6
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,49998
0,49999
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,49998
0,49999
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,49998
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,49998
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,49998
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,49998
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,49998
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,49998
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,49999
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,49999
0,49999
0,49999
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
0,50000
.05
.02
.01
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
0
2
4
6
8
11
14
17
21
25
30
35
40
46
52
59
66
73
81
89
0
2
3
5
7
10
13
16
20
24
28
33
38
43
49
56
62
69
77
0
2
3
5
7
10
13
16
20
23
28
32
38
43
44
55
61
68
161
anse din
100
84
69
55
42
32
23
16
11
7
5.0
4,5
3,6
2,8
2,1
1,6
1,2
1,0
0,9
0,7
0,5
0,4
0,27
0,19
0,14
0.10
0,07
0,046
0,032
0,014
0,006
0,0006
0,00006
df
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
df
0,10
6,314
2,920
2,353
2,132
2,015
1,943
1,895
1,860
1,833
1,812
1,796
1,782
1,771
1,761
1,753
1,746
1,740
1,734
1,729
1,725
1,721
1,717
1,714
1,711
1,708
1,706
1,703
1,701
1,699
1,697
1,64485
0,10
0,10
0,05
12,706
4,303
3,182
2,776
2,571
2,447
2,365
2,306
2,262
2,228
2,201
2,179
2,160
2,145
2,131
2,120
2,110
2,101
2,093
2,086
2,080
2,074
2,069
2,064
2,060
2,056
2,052
2,048
2,045
2,042
1,95996
0,05
0,05
0,02
31,821
6,965
4,541
3,747
3,365
3,143
2,998
2,896
2,821
2,764
2,781
2,681
2,650
2,624
2,602
2,583
2,567
2,552
2,539
2,528
2,518
2,508
2,500
2,492
2,485
2,479
2,473
2,467
2,462
2,457
2,32634
0,02
0,02
0,01
63,657
9,925
5,841
4,604
4,032
3,707
3,499
3,355
3,250
3,169
3,106
3,055
3,012
2,977
2,947
2,921
2,898
2,878
2,861
2,845
2,831
2,819
2,807
2,797
2,787
2,779
2,771
2,763
2,756
2,750
2,57582
0,01
162
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
120
= 0,10
3,078
1,886
1,638
1,533
1,476
1,440
1,415
1,397
1,383
1,372
1,363
1,356
1,350
1,345
1,341
1,337
1,333
1,330
1,328
1,325
1,323
1,321
1,319
1,318
1,316
1,315
1,314
1,313
1,311
1,310
1,303
1,296
1,289
1,282
= 0,05
6,314
2,920
2,353
2,132
2,015
1,943
1,895
1,860
1,833
1,812
1,796
1,782
1,771
1,760
1,753
1,746
1,740
1,734
1,729
1,725
1,721
1,717
1,714
1,711
1,708
1,706
1,703
1,701
1,699
1,697
1,684
1,671
1,658
1,645
= 0,025
12,706
4,303
3,182
2,776
2,571
2,447
2,365
2,306
2,262
2,228
2,201
2,179
2,160
2,145
2,131
2,120
2,110
2,101
2,093
2,086
2,080
2,074
2,069
2,064
2,060
2,056
2,052
2,048
2,045
2,042
2,021
2,000
1,980
1,960
163
= 0,01
31,821
6,950
4,541
3,747
3,365
3,143
2,998
2,896
2,821
2,764
2,718
2,681
2,650
2,624
2,602
2,583
2,567
2,552
2,539
2,528
2,528
2,508
2,500
2,492
2,485
2,479
2,473
2,467
2,462
2,457
2,423
2,390
2,358
2,326
= 0,005
63,657
9,925
5,841
4,604
4,032
3,707
3,499
3,355
3,250
3,169
3,106
3,055
3,102
2,977
2,947
2,921
2,898
2,878
2,861
2,845
2,831
2,819
2,807
2,797
2,787
2,779
2,771
2,763
2,756
2,750
2,704
2,660
2,617
2,576
=0,0005
636,620
31,598
12,924
8,610
6,869
5,959
5,408
5,041
4,781
4,587
4,437
4,318
4,221
4,140
4,073
4,015
3,965
3,922
3,883
3,850
3,819
3,792
3,767
3,745
3,725
3,707
3,690
3,674
3,659
3,646
3,551
3,460
3,373
3,291
df
10%
p = .10
5%
p = .05
2%
p = .02
1%
p = .01
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
35
40
45
50
60
70
80
90
100
110
120
6.3138
2.9200
2.3534
2.1318
2.0150
1.9432
1.8946
1.8595
1.8331
1.8125
1.7959
1.7823
1.7709
1.7613
1.7531
1.7459
1.7396
1.7341
1.7291
1.7247
1.7207
1.7171
1.7139
1.7109
1.7081
1.7056
1.7033
1.7011
1.6991
1.6973
1.6869
1.6839
1.6794
1.6759
1.6706
1.6669
1.6641
1.6620
1.6602
1.6588
1.6577
1.6449
12.7062
4.3027
3.1824
2.7764
2.5706
2.4469
2.3646
2.3060
2.2622
2.2281
2.2010
2.1788
2.1604
2.1448
2.1315
2.1199
2.1098
2.1009
2.0930
2.0860
2.0796
2.0739
2.0687
2.0639
2.0595
2.0555
2.0518
2.0484
2.0452
2.0423
2.0301
2.0211
2.0141
2.0086
2.0003
1.9944
1.9901
1.9867
1.9840
1.9818
1.9799
1.9600
31.8207
6.9646
4.5407
3.7469
3.3649
3.1427
2.9980
2.8965
2.8214
2.7638
2.7181
2.6810
2.6503
2.6245
2.6025
2.5835
2.5669
2.5524
2.5395
2.5280
2.5177
2.5083
2.4999
2.4922
2.4851
2.4786
2.4727
2.4671
2.4620
2.4573
2.4377
2.4233
2.4121
2.4033
2.3901
2.3808
2.3739
2.3685
2.3642
2.3607
2.3598
2.3263
63.6574
9.9248
5.8409
4.6041
4.0322
3.7074
3.4995
3.3554
3.2498
3.1693
3.1058
3.0545
3.0123
2.9768
2.9467
2.9208
2.8982
2.8784
2.8609
2.8453
2.8314
2.8188
2.8073
2.7969
2.7874
2.7787
2.7707
2.7633
2.7564
2.7500
2.7238
2.7045
2.6896
2.6778
2.6603
2.6479
2.6387
2.6316
2.6259
2.6213
2.6174
2.5758
Surs: D.B. Owen, Handbook of Statistical Tables (1962), Reading, MA: Addison-Wesley, pp. 28-30.
Copyright 1962 by Addison-Wesley Publishing Company.
164
df intergrup (between)
1
10
161,4476
18,5128
10,1280
7,7086
6,6079
5,9874
5,5914
5,3177
5,1174
4,9646
4,8443
4,7472
4,6672
4,6001
4,5431
4,4940
4,4513
4,4139
4,3807
4,3512
4,3248
4,3009
4,2793
4,2597
4,2417
199,5000
19,0000
9,5521
6,9443
5,7861
5,1433
4,7374
4,4590
4,2565
4,1028
3,9823
3,8853
3,8056
3,7389
3,6823
3,6337
3,5915
3,5546
3,5219
3,4928
3,4668
3,4434
3,4221
3,4028
3,3852
215,7073
19,1643
9,2766
6,5914
5,4095
4,7571
4,3468
4,0662
3,8625
3,7083
3,5874
3,4903
3,4105
3,3439
3,2874
3,2389
3,1968
3,1599
3,1274
3,0984
3,0725
3,0491
3,0280
3,0088
2,9912
224,5832
19,2468
9,1172
6,3882
5,1922
4,5337
4,1203
3,8379
3,6331
3,4780
3,3567
3,2592
3,1791
3,1122
3,0556
3,0069
2,9647
2,9277
2,8951
2,8661
2,8401
2,8167
2,7955
2,7763
2,7587
230,1619
19,2964
9,0135
6,2561
5,0503
4,3874
3,9715
3,6875
3,4817
3,3258
3,2039
3,1059
3,0254
2,9582
2,9013
2,8524
2,8100
2,7729
2,7401
2,7109
2,6848
2,6613
2,6400
2,6207
2,6030
233,9860
19,3295
8,9406
6,1631
4,9503
4,2839
3,8660
3,5806
3,3738
3,2172
3,0946
2,9961
2,9153
2,8477
2,7905
2,7413
2,6987
2,6613
2,6283
2,5990
2,5727
2,5491
2,5277
2,5082
2,4904
236,7684
19,3532
8,8867
6,0942
4,8759
4,2067
3,7870
3,5005
3,2927
3,1355
3,0123
2,9134
2,8321
2,7642
2,7066
2,6572
2,6143
2,5767
2,5435
2,5140
2,4876
2,4638
2,4422
2,4226
2,4047
238,8827
19,3710
8,8452
6,0410
4,8183
4,1468
3,7257
3,4381
3,2296
3,0717
2,9480
2,8486
2,7669
2,6987
2,6408
2,5911
2,5480
2,5102
2,4768
2,4471
2,4205
2,3965
2,3748
2,3551
2,3371
240,5433
19,3848
8,8123
5,9988
4,7725
4,0990
3,6767
3,3881
3,1789
3,0204
2,8962
2,7964
2,7144
2,6458
2,5876
2,5377
2,4943
2,4563
2,4227
2,3928
2,3660
2,3419
2,3201
2,3002
2,2821
26
27
28
29
30
4,2252
4,2100
4,1960
4,1830
4,1709
3,3690
3,3541
3,3404
3,3277
3,3158
2,9752
2,9604
2,9467
2,9340
2,9223
2,7426
2,7278
2,7141
2,7014
2,6896
2,5868
2,5719
2,5581
2,5454
2,5336
2,4741
2,4591
2,4453
2,4324
2,4205
2,3883
2,3732
2,3593
2,3463
2,3343
2,3205
2,3053
2,2913
2,2783
2,2662
2,2655
2,2501
2,2360
2,2229
2,2107
241,8817
19,3959
8,7855
5,9644
4,7351
4,0600
3,6365
3,3472
3,1373
2,9782
2,8536
2,7534
2,6710
2,6022
2,5437
2,4935
2,4499
2,4117
2,3779
2,3479
2,3210
2,2967
2,2747
2,2547
2,2365
2,2197
2,2043
2,1900
2,1768
2,1646
Not: Acest tabel este aplicabil pentru maximum 11 grupuri (dfBetween = 10 i dfWithin maxim = 30).
165
df
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
35
40
45
50
60
70
80
90
100
p = 0,10
0,988
0,900
0,805
0,729
0,669
0,622
0,582
0,549
0,521
0,497
0,476
0,458
0,441
0,426
0,412
0,400
0,389
0,378
0,369
0,36
0,352
0,344
0,337
0,330
0,323
0,317
0,311
0,306
0,301
0,296
0,275
0,257
0,243
0,231
0,211
0,195
0,183
0,173
0,164
p = 0,25
Bilateral
p = 0,05
0,997
0,950
0,878
0,811
0,754
0,707
0,666
0,632
0,602
0,576
0,553
0,532
0,514
0,497
0,482
0,468
0,456
0,444
0,433
0,423
0,413
0,404
0,396
0,388
0,381
0,374
0,367
0,361
0,355
0,349
0,325
0,304
0,288
0,273
0,250
0,232
0,217
0,205
0,195
166
p = 0,01
p = 0,005
p = 0,02
0,9995
0,980
0,934
0,882
0,833
0,789
0,750
0,716
0,685
0,658
0,634
0,612
0,592
0,574
0,558
0,542
0,528
0,516
0,503
0,492
0,482
0,472
0,462
0,453
0,445
0,437
0,430
0,423
0,416
0,409
0,381
0,358
0,338
0,322
0,295
0,274
0,256
0,242
0,230
p = 0,01
0,9999
0,990
0,959
0,917
0,874
0,834
0,798
0,765
0,735
0,708
0,684
0,661
0,641
0,623
0,606
0,590
0,575
0,561
0,549
0,537
0,526
0,515
0,505
0,496
0,487
0,479
0,471
0,463
0,456
0,449
0,418
0,393
0,372
0,354
0,325
0,302
0,283
0,267
0,254
Anexa 8. Valori critice ale corelaiei r, df = N 2, unde N este numrul perechilor de scoruri.
df
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
5%
.997
.950
.878
.811
.754
.707
.666
.632
.602
.576
.553
.532
.514
.497
.482
.468
.456
.444
.433
.423
.413
.404
.396
df
24
25
26
27
28
29
30
35
40
45
50
60
70
80
90
100
125
150
200
300
400
500
1000
1%
1.000
.990
.959
.917
.874
.834
.798
.765
.735
.708
.684
.661
.641
.623
.606
.590
.575
.561
.549
.537
.526
.515
.505
5%
.388
.381
.374
.367
.361
.355
.349
.325
.304
.288
.273
.250
.232
.217
.205
.195
.174
.159
.138
.113
.098
.088
.062
1%
.496
.487
.478
.470
.463
.456
.449
.418
.393
.372
.354
.325
.302
.283
.267
.254
.228
.208
.181
.148
.128
.115
.081
Surs: Table VII din Fisher and Yates: Statistical Tables for Biological, Agricultural and Medical
Research. Longman Group Ltd., London.
167
p=0,10
0,81
0,73
0,67
0,62
0,58
0,55
0,52
0,50
0,48
0,46
0,44
0,43
0,41
0,40
0,39
0,38
0,37
0,36
0,32
0,30
0,27
0,26
0,24
0,23
p=0,05
0,88
0,81
0,75
0,71
0,67
0,63
0,60
0,58
0,55
0,53
0,51
0,50
0,48
0,47
0,46
0,44
0,43
0,42
0,38
0,35
0,32
0,30
0,29
0,27
p=0,025
0,93
0,88
0,83
0,79
0,75
0,72
0,69
0,66
0,63
0,61
0,59
0,57
0,56
0,54
0,53
0,52
0,50
0,49
0,45
0,41
0,38
0,36
0,34
0,32
p=0,01
0,96
0,92
0,87
0,83
0,80
0,76
0,73
0,71
0,68
0,66
0,64
0,62
0,61
0,59
0,58
0,56
0,55
0,54
0,49
0,45
0,42
0,39
0,37
0,35
Anexa 10. Valori ale corelaiei rangurilor pentru dou praguri de semnificaie
Nr. perechi
5
6
7
8
9
10
12
14
16
18
20
22
24
26
28
30
p=0,05
1,000
0,886
0,786
0,738
0,683
0,648
0,591
0,544
0,506
0,475
0,450
0,428
0,409
0,392
0,377
0,364
168
p=0,01
-1,000
0,929
0,881
0,833
0,974
0,777
0,714
0,665
0,625
0,591
0,562
0,537
0,515
0,496
0,478
Anexa 11. Valorile critice pentru testul de corelaie a rangurilor (rho) al lui Spearman
Test unilateral
N
= 0,05
= 0,10
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
= 0,025
= 0,01
Test bilateral
= 0,05
= 0,02
= 0,005
= 0,01
0.900
0,829
0,886
0,943
0,714
0,786
0,893
0,643
0,738
0,833
0,881
0,600
0,683
0,783
0,833
0,564
0,648
0,745
0,794
0,523
0,623
0,736
0,818
0.497
0,591
0,703
0,780
0,475
0,566
0,673
0,745
0,457
0,545
0,646
0,716
0,441
0,525
0,623
0,689
0,425
0,507
0,601
0,666
0,412
0,490
0,582
0,645
0,399
0,476
0,564
0,625
0,388
0,462
0,549
0,608
0,377
0,450
0,534
0,591
0,368
0,438
0,521
0,576
0,359
0,428
0,508
0,562
0,351
0,418
0,496
0,549
0,343
0,409
0,485
0,537
0,336
0,400
0,475
0,526
0,329
0,392
0,465
0,515
0,323
0,385
0,456
0,505
0,317
0,377
0,448
0,496
0,311
0,370
0,440
0,487
0,305
0,364
0,432
0,478
169
0,0000
0,0000
0,2600
0,2667
0,5200
0,5763
0,7800
1,0454
0,0100
0,0100
0,2700
0,2769
0,5300
0,5901
0,7900
1,0714
0,0200
0,0200
0,2800
0,2877
0,5400
0,6042
0,8000
1,0986
0,0300
0,0300
0,2900
0,2986
0,5500
0,6184
0,8100
1,1270
0,0400
0,0400
0,3000
0,3095
0,5600
0,6328
0,8200
1,1568
0,0500
0,0500
0,3100
0,3205
0,5700
0,6475
0,8300
1,1881
0,0600
0,0601
0,3200
0,3316
0,5800
0,6625
0,8400
1,2212
0,0700
0,0701
0,3300
0,3428
0,5900
0,6777
0,8500
1,2562
0,0800
0,0802
0,3400
0,3541
0,6000
0,6931
0,8600
1,2933
0,0900
0,0902
0,3500
0,3654
0,6100
0,7089
0,8700
1,3331
0,1000
0,1003
0,3600
0,3769
0,6200
0,7250
0,8800
1,3758
0,1100
0,1104
0,3700
0,3834
0,6300
0,7414
0,8900
1,4219
0,1200
0,1300
0,1206
0, 1307
0,3800
0,3900
0,4001
0,4118
0,6400
0,6500
0,7582
0,7753
0,9000
0,9100
1,4722
1,5275
0,1400
0, 1409
0,4000
0,4236
0,6600
0,7928
0,9200
1,5890
0,1500
0,1511
0,4100
0,4356
0,6700
0,8307
0,9300
1,6584
0,1600
0,1614
0,4200
0,4477
0,6800
0,8291
0,9400
1,7380
0,1700
0,1717
0,4300
0,4599
0,6900
0,8480
0,9500
1,8318
0,1800
0,1820
0,4400
0,4722
0,7000
0,8673
0,9600
1,9459
0,1900
0,2000
0,1923
0,2027
0,4500
0,4600
0,4847
0,4973
0,7100
0,7200
0,8872
0,9076
0,9700
0,9800
2,0923
2,2976
0,2100
0,2132
0,4700
0,5101
0,7300
0,9287
0,9900
2,6467
0,2200
0,2237
0,4800
0,5230
0,7400
0,9505
0,2300
0,2342
0,4900
0,5361
0,7500
0,9730
0,2400
0,2448
0,5000
0,5493
0,7600
0,9962
0,2500
0,2554
0,5100
0,5627
0,7700
1,0203
170
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,07
0,08
0,09
0,0
0,1
0,2
0,3
0,4
0,0000
0,0997
0,1974
0,2913
0,3800
0,0100
0,1096
0,2070
0,3004
0,3885
0,0200
0,1191
0,2165
0,3095
0,3969
0,0300
0,1293
0,2260
0,3185
0,4053
0,0400
01391
0,2355
0,3275
0,4136
0,0500
0,1489
0,2449
0,3364
0,4219
0,0599
0,1586
0,2543
0,3452
0,4301
0,0699
0,1684
0,2636
0,3540
0,4382
0,0699
0,1684
0,2636
0,3540
0,4382
0,0699
0,1684
0,2636
0,3540
0,4382
0,0898
0,1877
0,2821
0,3714
0,4542
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
0,4621
0,5370
0,6044
0,6640
0,7163
0,4699
0,5441
0,6107
0,6696
0,7211
0,4777
0,5511
0,6169
06751
0,7529
0,4854
0,5580
0,6231
06805
0,7306
0,4930
0,5649
0,6291
0,6858
0,7352
0,5005
0,5717
0,6351
0,6911
0,7398
0,5080
0,5784
0,6411
0,6963
0,7443
0,5154
0,5850
0,6469
0,7014
0,7487
0,5154
0,5850
0,6469
0,7014
0,7487
0,5154
0,5850
0,6469
0,7014
0,7487
0,5299
0,5980
0,6584
0,7114
0,7574
0,5
0,6
0,7
0,8
0,9
1,0
1,1
1,5
1,3
1,4
0,7616
0,8005
0,8337
0,8617
0,8854
0,7658
0,8041
0,8367
0,8643
0,8875
0,7699
0,8076
0,8397
0,8668
0,8896
0,7739
0,8110
0,8426
0,8692
0,8917
0,7779
0,8144
0,8455
0,8717
0,8937
0,7818
0,8178
0,8483
0,8741
0,8957
0,7857
0,8210
08511
0,8764
0,8977
0,7895
0,8243
0,8538
0,8787
0,8996
0,7895
0,8243
0,8538
0,8787
0,8996
0,7895
0,8243
0,8538
0,8787
0,8996
0,7969
0,8306
0,8591
0,8832
0,9033
1,0
1,1
1,5
1,3
1,4
1,5
1,6
1,7
1,8
1,9
0,9051
0,9217
0,9354
0,94681
0,95624
0,9069
0,9232
0,9366
0,94783
0,95709
0,9087
0,9246
0,9379
0,94884
0,95792
0,9104
0,9261
0,9391
0,94983
0,95873
0,9121
0,9275
0,9402
0,95080
0,95953
0,9138
0,9289
0,9414
0,95175
0,96032
0,9154
0,9302
0,9425
0,95268
0,96109
0,9170
0,9316
0,9436
0,95359
0,96185
0,9170
0,9316
0,9436
0,95359
0,96185
0,9170
0,9316
0,9436
0,95359
0,96185
0,9201
0,9341
0,9458
0,95537
0,96331
1,5
1,6
1,7
1,8
1,9
2,0
2,1
2,2
2,3
2,4
0,96403
0,97045
0,97574
0,98010
0,98367
0,96473
0,97103
0,97622
0,98049
0,98399
0,96541
0,97159
0,97668
0,98087
0,98431
0,96009
0,97215
0,97714
0,98124
0,98462
0,96675
0,97269
0,97759
0,98161
0,98492
0,96739
0,97323
0,97803
0,98197
0,98522
0,96803
0,97375
0,97846
0,98233
0,98551
0,96865
0,97426
0,97888
0,98267
0,98579
0,96865
0,97246
0,97888
0,98267
0,98579
0,96865
0,97246
0,97888
0,98267
0,98579
0,96986
0,97526
0,97970
0,98335
0,98635
2,0
2,1
2,2
2,3
2,4
2,5
2,6
2,7
2,8
2,9
0,98661
0,98903
0,99101
0,99263
0,99396
0,98688
0,98924
0,99118
0,99292
0,99408
0,98714
0,98945
0,99136
0,99292
0,99420
0,98739
0,98966
0,99153
0,99306
0,99431
0,98764
0,98987
0,99170
0,99320
0,99443
0,98788
0,99007
0,99186
0,99333
0,99454
0,98812
0,90026
0,99202
0,99346
0,99464
0,98835
0,99045
0,99218
0,99359
0,99475
0,98858
0,99064
0,99233
0,99372
0,99485
0,98858
0,99064
0,99233
0,99372
0,99485
0,98881
0,99083
0,99248
0,99384
0,99495
2,5
2,6
2,7
2,8
2,9
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,07
0,08
0,09
171
df
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
p
0,025
5,02
7,38
9,35
11,14
12,83
14,45
16,01
17,53
19,02
20,48
21,92
23,34
24,74
26,11
27,49
28,85
30,19
31,53
32,85
34,17
35,48
36,78
38,08
39,36
40,65
41,92
43,19
44,46
45,72
46,98
59,34
71,42
83,29
95,02
106,63
118,14
129,56
0,05
3,84
5,99
7,81
9,49
11,07
12,59
14,07
15,51
16,92
18,31
19,68
21,03
22,36
23,68
25,00
26,30
27.59
28,87
30,14
31,41
32,67
33,92
35,17
36,42
37,65
38,88
40,11
41,34
42,56
43,77
55,76
67,50
79,08
90,53
101,88
113,15
124,34
0,01
6,64
9,21
11,34
13,28
15,09
16,81
18,48
20,09
21,67
23,21
24,72
26,22
27,69
29,14
30,58
32,00
33,41
34,80
36,19
37,57
38,93
40,29
41,64
42,98
44,31
45,64
46,96
48,28
49,59
50,89
63,69
76,15
88,38
100,42
100,43
124,12
135,81
df = K-1 pentru chi-ptrat destinat s msoare gradul de potrivire, unde K este numrul de categorii.
df = (R-1)(C-1) pentru chi-ptrat de independen. R este numrul de rndurim iar C numrul de
coloane.
172
0,995
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
0,99
0,975
0,95
0,9
0,1
0,05
0,025
0,01
0,005
0,001
2,706
4,605
6,251
7,779
9,236
10,64
12,02
13,36
14,68
15,99
17,28
18,55
19,81
21,06
22,31
23,54
24,77
25,99
27,20
28,41
29,62
30,81
32,01
33,20
34,38
35,56
36,74
37,92
39,09
40,26
3,841
5,991
7,815
9,488
11,07
12,59
14,07
15,51
16,92
18,31
19,68
21,03
22,36
23,68
25,00
26,30
27,59
28,87
30,14
31,41
32,67
33,92
35,17
36,42
37,65
38,89
40,11
41,34
42,56
43,77
5,024
7,378
9,348
11,14
12,83
14,45
16,01
17,53
19,02
20,48
21,92
23,34
24,74
26,12
27,49
28,85
30,19
31,53
32,85
34,17
35,48
36,78
38,08
39,36
40,65
41,92
43,19
44,46
45,72
46,98
6,635
9,210
11,34
13,28
15,09
16,81
18,48
20,09
21,67
23,21
24,73
26,22
27,69
29,14
30,58
32,00
33,41
34,81
36,19
37,57
33,93
40,29
41,64
42,98
44,31
45,64
46,96
48,28
49,59
50,89
7,879
10,60
12,84
14,86
16,75
18,55
20,28
21,95
23,59
25,19
26,76
28,30
29,82
31,32
32,80
34,27
35,72
37,16
38,58
40,00
41,40
42,80
44,18
45,56
46,93
48,29
49,65
50,99
52,34
53,67
10,83
13,82
16,27
18,47
20,51
22,46
24,32
26,12
27,88
29,59
31,26
32,91
34,53
36,12
37,70
39,25
40,79
42,31
43,82
45,31
46,80
48,27
49,73
51,18
52,62
54,05
55,48
56,89
58,30
59,70
173
10
12
14
16
18
20
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0,05
0,01
0
1
2
0
3
1
6
2
8
4
11
6
13
7
15
9
18
11
20
13
1
2
0
3
1
5
2
8
4
11
6
14
9
17
11
21
13
24
16
27
18
2
4
1
6
2
8
4
13
7
17
11
22
15
26
18
31
22
36
26
41
30
3
0
5
2
8
4
11
6
17
11
23
16
29
21
36
26
42
31
48
37
55
42
4
1
7
3
11
6
14
9
22
15
29
21
37
27
45
34
53
41
61
47
69
54
5
1
9
4
13
7
17
11
26
18
36
26
45
34
55
42
64
50
74
58
83
67
6
2
11
5
I5
9
21
13
31
22
42
31
53
41
64
50
75
60
86
70
98
79
7
2
12
6
18
11
24
16
36
26
48
37
61
47
74
|58
86
70
99
81
112
92
8
3
14
8
20
13
27
18
41
30
55
42
69
54
83
67
98
79
112
92
127
105
4
5
6
8
10
12
14
16
18
20
174
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
5
7
10
13
16
20
24
28
33
38
43
49
56
62
69
77
175
3
5
7
10
13
16
20
23
28
32
38
43
49
55
61
68
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,5000
0,5398
0,5793
0,6179
0,6554
0,6915
0,7257
0,7580
0,7881
0,6159
0,8413
0,8643
0,8849
0,9032
0,9192
0,9332
0,9452
0,9554
0,9641
0,9713
0,9772
0,9821
0,9861
0,9893
0,9918
0,9938
0,9953
0,9965
0,9974
0,9981
0,9987
0,9990
0,9993
0,9995
0,9997
0,5040
0,5438
0,5832
0,6217
0,6591
0,6950
0,7291
0,7611
0,7910
0,8186
0,8438
0,8665
0,8869
0,9049
0,9207
0,9345
0,9463
0,9564
0,9649
0,9719
0,9778
0,9826
0,9864
0,9896
0,9920
0,9940
0,9955
0,9966
0,3975
0,9982
0,9987
O.S991
0,9993
0,9995
0,9997
0,5080
0,5478
0,5871
0,6255
0,6628
0,6985
0,7324
0,7642
0,7939
0,8212
0,8461
0,8686
0,8888
0,9066
0,9222
0,9357
0,9474
0,9573
0,9656
0,9726
0,9783
0,9830
0,9868
0,9893
0,9922
0,9941
0,9956
0,9967
0,9976
0,9932
0,9987
0,9991
0,9994
0,9995
0,9997
0,5120
0,5517
0,5910
0,6293
0,6664
0,7019
0,7357
0,7673
0,7967
0,8238
0,8485
0,8708
0,8907
0,9082
0,9236
0,9370
0,9484
0,9582
0,9664
0,9732
0,9788
0,9834
0,9871
0,9901
0,9925
0,9943
0,9957
0,9968
0,9977
0,9983
0,9988
0,9991
0,9994
0,9996
0,9997
0,5160
0,5557
0,5948
0,6331
0,6700
0,7054
0,7389
0,7704
0,7995
0,8264
0,8508
0,8729
0,8925
0,9099
0,9251
0,9382
0,9495
0,9591
0,9671
0,9738
0,9793
0,9838
0,9875
0,9904
0,9927
0,9945
0,9959
0,9969
0,9977
0,9984
0,9988
0,9992
0,9994
0,9996
0,9997
0,5199
0,5596
0,5987
0,6368
0,6736
0,7088
0,7422
0,7734
0,8023
0,8289
0,8531
0,8749
0,8944
0,9115
0,9265
0,9394
0,9505
0,9599
0,9678
0,9744
0,9798
0,9842
0,9878
0,9906
0,9929
0,9946
0,9960
0,9970
0,9978
0,9984
0,9989
0,9992
0,9994
0,9996
0,9997
0,5239
0,5636
0,6026
0,6406
0,6772
0,7123
0,7454
0,7764
0,8051
0,8315
0,8554
0,8770
0,8962
0,9131
0,9279
0,9406
0,9515
0,9608
0,9686
0,9750
0,9803
0,9846
0,9881
0,9909
0,9931
0,9948
0,9961
0,9971
0,9979
0,9965
0,9989
0,9992
0,9994
0,9996
0,9997
0,5279
0,5675
0,6064
0,6443
0,6808
0,7157
0,7486
0,7794
0,8078
0,8340
0,8577
0,8790
0,8980
0,9147
0,9292
0,9418
0,9525
0,9616
0,9693
0,9756
0,9808
0,9850
0,9884
0,9911
0,9932
0,9949
0,9962
0,9972
0,9979
0,9985
0,9989
0,9992
0,9995
0,9996
0,9997
0,5319
0,5714
0,6103
0,6480
0,6844
0,7190
0,7517
0,7823
0,8106
0,8365
0,8599
0,8810
0,8997
0,9162
0,9306
0,9429
0,9535
0,9625
0,9699
0,9761
0,9812
0,9854
0,9887
0,9913
0,9934
0,9951
0,9963
0,9973
0,9980
0,9986
0,9990
0,9993
0,9995
0,9996
0,9997
0,5359
0,5753
0,6141
0,6517
0,6879
0,7224
0,7549
0,7852
0,8133
0,8389
0,8621
0,8830
0,9015
0,9177
0,9319
0,9441
0,9545
0,9633
0,9706
0,9767
0,9817
0,9857
0,9890
0,9916
0,9936
0,9952
0,9964
0,9974
0,9981
0,9986
0,9990
0,9993
0,9995
0,9997
0,9998
176
fb
frecvena brut
fr
fc
frecven cumulat
fbc
frc
Xmin
Xmax
Ci
centrul de interval
li
ls
AI=Range
modul
Md
mediana
media eantionului
media populaiei
X X
177
Formule
Formula mediei pentru date negrupate
X =
X=
Md =
N +1
2
X
N
kX
N
Md = li + (
N
i
fc )
2
fi
Q1, Q2, Q3
IQR
abaterea intercuartilic
AQ
abaterea cuartilic
1,5 IQR
AS=SD
abterea standard
s2
Formule
Formula pentru Amplitudinea mprtierii
AM =
AM =
s2 =
X X
N
k X X
N
(X ) 2
N
N 1
X 2
(fX ) 2
N
N 1
fX 2
( X )
X
N
s=
N 1
(fX )
N
N 1
fX 2
s=
XX
z=
X = z + X .
probabilitatea de eroare
p(A)
p(A sau B)
p(A, B)
M 1,96
M 2,58
ES=SX
eroarea standard
Ep=Sp
H0
ipoteza de nul
H1
ipoteza de cercetare
df
CI
tX
X2
tcal
t calculat
tcrit
sX
sX
X2
179
Formule
Eroarea standard a unei medii de selecie
ES = S X =
tx
1 x2
s
N 1
X1 X 2
sX 1 X
X1 X 2
t=
s1
s
+ 2
N1 N 2
t=
X1 X 2
( N1 1) s12 + ( N 2 1) s2 2 1
1
N1 + N 2 2
N1 N 2
t=
X1 X 2
X 1 + X 2 2 N1 + N 2
N + N 2 N N
2
1 2
1
t=
t=
t=
t=
X
s
N
X
s
N
p1 p 2
p1q1 p 2 q 2
+
N1
N2
rbis
rpunctbis
rtris
coeficientul de corelaie fi
z x, z y
r2, 2
Formule
Formula de definiie a corelaiei r
rXY =
rXY =
=1
( X X )(Y Y )
( X X ) 2 (Y Y ) 2
[NX
N XY X Y
2
][
(X ) 2 NY 2 (Y 2 )
6 d 2
N ( N 2 1)
Formule
Y = B0 + B1 X
Y = B0 + B1 X 1 + B2 X 2 + Bn X n
zy = r zx
B0 = y B1 x
r=
zy
zx
B1 = r
y
x
181
sY Y =
(Y Y ) 2
N 2
numr de rnduri
numr de coloane
fo
frecvena observat
fe
frecvena expectat
df
grade de libertate
Formule
( X N P)
N P Q
z2 =
2 =
( fo fe )2
fe
2
N
Cramer =
2
N ( L 1)
df = (R-1)(C-1)
N1, N2
R1, R2
Ni
numrul de observaii
Ri
numrul de eantioane
F2
Formule
N1 ( N1 + 1)
R1
2
U = N1 N 2 +
U ' = N1 N 2 U
z=
N1 N 2
2
N1 N 2 ( N1 + N 2 + 1)
12
z=
N ( N 1)
4
N ( N 1)(2 N + 1)
24
H=
12
R2
i 3( N + 1)
N ( N + 1) N i
F2 =
183
12
Ri2 3 N ( k + 1)
Nk ( k + 1)
CAPITOLUL 1
1.
1.1. Populaia acestui studiu reprezint totalitatea copiilor cuprini n ciclul gimnazial
din Romnia, incluzndu-i aici i pe cei care au abandonat studiile. Eantionul reprezint
grupul particular de copii selectai pentru a desfura studiul actual.
1.2. Variabile de interes pentru studiu pot fi unele de ordin mai general: mediul ruralurban, apartenena de gen, studiile i nivelul de instrucie al prinilor, ocupaia actual a
prinilor, mrimea fratriei i poziia elevului n interiorul acesteia; sau pot fi de ordin
particular: nivelul general de inteligen, de memoriei, intensitatea motivaiei pentru nvare,
tipul temperamental, structura intereselor, formula de personalitate.
1.3. Variabile categoriale sunt genul, mediul, studiile parentale sau poziia n fratrie.
Variabile real numerice sunt dotarea intelectual (memoria i inteligena), interesele,
personalitatea.
2. Este nevoie de o list ct mai complet a populaiei, cum ar fi cea a alegtorilor din ora
(limitat doar la vrstele adulte) sau cea de la serviciul de eviden a populaiei. Ulterior, prin
metoda pasului sau a loteriei, se extrage numrul de participani necesar obinerii unui
eantion randomizat.
3. Cartea de telefon reprezint deja o anumit selecie a populaiei acestui orel i de aceea ea
nu poate fi punctul de plecare pentru o eantionare aleatorie, cci exclude o bun parte din
populaie.
4. Avem nevoie de un numr limitat de cai, sub 10, pentru a determina faptul c numrul de
picioare al unui cal este o constant. Pentru determinarea greutii medii a cailor va fi nevoie
de cel puin cteva zeci, dac nu sute de cai: dac vom include genul, vrsta i rasa ca factori
difereniatori i dac pentru fiecare dintre aceste variabile vom aloca cel puin 20-30 de
cazuri, numrul necesar obinerii unui indicator relevant poate depi 100. n primul caz este
vorba de o constant, n cel de al doilea de o variabil. Aceasta din urm este mult mai
informativ pentru c ea condeseaz informaia din mai multe surse simultane de variaie.
5.
184
5.4. Cazurile le reprezint caii; variabilele sunt rasa, genul, vrsta; valorile sunt
mrimile numerice exacte ale vrstei, greutii, tipului de utilizare, strii economice a
proprietarului, pentru fiecare caz n parte.
6.
7.
7.1. Populaia este indefinit ca mrime, fiind caracterizat de nite mrimi stabile
numite parametri. Eantionul este o selecie determinat, redus numeric, din populaia int.
7.2. Statisticile (de fapt indicatorii statistici) definesc valorile unor msurtori precise
ale variabilelor eantionului, pe cnd parametrii sunt valori estimate, aproximate, definite prin
nite intervale de ncredere n care se plaseaz cu o anumit probabilitate la nivelul populaiei.
7.3. Eantionul randomizat este unul reprezentativ pentru o populaie, ansa fiecrui
membru al acelei populaii de a fi selectat n eantion fiind una egal i cunoscut.
Eantionul de convenien este unul nereprezentativ, dar convenabil la un moment dat prin
accesibilitate. Cel mai adesea acesta este un grup constituit natural sau care are n comun o
caracteristic ce urmeaz a fi investigat (anorexici, obezi, cardiaci, ctigtori ai
olimpiadelor colare, stngacii dintr-o coal etc.).
8.
indivizilor care l compun. Prin combinarea variabilelor, cu ct numrul acestora este mai
mare, cu att mai mult diferenierea i diversitatea a tot ceea ce exist devine mai mare.
8.2. Indicatorii nlime, greutate sau QI au o variabilitate mai mare pentru genul
masculin. Biologii argumenteaz c genul masculin reprezint elementul de variabilitate al
speciei iar genul feminin elementul su de stabilitate (matricea speciei). n termeni concrei,
variabilele respective au un spectru de variaie mai extins pentru genul masculin, ceea ce
nseamn c se va regsi mai mult inteligen de excepie, dar i deficien intelectual
printre cei de gen masculin, dect printre reprezentantele genului feminin.
8.3. Variabilitatea este un element care se refer la mprtierea datelor, i nu la
tendina lor central. De aceea este greit s facem inferene de tipul menionat (brbaii sunt
mai nali, mai grei sau mai inteligeni dect femeile).
9. Statistica descriptiv este a unor grupuri particulare numite loturi sau eantioane. Dei
foarte precise, valorile sale nu pot fi generalizate oricum la nivelul populaiei din care ele au
fost extrase, pentru care definitorii sunt parametrii. Acetia reprezint aproximri aflate ntre
185
12.1. Cnd sunt luai n consideraie toi studenii acestei faculti, atunci ei reprezint
ultimii 10 ani.
13.2. Variabilele sunt judeul i zona geografic de apartenen, etnia, vrsta, genul,
media de la bacalaureat, media anilor de studiu pentru fiecare student.
13.3. Nu sunt eantioane aleatorii, ci de convenien (adic singurele disponibile la un
moment dat).
13.4. Variabile categoriale: jude, zon geografic, etnie i apartenen de gen.
Variabile real numerice: vrsta, mediile de la bacalaureat i mediile anilor de studiu.
14.
14.1. Toate variabilele sunt tipice pentru statistica descriptiv (sunt ale unui meci de
186
14.3. Variabilitatea cea mai mare o are distana alergat de juctori. uturile spre
poart au variabilitate mai mare dect uturile pe spaiul porii. Mic i foarte mic
variabilitate au cartonaele, golurile i pasele de gol.
14.4. Posesia mingii are ca variabil continu timpul iar kilometrii alergai de juctori
distana. Celelalte variabile prezint valori discrete (nu au valori n spaiul dintre uniti).
14.5. Deoarece n principiu sunt mai multe uturi spre poart dect uturi pe spaiul
porii i mai multe uturi pe spaiul porii dect goluri, aceasta este ierarhia cerut, n care
pasele de gol nu pot fi incluse, fiind din alt zon a jocului. Variabilitatea cea mai mare se va
regsi la situaiile cu frecvena cea mai ridicat, aadar ierarhia anterior formulat este
valabil i n aceast privin.
CAPITOLUL 2
1.
Exemple de
3.1. X3 = 168
X5 =156
X8 = 180
X10 = 162
3.2. X = 1637
3.3. X = (165 + 160 + 168 + 170 + 156 + 158 + 163 + 180 + 155 + 162)/10
4.
4.1 Y2 = 61
Y4 = 72
Y7 = 66
Y9 = 49
4.2. Y = 620
4.3. X = 1637
X2 = 268487
16372 268487
187
2679769 268487
X 1637
=
= 163,7
10
4.4. N
Y 620
=
= 62
N
10
165
61
160
61
168
70
170
72
156
52
158
55
163
66
180
80
155
49
162
53
X+3
3X
168
495
163
480
171
504
173
510
159
468
161
474
166
489
183
540
158
465
165
486
X+Y
XY
227
10230
221
9760
238
11760
242
12240
208
8112
213
8690
229
10758
260
14400
204
7595
215
8586
188
7. Notele din catalogul colar sunt tipice scalei ordinale pentru c distana dintre ele nu este
exprimat n uniti de scal egale, care s aib aceeai semnificaie pe toat lungimea scalei.
Aadar, notele colare furnizeaz o relaie de ordine total n clasa de elevi. Mediile rezultate
prin rotunjire sunt tipice tot scalelor ordinale, pentru c ele furnizeaz doar un numr finit de
categorii de scoruri. Fiind media unei combinaii de mai multe categorii de scoruri, media
general reprezint o scal de interval, pentru c n spectrul su de variaie ea poate lua o
multitudine indefinit de valori. Totui, media general nu rspunde unei cerine de baz a
acestei scale, unitatea de msur dintre dou medii neavnd aceeai semnificaie pentru
oricare poriune a scalei. Pentru necesiti practice putem considera totui media general ca
fiind expresie a unei scale de interval.
8. n principiu da, dar n timp ce nota la Purtare este tipic scalei ordinale (ia doar cteva
valori ntregi de scor), media nerotunjit la matematic, fiind expresia numeroaselor notri de
pe parcursul unui semestru colar, tinde spre scala de interval. Vezi i explicaiile de la
punctul anterior.
CAPITOLUL 3
3.3. Asemnri dintre histograme i poligonul frecvenelor:
Deosebiri:
n histogram numrul frecvenelor dintr-o clas este egal cu centrul intervalului (Ci),
ceea ce nu este cazul pentru poligonul frecvenelor.
Poligonul frecvenelor poate reda simultan dou sau mai multe distribuii pe acelai
grafic, fapt ce constituie caracteristica sa esenial, ceea ce nu este cazul pentru
histogram. Acest fapt este cu att mai util cu ct disparitatea dintre ordinul de mrime
al distribuiilor redate este mai mare: prin transformare procentual, distribuii diferite
devin direct comparabile, pentru c ele sunt redate ca i cnd ar avea efectivul de 100.
189
Poligonul frecvenelor sugereaz mult mai clar continuitatea variabilei prin faptul c
unete prin linii centrele intervalelor. Atenie ns, acest lucru poate sugera o relaie de
cauzalitate, situaie care trebuie evitat dac n realitate aceasta nu exist.
Relativ la nlimea distribuiei: aceasta pare mai normal pentru biei (curb
normokurtic) dect pentru fete, unde ea este mai plat (platikurtic).
CAPITOLUL 5
5.
5.1.a
Frecvena
Scor
XX
1
X
XX
3
XX
2
XX
XX
4
X
XX
XX
XX
5
XX
6
XX
XX
7
X
XX
8
XX
9
X
10
5.1.b -5 -5 -4 -4 -3 -3 -3 -2 -2 -2 -2 -1 -1 -1 -1 -1 -1 -1 0 0 1 1 1 1 2 2 2 3 3 4
z=
XX
X 5,27
2,39
5.2.
Pentru 4,5 z = -0,32; pentru 7,25 z = 0,83; pentru 9 z = 1,56.
X = z + X = z 2,39 + 5,27
z
1,33
2,15
-0,56
1,97
8,45
0,13
3,93
9,98
190
5.3.
Clasa V
Clasa VIII
25
30
10
Pentru clasa a V-a 50% dintre copii au scoruri pn la 25. De la 25 la 30 (care este
media celor de clasa a VIII-a) mai sunt nc 34 de procente, deci sub scorul de 30 vor cdea
50 34 = 84% dintre elevii clasei a V-a. Peste scorul de 30 vor mai rmnea deci 16% elevi
din a V-a mai buni dect elevii medii din clasa a VIII-a. (Pentru o mai bun reprezentare se
recomand construirea unui desen).
5.4.a. Media este de 244/16 = 15,25. Mediana presupune ordonarea cresctoare a
irului de date prezentat i va fi identificat dup formula (N+1)/2 = 8,5. Valoarea de scor
aflat la jumtatea distanei dintre a 8-a i a 9-a valoare este 11,5.
b. Media este de 4947/37 = 133,7. Mediana este a 19-a valoare de scor din irul
ordonat acendent. Deoarece pn la 137 avem deja 17 valori de scor, mediana este scorul
imediat urmtor, adic 138. Modul acestei distribuii este scorul de 131 (cel mai frecvent). Se
observ c cele trei valori ale tendinei centrale nu sunt deloc apropiate sau coincidente, ceea
ce indic o distribuie anormal.
5.5.a. Mediana
b. Mod
c. Mediana
5.6.c. Dreapta
5.7.a. Este o distribuie de volum mare, simetric, normokurtic. Ea prezint dou
valori modale, media este n jur de zero iar mediana tinde s se suprapun peste medie.
b. Este o distribuie de volum mare, bimodal, ce trebuie spart n dou
distribuii separate, pentru c este compous din dou populaii statistice distincte (este o
distribuie extrem de eterogen). Media acestei distribuii cade tot n jur de zero, ca i
mediana, dar aceste valori nu mai sunt reprezentative pentru ntreaga populaie, trebuind
determinate separat pentru fiecare subpopulaie n parte.
c. Distribuie extrem de asimetric dreapta (negativ), aproape trunchiat, n care
doar modul este reprezentativ. Ca indicator al tendinei centrale se va folosi doar mediana,
media ne mai avnd sens. Aceasta nu este o distribuie indicat pentru prelucrri statistice ce
presupun normalitatea distribuiei, situaie care ar putea fi normalizat prin transformare.
d. Distribuia prezentat este similar cu cea precedent, doar c este n oglind n
raport cu aceasta, adic este una pozitiv. Observaiile anterioare rmn valabile i n acest
caz.
191
CAPITOLUL 6
6.
6.1.a. =
s2 =
328
=
= 12,62
N
26
( ) 2
N = 7696 4137,85 = 142,33 s = 142,33 = 11,93
N 1
25
s
11.93 11,93
=
=
= 2,386
5
N 1
25
S =
12.62
=
= 5,29 p < .001
S 2,386
t=
6.1.b t =
12 ,62
=
= 5,39
s
11,93
N
26
6.2.
Sportivi
Populaie
(N=58)
Media
12,50
Abaterea standard
7,25
15,50
X 15,50 12,50
=
= 3,15
s
7,25
N
58
t=
6.3.a. Nivelul mediu de anxietate este semnificativ mai mare la fete comparativ cu
bieii.
t=
X1 X 2
N1
N2
14 10
2
5,25
6,31
+
28
30
4
= 2,63
1,52
p < .01
I = [8,93; 15,21]
I = [8,82; 15,32]
192
6.4.
StudeniSportivi
Populaie
(N=70)
Media
114
100
Abaterea standard
11
15
t=
X
14
14
=
=
= 10,65
s
11
1,31
N
70
p < .001
6.5.a.c.
Teste
Motricitate
Cogniie
Total
Gen
M+F
M+F
M+F
54
66
120
54
66
120
54
66
120
19,83
20,55
20,23
36,65
38,03
37,41
56,48
58,58
57,63
2,54
3,39
3,05
5,57
5,13
5,35
7,35
7,82
7,65
1071
1356
2427
1979
2510
4489
3050
3866
6916
21583
28607
50190
74171
97167
171338
175132
230429
405561
Variana
6,45
11,49
9,30
31,02
26,32
28,62
54,02
61,15
58,52
SX
0,35
0,42
0,29
0,76
0,64
0,48
0,97
0,70
F-M
0,72
1,38
2,10
t1
1,29
1,40
1,50
t2
1,33
1,40
1,51
6.5.e
t=
t=
X1 X 2
( N1 1) s12 + ( N 2 1) s2 2 1
1
N1 + N 2 2
N1 N 2
X1 X 2
N1
0,72
53 2,54 2 + 65 3,39 2 1
1
+
118
54 66
0,72
= 1,33.
0,12 + 0,17
N2
193
0,72
= 1,29.
0,56
Comentarii: Prin ambele determinri se obin valori foarte apropiate ale lui t (1,29, respectiv
1,33), diferena rezultatelor fiind de ordinul sutimilor, deci aceste formule sunt practic
echivalente. Ambele diferene rezultate nu ating pragul semnificaiei statistice (p > .05).
CAPITOLUL 7
7.4.
Ad.soc.
80
75
74
80
50
64
46
70
64
74
59
84
55
69
86
50
68
65
QI
146
90
114
77
143
26
88
105
78
44
91
64
44
88
44
182
94
90
Adaptare
QI
social
N
18
18
67,39
89,33
11,91
39,60
1213
1608
X
x* y
84153
170308
144290
XY
105849
-0,31
7.5.
a. Corelaie nesemnificativ: deteptul colii i deteptul vieii (cel cu inteligen
social ridicat) nu se suprapun dect n mic msur (Sternberg, Teoria triarhic asupra
inteligenei).
b. Performana brut crete odat cu vrsta, dar numai pentru vrstele de dezvoltare,
dup care rmne relativ constant pn la btrnee, cnd corelaia descrete, mai ales pentru
inteligena fluid (Cattell).
c. Corelaii foarte ridicate (.60 .80) pentru c ambele depind de factorul g, adic de
un fond de aptitudini comun.
d. Corelaie ridicat (.50 .70), memoria de lucru fcnd posibil retenia imediat a
enunurilor unei probleme iar cea de lung durat algoritmii i modalitile de lucru rezultate
din experien.
194
e. O corelaie foarte ridicat (r > .70) cci ambele variabile se sprijin pe acelai factor
aptitudinal care este abilitatea verbal.
f. Nicio corelaie (r < .10).
g. O corelaie pozitiv deoarece creterile salariale se asociaz cu tendina de cretere
a preurilor pentru a se preveni inflaia.
h. Succesul la nvtur ar putea corela negativ cu scorurile indicnd liderul afectiv
(cel mai iubit elev nu este n mod necesar i cel mai bun la nvtur) i pozitiv cu liderul
tehnic, acesta fiind n mod frecvent consultat de colegi. Cutai explicaii alternative.
i. Prin definiie, dar i prin stereotip social, se poate infera mai mult dominan la
genul masculin i mai mult supunere la cel feminin. Probabil c n cuplurile moderne
diferenele tind s se estompeze prin egalizare.
j. Tendina la cretere necontrolat a numrului de copii poate fi expresia unui slab
control al impulsurilor i deci a unui nivel sczut de inteligen i de educaie a prinilor.
j. Corelaie negativ: mai muli copii nseamn mai puin resurs de timp i material
alocate, cu tendina de accentuare pe msur ce familia se mrete. n consecin, se poate
expecta ca rezultatele colare ale ultimilor nscui s fie progresiv mai slabe odat cu mrirea
fratriei.
7.6. Corelaia rmne neschimbat.
7.7. Corelaia este cu att mai mare cu ct variabilitatea/variana fiecrei variabile
implicat este mai mare. Restrngerea variabilitii uneia, alteia sau a ambelor variabile din
pereche se soldeaz cu diminuarea corelaiei prin ceea ce se cheam restrngerea registrului
de variaie.
8. Acesta este un exerciiu de rutin complex pentru determinarea lui r i rho.
Deoarece el presupune formarea deprinderilor bazale necesare determinrii corelaiei
recomandm parcurgerea sa integral, fr a mai furniza rezolvarea.
195
CAPITOLUL 8
Ina.
Real
169
170
172
160
170
167
167
156
160
172
163
184
193
158
170
158
16
168,06
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
N
Ina.
Dorit
169
170
172
170
175
167
175
160
160
175
165
180
193
168
170
165
16
170,88
9,75
16,55
2689
987
453345 64993
0,836
120
120
110
110
100
100
90
90
80
80
70
70
60
60
50
50
40
30
150
160
170
180
190
200
INA_REAL
Gre.
Dorit
55
62
60
55
55
55
60
55
49
50
53
80
104
58
65
50
16
60,38
8,00
13,81
2734
966
468132 61184
0,845
GRE_DOR
GRE_REAL
X
X
X
r
Gre.
Real
58
70
57
52
55
65
55
55
46
50
54
77
113
54
77
49
16
61,69
40
30
150
160
170
180
190
200
INA_DOR
8.a. Pattern-urile de relaii evideniate de cele dou diagrame scatter de mai sus sunt
extrem de asemntoare, ceea ce nseamn c n planul dorinei studenii respectivi se
raporteaz foarte similar ca n planul realitii. Am putea afirma deci c, n planul
indicatorilor antropometrici de baz, dorina este filtrat de realitate. n ambele scattere
exist dou cazuri n dreapta-sus care, mrind foarte mult variabilitatea datelor, duc la
creterea artificial a corelaiilor. Exist apoi un grup foarte omogen (probabil fete) grupat
196
stnga-jos, cu nlimea cuprins ntre 160 i 175 cm i cu greutatea cuprins ntre 45 i 65 kg.
Nivelul corelaiilor trebuie s fie asemntor pentru ambele diagrame, depind 0,75.
8.b. n cazul regresiei bivariate B1 este dat de formula:
B1 = r
16,55
Y
= 0,836
= 1,419
X
9,75
B1 = r X = 0,836
= 0,836 0,589 = 0,493.
Y
16,55
N 1
2 15
sY Y = sY (1 r 2 )
= 16,55 (1 0,836 ) = 16,55 0,568 = 9,40.
14
N 2
N 1
2 15
s X X = s X (1 r 2 )
= 9,75 (1 0,836 ) = 9,75 0,568 = 5,54.
14
N 2
197
8.h. Coeficientul (beta) este uor de determinat: el este chiar corelaia dintre cele
dou variabile, adic raportul dintre valorile standardizate ale lui Y i cele ale lui X. De
asemenea, ecuaia de regresie care l utilizeaz pe beta este uor de scris, ea indicnd cu cte
fraciuni de abatere standard crete fiecare Y atunci cnd X crete cu o abatere standard. i
totui, n practic se folosete mai mult B dect pentru c acesta conserv unitile de
msur originale. De exemplu, n cazul nostru predicia greutii din nlime se va face n
kilograme, i nu n abateri standard, ca n cazul lui beta. n puls, ecuaia de regresie cu B
presupune determinarea interceptului (a lui B0), ceea ce nu este cazul pentru cealalt situaie.
8.i. Ecuaia de regresie folosete coeficientul de corelaie ca fiind echivalentul lui beta.
8.j. Deoarece pentru 150 cm (punctul de origine pentru nlime) greutatea determinat
este de 36,06, scderea acestei valori din variabila greutate va face ca linia de regresie s
treac prin origine.
8.k. Corelaiile solicitate sunt cele din tabelul de mai jos.
Ina_real
Gre_real
Ina_dor
Ina_real
Gre_real
.836
Ina_dor
.910
.772
Gre_dor
.855
.951
.845
Gre_dor
Dup cum se observ, cea mai ridicat corelaie este cea prezent ntre greutatea real
i greutatea dorit (r = 0,951), fapt ce nseamn c n aceast situaie norul de puncte este cel
mai apropiat de linia de regresie, c suma abaterilor valorilor prezise de la cele reale (adic
eroarea estimaiei) este cea mai mic i c predicia este astfel cea mai acurat din toate cele
ase perechi de corelaii. Imediat dup aceasta, nlimea real i cea dorit dau corelaia cea
mai ridicat (r = 0,91), eroarea de estimare fiind de asemenea printre cele mai mici.
8.l. Deoarece din punct de vedere al valorilor antropometrice fundamentale genul
masculin i cel feminin reprezint populaii distincte, pentru obinerea unor predicii acurate
prin regresie separarea acestora este obligatorie. Coeficientul de corelaie este dependent de
mrimea eantionului, fiind cu att mai stabil cu ct N este mai mare. N intervine de asemenea
direct i n formula pentru determinarea erorii estimrii, corecia operat fiind cu att mai
mic cu ct numrul de cazuri este mai mare. n concluzie, mrirea eantionului i separarea
populaiilor distincte vor contribui n mod direct la creterea acurateii i a preciziei
prediciilor fcute pe baza ecuaiei de regresie.
198
CAPITOLUL 9
9.1.
2 =
Pentru df = 1, la p < .01 chi-ptrat este de 6,64, valoare ce permite rejectarea ipotezei nule la
acest prag de semnificaie.
9.2.
(23 23) 2 (32 23) 2 (19 23) 2 (22 23) 2 ( 25 23) 2 (17 23) 2 138
+
+
+
+
+
=
= 6.
23
23
23
23
23
23
23
Pentru df = 5, la pragul de semnificaie p < .05 chi-ptrat este de 11,06, valoare mai mare
dect cea obinut de noi, fapt ce nu permite rejectarea ipotezei nule.
9.3.
2 = 4,74
2
N
valoare care este mai mare dect 3,84 (chi-ptrat critic pentru pragul p < .05).
4,74
= 0,53
80
2
2
2
2
2
2
9.4. (240 330) + (222 268) + ( 400 264) + ( 280 275) + (288 223) + (150 220) +
330
268
264
275
223
220
24,55 + 7,90 + 70,06 + 0,09 + 18,95 + 22,27 + 26,86 + 1,65 + 20,17 = 192,50.
Pentru 4 grade de libertate: df = (3-1)(3-1) = 4, i p < .01, chi-ptrat tabelar este de 13,28.
Cum valoarea obinut de noi este mult mai mare (192,50), este posibil rejectarea ferm a
ipotezei nule.
199
2
2
2
2
2
2
2
9.5. (56 55) + ( 41 42) + ( 29 30) + ( 24 23) + ( 21 22) + (18 17) + (18 17) =
55
42
30
23
22
17
17
CAPITOLUL 10
10.3.1. H0 Bieii i fetele reprezint o aceeai populaie.
H1 Bieii i fetele reprezint populaii distincte (diferite).
10.3.2. Cele dou loturi sunt foarte mici. n plus, suspectm c valorile de 126 - de la fete, i
de 80 - de la biei, reprezint valori extreme, distribuiile nclcnd astfel condiia de
normalitate.
10.3.3.
t=
X1 X 2
X 1 2 + X 2 2 N 1 + N 2
N + N 2 N N
2
1 2
1
71,25 47,45
=
28842 + 48160 19
11 + 8 2
88
23,80
23,80
=
= 0,76.
77002 19 31,27
17 88
Ipoteza specific nu se confirm, t obinut fiind mult sub pragul de 1,96 corespunznd
semnificaiei statistice de p = .05.
10.3.4.
U = N1 N 2 +
N 1 ( N 1 + 1)
11 12
R1 = 11 8 +
130,5 = 88 + 66 130,5 = 23,5.
2
2
200
valoarea testului U este mult mai mare (23,5), ipoteza de nul nu poate fi respins, ceea ce
nseamn c diferenele de performan dintre biei i fete sunt nesemnificative statistic.
10.3.6. Dac ambele efective ar fi fost mai mari cu 15, atunci N1 ar fi fost 11+15 = 26 iar N2
ar fi fost 8+15 = 23. n acest caz:
N1 N 2
2
=
N 1 N 2 ( N 1 + N 2 + 1)
12
U
z=
26 23
23,5 299 275,5
2
=
=
= 5,52.
49,92
49,92
26 23(26 + 23 + 1)
12
23,5
10.5.1. Este indicat utilizarea testului T al semnului deoarece numrul cazurilor comparate
este unul foarte mic.
10.5.2. Nu tim dac cele 13 perechi de cupluri au fost selecionate aleatoriu, dar scala de
msur este una ordinal.
Mame
Tai
23
13
13
10
15
9
17
14
19
21
23
10
25
20
10
10
16
13
8
5
7
0
12
10
41
20
Delta
Delta
Semn
Rang
10
10
+
3
3
3
+
8,5
6
6
+
5
3
3
+
8,5
-2
2
11,5
13
13
+
2
5
5
+
6
0
0
3
3
+
8,5
3
3
+
8,5
7
7
+
4
2
2
+
11,5
21
21
+
1
10.5.3. Deoarece = 11,5 i + = 66,5 se alege spre comparare cu pragurile critice prima
valoare. Pentru 12 ranguri i p = .05 valoarea critic a testului T al semnului este de 14, n
raport cu care valoarea de 11,5, fiind mai mic, conduce la respingerea ipotezei nule.
10.5.4.
Mame
Tai
Rang M
23
13
3,5
13
10
9
15
9
8
17
14
6
19
21
5
23
10
3,5
25
20
2
10
10
11
16
13
7
8
5
12
7
0
13
12
10
10
41
20
1
Rang T
5,5
11
8,5
2,5
8,5
5,5
12
13
8,5
2,5
(M-T)
-2
-3
-5
-0,5
2,5
1,5
1,5
-1,5
2
4
1
9
4
16
25 0,25 6,25 2,25
2 = 72,25 Abaterea standard a diferenei rangurilor este de 1,47
=1
2,25 2,25
6d 2
6 72,25
433,5
=1
=1
= 0,80.
2
N ( N 1)
13 168
2184
Valoarea extrem de ridicat a corelaiei rho s-ar putea explica prin similitudinea de structur
psihic a celor ce intr n diad prin cstorie (proverbul spune c Cine se-asemn seadun). La aceasta se adaug fenomenul de nivelare i de armonizare reciproc a diferenelor
dintre soi, paralel cu vechimea relaiei de cuplu.
201
10.5.5. t =
1,88
=
= 4,61
1,47
s
13
N
Valoarea obinut este una extrem de semnificativ statistic: pentru t = 4,61, p < .001.
10.7.1. H0 Nu exist diferene ale ateniei distributive pentru cele patru temperamente.
H1 Atenia distributiv difer semnificativ pentru cele patru temperamente.
10.7.2. Rezultatul operaiei de rangare este condensat n tabelul de mai jos. Pentru obinerea
rangurilor de pe coloanele special alocate, datele au fost trecute pe o singur linie orizontal,
apoi s-au alocat ranguri de la 1 la 36, urmnd regula binecunoscut pentru valorile de scor
egale (unde se aloc rangul intermediar i se trece la rangul urmtor, srind peste rangurile
nealocate).
Sangvinic
32
19
26
28
24
21
17
33
29
27
Rang
3
23,5
13
9
16
21
28,5
1,5
6
11
Flegmatic
24
26
22
19
29
23
18
19
ranguri = 132,5
10.7.3. H =
Rang
16
13
20
23,5
6
18,5
26
23,5
Coleric
33
28
12
17
24
15
29
31
14
17
26
ranguri = 146,5
Rang
1,5
9
35
28,5
16
32,5
6
4
34
28,5
13
ranguri = 208
Melancolic
28
19
17
23
15
16
10
Rang
9
23,5
28,5
18,5
32,5
31
36
ranguri = 179
R2
12
12 132,52 146,52 208 2 179 2
3 37 =
i 3( N + 1) =
+
+
+
N ( N + 1) N i
36 37 10
8
11
7
Df este 4-1 = 3, pentru care valoarea critic la pragul de semnificaie p = .05 este de 7,81.
Deoarece valoarea obinut prin calcul este mai mic dect valoarea critic (5,54 < 7,81)
ipoteza nul nu poate fi respins.
10.7.4 i 10.7.5. sunt lsate spre rezolvare integral studentului. Pentru a facilita sarcina este
furnizat tabelul de mai jos.
202
Extraveri
32
19
26
28
24
21
17
33
29
27
33
28
12
17
24
15
29
31
14
17
26
Rang
3
23,5
13
9
16
21
28,5
1,5
6
11
1,5
9
35
28,5
16
32,5
6
4
34
28,5
13
Introveri
24
26
22
19
29
23
18
19
28
19
17
23
15
16
10
Stabili
emoional
32
19
26
28
24
21
17
33
29
27
24
26
22
19
29
23
18
19
Rang
16
13
20
23,5
6
18,5
26
23,5
9
23,5
28,5
18,5
32,5
31
36
Rang
3
23,5
13
9
16
21
28,5
1,5
6
11
16
13
20
23,5
6
18,5
26
23,5
Instabili
emoional
33
28
12
17
24
15
29
31
14
17
26
28
19
17
23
15
16
10
Rang
1,5
9
35
28,5
16
32,5
6
4
34
28,5
13
9
23,5
28,5
18,5
32,5
31
36
10.9.1. Pentru rezolvarea acestui punct este nevoie de tabelul de mai jos.
Lucrare
Prof_1
Rang
Prof_2
Rang
Prof_3
Rang
Prof_4
Rang
7,20
7,50
7,30
7,00
8,75
8,25
8,40
8,80
6,20
6,80
7,00
6,50
10
9,20
9,40
9,80
5,75
6,25
6,15
6,00
8,40
8,25
8,60
8,10
7,80
8,00
8,10
8,25
9,75
9,50
9,40
10
6,60
6,80
6,50
10
7,25
7,00
8,00
7,75
11
9,00
9,25
9,15
9,30
12
7,50
7,25
7,75
7,60
= 25
F 2 =
= 27
= 36
= 32
12
12
1
( 252 + 27 2 + 36 2 + 32 2 ) 3 12 5 =
Ri2 3N ( k + 1) =
3674 180.
12 4 5
Nk ( k + 1)
20
F 2 = 370.
203
Pentru df = 3 valorile critice ale lui chi-ptrat sunt de 7,81, la pragul p =.05, i de
11,34, la pragul de p = .01. Ipoteza specific nu se confirm i n consecin se poate afirma
c nu exist diferene semnificative ntre modul de notare al celor patru profesori.
10.9.2. P1_2 rho = .954; P1_3 rho = .982; P1-3 rho= .977. Valorile extrem de ridicate ale acestor
coeficieni de corelaie constituie o dovad suplimentar asupra similitudinii de notare dintre
cei patru profesori.
204
SERIA PSIHOLOGIE
Au aprut:
Elena Cocorad Didactica psihologiei
Aurel Ion Clinciu Statistici multivariate pentru psihologie
Ana-Maria Cazan Strategii de autoreglare a nvrii
Aurel Ion Clinciu Statistic aplicat n psihologie
n pregtire:
Ana-Maria Cazan Statistic psihologic. Noiuni teoretice, exemple i aplicaii
205
antropometrie (1884). Pentru c acetia continu s fie cei mai importani indicatori
antropometrici, v propunem un exerciiu de re-analiz a relaiei dintre ei, dar difereniat dup
criteriul apartenenei de gen, pe un eantion evident nereprezentativ de studeni i studente
ai Universitii Transilvania. i pentru c ne-am transformat n zna bun, propunnd
studenilor n cauz s indice care ar fi mrimea la care nlimea i greutatea lor proprie i-ar
satisface pe deplin, v propunem s studiai aceste relaii i n planul ideal, al dorinei, pentru
a vedea dac aceasta se supune vreunei regulariti matematice. Cerine:
a. Utiliznd minicalculatorul cu panou statistic, introducei datele i completai spaiile
lips de sub coloanele de valori absolute, att pentru biei, ct i pentru fete.
b. Reunii datele astfel obinute n tabelul sintetic din partea de jos a paginii, fr a le
mai introduce nc o dat cu minicalculatorul.
c. Efectuai testul t pentru eantioane independente pentru a determina dac diferenele
IRbiei i IRfete sunt semnificative; efectuai acelai test pentru IDbiei i IDfete.
d. Aplicai testul t pentru eantioane corelate pentru a determina dac diferenele GR i
GD de la biei, apoi GR i GD de la fete sunt semnificativ diferite.
e. Raportai i interpretai rezultatele obinute la punctul c de mai sus, indicnd dac
ipoteza de nul poate fi respins i la ce prag.
f. Utiliznd primele dou coloane de Ranguri i ultima linie de cifre de pe pagin,
efectuai operaia de rangare a nlimii reale i dorite, att pentru biei, ct i pentru
fete.
g. Utiliznd celelalte dou coloane de la Ranguri, determinai care este suma ptratelor
diferenelor de ranguri, introducei-o n formula lui rho al lui Spearman i
determinai mrimea acestuia, att pentru biei, ct i pentru fete.
h. Utiliznd tabelul din carte, efectuai corecia acestei valori, apoi raportai i
interpretai aceast corelaie n termeni de coeficient de determinare. Ct din variana
comun a celor dou variabile explic aceste corelaii?
i. Utiliznd tabelele adecvate de la Anexe, raportai i interpretai semnificaia statistic
a corelaiilor obinute.
206