Sunteți pe pagina 1din 325

STATISTIC APLICAT N

TIINELE SOCIO-UMANE
Noiuni de baz - Statistici univariate

Cristian Opariuc-Dan

Constana, decembrie 2009


Statistic aplicat n tiinele socio-umane

Fiicei mele, Luana-tefana

Statistica este precum fumatul

La prima igar, i-e ru. Dac continui, ncepe


s-i plac i n final termini prin a fi dependent.

Diferena dintre statistic i fumat este c


statistica nu duneaz grav sntii.

2
Cristian Opariuc-Dan

Cuprins

Cuprins ......................................................................................................... 3
Prefa .......................................................................................................... 7
Cuvntul autorului ...................................................................................... 11
I. Natura msurrii n tiinele socio-umane ............................................ 15
I.1 Variabile....................................................................................... 18
I.1.1 Variabile discrete................................................................... 20
I.1.2 Variabile continui .................................................................. 21
I.2 Scale (nivele) de msurare ............................................................ 22
I.2.1 Scale neparametrice ............................................................... 23
I.2.2 Scale parametrice .................................................................. 26
I.3 Prezentare general SPSS for Windows ........................................ 30
I.3.1 Bazele de date creare, salvare, deschidere ........................... 35
II. Organizarea datelor ............................................................................. 58
II.1 Sistematizarea datelor ................................................................... 60
II.2 Reprezentarea grafic a datelor ..................................................... 67
III. Statistici descriptive Tendina central .......................................... 70
III.1 Populaie i eantion ................................................................. 71
III.1.1 Eantionarea simplu randomizat........................................... 73
III.1.2 Randomizarea pe cote............................................................ 74
III.1.3 Eantionarea stratificat ......................................................... 75
III.1.4 Eantionarea pe cluster .......................................................... 76
III.2 Indicatori ai tendinei centrale ................................................... 76
III.2.1 Media .................................................................................... 78
III.2.2 Mediana i rangurile .............................................................. 83

3
Statistic aplicat n tiinele socio-umane

III.2.3 Modul.................................................................................... 87
III.2.4 Precizia indicatorilor tendinei centrale .................................. 88
III.2.5 Obinerea indicatorilor tendinei centrale n SPSS .................. 92
IV. Media populaiei. Reprezentri grafice ale tendinei centrale .......... 100
IV.1 Reprezentri grafice ................................................................ 101
IV.2 Analiza grafic a tendinei centrale.......................................... 111
IV.2.1 Graficul tulpin i frunze .................................................. 112
IV.2.2 Graficul cutie (box-plot)................................................... 115
IV.3 Tratarea scorurilor extreme ..................................................... 118
IV.3.1 Obinerea graficelor pentru tendina central n SPSS .......... 121
V. Statistici descriptive mprtierea ................................................... 126
V.1 Indicatori elementari ai mprtierii ............................................ 128
V.1.1 Amplitudinea de variaie...................................................... 128
V.1.2 Abaterea cuartil sau abaterea intercuartil .......................... 129
V.2 Indicatori sintetici ai mprtierii ................................................ 133
V.2.1 Diferena medie Gini ........................................................... 133
V.2.2 Oscilaia .............................................................................. 134
V.2.3 Abaterea medie.................................................................... 137
V.2.4 Abaterea median ................................................................ 139
V.2.5 Dispersia ............................................................................. 139
V.2.6 Abaterea standard ................................................................ 142
V.2.7 Coeficientul de variaie ........................................................ 145
V.3 Obinerea indicatorilor mprtierii n SPSS................................ 146
VI. Distribuia normal ........................................................................ 149
VI.1 Modalitatea ............................................................................. 151
VI.2 Simetria .................................................................................. 152
VI.2.1 Coeficientul Yule ................................................................ 153

4
Cristian Opariuc-Dan

VI.2.2 Coeficientul de asimetrie Fisher........................................... 153


VI.3 Boltirea sau excesul ................................................................ 158
VI.4 Caracterizarea distribuiei normale .......................................... 162
VI.4.1 Notele z i note standard derivate ..................................... 164
VI.5 Transformarea datelor brute .................................................... 171
VI.6 Sisteme de etalonare ............................................................... 175
VI.6.1 Etaloane n cuantile ............................................................. 180
VI.6.2 Etaloane normalizate ........................................................... 183
VI.7 Analiza distribuiei i realizarea etaloanelor n SPSS ............... 189
VI.7.1 Calculul notelor z n SPSS ............................................... 203
VII. Probabiliti i semnificaie statistic .............................................. 209
VII.1 Patru reguli de probabilitate .................................................... 212
VII.1.1 Probabilitatea simpl pentru evenimente egale ................. 213
VII.1.2 Evenimentele mutual exclusive ........................................ 214
VII.1.3 Evenimentele independente .............................................. 217
VII.1.4 Probabilitatea condiionat ............................................... 218
VII.2 Eroare standard i intervale de ncredere ................................. 220
VII.3 Metoda tiinific n tiinele socio-umane .............................. 227
VII.3.1 Enunarea problemei ........................................................ 228
VII.3.2 Formularea ipotezelor ...................................................... 231
VII.3.3 Proiectarea cercetrii ........................................................ 246
VII.3.4 Efectuarea observaiilor ................................................... 247
VII.3.5 Interpretarea datelor ......................................................... 247
VII.3.6 Formularea concluziilor ................................................... 249
VIII. Eantionare i reprezentativitate.................................................. 251
VIII.1 Populaia ................................................................................. 252
VIII.2 Surse de date ........................................................................... 253

5
Statistic aplicat n tiinele socio-umane

VIII.2.1 Sursele principale de date................................................. 253


VIII.2.2 Sursele secundare de date................................................. 254
VIII.3 Eantionul ............................................................................... 254
VIII.3.1 Mrimea eantionului ....................................................... 257
VIII.3.2 Caracteristicile populaiei ................................................. 258
VIII.3.3 Procedee de eantionare ................................................... 258
VIII.3.4 Stabilirea eantionului prin analiz ................................... 260
VIII.3.5 Determinarea mrimii eantionului .................................. 278
VIII.4 Construcia eantioanelor n SPSS ........................................... 285
VIII.4.1 Crearea unui eantion n SPSS ......................................... 286
VIII.4.2 Analiza eantionului......................................................... 302
VIII.4.3 Investigarea proprietilor eantionului ............................ 308
Bibliografie .............................................................................................. 321
n loc de ncheiere .................................................................................... 323

6
Cristian Opariuc-Dan

Prefa
Apariia unei noi cri de statistic n domeniul tiinelor sociale este
un fapt tiinific remarcabil n zona intelectual de resort din Romnia. De-
numirea alternativ pentru aceast preocupare academic este Metode canti-
tative n domeniul tiinelor sociale, avnd n vedere faptul c statistica este
un vast ansamblu de metode folosite pentru culegerea, gruparea, prelucrarea,
interpretarea i prezentarea datelor culese din sectorul cercetrii sau al prac-
ticii profesionale. Din acest ansamblu de metode, psihologii i ali specialiti
n domeniul socio-uman nu ntrebuineaz dect o parte. Statistica este o pre-
ocupare teoretic i practic, ale crei acumulri a dat roade care se revars
ntr-un vast ansamblu de domenii tiinifice i preocupri empirice, domeniul
economic fiind cel mai cunoscut marelui public. Oamenii sunt din ce n ce
mai bombardai pe canalele media cu informaii statistice, care se constituie,
n frecvente cazuri, n surse de manipulare. Orice persoan care dorete s
decodeze corect noianul de date statistice cotidiene trebuie s cunoasc sen-
sul i corecta folosire a unor noiuni i a unor raportri din acest areal de pre-
ocupri. Dup cum spune un statistician englez, m refer la Milton Smith,
nenorocirea nu const n faptul c statisticile mint, ci n faptul c mincinoii
se folosesc de statistici. Referinele domnului Cristian Opariuc se fac mai ales
la domeniul psihologiei, domeniu n care autorul a avut o rodnic activitate
profesional, n calitate de psiholog practician. Se poate spune c expozeul
domniei sale din lucrarea de fa reprezint o statistic trit, adic aplicat
prin experien profesional ntr-o mulime de situaii de cercetare tiinific
i aplicaii empirice.
Contribuia domniei sale la rspndirea teoriei i a aplicaiei statistice
n domeniul socio-uman, n general, i n cel psihologic, n special, este nota-
bil, avnd n vedere precizrile anterioare referitoare la contactul nemijlocit
cu situaii care cereau competen i pertinen n interpretare. Pentru cei ti-
neri i neexperimentai, amintesc faptul c domeniul interpretrii cantitative

7
Statistic aplicat n tiinele socio-umane

i calitative a datelor rezultate din practica profesional i cercetarea tiinifi-


c a fost n grea suferin n Romnia. Introducerea consistent in Romnia a
spiritului experimental n psihologie i a curentului aplicativ n diverse sec-
toare de activitate cunoate o dezvoltare promitoare n perioada interbelic,
mai ales prin activitatea colii experimentale de la Cluj, al crei iniiator este
profesorul tefnescu Goang. Vrful de valoare academic a fost reprezentat
de profesorul Nicolae Mrgineanu, prima personalitate romneasc de talie
mondial din domeniul psihologiei. Format la instituii academice reputate
din Statele Unite, cunosctor al personalitilor tiinifice de prim rang de
nivel mondial, citat n lucrri tiinifice de anvergur, Nicolae Mrgineanu a
lansat n circuitul tiinific romnesc dou lucrri, intitulate Analiza factori-
lor psihici i Probleme de psihometrie, care anunau o frumoas perspec-
tiv de dezvoltare a domeniului analizelor cantitative n psihologie. Din pca-
te, Leviatanul s-a dovedit a fi din nou foarte imprevizibil i a adus n loc de
dezvoltare cultural tiinific un pustiitor i secetos vnt asiatic peste destine-
le oamenilor de valoare din domeniul cultural i tiinific. Vreme de mai bine
de cinci decenii, Romnia a cunoscut dictatura celor care proveneau din zona
lumpen-proletar, fapt care a afectat foarte serios progresul cercetrilor psi-
hosociale. n aceast perioad, preocuprile statistico-experimentale s-au re-
dus puternic, fiind aproape anihilate de o concepie ngust-pragmatic de or-
ganizare a nvmntului i a cercetrii. O tiin care se ocupa cu diagnoza
psihic nu putea trezi dect suspiciune n rndul unei nomenclaturi cldite pe
principiul contra-seleciei valorice. n aceast perioad, lucrrile de speciali-
tate au lipsit aproape cu desvrire, consecina resimindu-se n rndul pui-
nilor practicieni care activau n domeniul colar, al transporturilor, industrial
i militar. ntre 1948 i 1990 au existat profesioniti i cercettori din dome-
niul psihologiei cu interes i iniiativ, dar mediul n care evoluau era puter-
nic srcit de informaie i via tiinific. Majoritatea celor ce activau n
laboratoare au avut un inventar redus de procedee de prelucrare a datelor. n
lipsa unor instituii universitare de profil consolidate, care s creeze specia-

8
Cristian Opariuc-Dan

liti, au primit titulatura de psihologi absolveni de filosofie, filologie, peda-


gogie, sociologie. Pentru acetia, chiar construirea etaloanelor prea o tain
de neptruns.
Dup 1990, revirimentul s-a realizat intens, progresiv. Schimburile
culturale i tiinifice s-au intensificat, accesul la informaie s-a democratizat
i ne gsim aproape de limita normalitii. Fac aceast afirmaie, deoarece
folosirea procedurilor avansate de prelucrare statistic este nc deficitar n
Romnia i rafinamentul interpretativ este nc insuficient dezvoltat.
Cartea lui Cristian Opariuc este o contribuie notabil pentru intrarea
n normalitate. Autorul nu realizeaz un inventar sec de noiuni i procedee
statistice, ci se concentreaz prioritar pe explicaii amnunite i pe prezenta-
rea consecinelor aplicrii de procedee statistice. n lipsa unei astfel de aten-
ii, interveniile statistice n cercetare i n practica profesional se pot trans-
forma n capodopere din antologia umorului. Se poate ntocmi o list apreci-
abil de folosiri inadecvate ale procedurilor cantitative; de exemplu, calcula-
rea mediei pentru frecvenele absolute ale modalitilor scalei nominale, in-
troducerea de date lipsite de consisten scalar adecvat n analiza factorial,
folosirea procedurilor parametrice n locul celor neparametrice, interpretarea
ngust tehnicist a rezultatelor cercetrilor. Este apreciabil modul n care se
concentreaz autorul spre evitarea situaiilor de artefact, spre adecvarea re-
prezentrilor grafice, spre explicarea particularitilor situaiilor experimenta-
le. De mare importan este acea parte a crii care se refer la domeniul infe-
renial i la testele statistice adecvate situaiei de cercetare, fiind cunoscut
situaia c n acest domeniu se fac cele mai frecvente confuzii. Interesant este
faptul c aceste rezultate confuze se constituie n baz de pornire pentru alte
demersuri metodologice, de unde o diluare a consistenei faptului tiinific
i, drept urmare, a concluziilor care se pot trage din efectuarea unui studiu.
Un merit al autorului este atenia acordat unei corecte introduceri a datelor
n programul computerizat de prelucrri statistice din domeniul tiinelor so-
ciale, autorul fiind lovit din greu de patima informaticii. Realizrile din

9
Statistic aplicat n tiinele socio-umane

domeniul informaticii, n special a bncilor de date n domeniul examenului


psihologic, au constituit fapte de pionierat n domeniu.
Lucrarea are un aspect cursiv i se citete uor, explicaia acestor situ-
aii fiind talentul i rbdarea autorului; nimic nu este considerat de la sine
neles, ambiguitile sunt excluse, identitatea noional este asigurat i veri-
ficat prin exerciii. Lucrarea poate servi drept baz de tratament pentru a
nltura idiosincrazia statistic a studenilor i profesionitilor din domeniul
tiinelor sociale.

Iai, 23 septembrie 2008 Prof. univ. dr. Aurel Stan


Universitatea Al. I. Cuza, Iai

10
Cristian Opariuc-Dan

Cuvntul autorului
Bun venit la cursul de statistic aplicat n tiinele socio-umane. Da-
c ai cumprat aceast carte, probabil c suntei student sau absolvent al unei
faculti pe care ai urmat-o tocmai din dorina de a scpa de matematic, de
calcule, probabil c v plac mai mult cuvintele, v place s vorbii cu oame-
nii, s-i nelegei i s-i ajutai, s ptrundei fenomenele i evenimentele
sociale. mi imaginez surprinderea i ngrijorarea dumneavoastr n momen-
tul n care, abia pind pe bncile facultii, ai aflat cu stupoare c trebuia s
studiai statistic. Mai mult, c statistica v-a urmat n toi anii de facultate,
inclusiv la licen. tiu! i eu, la rndul meu, am trit aceleai sentimente i
nu m pot luda c am obinut, de la nceput, performane deosebite n acest
domeniu. Asta pentru c statistica nu se las uor dezvluit. Totui, statistica
reprezint fundamentul tiinific al unor discipline precum psihologia, socio-
logia, antropologia i multe altele. Fr sprijinul su, nu am reui s vorbim
astzi de inteligen, trsturi de personalitate, tipuri de memorie, nu am avea
teste care s le msoare la nivelul la care reuesc acum s le msoare.
Statistica nu este att de grea. Nu este nevoie s tim concepte avansa-
te de matematic superioar pentru a nelege i aplica principii statistice.
Dac tii s adunai, s scdei, s nmulii i s mprii, sunt sigur c vei
putea nva foarte bine i statistica. Nu trebuie s v sperie formulele com-
plexe i neinteligibile. De cele mai multe ori, aceste formule nu sunt altceva
dect algoritmi, pai simpli, proceduri de calcul elementar, care v introduc
n lumea fascinant a probabilitilor. Chiar dac uneori apar termeni precum
logaritmi, integrale, derivate i limite, stai linitii. Nimeni nu v pune s le
calculai. Unele calcule pot presupune utilizarea unui calculator tiinific i
cam att.
Am ncercat s fac din acest volum un material special i am evitat de
fiecare dat s utilizez concepte matematice laborioase. Fiecare formul pe
care o prezint aici va fi explicat, descompus. Uneori abundena de exemple

11
Statistic aplicat n tiinele socio-umane

i repetiiile sunt destinate fixrii unor concepte mai dificile sau mai impor-
tante. Sigur c statistica presupune nc de la nceput stpnirea unor concep-
te noi. Nu putem avansa dac nu nelegem sensul termenului a msura sau
dac nu tim ceea ce este o variabil, un nivel de msur sau un indicator
statistic. Muli dintre dumneavoastr abia acum iau contact cu aceti termeni
i, desigur, lucrul acesta i sperie. Fii fr grij. O mare parte din terminolo-
gia statistic o folosii deja i ai folosit-o de mii de ori. Doar c nu tiai c se
numete aa i nici de unde provine. mpreun vom face lumin.
Acest volum este unul practic. Fiecare capitol i propune obiective
precise i abund de exemple i exerciii concrete. n definitiv, m interesea-
z s stpnii practica statisticii, s o utilizai n activitatea dumneavoastr de
zi cu zi i nu s facem speculaii teoretice pe aceast tem. Majoritatea capi-
tolelor sunt formate din dou pri: un fundament teoretic i conceptual nso-
it de algoritmii (paii) clasici ai unui procedeu statistic i o aplicaie folosind
un pachet de programe de prelucrri statistice, SPSS for Windows. n aceast
carte am utilizat mai multe versiuni SPSS, ultima fiind versiunea 15. Sunt
sigur c principiile prezentate aici vor putea fi aplicate i n versiunile urm-
toare. La momentul scrierii acestei cri, ultima versiune de SPSS este versi-
unea 16. n general, fiecare capitol se finalizeaz cu un set de ntrebri i
exerciii pe care v invit s le parcurgei singuri, deoarece sunt menite s sta-
bilizeze cunotinele dobndite.
Totui, de ce este important s studiem statistica? Desigur, argumen-
tele sunt nenumrate, ns m voi rezuma doar la cteva. Cel ce nu cunoate
statistic nu poate nelege articolele de specialitate. Toate cercetrile care se
fac n acest domeniu folosesc metode statistice mai mult sau mai puin elabo-
rate. Un specialist n domeniu care nu cunoate statistic, nu poate citi i ne-
lege n profunzime coninutul unui material de specialitate, corectitudinea sau
incorectitudinea datelor expuse. n alt ordine de idei, necunoscnd statistic,
nu se poate face cercetare experimental, nu pot fi nelese principiile con-
structive ale unui instrument sau ale unei metode de msurare a unor caliti

12
Cristian Opariuc-Dan

psihologice sau a unor fapte sociale i, prin urmare, un asemenea instrument


nu va putea fi utilizat corect.
Materialele pe care le-am folosit pentru a scrie aceast carte sunt, n
marea lor majoritate, prezentate n bibliografia final. De asemenea, am utili-
zat multiple surse de pe Internet, precum i experiena mea ca practician i
dascl n ale statisticii. Nu pot s nu-i menionez pe cei care mi-au fost primii
ndrumtori n aceast aventur i de la care am avut i nc mai am de nv-
at foarte mult. Astfel, i sunt recunosctor profesorului doctor Cornel
Havrneanu, mentorul i prietenul meu, care mi-a ghidat formarea i m-a
susinut permanent, prietenului meu asistent doctor Ovidiu Lungu, un statisti-
cian nnscut, care m-a determinat s neleg c acesta ar fi domeniul ce mi s-
ar potrivi cel mai bine i care mi-a sprijinit nceputurile, lector doctor Lore-
dana Ruxandra Gherasim, cu care de nenumrate ori am nvat s aplic prac-
tic ceea ce tiam teoretic sau s mi fundamentez teoria plecnd de la practi-
c, profesor universitar doctor Aurel Stan, care a avut bunvoina i rbdarea,
alturi de cei menionai mai sus, s mi citeasc lucrarea i s mi fac ob-
servaii pertinente pe seama ei, prin intermediul cruia am luat cunotin de
statistic prima dat, n anii studeniei, i care, ulterior, mi-a furnizat informa-
ii valoroase ce mi-au permis s m perfecionez. Fr contribuia lor, n mod
sigur nu a fi ajuns niciodat s scriu aceste rnduri i lor le datorez recuno-
tina mea.
Nu pot, de asemenea, s nu mulumesc unei situaii, situaia care m-
a determinat s vin din Iai la Constana. Am nvat c, statistic, un eec
personal creeaz premisele unei relansri. Dac aceast situaie, dac proprii-
le mele eecuri nu ar fi existat, probabil c aceast carte nu ar fi existat nici
ea. ntotdeauna, chiar atunci cnd ceva pare sigur imposibil, s tii c soluia
e chiar la ndemna dumneavoastr. Referitor la acest fapt, nu pot s nu mul-
umesc fiicei mele, Luana-tefana, care mi-a fost sprijin i speran n toate
momentele dificile i care, n ciuda vrstei, nu a ncetat s m sprijine i s
m ncurajeze. i mulumesc i i dedic prima mea lucrare.

13
Statistic aplicat n tiinele socio-umane

Aceast carte nu ar fi vzut tiparul fr susinerea profesorului univer-


sitar doctor Mircea Miclea, care m-a ncurajat, m-a neles i a sprijinit apari-
ia acestui volum. i mulumesc i mi exprim recunotina i pe aceast cale.
Nu pot, de asemenea, s nu i amintesc pe prinii mei i pe toi prietenii mei,
mai mult sau mai puin apropiai, datorit crora am avut energia s ncep
aceast lucrare i crora le mulumesc pentru c m-au ajutat s trec peste
momentele dificile din ultimii ani i fa de care nu pot s nu mi exprim re-
cunotina.
Orict a ncerca, nu reuesc s mi scot din minte vorbele i imaginea
primului meu profesor adevrat de matematic, domnul Crezant Ghenghea,
din cadrul liceului industrial (pe atunci), actualmente Colegiu Naional Nicu
Gane din Flticeni, care a reuit s-mi induc, cum nu a fcut nimeni, dra-
gostea fa de aceast disciplin. Chiar dac nu l nelegeam n acel moment
al adolescenei mele, el a fost primul (i singurul) care m-a vzut cu aptitu-
dini n acest domeniu, aptitudini pe care eu nsumi mi le repudiam. A trebuit
s treac muli ani ca s ajung la vorbele sale: Eti pentru tiine exacte. Nu
poi scpa de ceea ce eti. Ai s-mi dai dreptate mai trziu. i i-am dat
dreptate. Mi-a dori s fie acum mndru de ceea ce-am realizat i voi folosi
aceast ocazie pentru a-i mulumi.
Nu n ultimul rnd, v mulumesc dumneavoastr, care ai cumprat
aceast carte, i v invit s m urmai n cltoria din lumea statisticii, s v
convingei c lucrurile sunt mai simple dect credei. Eu nu pot dect s v
garantez c v voi scoate la liman. Observaiile dumneavoastr sunt foarte
importante pentru mine i m vor putea orienta n viitoarele lucrri sau reedi-
tri ale acestui volum. Dac unele informaii nu vi se par clare, dac dorii i
altceva, nu v rmne dect s-mi scriei pe adresa copariuc@gmail.com i
s-mi comunicai opinia dumneavoastr. V mulumesc i v doresc succes!
Constana, miercuri, 2 decembrie 2009

14
Cristian Opariuc-Dan

I. NATURA MSURRII N TIINELE SOCIO-UMANE


n acest capitol se va discuta despre:
Sensul i semnificaia termenului de msurare;
Variabile discrete i continui;
Niveluri de msurare;
Descrierea programului SPSS;
Crearea unei baze de date SPSS;
Operaii elementare n SPSS.
Dup parcurgerea capitolului, cititorii vor fi capabili s:
neleag conceptul de msurare n tiinele
socio-umane;
Disting ntre variabilele continui i variabilele
discrete;
Diferenieze nivelurile de msurare;
Se familiarizeze cu aplicaia SPSS;
Creeze o baz de date SPSS i s defineasc corect
variabilele.

Statistica se refer la msurare i probabiliti. Cuvntul statistic,


provine din latinescul statista i desemna, pe vremuri, persoanele care se
ocupau cu afacerile statului, care numrau populaia sau realizau alte aciuni
ce ajutau statul s gestioneze mai bine politica de taxe i costurile rzboaie-
lor. n perioada medieval, prin statistic, armatorii i calculau costurile
echiprii corbiilor, incluznd n calculele lor i probabilitatea ca acestea s
fie atacate de pirai sau de a naufragia (Lungu, 2001).
Foarte multe dintre conceptele statistice au avut rdcini n alte disci-
pline, unele complet diferite de matematic. Astfel, corelaiile provin din
biologie, din analiza asemnrii dintre copii i prinii lor. Analiza de varian-
provine din fabricile de bere i se folosea la alegerea tipului potrivit de orz
i a timpului optim de fermentare, astfel nct berea s aib un anumit gust.
Mai interesant este faptul c nsi teoria msurrii i are originea n psiho-
logie, mai precis n studiul inteligenei i al personalitii umane, iar testele

15
Statistic aplicat n tiinele socio-umane

neparametrice provin din sociologie. Unii statisticieni ncercau chiar s de-


monstreze existena lui Dumnezeu cu ajutorul numerelor, iar astzi, statistica
joac un rol important n viaa noastr, indiferent dac ne referim la psiholo-
gie, sociologie, tiine economice sau alte discipline.
n viziunea lui T. Rotariu, statistica se axeaz n principal pe tratarea
informaiilor numerice obinute la nivelul unor mulimi de entiti, informaii
prelevate de la fiecare entitate n parte (sau de la o submulime) i care con-
duc la rezultate cu referin la ansamblu, i nu la entitile componente luate
individual. (Rotariu, i alii, 2006)
Operaiile statistice presupun, prin urmare, un proces de msurare. La
o analiz atent, sintagma a msura un obiect nu nseamn altceva dect a
msura proprietile unui obiect. Noi nu putem msura obiectele, ci, pentru a
le cunoate, msurm anumii indicatori ai proprietilor acestora. Este ade-
vrat c, n anumite tiine (fizica, chimia etc.), msurarea dobndete un
caracter mai concret, deoarece obiectele i proprietile acestora sunt mai
accesibile observrii directe. Putem msura cu uurin lungimea i limea
unei mese (deci indicatori ai proprietilor lungime i lime ale obiectului
mas), deoarece aceste dou proprieti sunt direct accesibile observaiei
noastre. ns, n momentul n care discutm de anxietate, depresie, inteligen-
, atenie, responsabilitate, nivel de trai etc. constatm c aceste proprieti
nu pot fi direct observate. Prin urmare, va trebui s deducem aceste caracte-
ristici din observarea unor indicatori presupui ai proprietilor. Aadar, m-
surarea n tiinele socio-umane are un caracter subtil, care scap obser-
vrii directe. (Vasilescu, 1992)
n tiinele socio-umane, noi nu cunoatem i uneori nu putem cu-
noate n mod precis semnificaia mrimilor pe care le determinm, iar cifrele
pe care le obinem sunt aproximri mai mult sau mai puin exacte ale realit-
ii. Acest lucru se ntmpl din cauza apariiei erorilor de msurare i a fap-
tului c realitatea social nu are un caracter fix, ci unul fluctuant, variabil.

16
Cristian Opariuc-Dan

Cantitatea n care un obiect este saturat ntr-o caracteristic nu este reprezen-


tat printr-un punct, ci printr-un nor de puncte, care oscileaz ntr-un anumit
interval, n jurul unei valori. (Vasilescu, 1992)
Discutnd despre sensul termenului de a msura, acceptm definiia
dat de S. S. Stevens (1959) prin care, n sensul su larg, msurarea n-
seamn atribuirea de numere obiectelor sau evenimentelor, potrivit unor
reguli. Msurarea este, deci, o funcie prin care unui obiect i corespunde un
numr i numai unul, la o anumit msurare. Aceast funcie de atribuire va
trebui s fie suficient de clar, pentru a permite ca unui obiect s i se atribuie
un numr i numai unul i pentru a ne permite s decidem concret i corect ce
numr va fi atribuit fiecrui obiect, dar i suficient de simpl pentru a putea
fi aplicat. (Vasilescu, 1992)
Spre exemplu, codificarea genului biologic al subiecilor este o msu-
rare; dac persoana este brbat, i se acord valoarea 1, iar dac persoana este
femeie, i se acord valoarea 2. Observm c regula de atribuire nu permite
confuzii brbatul este notat cu 1, iar femeia cu 2 , ofer o selecie exhaus-
tiv de categorizare a oricrui element care apare n mulimea gen biologic
i este suficient de simpl pentru a fi utilizat. Acesta este un proces de msu-
rare conform definiiei lui Stevens, dei putem constata cu uurin lipsa po-
sibilitii de ierarhizare. Nu putem construi, la acest nivel, o ierarhie a subiec-
ilor, deoarece nivelul de msurare este unul categorial. Despre nivelurile i
scalele de msurare, vom discuta ns mai trziu.
Un alt exemplu de msurare l reprezint codificarea gradelor didacti-
ce: notm cu 0 preparatorul, cu 1 asistentul, 2 lectorul, 3 confereniarul, 4
profesorul. Observm, din nou, univocitatea i simplitatea regulii; ntr-o
universitate, fiecare cadru didactic poate s fac parte dintr-o categorie i
numai una, iar fiecare persoan se afl, la un moment dat, ntr-o asemenea
categorie. n plus, observm existena unei ierarhii; confereniarul este inferi-
or n grad profesorului i superior n grad lectorului, fr ns a se putea pre-

17
Statistic aplicat n tiinele socio-umane

ciza nici cu ct, nici de cte ori. Aceasta este ns, din nou, o problem a ni-
velului de msurare, pe care o vom aborda ulterior.

I.1 Variabile
Am stabilit deja faptul c obiectele pot fi cunoscute prin msurarea
indicatorilor proprietilor sale. Aadar, obiectele devin msurabile prin stabi-
lirea caracteristicilor lor. Caracteristica este, prin urmare, o particularita-
te, o nsuire a unui obiect sau fenomen, care constituie obiectul msur-
rii. De exemplu, o mas poate fi caracterizat prin lungime, lime, nlime,
greutate, form, culoare etc. Toate acestea constituie caracteristici prin care
ncercm s descriem ct mai exact obiectul msurat. Cu ct avem mai multe
asemenea caracteristici, cu att obiectul se contureaz mai precis.
Caracteristicile prin care obiectul este descris, poart numele de vari-
abile. O variabil reprezint un concept-cheie n statistic i nu este altceva
dect un nume pentru un element a crui principal proprietate este ace-
ea c variaz, i modific valorile. Prin aceast proprietate principal, vari-
abilele se disting de constante, elemente care au valori fixe. De exemplu,
ntr-un studiu efectuat pe o populaie general, genul biologic poate fi o vari-
abil dac lotul de cercetare cuprinde att brbai, ct i femei. Dac, ns,
intenionm s desfurm o cercetare numai pe femei, atunci genul biologic
devine o constant, deoarece nu prezint proprietatea principal a variabile-
lor, aceea de a-i modifica valorile.
Modalitatea de realizare a unei variabile (modul n care i sunt atribui-
te valorile) constituie un eveniment ntmpltor (probabilistic), de aceea vari-
abila se mai numete i variabil aleatoare sau variabil stocastic. De
exemplu, nlimea unor elevi dintr-o clas este o variabil care poate lua
aleatoriu diferite valori pe care le pot avea elevii la aceast caracteristic.
Desigur, valorile pe care le poate lua variabila se grupeaz ntr-un anumit
interval de valori. Nu putem vorbi de elevi de 5 centimetri, dup cum nu pu-
tem gsi elevi de 5 metri. De aceea, putem considera c nlimea elevilor din

18
Cristian Opariuc-Dan

clasa a X-a este o variabil stocastic ce poate lua aleatoriu valori din dome-
niul de definiie 150 190 centimetri.
Aadar, elementele de baz care compun domeniul de definiie al unei
variabile aleatorii poart numele de valori sau scoruri. n momentul n care
aceste elemente sunt numere, variabila se mai numete i variabil alea-
numeric.
O variabil aleatorie exprim, aadar, variaia unei caracteristici.
Dup cum am spus, nlimea elevilor este o variabil alea-numeric; la fel
greutatea acestora, capacitatea toracic, temperatura corpului sau numrul de
la pantofi. Nu toate variabilele sunt ns alea-numerice. Culoarea ochilor,
culoarea prului, genul biologic, tipul temperamental etc. sunt variabile ale
cror valori nu pot fi exprimate prin numere, dei sunt i ele variabile aleato-
rii. Asemenea variabile nu sunt considerate variabile alea-numerice.
Toate aceste caracteristici pot fi msurate, nregistrate i catalogate i,
de asemenea, difer de la o persoan la alta sau de la o situaie la alta. De
aceea, toate aceste concepte le vom include sub denumirea generic de vari-
abile.
De ce suntem ns att de interesai de aceste variabile, de ce sunt im-
portante i la ce ne folosesc? Rspunsul este acela c nu putem fi mulumii
doar cu ideea c variabilele variaz. Ne intereseaz, n principiu, s nele-
gem de ce variaz, cnd i n ce condiii variaz, care este efectul acestor va-
riaii ale lor. Pentru aceasta, variabilele vor trebui mai nti definite, apoi n-
registrate i, n final, supuse analizei, crend premisele extragerii unor con-
cluzii i, implicit, ale generalizrii.
Realizarea unei variabile prin intermediul scorurilor creeaz posibili-
tatea abordrii conceptului statistic de frecven. Frecvena reprezint rs-
punsul la ntrebarea ci indivizi, cte cazuri populeaz fiecare categorie a

19
Statistic aplicat n tiinele socio-umane

variabilei sau, aa cum exprim T. Rotariu, numrul de indivizi statistici


care populeaz fiecare clas a caracteristicii (Rotariu, i alii, 2006).
Dac ne propunem s nregistrm persoanele dintr-o sal de curs sub
aspectul culorii ochilor vom avea, spre exemplu, 20 de persoane cu ochi al-
batri, 13 persoane cu ochi verzi, 15 persoane cu ochi negri i 50 de persoane
cu ochi cprui. Valorile care nsoesc categoriile variabilei culoarea ochilor
reprezint tocmai frecvenele mai exact frecvenele absolute, deoarece mai
pot exista frecvene exprimate procentual (frecvene relative) i frecvene
cumulate, despre care vom discuta n urmtorul capitol.
O variabil aleatoare poate fi discret sau continu, dup cum mul-
imea de definiie a valorilor sale poate fi numrabil (discontinu) sau ne-
numrabil (continu) 1.

I.1.1 Variabile discrete


n cazul variabilelor discrete (care, n funcie de nivelul de msurare,
pot fi categoriale sau ordinale vom vedea imediat ce nseamn acest lucru),
mulimea de definiie a valorilor sale este o mulime discontinu (elemen-
tele sale pot fi numrate), iar ntre dou valori nu poate fi interpus, n per-
manen, o valoare intermediar.
Spre exemplu, variabila culoarea ochilor este o variabil discret; ea
poate lua valorile: negru, cprui, verde, albastru i putem clasifica subiecii
ntr-una din aceste patru categorii. Iat c, mulimea de definiie a valorilor
acestei variabile este una numrabil (are doar patru valori) i nu avem posi-
bilitatea ca ntre dou valori s includem, n permanen, o a treia valoare
intermediar. Nu putem vorbi despre ochi verde-albastru i apoi verde-verde-
albastru i aa mai departe, la infinit.

1
Exist mai multe clasificri ale variabilelor. Le vom aborda atunci cnd situaia o va impu-
ne, pentru a nu complica inutil, la acest nivel, expunerea noastr.

20
Cristian Opariuc-Dan

Un asemenea exemplu de variabil este o variabil discret nomina-


l sau variabil discret categorial, deoarece permite doar clasificri, fr
a putea vorbi de o relaie de ordine sau ierarhie ntre valorile pe care le poate
lua respectiva variabil.
Un alt exemplu de variabil discret este variabila grad didactic. Ea
poate lua valorile: preparator, asistent, lector, confereniar, profesor. Sigur c,
i n acest caz, putem clasifica subiecii n funcie de gradul lor didactic. Nu
putem ns vorbi, nici acum, de o nou categorie intermediar, de exemplu
asistent-lector i apoi asistent-lector-lector i aa mai departe, lucru care i
confer caracterul discret. De data aceasta ns, putem pune o relaie de ordi-
ne ntre valorile variabilei. Putem vorbi de faptul c asistentul este inferior n
grad lectorului sau profesorul este superior n grad confereniarului. O ase-
menea variabil se numete variabil discret ordinal sau variabil dis-
cret de rang.

I.1.2 Variabile continui


n cazul variabilei continui, mulimea de definiie a valorilor sale este
una continu, ne-numrabil. Aceste variabile se mai numesc i variabile
scalare (de interval sau de raport). n aceast situaie, ntre dou valori ale
variabilei continui putem gsi, oricnd, o valoare intermediar. Cu alte cuvin-
te, o caracteristic continu poate lua orice valoare ntre anumite limite.
Spre exemplu, variabila nlimea subiecilor este o variabil de tip
scalar (continuu). ntre un subiect de 178 centimetri i un subiect de 180 cen-
timetri, putem gsi, oricnd, un subiect de 179 centimetri, apoi ntre unul de
178 i unul de 179 putem gsi un subiect de 178,5 centimetri i aa mai de-
parte, la infinit.
O asemenea variabil se caracterizeaz prin faptul c, tipul de date
msurat de aceasta este format din uniti de dimensiune egal. Ca exemplu
de variabile continui putem da greutatea subiectului, intervalul de tip petrecut

21
Statistic aplicat n tiinele socio-umane

pentru a juca jocuri agresive pe computer etc. Astfel, nlimea subiecilor o


putem msura n centimetri, greutatea n kilograme, timpul n minute sau ore,
toate acestea fcnd referire la un nalt nivel de precizie, cu valori zero abso-
lute i posibiliti de construire a scalelor de raport putem spune, de exem-
plu, c un subiect este de dou ori mai greu dect altul sau de dou ori mai
nalt.

I.2 Scale (nivele) de msurare


n capitolul anterior am vzut c variabilele discrete pot fi categoriale
sau de rang; cele continui de interval sau de raport. Dac acceptm definiia
lui Stevens, atunci putem intui c msurarea poate fi realizat la diferite nive-
luri de msurare, organizate ca n figura de mai jos.
Nivelul nominal de
msurare (clasificare) i nive-
Raport lul ordinal (de rang sau ierar-
Parametric hic) se grupeaz n scala ne-
Interval
Cuantificare parametric (nonmetric) de
Ordinal msurare.
Neparametric
Nominal
Nivelul de interval (in-
tervale egale) i nivelul de
Figura 1.1 Reprezentarea schematic a nivelurilor de raport (proporii) formeaz
msurare
scala parametric (metric)
de msurare.
Observm c termenul de cuantificare dobndete sens ncepnd cu
scala ordinal, deoarece abia la acest nivel ne permitem realizarea unor ierar-
hii. Scala nominal nu accept cuantificare, ci doar clasificare.
Se cuvine s facem meniunea c proprietile scalelor sunt incremen-
tale, adic proprietile unui nivel inferior de msurare sunt valide i la un
nivel superior de msurare, ns nu i reciproc.

22
Cristian Opariuc-Dan

I.2.1 Scale neparametrice


Grupeaz scala nominal i scala ordinal, scale la nivelul crora pu-
tem pune, cel mult, o relaie de ordine ntre nivelurile variabilei. Nu putem
vorbi de parametri i nici de statistici metrice. Nu are sens calculul mediei
sau al altor indicatori din sfera metric, deoarece nu putem stabili un interval
(cu ct) fa de care o valoare este mai mare n comparaie cu alta.

I.2.1.1 Scala nominal (de clasificare)


Reprezint primul nivel de msurare i const n clasificarea obiecte-
lor n funcie de existena sau inexistena unei caracteristici. Aceast clasifi-
care presupune existena unor categorii disjuncte, astfel nct fiecare obiect
s-i gseasc locul ntr-o categorie i numai n una (Vasilescu, 1992).
Pentru ca scala s aib sens, trebuie s existe cel puin dou categorii.
O variabil nominal cu dou categorii poart numele de dihotomie sau cla-
sificare dihotomic. Dac exist mai multe categorii, vorbim despre
polihotomii sau clasificri multiple (polihotomice). mprirea subiecilor
n brbai i femei reprezint o clasificare dihotomic. mprirea n funcie
de profesie, culoarea ochilor sau a prului, grupa sanguin etc. sunt tot attea
exemple de polihotomii.
n mod curent, folosim aceast scal n vederea categorizrii subieci-
lor n funcie de unul sau mai multe criterii (de obicei, n cercetarea psiholo-
gic sau sociologic) sau atunci cnd culegem date n urma anchetei sau ob-
servaiei.
Proprieti ale scalei:
Transformrile permise la nivelul acestei scale sunt (Vasilescu,
1992):
o Redenumirea atribuirea unor noi nume (n loc de mascu-
lin/feminin putem spune brbat/femeie);

23
Statistic aplicat n tiinele socio-umane

o Permutarea schimbarea ordinii elementelor, deoarece nu


se poate stabili o ierarhe ntre valorile unei variabile pe
aceast scal. Aceast proprietate este caracteristic doar
scalei nominale.
Operaii statistice permise n principal, operaiile de baz, deri-
vate din numrare, astfel:
o Frecvena absolut i relativ (procentul), cte observaii
au fost incuse n fiecare categorie (de exemplu 25 de br-
bai i 40 de femei sau 30% brbai i 78% femei);
o Valoarea modal (modul), categoria cu frecvena cea mai
mare (de exemplu, din 200 de subieci, 150 au ochi al-
batri, aceasta fiind categoria cu frecvena cea mai mare
modul);
o Verificarea statistic prin 2 procedeu de comparare a
frecvenelor i de verificare, dac diferenele dintre ele
sunt ntmpltoare sau, din contra, semnificative, nentm-
pltoare;
o Coeficieni de corelaie ntre dou variabile cu dou valori
fiecare, coeficientul , coeficientul tetragoric, coeficientul
de contingen, toate bazndu-se pe lucrul cu frecvene ab-
solute sau relative.

I.2.1.2 Scala ordinal (de rang sau topologic)


Reprezint al doilea nivel de msurare i const n ierarhizare, n
funcie de mrimea unei caracteristici, fr ns a se putea preciza cu ct un
nivel ierarhic este superior sau inferior altuia i nici de cte ori.
Spre deosebire de scala nominal (ale crei proprieti le include),
scala ordinal permite stabilirea unei relaii de ordine ntre date.

24
Cristian Opariuc-Dan

Strict vorbind, acesta este nivelul la care ne situm n tiinele socio-


umane, n general, i n psihologie, n particular. Din perspectiva statisticii,
ca disciplin matematic, nu putem vorbi de medie, abatere standard sau ali
indicatori care presupun un nivel de msur cel puin de interval, deoarece o
asemenea scal nu exist n domeniul socio-uman la o rigoare (nc) demon-
strabil matematic. Scorurile testelor de inteligen, aptitudini, personalitate
sunt variabile, avnd valori simplu ordonate la un nivel ordinal de msur.
Un test de inteligen nu ne arat, de fapt, cantitatea de inteligen a subieci-
lor, ci ierarhizarea acestora, poziia, rangul pe care l ocup fiecare ntr-o po-
pulaie.
Lansarea, n 1905, a scalei metrice a inteligenei de ctre Alfred Binet,
se fcea cu urmtoarea meniune din partea autorului: calitile intelectuale
nu se msoar precum lungimile, nu satisfac cerina aditivitii; scala permi-
te un clasament ierarhic ntre inteligene diferite i, din raiuni practice,
acest clasament echivaleaz cu o msurare. (Radu, i alii, 1993). Autorul a
sesizat foarte bine limitele msurrii n tiinele socio-umane nc din acea
perioad, limite pe care muli psihologi actuali astzi le ignor. Nu ne mir
faptul c matematicienii consider aplicarea statisticii n psihologie ca fiind
defectuoas.
Datorit faptului c, dac ne-am limita doar la o msurare pe scala or-
dinal, metodologia psihologic i psihosociologic ar fi srcit de aportul
statisticilor parametrice (tari), pentru anumite msurtori se accept utiliza-
rea scalei de interval prima care permite calculul mediei i a abaterii stan-
dard ns, acest lucru se face printr-un important compromis statistico-
matematic (Clocotici, i alii, 2000).
Variabile precum gradul didactic, gradul militar, nivelul de educaie
se gsesc la acest nivel de msurare, deoarece pe lng posibilitatea clasific-
rii, a includerii unui individ ntr-o categorie, avem i posibilitatea ordonrii
categoriilor, putnd afirma c o categorie este superioar sau inferioar alteia.

25
Statistic aplicat n tiinele socio-umane

Dac lum, de exemplu, gradele militare, putem spune c ntr-o unita-


te se afl 30 de locoteneni, 10 maiori i 60 de cpitani sau 15% locoteneni,
5% maiori i 30% cpitani (ne aflm la un nivel nominal de msur), dar i c
maiorii sunt superiori n grad cpitanilor sau locotenenii sunt inferiori n
grad cpitanilor (nivelul ordinal de msur). Nu putem preciza ns cu ct i
nici de cte ori o categorie este superioar sau inferioar alteia. Nu putem
afirma c doi locoteneni fac ct un cpitan. De asemenea, este absurd s
vorbim despre medie. Care este media dintre un locotenent i un cpitan??!!!
Proprieti ale scalei:
Aa cum am admis anterior, proprietile specifice scalei ordinale le
includ pe cele ale scalei nominale, astfel nct la cele ale scalei anterioare se
adaug (Vasilescu, 1992):
Transformrile permise la nivelul acestei scale sunt cele care nu
afecteaz ordinea iniial. Astfel de operaii sunt ridicarea la pute-
re sau, inversa ei, extragerea de radicali. Din aceste operaii, deri-
v:
Operaiile statistice permise:
o Frecvena sumelor n valori cumulate i procentuale, valo-
rile categoriale i categoriale procentuale, valori categoria-
le centile, valori de mprtiere;
o Procedee bazate pe date categoriale: testul semnului,
Mann-Whitney, Wilcoxon, Kolmogorov-Smirnov, analiza
de varian Kruskal i Wallis;
o Coeficieni de corelaie de rang: Spearman, Kendall.

I.2.2 Scale parametrice


Cuprind scalele de interval i de raport. ncepnd de la acest nivel, pu-
tem vorbi de statistici parametrice sau metrice. Are sens de acum s calculm

26
Cristian Opariuc-Dan

media, abaterea standard sau ali indicatori care fac parte din statisticile nu-
mite i statistici tari.

I.2.2.1 Scale de interval (intervale egale)


Reprezint al treilea nivel de msurare i deriv din scala ordinal, la
care se adaug proprietatea c intervalele dintre un nivel de valori i altul
sunt egale. Este un tip de msurare n care distanele dintre treptele scrii sunt
distane egale sub aspectul cantitii caracteristicii de msurat.
n psihologie, practic, nu ntlnim aceast scal dect n domeniul
psihofiziologiei, n care nregistrm timpi de reacie, numr de erori, fora
unei reacii etc. Acest nivel de msurare ne permite s rspundem la ntreba-
rea cu ct este mai mare, dar nu i la ntrebarea de cte ori, deoarece la
nivelul acestei scale nu ntlnim un punct zero absolut, ci unul arbitrar ales.
Un exemplu clasic de scal de interval este scala de temperatur Cel-
sius. Dup cum tim, punctul de zero grade Celsius este un punct arbitrar
ales, definit ca punctul de nghe al apei la presiunea atmosferic de la nivelul
mrii. Intervalele acestei scale sunt egale, ceea ce ne permite s spunem c
apa dintr-o gleat este mai cald cu 10 grade Celsius dect apa dintr-o alt
gleat, dar nu i c apa este de dou ori mai cald, deoarece punctul zero nu
este un zero absolut.
Prin analogie, ne putem referi i la scorurile unui test de inteligen,
dac admitem compromisul menionat n subcapitolul anterior. Putem spune
c, ntre un subiect cu un IQ de 60 i unul cu un IQ de 120 exist o diferen
de 60 de puncte, dar nu c cel cu un IQ de 120 este de dou ori mai inteligent
dect cel cu un IQ de 60. n definitiv, nu avem o inteligen zero. La o privire
mai atent, observm i compromisul efectuat. Performana la un test de inte-
ligen depinde de mai muli factori, nu numai de cei legai de inteligen.
Astfel, intervin motivaia, memoria, atenia, condiiile de examen etc. Este
cert c cel de al doilea subiect este mai inteligent dect primul (ne situm

27
Statistic aplicat n tiinele socio-umane

acum la nivel ordinal), ns a afirma, chiar i c este mai inteligent cu 60 de


uniti pe scala IQ, consider c este hazardat (la nivel de interval). n defini-
tiv, la o reexaminare a celor doi subieci cu acelai test exist o probabilitate
foarte mare ca aceast distan, de 60 de puncte, s nu se pstreze. Iat o m-
surare care, dei la prima vedere pare la nivel de interval, totui, mai exact, o
putem situa la nivel ordinal. Diferena dintre scala inteligenei i scala tempe-
ratorilor Celsius este totui foarte mare. Mai mult, intervalele pe o scal IQ
sunt doar aparent egale. Diferena de 5 puncte IQ dintre un subiect cu un
IQ de 60 i unul cu un IQ de 65 are cu totul alt sens n comparaie cu diferen-
a dintre un subiect cu un IQ de 120 i altul cu un IQ de 125 i, de asemenea,
se deosebete de diferena dintre doi subieci cu IQ 100 i 105. Cele 5 punc-
te IQ nu sunt, n aceste cazuri, egal distanate.
Proprieti ale scalei:
Transformrile permise la acest nivel sunt cele de tip liniar, carac-
teristice ecuaiei y=ax+b unde a>0 iar y este valoarea transforma-
t, x valoarea care urmeaz a fi transformat, a constanta de
extindere i b constanta de deplasare (Vasilescu, 1992).
o Deplasri prin mrirea punctului zero relativ la o alt
valoare (modificarea constantei b);
o Extinderi amplificarea sau diminuarea intervalelor scalei
cu acelai factor (modificarea constantei a), fr s deteri-
orm rezultatul msurtorilor (de exemplu, transformarea
din note z n stanine sau sten).
Operaii statistice permise:
o Calculul mediei aritmetice, al abaterii standard, al boltirii
i al simetriei;
o Statistici parametrice: testul t Student, F Fisher, ana-
liza de varian;

28
Cristian Opariuc-Dan

o Toate tipurile de corelaii: r Pearson, raport de corelaie


(R), coeficientul de regresie (b).
Anumite operaii statistice, dei presupun scala de interval, necesit i
ndeplinirea altor condiii, i anume respectarea unei legi de distribuie, n
general legea distribuiei normale (gaussiene). Prin urmare, n analiza datelor,
pe lng cerina nivelului de interval se impune i analiza distribuiei datelor
nregistrate. Transformrile permise la nivelul acestei scale au o importan
practic deosebit atunci cnd procedm la normalizarea unei distribuii sta-
tistice de date.

I.2.2.2 Scala de raport (proporii)


Ultimul nivel de msurare i cel mai precis este reprezentat de
scala de raport care are toate caracteristicile unei scale de interval la care se
adaug existena unui zero absolut. n sfrit, aceast scal ne permite s rs-
pundem la ntrebarea de cte ori, deoarece existena unui zero absolut face
posibil compararea proporiilor.
De exemplu, dac un subiect are greutatea de 60 de kilograme, iar un
altul 120 kilograme, putem spune c al doilea subiect este cu 60 de kilograme
mai greu dect primul, dar i c al doilea subiect este de dou ori mai greu
dect primul, ambele afirmaii avnd sens.
Din nefericire, un asemenea nivel de precizie nu poate fi atins n tiin-
ele socio-umane, deoarece este imposibil s gsim o variabil care s admit
un zero absolut. Este absurd s vorbim de o inteligen zero, de o emotivitate
zero, de depresie sau anxietate zero.
Proprieti ale scalei (Vasilescu, 1992):
Transformrile permise la acest nivel sunt cele de tip multiplica-
tiv, caracteristice ecuaiei y=ax unde a>0, iar y este valoarea
transformat, x valoarea ce va fi transformat, iar a constanta
de extindere. Observm dispariia constantei b, constanta de de-

29
Statistic aplicat n tiinele socio-umane

plasare, deoarece punctul zero este un punct de referin absolut i


nu unul arbitrar ales. La fel ca i n cazul scalei de interval, putem
amplifica sau diminua intervalul (prin modificarea constantei a)
ns nu putem opera deplasri, deoarece acest lucru ar determina
scderea preciziei ctre o scal de interval (am stabili un punct ze-
ro arbitrar i nu absolut)
Sunt permise toate operaiile statistice, inclusiv calculul mediei
geometrice i al coeficientului de variaie.

I.3 Prezentare general SPSS


for Windows2
SPSS sub Windows reprezint un
pachet de programe interactiv, de utilitate
general, destinat analizelor de date i in-
clude multiple faciliti i tehnici de natur
statistic. Pachetul de programe SPSS sub
Windows reprezint o aplicaie care folo-
Figura 1.2 Lansarea programului
sete ntreaga funcionalitate a sistemului SPSS for Windows
de operare Windows, regsind n structura sa
utilizarea mausului, ferestrele redimensionabi-
le i scalabile, meniuri derulante, casete de
dialog etc. Dei majoritatea utilizatorilor vor fi
complet satisfcui utiliznd doar interfaa
grafic pe care SPSS o pune la dispoziie, to-
tui pachetul de programe dispune i de un
Figura 1.3 Fereastra logo puternic limbaj de comenzi prin care se pot
SPSS for Windows realiza activiti automate (scripturi) ce deter-

2
Pe parcursul acestei prezentri, unele imagini sunt din SPSS 12.0 for Windows. Acest lucru
nu incomodeaz n utilizarea altor versiuni. Toate imaginile utilizate reprezint marc nre-
gistrat SPSS Inc.

30
Cristian Opariuc-Dan

min eficientizarea aciunilor utilizate n mod frecvent sau efectuarea unor


aciuni complexe, indisponibile n interfaa grafic (SPSS, 2001).
Programul SPSS, la fel ca orice alt aplicaie sub sistemul de operare
Windows, indiferent de versiunea acestuia, la instalare i creeaz un grup de
pictograme (iconuri) n seciunea Programs a meniului Start din sistemul de
operare Windows. Pentru a putea lansa n execuie aplicaia, va trebui ca mai
nti s efectuai clic cu maus-ul pe butonul start al desktop-ului Windows,
buton situat de obicei n partea din stnga jos a ecranului. Apoi mergei la
seciunea Programs i se va deschide o nou list
care conine toate programele instalate n calculato-
rul dumneavoastr (ei bine, cel puin programele la
care avei acces dumneavoastr). n aceast list,
cutai grupul de programe SPSS for Windows,
grup n care vei gsi pictogramele de lansare ale
aplicaiei SPSS. Probabil c ai identificat deja n
acest grup de programe pictograma numit SPSS
for Windows. Aceasta este imaginea pe care va
trebui s facei clic pentru a porni aplicaia. 3
SPSS este un program extrem de complex.
Figura 1.4 Fereastra introductiv

Lansarea acestuia debuteaz cu prezentarea unei


ferestre introductive, denumit i fereastr logo. Ea cuprinde informaii
despre versiunea programului (n cazul nostru, SPSS 12.0 Standard), deoare-
ce exist i versiuni server, mai complexe, versiuni demonstrative (ca aceea
pe care o putei descrca gratuit de la http://www.spss.com) sau student
pentru nvare etc., precum i despre posesorul licenei de utilizare a acestui
produs informatic. Se cunoate faptul c, n conformitate cu legea dreptului

3
Desigur, n situaia n care SPSS for Windows este deja instalat pe calculatorul dumnea-
voastr. Dac nu avei instalat SPSS for Windows, putei descrca o versiune demonstrativ
de 30 de zile de pe site-ul http://www.spss.com Asigurai-v c avei o conexiune suficient
de rapid i de stabil la Internet, deoarece fiierul este destul de mare (aproximativ 160 MB)

31
Statistic aplicat n tiinele socio-umane

de autor i protecia creaiilor intelectuale, un produs software poate fi utilizat


doar n cazul n care se posed o licen de utilizare pentru acesta, altfel
riscndu-se pedepse severe, contravenionale sau de natur penal.
Dup cteva secunde, fereastra de prezentare se dezactiveaz, iar apli-
caia prezint o interfa prietenoas prin care ne invit s trecem la treab.
Putem n aceast etap s lansm n execuie un program tutorial care ne va
forma abilitile de baz n vederea utilizrii acestui pachet informatic com-
plex; de asemenea, putem trece direct la introducerea datelor sau putem rula
o cerere predefinit, se poate crea o nou cerere de date sau se poate deschide
o baz de date existent, situa-
ie n care va trebui s preci-
zm locaia acesteia. Nu n
ultimul rnd, putem deschide o
baz de date ntr-un alt format,
de exemplu Excel, Statistica
sau SAS, iar SPSS va ti s
converteasc aceste date pen-
tru a le face disponibile.
Exist, de asemenea, n
Figura 1.5 Fereastra principal SPSS
partea de jos a acestui formu-
lar introductiv, o caset denumit Dont show this dialog in the future.
Dac o vei bifa, avei posibilitatea ca, la viitoarea lansare a produsului, s
nu se mai afieze formularul, caz n care programul va trece direct n fereas-
tra principal SPSS.
Desigur, selectarea unei opiuni dintre cele prezentate mai sus nu n-
seamn i executarea acesteia de ctre SPSS. Pentru a lansa n execuie opi-
unea aleas, va trebui apsat, obligatoriu, butonul OK. Apsarea butonului
Cancel indic programului c trebuie s prseasc formularul introductiv i

32
Cristian Opariuc-Dan

s lanseze fereastra principal SPSS n modul de lucru configurat pentru o


nou baz de date.
n acest moment, nu ne intereseaz niciuna dintre opiunile predefini-
te, astfel nct vom apsa butonul Cancel. Iat c formularul prezentat mai
sus a disprut, fcnd loc ferestrei principale SPSS. S privim cu atenie
aceast nou interfa cu utilizatorul.
Ca orice alt aplicaie Windows, SPSS posed o bar de titlu bara
albastr din partea de sus a ferestrei , n partea stng a acesteia afindu-se
mesajul Untitled SPSS Data Editor. Acest mesaj ne informeaz c ne
aflm n fereastra de date (editare a datelor) din SPSS i c baza de date nu a
fost nc salvat (n momentul salvrii, textul Untitled este nlocuit cu nu-
mele fiierului salvat pe disc). n partea dreapt a barei de titlu, avem cele trei
butoane clasice ale oricrei ferestre Windows: butonul de minimizare sau de
transfer al aplicaiei n bara de sarcini, butonul de maximizare extindere a
aplicaiei pe ntregul ecran sau de restaurare a aplicaiei la dimensiunile inii-
ale i butonul de nchidere a aplicaiei, acel buton n form de X. Sub bara
de titlu, se afl meniurile, serii de etichete purtnd fiecare un nume (n limba
englez), prin intermediul crora putem comanda SPSS i putem efectua ope-
raiile i prelucrrile de care acesta este capabil. Nu vom insista acum asupra
explicrii tuturor meniurilor, acest lucru l vom face pe parcursul prezentului
curs. Bara de meniuri este urmat de bara de instrumente mici butoane cu
aspectul unor pictograme care, n general, dubleaz anumite funcii din meni-
uri, funcii mai des folosite. SPSS prezint o bar de instrumente dinamic,
adic aspectul butoanelor i, desigur, funcionalitatea acestora se modific
relaionat contextului n care ne aflm. De exemplu, vom avea anumite bu-
toane n modul de introducere a datelor i
alte butoane n modul de definire a varia-
bilelor ori n modul de afiare a rezultate- Figura 1.6 Seciunea de
lor analizelor de date. editare a datelor

33
Statistic aplicat n tiinele socio-umane

Dup bara de instrumente, apare seciunea de editare a datelor. Aceas-


ta este format dintr-o parte needitabil, informativ, partea din stnga, n
care se afieaz n permanen poziia celulei active (celul pe care am selec-
tat-o). Formatul acestui identificator este un numr urmat de dou puncte i
apoi numele variabilei (spre exemplu, 8:time nseamn c suntem poziionai
pe rndul 8 a opta nregistrare a variabilei timp). Partea editabil arat
ntotdeauna valoarea acestei variabile n poziia specificat (n cazul nostru,
la rndul 8 al variabilei timp se afl valoarea 34).
Cea mai mare parte a ferestrei principale SPSS este dedicat seciunii
de date. Observm c datele, n SPSS, sunt organizate tabelar, pe linii i co-
loane, analog altor aplicaii mai cunoscute, cum ar fi foile de calcul tabelar
(Excel) sau bazele de date (FoxPro sau Access). Liniile (nregistrrile) sunt
identificate prin numere, iar coloanele reprezint variabilele. ntr-o baz de
date goal, toate variabilele sunt denumite implicit var, iar aceast de-
numire este scris cu culoarea gri, reprezentnd faptul c acestea nu au fost
nc definite. Navigarea prin baza de date se poate face cu cele dou casete de
derulare (numite i lifturi sau controale de derulare), situate n partea dreapt,
respectiv n partea de jos a ferestrei de date, la fel ca n orice program Win-
dows.
Seciunea de date conine, n partea din stnga-
jos, doi marcatori de seciune foarte importani: Data
View i Variable View. Aceste elemente permit co-
Figura 1.7 Marcato- mutarea ntre modul de vizualizare a datelor dintr-o
rii de seciune
baz de date (seciunea Data View) i modul de defini-
re a variabilelor (seciunea Variable View).
n partea de jos a programului SPSS, se afl bara de status cu dou
seciuni: seciunea de informaii, n partea stng, unde se afieaz scurte
instruciuni despre diferitele funcii ale meniurilor sau ale barei de instrumen-
te, i seciunea de stare a procesorului SPSS unde se afieaz informaii refe-

34
Cristian Opariuc-Dan

ritoare la rularea unor sarcini mari consumatoare de timp. n general, ncepe-


rea unei prelucrri statistice se poate face doar n condiiile n care vedei
mesajul SPSS Processor is ready n aceast seciune.
Prsirea programului SPSS se poate face fie apsnd butonul de n-
chidere al aplicaiei X din colul din dreapta sus al ferestrei principale, fie
folosind meniul File i apoi Exit. Dac ai fcut prelucrri de date sau modi-
ficri n baza de date, programul v va solicita mai nti salvarea documentu-
lui, ca msur de protecie mpotriva pierderii de informaie. Despre salvare,
ns, discutm n subcapitolul urmtor.

I.3.1 Bazele de date creare, salvare, deschidere


Dup ce ne-am familiarizat cu interfaa
programului SPSS, este momentul s vedem
cum putem deschide o baz de date existent
i care sunt elementele componente ale aceste-
ia. SPSS vine nsoit de o serie de baze de date
demonstrative n scopul facilitrii procesului
de nvare. Pe parcursul acestor exerciii, vom
folosi, din raiuni de compatibilitate, aceste
exemple de baze de date oferite de ctre pro-
ductorii programului SPSS.
Deschiderea unei baze de date n sco-
Figura 1.8 Deschiderea
pul efecturii prelucrrilor statistice se poate unei baze de date
face prin mai multe metode, rmnnd la lati-
tudinea dumneavoastr i potrivit experienei pe care o avei s alegei meto-
da care v convine mai mult.
Prima metod este aceea prin care apelm la meniul File (Fiier) i
apoi poziionm cursorul maus-ului pe submeniul Open (Deschide). Apare o
list de unde putem deschide o baz de date (Data), o procedur de sintax

35
Statistic aplicat n tiinele socio-umane

(Syntax) o foaie de rezultate (Output), un set de comenzi (Script) sau un alt


tip de fiier (Other). Pentru a deschide o baz de date, va trebui selectat
opiunea Data. Observai c fiecare dintre aceste opiuni este urmat de punc-
te de suspensie (). ntotdeauna cnd vei ntlni aceste puncte de suspensie
alturi de o comand Windows (nu doar n SPSS, ci i n orice program Win-
dows), va trebui s tii c acea comand v invit la dialog. Adic se va des-
chide o nou fereastr, de unde va trebui s alegei ceva sau s furnizai anu-
mite informaii programului pentru a putea executa comanda respectiv.
O alt metod prin care putei deschide o baz de date este folosirea
aa- numitelor taste rapide. De obicei, meniurile sunt nsoite de combinaii
de taste prin care putei efectua direct o anumit sarcin. n loc s apelm la
meniul File, apoi Open i apoi Data, putem pur i simplu s inem apsat
tasta Ctrl n timp ce apsm tasta O (de la Open). O astfel de combinaie se
noteaz prin Ctrl+O, notaie pe care o vom folosi pe ntreg parcursul acestui
curs. Vom observa c aceast combinaie are acelai efect ca i parcurgerea
primei metode, avantajul fiind acela c este mult mai rapid.
A treia metod apeleaz la numitele taste fierbini (hot-keys). O
tast fierbinte este o tast folosit n combinaie cu tasta Alt. Dac vei
privi cu atenie meniurile, vei putea observa c unele litere sunt subliniate
de exemplu, n meniul File este subliniat litera F. innd apsat tasta Alt i
apsnd apoi tasta F, vom obine deschiderea meniului File, ca i cnd am
efectua clic pe acesta. n mod analog, notarea acestei combinaii se face folo-
sind convenia Alt+F. Deci, pentru a deschide o baz de date, putem folosi
combinaiile Alt+F deschiderea meniului File i apoi Alt+O deschiderea
submeniului Open, iar, n final, Alt+A accesarea opiunii Data. Aceasta
este, dac dorii, o navigare prin meniuri fr maus.
Ultima metod se refer la folosirea barei de instrumente pentru a
deschide o baz de date. Pur i simplu apsai pe primul buton de pe bara de
instrumente, acela care are aspectul unui dosar deschis.

36
Cristian Opariuc-Dan

Indiferent de metoda folosit, efectul va fi acelai: deschiderea unei


casete de dialog, din care putei alege baza de date pe care o vei ncrca (v
mai amintii nota referitoare la punctele de suspensie?).
S analizm puin aceast nou fe-
reastr. n partea de sus avem o list deru-
lant intitulat Look in: Apsnd sgeata
orientat n jos din partea dreapt a acestei
casete, vom putea alege directorul n care
este localizat baza noastr de date. Ob-
servm c directorul curent este directorul
aplicaiei (SPSS), iar n seciunea de sub Figura 1.9 Fereastra de selectare a
aceast caset este afiat coninutul acestui fiierului n vederea deschiderii

dosar. Putei astfel selecta orice director n


care avei fiiere recunoscute de SPSS, pentru a le putea afia i/sau deschide.
Alturi de caseta Look in, se afl o serie de butoane care controleaz naviga-
rea prin structura de directoare de pe discul dumneavoastr. Primul buton, cel
de forma unei sgei orientate n partea stng, permite navigarea la ultima
aciune efectuat. Dac, de exemplu, din directorul SPSS v-ai poziionat pe
directorul Windows, apsnd acest buton vei reveni din nou n directorul
SPSS. La prima deschidere a acestei casete de dialog, butonul este inactiv,
deoarece nu ai efectuat nc nici o aciune care s fie nregistrat. Al doilea
buton, de forma unui dosar cu o sgeat orientat n sus, permite navigarea
ascendent prin arborele de directoare. La o prim apsare, v vei deplasa n
directorul Program Files, la urmtoarea v vei situa n directorul rdcin C
i aa mai departe. Cel de-al treilea buton permite crearea unui nou director
n directorul curent. Apsnd pe el, vei putea crea un nou director, numit
New Folder, denumire pe care o vei putea modifica dup dorin. n sfrit,
ultimul buton controleaz modul n care se afieaz pictogramele n caseta
central. Putei alege vizualizarea pictogramelor n format mare, mic, sub
form de list sau list detaliat.

37
Statistic aplicat n tiinele socio-umane

Fereastra central afieaz, dup cum am menionat, structura de sub-


directoare i fiiere a directorului curent. Putei efectua dublu clic pe numele
unui director pentru a afia coninutul acestuia sau pe numele unui fiier pen-
tru a-l deschide n mod direct (fr a mai apsa butonul Open). Dac efectuai
doar un simplu clic, numele fiierului selectat va fi afiat n caseta File name
i va trebui s folosii apoi butonul Open pentru a-l deschide. Caseta derulan-
t Files of type reprezint un filtru pentru fiierele afiate. Dac o vom des-
chide, efectund clic pe sgeata orientat n jos din partea dreapt a acesteia,
vom putea alege ce anume tip de fiiere s se afieze n seciunea central.
Observm c, dei directorul SPSS conine mai multe fiiere, sunt afiate
doar fiierele cu extensia .sav, adic fiierele care conin baze de date SPSS,
deoarece n aceast caset de filtrare s-a ales extensia .sav. Putem alege alte
extensii de fiiere care sunt afiate, de exemplu formatul Excel (.xls) sau
dBase (.dbf), iar SPSS va afia doar fiierele ce au aceast extensie.
Deschiderea propriu-zis a unui fiier se face fie efectund clic pe
acesta i apsnd butonul Open, fie efectund dublu clic pe numele fiierului.
Spre exemplu, vom ncrca baza de date Cars din directorul implicit SPSS,
baz de date ce reprezint un inventar al diferitelor tipuri de maini i al ca-
racteristicilor acestora.
Dup deschidere, observm c s-a modificat aspectul ferestrei princi-
pale SPSS. n primul rnd, n bara de titlu a aprut mesajul Cars SPSS Da-
ta Editor, mesaj ce ne informeaz c am deschis baza de date Cars i c
ea este pregtit pentru analiz. De asemenea, constatm c structura acesteia
este compus din opt variabile, fiecare dintre ele reprezentnd o anumit ca-
racteristic a mainilor. Ultima variabil, variabila Filter_$ este o variabil
intern folosit de programul SPSS pentru o filtrare anterioar a datelor, vari-
abil pe care ne propunem s o tergem. Cum? Efectund clic pe numele
acesteia. Observm c ntregul coninut al coloanei Filter_$ s-a selectat. n
continuare, apsm tasta Delete, situat pe tastatur, n partea dreapt a gru-
pului principal de taste, iar variabila a fost eliminat mpreun cu toate datele

38
Cristian Opariuc-Dan

acesteia. Felicitri. Iat i prima dumneavoastr intervenie real n SPSS.


Dup cum bine tim, orice prim intervenie ntr-un program nseamn o
tergere a ceva. Nici noi nu puteam face excepie!
Baza de date deschis de ctre dumneavoastr a fost afiat n seciu-
nea Data view, fapt care ne atrage atenia c n acest mod putem afia i ur-
mri coninutul datelor din baza de date. Dac vom efectua clic pe seciunea
Variable view, vom intra n modul de definire a datelor. Dup cum ne spune
i numele seciunii, aici putem vizualiza i edita denumirea, tipul i alte in-
formaii referitoare la variabile. Ca s folosim un limbaj mai tehnic, dac n
Data view ne aflm n seciunea datelor propriu-zise, n Variable view ne
aflm n seciunea meta-datelor, adic n seciunea informaiilor despre date,
unde putem interveni asupra structurii lor interne. Vom clarifica imediat, prin
cteva exemple, aceste aspecte.
Astfel, prima variabil, denumit mpg este o variabil numeric, ce
accept maximum 4 caractere (adic cifre ntre 0 i 9999) i fr zecimale.

Figura 1.10 Seciunea de definire a variabilelor

Numele mpg nu este ns un nume intuitiv i nu ne putem da seama cu pre-


cizie la ce se refer aceast variabil. Din pcate, doar versiunile de SPSS de
la 13.0 n sus accept nume de variabile cu mai mult de 8 caractere, ns nu
se permite includerea spaiilor sau a altor semne de punctuaie n denumirea
acestora i de aceea va trebui s fim foarte restrictivi n momentul n care le
crem. Pentru a nelege mai uor la ce anume se refer o anumit variabil,

39
Statistic aplicat n tiinele socio-umane

avem posibilitatea de a o eticheta, adic de a include un text descriptiv asoci-


at numelui ei. n cazul nostru, eticheta variabilei ne informeaz c mpg se
refer la Miles per Gallon, adic la consumul automobilului exprimat n
distana pe care acesta o poate parcurge cu un galon de combustibil.
Urmtoarea seciune prezint valorile pe care le putem defini pentru
respectiva variabil. Iat, n cazul variabilei origin, care se refer la ara de
producie a mainilor, observm c s-a asociat valoarea 1 pentru mainile de
producie american, valoarea 2 pentru cele de producie european i valoa-
rea 3 pentru cele japoneze.
n spaiul destinat definirii variabilelor, avem, de asemenea, posibili-
tatea de a controla modul de tratare a cazurilor lips, alinierea datelor n ca-
drul celulelor i definirea tipului de variabil nominal, ordinal i scalar.
Efectund clic pe aceste seciuni, ai observat c, uneori, apare n par-
tea dreapt a acestora fie un buton cu punctele de suspensie care va deschide
o caset de dialog unde se pot controla parametrii valorilor acceptate, fie un
buton de incrementare/decrementare cu ajutorul cruia putei mri, respectiv
micora o anumit valoare, fie o caset de selecie sgeata orientat n jos
prin care putei deschide o list, de unde s selectai anumite valori.

Exerciiu practic:
n exerciiul care urmeaz vom traduce pur i simplu n romnete
structura acestei baze de date i vom salva baza de date sub un nou nume,
Masini (atenie, nu folosii diacriticele romneti n scrierea literelor, prin
urmare, n acest caz, nu folosii litera , ci s. Deci nu vom salva cu Maini,
ci Masini), ntr-un director nou creat avnd calea C:\Exercitii SPSS
(aceeai meniune referitoare la diacritice).
n cazul primei variabile, numele va rmne acelai, iar noi vom mo-
difica doar descrierea. Vom da clic n seciunea Label, acolo unde se afl
afiat textul Miles per Gallon i vom scrie textul Mile per galon.

40
Cristian Opariuc-Dan

A doua variabil se numete engine. Vom schimba numele acesteia


n cilindree (ne-am ncadrat n 8 caractere), fcnd clic n coloana Name i
scriind noul nume. Eticheta va deveni, pentru a doua variabil, Capacitate
cilindric, pe care o vei modifica dup exemplul primei variabile.
Procedm la fel n cazul variabilelor 2, 3, 4, 5 i 6, lsnd traducerea
din englez n romn la latitudinea dumneavoastr. Atenie, ns, la acel
maximum de 8 caractere cnd redenumii o variabil.
Variabila numrul 7 se refer la
ara de origine a mainilor. O vom rede-
numi origine i vom modifica, desigur,
eticheta. Exist ns, la acest nivel, un
element n plus, i anume coloana Val-
ues. V mai amintii probabil de maini-
le americane, europene i japoneze. Dac Figura 1.11 Etichetarea variabilelor de
nivel nominal i ordinal
vom da clic pe celula corespunztoare
coloanei Values pentru aceast variabil,
constatm apariia unui mic buton cu puncte de suspensie n partea dreapt a
celulei. Apsnd acest buton se deschide o nou fereastr, fereastra de confi-
gurare a valorilor asociate. Vorbeam anterior despre maini de producie
american, european i japonez. n aceast caset vedem lista acestor aso-
cieri n partea de jos. n stnga listei, exist 3 butoane: Add cu ajutorul cruia
putem crea o nou asociere, Change prin care putem modifica o asociere
selectat i Remove care terge, elimin asocierea selectat. Noi ne-am pro-
pus s traducem aceast structur de date n limba romn. Vom efectua clic
pe prima asociere 1 = American. Constatm c, automat, n caseta Value a
aprut cifra 1, iar n caseta Value Label textul American. Putem deduce cu
uurin c valorii 1 i s-a asociat textul American(apropo, la ce nivel de
msurare ne aflm aici i ce fel de variabil este aceasta?). De asemenea, s-a
activat butonul Remove, SPSS presupunnd c dorim s eliminm aceast
asociere din moment ce am selectat-o. Pentru a modifica textul, efectum clic

41
Statistic aplicat n tiinele socio-umane

n interiorul casetei Value Label i scriem n loc de American, America


(mai bine spus, tergem un n). De data aceasta, se activeaz i butonul
Change, SPSS depistnd modificarea efectuat i presupunnd c vom dori
s o i aplicm efectiv. Dac vei apsa acest buton (Change), vei constata c
eticheta s-a modificat din 1 = American n 1 = America. Felicitri. Ai reali-
zat prima traducere. Acum procedai la fel pentru Europa i Japonia. De-
sigur, oricnd putei include o nou asociere. Tastai cifra 4 n caseta Value
(deoarece ar urma 4 n ordine logic) i textul Romnia n caseta Value
Label, apoi apsai butonul Add care ai observat c a devenit activ. Astfel
ai asociat valoarea 4 mainilor de producie romneasc. n momentul n
care ai terminat de efectuat toate asocierile, apsai butonul OK pentru a le
memora i a prsi formularul. Reinei c apsarea butonului Cancel duce la
prsirea formularului fr memorarea asocierilor.
Apare totui o ntrebare. De ce s folosim aceste asocieri n loc de a
scrie pur i simplu n baza de date America, Europa i Japonia? n
primul rnd, pentru c este mai uor. Imaginai-v c avei de introdus un
numr de 3000 de date n baza dumneavoastr de date. n loc s scriei de
fiecare dat un text format din 6-8 caractere, vei tasta pur i simplu 1 atunci
cnd v referii la America, 2 cnd v referii la Europa i 3 cnd v referii la
Japonia. SPSS va ti, de fiecare dat, n urma asocierilor realizate n etapa
anterioar, la ce anume se refer 1, 2 i 3. n al doilea rnd, dei 1, 2 i 3 sunt
doar nite etichete pentru America, Europa i Japonia, se preteaz mult mai
bine la prelucrrile statistice ulterioare, fiind date numerice.
Procedai la fel i cu ultima variabil, referitoare la numrul de ci-
lindri ai motorului, pentru ca, n final, s obinei structura complet a bazei
de date.
Prin acest exerciiu, ne-am deprins cu unele elemente ale configurrii
structurii bazei de date. n continuare, vom salva baza de date modificat sub

42
Cristian Opariuc-Dan

denumirea de Masini. Directorul folosit va fi C:\Exercitii SPSS (atenie


la diacritice!).
Putei alege meniul File i opiunea Save sau Save as, putei apsa
combinaia de taste Ctrl+S sau Alt+F, Alt+S sau putei apsa butonul de
salvare de pe bara de instrumente (acela care are o dischet drept pictogra-
m). Dar atenie! Diferena dintre opiunea Save i Save as este aceea c,
folosind Save, se vor salva modificrile efectuate tot n baza de date iniial,
n cazul nostru baza de date Cars. Noi ne-am propus s salvm baza de date
sub un alt nume i ntr-un alt loc, deci nu vom putea folosi dect opiunea
Save as (Salveaz ca). Se va deschide
caseta de salvare a unei baze de date
care are acelai aspect ca i caseta de
deschidere a unei baze de date, cu ex-
cepia butonului Open, n acest caz
denumirea acestuia fiind Save. Folosind
cunotinele dobndite anterior, va tre-
bui s v poziionai cu ajutorul casetei
Figura 1.12 Fereastra de salvare a
Save in (echivalenta casetei Look in unei baze de date
din fereastra de deschidere a bazei de
date) n directorul rdcin C:\, s creai un nou director folosind butonul de
creare a unui director din acest formular pe care s-l denumii Exerciii
SPSS, s efectuai dublu clic pe acesta pentru a-l deschide i s introducei
numele bazei de date Masini n caseta File name. Apsai apoi butonul Save
pentru a salva efectiv fiierul pe disc. Ai reuit, nu-i aa?
n urma acestor operaiuni, n bara de titlu SPSS va aprea mesajul
Masini SPSS Data Editor, care ne informeaz c programul a salvat cu
succes baza de date pe disc i a activat-o.
Reamintim faptul c, la crearea unei noi baze de date, folosirea oric-
ror opiuni de salvare (meniul File, butonul de pe bara de instrumente sau

43
Statistic aplicat n tiinele socio-umane

tastele rapide) duce la apariia ferestrei Save as, deoarece fiind o baz de date
nou, acesteia nu i-a fost atribuit nc un nume printr-o operaie de salvare.
Putei cu uurin identifica dac o baz de date are un nume (a fost salvat)
sau nu, urmrind bara de titlu. Bazele de date noi sunt identificate prin mesa-
jul Untitled SPSS Data Editor, n timp ce bazele de date salvate au afiat
numele acestora n bara de titlu. Ai observat c, la lansarea programului
SPSS, acesta creeaz automat o baz de date nou i nedefinit i ateapt din
partea noastr definirea variabilelor i salvarea acesteia. Odat salvat baza
de date, orice modificri efectum n ea, la salvare ele vor fi scrise automat n
fiierul al crui nume este afiat n bara de titlu, fr a mai aprea fereastra de
salvare de mai sus. Singura modalitate prin care putem da un alt nume bazei
de date sau prin care o putem salva ntr-un alt loc este folosirea opiunii Save
as.
Crearea unei noi baze de date se poate face folosind meniul File,
submeniul New i opiunea Data, combinaiile de taste Ctrl+N sau Alt+F,
Alt+N, Alt+A. n oricare dintre aceste situaii, SPSS va crea o baz de date
goal i nedefinit, la fel ca n cazul lansrii programului.

Ca exerciiu, folosind cunotinele dobndite, v propunem crearea


unei noi baze de date avnd urmtoarea structur i salvarea acesteia sub
numele de IQ n directorul C:\Exercitii SPSS:

Variabila nume va fi de tip ir de caractere (string) i va stoca nu-


mele subiecilor, toate celelalte variabile fiind numerice. Exist dou definiii
de asocieri, i anume variabila sexul (1-Masculin 2-Feminin) i scoala
(1-Primare 2-Gimnaziu 3-Liceul 4-Postliceala 5-Facultate)

44
Cristian Opariuc-Dan

Dup construirea structurii de date, procedai la salvarea fiierului n


locul precizat.
Folosind cunotinele teoretice acumulate, precizai tipul fiecrei va-
riabile create n acest exerciiu.
Ne propunem n continuare aprofundarea definirii variabilelor n
SPSS. Pentru aceasta, ne vom folosi de baza de date IQ creat i salvat n
exerciiul anterior. n seciunea Data View, am remarcat deja prezena a zece
caracteristici prin care se poate defini o variabil n SPSS. Prima dintre aces-
tea se refer la numele variabilei (Name), caracteristic ce nu presupune prea
multe explicaii. Numele variabilei reprezint modul n care aceasta va fi ape-
lat n toate prelucrrile efectuate folosind baza de date. Nu putem ns s nu
precizm c SPSS impune o serie de restricii n denumirea variabilelor (ver-
siunile mai mici de versiunea 13): n primul rnd, numele acestora s nu de-
peasc 8 caractere, variabilele cu nume mai lungi de 8 caractere nefiind
acceptate. Apoi, nu pot fi folosite spaii sau semne de punctuaie n denumi-
rea variabilelor, putnd fi ns folosit linia de subliniere pentru cazurile n
care dorim s abreviem o variabil format din dou cuvinte. De exemplu,
dac avem o variabil care se refer la anul naterii, o vom putea abrevia de-
numind-o an_naste. Astfel, lungimea ei este de 8 caractere, fiind acceptat de
SPSS, iar cele dou cuvinte componente le-am separat printr-o linie de subli-
niere, fapt de asemenea acceptat de SPSS. Nu conteaz dac scriem numele
variabilelor cu litere mari sau cu litere mici, deoarece, n final, SPSS le con-
vertete automat n litere mici. Din punctul de vedere al primei caracteristici,
baza noastr de date IQ nu creeaz probleme, fiind definite cinci nume de
variabile: numele, varsta, sexul, scoala i iq.
A doua caracteristic se refer la tipul de date ce va fi stocat n aceste
variabile (Type), caracteristic pe care nu am abordat-o n detaliu n timpul
prezentrii noastre de pn acum. Aceast seciune conine un buton cu trei
puncte de suspensie, pe care l putem apsa pentru a deschide fereastra de

45
Statistic aplicat n tiinele socio-umane

configurare a tipului de date. Aceasta conine o serie de butoane de opiuni,


dintre care putem selecta tipul de date pe care variabila noastr l va stoca,
dup cum urmeaz:
Tipul de date Numeric
se refer la numere. Valorile
acceptate vor fi, deci, numere, n
format standard. Alegnd acest tip
de date, putem stabili i dimensiu-
nea acestora valoarea maxim pe
care SPSS o poate accepta prin
precizarea numrului de caractere Figura 1.13 Stabilirea tipului de date
a unei variabile
n cmpul Width i numrul de
caractere dup virgul n cmpul Decimal Places. De exemplu, numrul ma-
xim de caractere 3 i 2 caractere zecimale nseamn c acea variabil poate
stoca valori numerice de la 0 pn la 999,99. Acest tip de date va scrie valori-
le numerice fr nici o separaie ntre sute i mii i folosind ca separator ze-
cimal separatorul configurat al sistemului. Un exemplu de numr scris n
acest format ar fi 78457845.57
Tipul de date Comma se refer, de asemenea, la numere i pot fi
definite la fel ca tipul anterior, numai c acestea vor fi afiate folosindu-se
virgula ca separator ntre valoarea sutelor i valoarea miilor i punctul ca se-
parator al valorilor zecimale. De exemplu, o valoare numeric n acest format
ar arta astfel: 9,999.89. Este, practic, formatul numeric clasic american.
Tipul de date Dot identic cu tipul de date anterior, doar c se in-
verseaz rolul punctului i al virgulei. Relund acelai exemplu, numrul de
mai sus va fi scris astfel: 9.999,89 n acest caz recunoatem formatul rom-
nesc.
Tipul de date Scientific notation se refer la modul tiinific de
afiare a cifrelor, folosind litera E pentru a reprezenta puterile lui 10. Modul

46
Cristian Opariuc-Dan

de configurare a dimensiunii variabilei este acelai, iar un exemplu de numr


folosind aceast reprezentare poate fi 1.23E2 ceea ce semnific de fapt
123.00.
Tipul de date Date se refer
la date calendaristice. Alegnd aceast
opiune, va trebui s configurai, selec-
tnd din lista ce se va deschide, modul de
afiare a datei calendaristice dintr-o mul-
ime de formate care vi se ofer.
Figura 1.14 Tipul de date
Tipul de date Dollar se refe- calendaristice
r la valori monetare, avndu-se n vede-
re moneda american. Putei alege i particulariza valoarea maxim pe care o
poate accepta variabila din lista ce se afieaz sau putei particulariza aceast
valoare, la fel ca n cazul valorilor numerice.
Tipul de date Custom currency permite definirea unor valori
monetare particularizate, valabile pentru alte ri n afara Statelor Unite. Se
poate defini forma de prezentare a variabilei i valoarea maxim acceptat, la
fel ca la tipul anterior.
Tipul de date String stocheaz doar iruri de caractere, cu alte
cuvinte texte, fr nici o posibilitate de prelucrare statistic. Poate fi definit
i aici dimensiunea maxim pe care o poate avea variabila din punctul de
vedere al numrului de caractere acceptate. n cazul nostru, variabila nume
este un exemplu excelent de variabil de tip string.
Caracteristica a treia i caracteristica a patra a unei variabile, respectiv
Width i Decimals se refer exact la valorile maxime pe care le pot accepta
variabilele i la numrul de zecimale, elemente pe care le-am discutat anteri-
or, iar aceste dou caracteristici nu fac dect s creeze o alt posibilitate de
definire a variabilelor sub acest aspect.

47
Statistic aplicat n tiinele socio-umane

n cazul exemplului nostru, constatm c avem o singur variabil de


tip string, variabila nume care poate accepta maxim 20 de caractere, toate
celelalte variabile fiind de tip numeric; variabilele sexul i coala pot
accepta doar o singur cifr fr zecimale, iar variabilele varsta i iq pot
accepta 3 cifre fr zecimale. Aceast definiie permite stocarea subiecilor cu
numele format din maxim 20 de litere, vrsta poate lua valori de pn la 999,
suficient, deci, pentru scopurile noastre, acelai lucru fiind valabil i pentru
coeficientul de inteligen. Sexul i nivelul de colarizare accept doar o sin-
gur cifr, deoarece am convenit s asociem valoarea 1 cu sexul masculin i 2
cu sexul feminin, n mod analog procednd i cu nivelul de colarizare. Date-
le au fost definite ca numerice pentru a crea posibilitatea interpretrii lor ulte-
rioare, cunoscndu-se faptul c datele de tip string nu pot fi interpretate sta-
tistic.
Urmtoarea caracteristic, caracteristica Label, permite includerea
unei denumiri mai intuitive a variabilei, prin care s poat fi mai uor identi-
ficat i recunoscut. Astfel, variabilei nume i putem da eticheta Numele
subiecilor, variabila iq o putem eticheta drept Coeficientul de inteligen-
i aa mai departe. Putem include orice etichet descriptiv dorim pentru
numele unei variabile, cu condiia ca lungimea acesteia s nu depeasc 255
de caractere. Deci atenie la scrierea romanelor n descrierea variabilelor!!!
Aceast caracteristic mai are ns o funcie important; SPSS include etiche-
ta variabilelor n rapoartele finale rezultate n urma prelucrrii datelor. Dac
creai un tabel de frecven, SPSS nu va afia numai numele variabilei, de
exemplu iq, ci va include i descrierea acesteia, Coeficientul de inteligen-
, fcnd astfel mult mai estetice i mai inteligibile foile de raport.
Caracteristica Values am discutat-o pe larg n seciunile anterioare i
nu vom mai reveni asupra ei. Menionm doar c ea permite clasificri (deci
variabile categoriale) i asocieri de valori. Spre exemplu, putem asocia valoa-
rea 1 sexului masculin i valoarea 2 sexului feminin, pentru a putea introduce

48
Cristian Opariuc-Dan

mai uor datele i pentru a putea efectua prelucrri statistice la nivel de varia-
bile nominale.
Caracteristica Missing permite defi-
nirea modului n care vor fi tratate valorile
lips din cadrul unei variabile. Uneori, este
important s cunoatem de ce lipsesc valori
dintr-o variabil. Datele lips se pot datora,
spre exemplu, faptului c subiectul refuz
s rspund la o anumit ntrebare sau fap-
Figura 1.15 Tratarea valorilor lips tului c ntrebarea nu este adresat acelui
subiect. Iat dou situaii care ar necesita un
tratament separat al valorilor lips. Datele pe care le vei trata n mod explicit
ca date lips pot fi supuse apoi unei analize statistice separate, fiind iniial
excluse din cele mai multe calcule. Un alt exemplu, frecvent ntlnit n ches-
tionarele sociologice, se refer la codificarea rspunsurilor de tip Nu tiu/Nu
rspund. Majoritatea cercettorilor codeaz aceste variante cu 9 sau 99. Evi-
dent, variantele incerte nu vor face obiectul prelucrrii iniiale a datelor. Fo-
losind aceast seciune se pot include aceste valori (9 sau 99) ca valori lips,
SPSS eliminndu-le din analiz. Definirea valorilor lips poate accepta trei
situaii. Situaia No missing values, cnd comunicm programului c nu
dorim un tratament special pentru valorile lips, acestea fiind tratate ca atare
n cursul fiecrei prelucrri de date pe care o realizm, situaia Discrete
missing values, cnd putem defini pn la trei valori care vor fi tratate ca
valori lips n cursul prelucrrilor statistice ulterioare (de exemplu, la un
chestionar cu 3 variante de rspuns, dorim ca doar rspunsurile 1 i 3 s fie
luate n calcul, rspunsul 2 fiind tratat ca non-rspuns. Pentru aceasta, vom
include cifra 2 n prima dintre cele trei casete ale acestei seciuni.) i situaia
Range plus one optional discrete missing value, n care putem stabili un
interval pentru care valorile vor fi tratate ca valori lips (spre exemplu, coefi-
cienii de inteligen cuprini ntre 10 i 75), n plus existnd posibilitatea de

49
Statistic aplicat n tiinele socio-umane

a include i o valoare particular (discret), ca i n situaia anterioar. n


exemplul nostru de baz de date, nu avem nici un motiv de a trata n vreun fel
valorile lips, deci nu vom configura aceast caracteristic.
Caracteristica Columns permite specificarea limii coloanei n care
se vor afia valorile variabilelor n modul Data View. Implicit, coloanele au o
lime egal cu 8 caractere. Putem include aici o alt valoare sau putem redi-
mensiona limea coloanelor n modul Data View, prin tragerea cu ajutorul
maus-ului a liniei de separaie dintre dou coloane. Introducerea diferitelor
valori pentru aceast caracteristic permite ajustarea i redimensionarea pre-
cis a limii coloanelor. n cazul nostru, pentru variabila nume, dimensiu-
nea implicit de 8 caractere va fi insuficient pentru prezentarea unui subiect
cu numele Popescu Valentin, afindu-se doar primele 8 caractere i anume
Popescu . Pentru a vedea ntregul nume, fie introducei valoarea 16 pentru
caracteristica Columns a variabilei nume, fie tragei cu ajutorul maus-ului
linia de demarcaie dintre coloana nume i coloana varsta, pentru a mri
limea coloanei de afiare a numelui subiecilor. Aceast caracteristic, ca i
urmtoarea, nu influeneaz n niciun fel modul de prelucrare a datelor, ci
doar aspectul tabelului de date din Data View.
Caracteristica Align controleaz modul n care sunt aliniate valorile
variabilelor n tabelul de date. Putei opta pentru o aliniere la stnga, centrare
sau aliniere la dreapta a valorii variabilelor n cadrul coloanelor din Data
View, fr a influena n vreun fel modul de prelucrare al variabilelor. Ca
regul general, variabilele de tip string se aliniaz la stnga, iar variabilele
de tip numeric sau dat calendaristic se aliniaz la dreapta pentru o mai bun
lizibilitate n cadrul tabelelor de date.
Ultima caracteristic, Measure, este n acelai timp i una foarte im-
portant, permind alegerea nivelului de msurare al variabilei. Se poate
opta pentru dou sau trei niveluri de msurare, n funcie de tipul de variabil.
Astfel, pentru variabila nume, care este o variabil de tip string, sunt dis-

50
Cristian Opariuc-Dan

ponibile doar nivelurile nominal i ordinal de msurare. Stocarea numelui i a


prenumelui are o valoare pur informativ i nu permite nici mcar o clasifica-
re a acestora. Nivelul de msur va fi deci nivelul nominal. Variabila varsta
este variabila numeric prin care se stocheaz vrsta subiecilor. Aceast va-
riabil are intervale egale, zero absolut i permite rapoarte n cadrul scalei,
deci poate fi considerat la un nivel de msurare scalar 4. Variabila sexul nu
este altceva dect tot o variabil nominal, care nu permite dect o clasificare
a persoanelor n funcie de genul lor biologic. Variabila scoala poate fi pri-
vit ca o variabil nominal, dac intenionm doar s clasificm subiecii n
funcie de studiile absolvite, sau se poate accepta un nivel ordinal de msura-
re la nivelul acesteia, dac ierarhizm subiecii n funcie de gradul lor de
colarizare. Vom lua n considerare a doua situaie i o vom accepta ca varia-
bil ordinal. n sfrit, variabila iq este fr discuie o variabil de tip or-
dinal.
Iat c, parcurgnd aceste etape, am reuit n cele din urm s constru-
im structura unei baze de date simple n acord cu principiile i domeniile de
definiie ale variabilelor i cu nivelul lor de msurare.
Un aspect important pe care merit s-l menionm se refer la proce-
sul de codare al variabilelor (proces pe care l-am ntlnit la codarea variabile-
lor sex i nivel de colarizare). n general, cercettorii cu experien cunosc
intuitiv modalitatea de codare optim a unei variabile. Pentru a veni n spriji-
nul debutanilor, Newton i Rudestam (1999) propun, n lucrarea Your sta-
tistical consultant, un set de reguli folosite n acest proces (Field, 2005).
Toate datele trebuie codate numeric. Pentru a coda, de exemplu,
sexul, am putea folosi i M pentru masculin, respectiv F pen-
tru feminin. Un asemenea proces de codare ar fi complet eronat,

4
Ca observaie, n SPSS, nivelurile de msur de interval i de raport au fost reunite sub
denumirea generic de nivel de msur scalar. Proiectanii acestei aplicaii au renunat la
distingerea celor dou, reunindu-le sub denumirea de nivel scalar.

51
Statistic aplicat n tiinele socio-umane

deoarece ar limita radical posibilitile de prelucrare statistic a


datelor. Recomandarea este aceea c, atunci cnd suntem n astfel
de situaii, este de preferat s folosim, de exemplu, 1 pentru Mas-
culin i 2 pentru Feminin. Aceste cifre nu au dect o valoare de
etichet i nu reprezint un proces de ierarhizare (nu spunem c
masculinul este mai jos dect femininul deoarece are valoarea
1). La fel de bine putem s scriem 2 masculin i 1 feminin sau 5
masculin i 7 feminin. Acest proces de codare poart numele de
codare dummy. Tot ceea ce trebuie s facei este s reinei codu-
rile atribuite.
Fiecare variabil trebuie s ocupe o coloan distinct n baza
de date i fiecare subiect va ocupa o singur nregistrare. Este
foarte important ca datele unui subiect s ocupe un singur rnd n
baza de date SPSS, iar fiecare coloan s se refere doar la o singu-
r variabil. n cazul n care o variabil este msurat de mai mul-
te ori (tipic pentru experimente de tip testare iniial testare fina-
l), se vor aloca dou coloane pentru acea variabil, una care s se
refere la testarea iniial i una viznd testarea final. De exemplu,
dac avem un experiment prin care, n urma unei tehnici oarecare,
presupunem c mbuntim memoria, va trebui s testm memo-
ria subiecilor nainte de aplicarea tehnicii, s aplicm tehnica i
apoi s testm din nou memoria subiecilor, pentru a vedea dac
au aprut modificri. n acest caz, putem defini cele dou variabile
prin mem_ini care reprezint testul iniial de memorie i mem_fin
care se refer la testul final. Astfel, nu nclcm aceast regul, iar
datele vor fi consistente.
Toate codurile pentru o variabil trebuie s fie mutual exclu-
sive. Cu alte cuvinte, nu trebuie s existe dect un singur numr ce
poate fi stocat ntr-o variabil. n anumite chestionare pot exista

52
Cristian Opariuc-Dan

itemi care permit alegeri multiple (de exemplu, la solicitarea: Bi-


fai din urmtoarea list partidele cu care n mod sigur nu vei vo-
ta la urmtoarele alegeri: pot fi variantele de rspuns PSD,
PD, UDMR, PNG etc. n acest caz, subiectul poate alege un
singur partid, dou partide sau le poate alege pe toate). O aseme-
nea situaie impune crearea unui numr de variabile egal cu vari-
antele de rspuns (de exemplu nu_PSD, nu_PD, nu_UDMR,
nu_PNG) cu categorii dihotomice de genul 0 Neselectat, 1 Se-
lectat care vor fi analizate ulterior. De obicei, asemenea itemi au
i o categorie de genul Altul. Care_______ prin intermediul creia
subiectul poate s-i exprime liber opiunea. n mod normal,
aceast categorie se analizeaz prin alte metode i nu folosind
SPSS, deoarece variabilitatea rspunsurilor confer o valoare sta-
tistic foarte redus.
Fiecare variabil trebuie codat astfel nct s se obin ma-
ximum de informaii. Categoriile sau valorile variabilei nu trebu-
ie sintetizate n prima variant, ci trebuie incluse exact aa cum
apar pe formularele de colectare a datelor. Sintetizarea valorilor i
cumularea categoriilor poate fi fcut mai trziu, utiliznd funcii-
le specifice SPSS. De exemplu, se prefer introducerea exact a
valorii pentru vrsta subiectului, n ani, i nu ncadrarea subiectu-
lui n categorii de vrst (sub 14 ani, ntre 14 i 20 de ani, peste 20
de ani etc.). Iniial, se va proiecta o variabil, varsta, care va stoca
vrsta exact a subiecilor. Ulterior, dac se va dori transformarea
acestei variabile scalare ntr-o variabil discret, ordinal, numit
grup_varsta, se pot folosi tehnici specifice de conversie. Ca idee
general, ntotdeauna cnd este posibil, se vor folosi variabile con-
tinui la un nivel de msur ct mai aproape de scala de raport. Este
uor s transformm o variabil continu ntr-una discret, ns
imposibil s trecem de la o variabil discret la una continu. Du-

53
Statistic aplicat n tiinele socio-umane

p cum tii deja, valoarea informativ cea mai ridicat o au totui


variabilele continui, astfel nct profitai de ele.
Fiecare subiect trebuie s aib o valoare pentru fiecare varia-
bil. Uneori nu este posibil s includem valori n fiecare coloan,
fie deoarece subiectul nu a rspuns, fie pentru c itemul respectiv
nu i se adreseaz. n acest caz, se recomand s lsai acea celul
liber, deoarece SPSS este astfel proiectat nct s trateze celulele
goale drept cazuri lips. Introducerea altor valori pentru cazurile
lips poate crea confuzii. Respectai ntotdeauna regula ceea ce e
cel mai simplu este i cel mai bun.
Regulile de codare se vor aplica tuturor subiecilor. Acest lucru
nseamn c nu putei aplica reguli valabile doar pentru anumii
participani. De exemplu, dac dorii ca anumite valori s fie trata-
te ca valori lips pentru un anumit subiect, nu putei face acest lu-
cru. Valorile lips vor fi tratate similar pentru toi subiecii.
Folosii coduri n concordan cu sensul scalei. Unele chestio-
nare presupun tipuri de scale ordinale (de exemplu 1 niciodat, 2
rareori, 3 uneori, 4 deseori, 5 ntotdeauna). Dei scalele pot
fi codate i invers (1 ntotdeauna, 2 deseori, 3 uneori, 4 ra-
reori, 5 niciodat), se recomand pstrarea sensului natural al
scalei pentru evitarea problemelor ulterioare referitoare la inter-
pretare. Mai uor asociem niciodat cu 1 dect niciodat cu 5.
Oricum, chiar dac ulterior exist suficiente posibiliti de recoda-
re a valorilor astfel nct analiza s fie consistent, proiectarea
adecvat a cercetrii i codrii v poate scuti de bti de cap i
munc inutil.

54
Cristian Opariuc-Dan

Dup proiectarea bazei de date, se recoman-


d listarea structurii acesteia (a meta-informaiilor)
n vederea consultrii ulterioare. Dac nu vei lucra
cteva luni cu baza de date, probabil c nu vei reine
la ce se refer mem_ini sau mpg i nici de ce tip
este. SPSS prezint o modalitate uoar de a afia
structura bazei de date cu informaii complete. Nu
trebuie dect s accesai meniul File i apoi opiunea
Display Data File Information. Se va deschide o
Figura 1.16 Afiarea infor- nou seciune care v invit s alegei ntre a afia
maiilor despre baza de date informaiile bazei de date curente (Working File)
sau cele ale unei alte baze de date de pe disc (Ex-
ternal File). Noi suntem interesai de afiarea structurii bazei noastre de
date (IQ.sav) i vom alege, aadar, prima opiune.
n fereastra de rezultate (Output), vor aprea o serie de tabele cores-
punztoare definiiilor variabilelor din baza de date, astfel:

Tabelul 1.1 Tabelul de structur a bazei de date

Variable Informati on

Measurement
Variable Position Label Lev el Column Width Alignment Print Format Writ e Format
nume Numele
1 Nominal 14 Lef t A20 A20
subiectului
v arst a Varst a
2 Scale 8 Right F2 F2
subiectilor
sexul Genul
3 biologic al Scale 8 Right F1 F1
subiectilor
iq Coef icientu
4 l de Scale 8 Right F3 F3
inteligenta
Variables in the working f ile

55
Statistic aplicat n tiinele socio-umane

Variable Values

Value Label
sexul 1 Masculin
2 Feminin

Tabelul Variable Information conine informaii despre variabile.


Prima coloan conine numele variabilelor, urmeaz apoi poziia acestora n
structura de date, eticheta, nivelul de msur, limea coloanei i alinierea.
Ultimele dou coloane se refer la tipul variabilei. Astfel, prima vari-
abil poate stoca 20 de caractere, a doua 2 caractere, a treia un caracter i a
patra 3 caractere.
Urmtorul tabel conine variabilele codate. n cazul nostru, singura
variabil codat este sexul i conine valorile 1 Masculin i 2 Feminin.
V recomand ca, dup ce proiectai baza de date, s imprimai structu-
ra acesteia i s o stocai pentru a o putea consulta ori ce cte ori avei nevoie.

n concluzie:
Msurarea n tiinele socio-umane are un caracter subiectiv, deoarece nu putem
observa direct indicatorii funciilor psihice sau ai funciilor sociale;
Msurtorile sunt aproximri ale realitii, deoarece sunt supuse n permanen
surselor de eroare, iar realitatea social are un caracter fluctuant;
Dup S. S. Stevens, n sensul su larg, a msura nseamn a atribui numere obiec-
telor sau evenimentelor potrivit unor reguli.
Regula de atribuire trebuie s fie:
o Suficient de clar pentru a permite atribuirea univoc, la un moment dat, a
unui numr unui obiect i numai a unui singur numr;
o Suficient de simpl pentru a fi utilizat;
O variabil este un nume pentru un element a crui caracteristic este aceea c va-
riaz, i modific valorile;
O variabil este aleatorie i poate lua valori numerice (alea-numeric) sau ne-
numerice;
O variabil se caracterizeaz printr-un domeniu de definiie, o mulime de valori pe
care aceasta le poate lua. n funcie de acest domeniu de definiie, variabilele pot fi
discrete sau continui;

56
Cristian Opariuc-Dan

o O variabil discret nu permite existena unor valori intermediare ntre


valorile pe care le poate lua variabila. Ea este definit pe o mulime nu-
mrabil de valori n baza unei funcii de probabilitate;
o O variabil continu permite existena unor valori intermediare ntre dou
valori ale acesteia, iar acest lucru poate continua la infinit. Ea este defini-
t pe un interval de valori, mulimea fiind infinit, iar legea de distribuie
este o densitate de probabilitate;
Scalele de msurare se grupeaz n scale neparametrice (nominal i ordinal) i
scale parametrice (de interval i de raport);
Termenul de cuantificare are sens ncepnd cu scala ordinal;
Scala nominal prezint doar posibilitatea unor clasificri, a unor grupri ale da-
telor n categorii;
Scala ordinal permite, n plus, ierarhizarea datelor n funcie de apartenena lor la
o categorie. Strict, aceasta este scala utilizat n psihologie;
Scala de interval este o scal ordinal n care intervalele sunt egale. Ea permite s
rspundem cu ct o cantitate este mai mare dect o alta, ns nu i de cte
ori;
Scala de raport este o scal de interval la care exist un zero absolut. Ea permite s
rspundem la ntrebarea de cte ori o cantitate este mai mare dect cealalt.

57
Statistic aplicat n tiinele socio-umane

II. ORGANIZAREA DATELOR


n acest capitol se va discuta despre:
Colecii de date brute;
Amplitudinea de variaie;
Diagrame de date;
Clase i intervale de grupare;
Efective, frecvene absolute i relative;
Reprezentri grafice.
Dup parcurgerea capitolului, cursanii vor fi capabili s:
neleag elementele de baz ale unei distribuii
statistice;
Calculeze numrul de clase i intervalele de gru-
pare;
Grupeze elementele n clase;
Construiasc o distribuie statistic;
Reprezinte grafic o distribuie statistic.

Orice experiment, evaluare psihologic, observaie sau convorbire


pornete de la o ntrebare care-i propune s rezolve o anumit problem. De
cele mai multe ori, problema n tiinele socio-umane nu transpare imediat
ntr-o form cuantificabil. Avem nevoie de o serie de etape intermediare
pentru a stabili ce dimensiuni msurabile sunt n relaie cu problema sau tema
studiat. Procesul prin care transformm o dimensiune general, necuantifi-
cabil, n indicatori msurabili i apoi construim itemi pentru acei indicatori
poart numele de operaionalizare a conceptelor. Dac, de exemplu, dorim
s studiem nivelul de trai al populaiei dintr-un ora, o asemenea abordare
este mult prea general. Ce nseamn, n definitiv, nivel de trai? Dimensiunea
nu poate fi cunoscut direct, astfel nct apelm la anumii indicatori care au
legtur cu nivelul de trai (bugetul alocat pentru achiziionarea de produse
electronice, bugetul pentru concediu etc.) Urmeaz apoi s construim itemi,
ntrebri referitoare la indicatorii stabilii (Unde v petrecei concediile?,
Ce produse electronice ai cumprat n ultimele trei luni? i aa mai depar-

58
Cristian Opariuc-Dan

te). Studiind rspunsurile la aceste ntrebri, putem avea o imagine general


asupra nivelului de trai. Aceti indicatori nu reprezint altceva dect variabile
rezultate n urma operaionalizrii conceptului general de nivel de trai i care
pot fi populate cu datele rezultate din rspunsurile subiecilor la ntrebrile
stabilite.
n urma procesului de operaionalizare a conceptelor, rezult una sau
mai multe variabile, reprezentative pentru studiul propus, variabile ce vor
trebui populate cu date n vederea verificrii ipotezelor i a gsirii rspun-
sului la ntrebarea formulat iniial. Datele cu care urmeaz a fi populat
respectiva variabil pot proveni din (Radu, i alii, 1993):
Lectura unor aparate;
Msurtori antropometrice i/sau bio-fiziologice;
Notele brute (rspunsurile subiecilor) la anumite teste psiho-
logice sau chestionare;
Protocolul de observaie sau interviu;
Analiza de coninut sau analiza produselor activitii etc.
n practic, putem fi interesai de modul n care se grupeaz datele n
jurul unor valori, de variabilitatea acestora sau de stabilirea poziiei relative a
unui individ sau a unui rezultat n cadrul unui grup mai mare de indivizi sau
rezultate.
Fie c desfurm o evaluare psihologic, un studiu sau o cercetare
experimental, fie c iniiem un proces de colectare a datelor prin observaie,
rezultatul const ntr-o colecie (set) de date brute. La acest nivel, nu avem
nicio modalitate prin care putem trage concluzii asupra semnificaiei datelor
pe care le avem la dispoziie. Putem doar constata c unele valori se repet i
cam att. De aceea, prima etap n iniierea unei proceduri statistice de
analiz a datelor const n clasificarea, ordonarea, condensarea acestora n

59
Statistic aplicat n tiinele socio-umane

vederea conturrii unei imagini ct mai precise. Valorile msurate trebuie


aezate ntr-o anumit ordine (cresctoare sau descresctoare), care s permi-
t i o eventual reprezentare grafic a acestora.
Exemplu: Presupunem c msurm nlimea unor subieci n centi-
metri i obinem urmtoarele rezultate: 182, 175, 174, 189, 177, 177, 180,
173, 188, 171, 184, 192, 180, 172, 177, 193, 184, 192, 172, 177, 174, 171,
172, 179, 185, 179, 183, 172, 179, 188.

ntrebare: Ce tip de variabil este variabila menionat mai sus i la


ce nivel de msurare se afl?
Dac privim irul de date de mai sus, observm c nu putem extrage
nici o informaie util. Unele valori se repet, e adevrat, ns nu putem spu-
ne, n lipsa unei organizri, nici care este cel mai nalt subiect, nici care este
cel mai scund, nici ce nlime au cei mai muli subieci. Acest lucru va de-
veni posibil abia n urma unui proces de organizare a acestor date.
La volume mici de date, acest proces nu pune probleme deosebite.
Operaiunea devine ns greoaie i mare consumatoare de timp pentru volume
mari de date i, de aceea, se recomand utilizarea unui program computer
care poate efectua aproape instantaneu aceste operaii.

II.1 Sistematizarea datelor


Primul pas n sistematizarea datelor l reprezint stabilirea valorilor
extreme. Prin inspecie vizual, verificm cea mai mic valoare din irul de
date (Xmin) i cea mai mare valoare din irul de date (Xmax), pentru a putea
calcula poate cel mai simplu indicator statistic, i anume amplitudinea de
variaie. Numim amplitudine de variaie (Range) diferena dintre valoarea
maxim i valoarea minim a distribuiei de date. (A = Xmax Xmin). n exem-
plul nostru, subiectul cel mai scund (cu nlimea cea mai mic) are 171 cen-
timetri, iar subiectul cel mai nalt are 193 centimetri. Prin urmare, Xmin = 171

60
Cristian Opariuc-Dan

centimetri, Xmax = 193 centimetri, iar amplitudinea de variaie devine A = 193


171 = 22 centimetri.
Dac amplitudinea de variaie este mic Tabel 2.1 Diagrama n linii
i efectivul
n comparaie cu numrul de valori din irul de Diagrama
Valoare Efectiv
date, atunci irul de date poate fi uor reprezen- n linii
171 || 2
tat fr necesitatea gruprii valorilor. n cazul
172 |||| 4
nostru, putem sistematiza datele scriind ntr-o
173 | 1
coloan valorile n ordine cresctoare i notnd 174 || 2
n dreptul fiecreia, prin linii verticale, de cte 175 | 1
ori se repet n irul iniial. Dac reconsiderm 176 0
exemplul anterior, obinem datele grupate n 177 |||| 4
178 0
tabelul alturat:
179 ||| 3
De data aceasta, obinem un protocol 180 || 2
sistematizat numit diagrama n linii. Putem 181 0
182 | 1
acum observa c toi cei 30 de subieci (n=30)
183 | 1
au fost repartizai cresctor, n funcie de nl- 184 || 2
imea lor, i putem afirma c cei mai scunzi 185 | 1
subieci au 171 cm, iar cel mai nalt 193 cm. De 186 0
asemenea, cei mai muli subieci au 172 cm i 187 0
177 cm. Iat, aadar, c aceast diagram ne 188 || 2
189 | 1
aduce un plus de informaie n raport cu irul
190 0
nesistematizat prezentat anterior. 191 0
Aceast sistematizare a unui protocol 192 || 2
193 | 1
reprezint o procedur statistic liminar,
deoarece se afl la limita analizei statistice, pregtind aplicarea tehnicilor
ulterioare de prelucrare a datelor.
Diagrama n linii reprezint o metod intuitiv de reprezentare grafic
a datelor. Urmtorul pas este acela prin care vom numra liniile trasate n
vederea stabilirii efectivului (frecvena absolut) fiecrei valori din ansam-

61
Statistic aplicat n tiinele socio-umane

blul rezultatelor. Observm c efectivul valorii 171 cm este de 2 subieci,


adic doi subieci au nlimea de 171 cm, efectivul valorii 172 cm este de 4
subieci, patru subieci au nlimea 172 cm i aa mai departe. Stabilirea
efectivelor prin acest procedeu este posibil n momentul n care amplitudi-
nea de variaie este relativ mic (de exemplu pentru notele colare, de la 1 la
10). La o amplitudine mai mare, acest procedeu este extrem de laborios i
inutil deoarece variabilitatea distribuiei devine prea mare i se pierde viziu-
nea de ansamblu. Deja, n exemplul nostru, constatm o serie de tendine, dar
care sunt ns abia conturate. n plus, gsim multe valori pentru care efectivul
este zero. Prin urmare, ar fi util s facem distribuia mai compact prin gru-
parea valorilor n clase, astfel nct s putem releva regularitatea ansamblu-
lui de date. Vom alege, spre exemplu, gruparea datelor din patru n patru,
astfel:
171, 172, 173, 174 sau 171 174
175, 176, 177, 178 sau 175 178
179, 180, 181, 182 sau 179 182
183, 184, 185, 186 sau 183 186
187, 188, 189, 190 sau 187 190
191, 192, 193 sau 191 193
A rezultat un numr de ase clase care cuprind, fiecare, patru valori,
ultima clas fiind format din trei valori. Distribuia de mai sus va deveni:
Iat c acum lucrurile sunt ceva mai clare. Observm c cei mai muli
subieci au nlimea cuprins ntre 171 cm i 174 cm, n timp ce destul de
puini subieci pot fi considerai ca fiind nali. Este mai uor de sesizat acum
imaginea de ansamblu, modalitatea n care se organizeaz datele. Un aseme-
nea procedeu pune n eviden, compact, regularitatea de ansamblu a datelor.

62
Cristian Opariuc-Dan

La acest nivel va trebui s facem o Tabel 2.2 Diagrama n linii i efectivul


pentru date grupate n clase
serie de precizri, deoarece au aprut do- Diagrama
Clasa Efectiv
u concepte noi: conceptul de clas i n linii
conceptul de interval de grupare. n cazul 171 174 ||||||||| 9
175 178 ||||| 5
nostru, numrul de clase a fost stabilit la 179 182 |||||| 6
ase. Intervalul de grupare (i) se refer 183 186 |||| 4
187 190 ||| 3
la numrul de valori pe care le poate con- 191 -193 ||| 3
ine o clas, cu alte cuvinte lrgimea unei
clase. Practic, intervalul de grupare se exprim ca raport dintre amplitudinea
de variaie i numrul claselor. Dac notm intervalul de grupare cu i i
numrul de clase cu k, avem formula:

= (formula 2.1)

193171 22
n cazul nostru formula devenind = = = 3,67 4
6 6

n exemplul anterior am rotunjit intervalul de grupare i la valoarea


4. Datorit faptului c nlimea este o variabil continu, ar fi corect s re-
prezentm clasele i astfel:
171,00 174,67 (171,00 + 3,67 = 174,67)
174,68 178,35 (174,68 + 3,67 = 178,35)
178,36 182,03 (178,36 + 3,67 = 182,03)
182,04 185,71 (182,04 + 3,67 = 185,71)
185,72 189,39 (185,72 + 3,67 = 189,39)
189,40 193,07 (189,40 + 3,67 = 193,07)
Totui, de ce ne-am rezumat la ase clase i de ce nu am folosit opt
clase sau 3 clase? Care a fost argumentul pe baza cruia am decis utilizarea
unui numr de 6 clase? Exist vreo metod prin care putem stabili numrul
de clase necesare sau le alegem noi arbitrar?

63
Statistic aplicat n tiinele socio-umane

Atunci cnd numrul de msurtori (n) nu este prea mare, numrul


claselor (k) poate fi calculat pe baza formulei Hahn-Shapiro (Vasilescu,
1992):

= (formula 2.2)
5

unde INT nseamn partea ntreag.


n cazul nostru, numrul subiecilor (n) este 30. Dac mprim 30 la
5, obinem valoarea 6. Evident c partea ntreag a lui 6 este tot 6, pe baza
acestei formule stabilindu-se numrul optim de clase n care pot fi grupate
valorile. Cunoscnd numrul claselor, am stabilit, dup cum s-a precizat mai
sus, intervalul de grupare.
Dac volumul msurtorilor este mare, se utilizeaz specificaiile lui
Kolker referitoare la numrul de clase:
Tabelul 2.3 Specificaiile lui Kolker referitoare la alegerea numrului de clase
n 25-40 41-60 61-99 100 101-160 161-250 251-400 401-630 631-1000 > 1000
k 6 7 8 10 11 12 13 14 15 16-20
dup (Vasilescu, 1992)

Din considerente practice, numrul claselor nu va depi valoarea 20.


O alt metod prin care putem stabili intervalul de distribuie, dar i
numrul claselor, cunoscnd amplitudinea de variaie i numrul de msur-
tori, o reprezint utilizarea formulei lui Sturges (Vasilescu, 1992):



= +,() (formula 2.3)

n situaia noastr, logaritmul zecimal din 30 este 1,47. n mod curent,


putem gsi logaritmul zecimal n tabelele de logaritmi sau utiliznd un calcu-
lator tiinific. Cunoscnd aceast valoare, intervalul de distribuie devine:
193 171 22
= = = 3,74 4
1 + 3,322 1,47 5,88

64
Cristian Opariuc-Dan

Observm c valoarea obinut aici se apropie foarte mult de valoarea


stabilit prin formula anterioar. Aceast formul poate fi folosit pentru va-
lori destul de mari ale lui n, respectnd ns limita de 20 de clase.
Referitor la numrul claselor i la intervalele de grupare, se impun
urmtoarele observaii:
1. Dac alegem intervale de grupare prea mici, gruparea date-
lor scoate n eviden lucruri de amnunt care estompeaz
tendina de ansamblu a datelor i deci a procesului pe care l
studiem;
2. Intervalele de grupare prea mari pot estompa iregularitile
distribuiei i atenueaz specificul fenomenului studiat,
pierzndu-se precizia cu care identificm o valoare indivi-
dual;
3. n mod obinuit, vom utiliza, dac msurtoarea s-a fcut
folosind numere ntregi, limite de interval exprimate tot n
numere ntregi. Limita inferioar a intervalului superior va
trebui s fie mai mare cu o unitate dect limita superioar a
intervalului inferior. De exemplu:
171 174 i nu 171 174
175 178 174 178
deoarece nu vom ti unde s ncadrm valoarea 174.
La fel, 171,00 174,67 i nu 171,00 174,67
174,68 178,35 174,67 178,35
Dup cum putem ns observa, msurtorile iniiale s-au efectuat n
numere ntregi. Un exces de precizie la acest nivel este exagerat i poate pro-
duce confuzii. Un subiect cu nlimea de 174 centimetri unde va fi inclus? n

65
Statistic aplicat n tiinele socio-umane

primul caz, evident, n prima clas. n al doilea caz ns, poate fi inclus i n
prima i n a doua clas. De aceea, niciodat precizia claselor nu va depi
precizia msurtorilor efectuate.
Gruparea n Tabelul 2.4 Distribuia statistic pe clase
clase fiind ncheiat, Distribu-
Clasa
ia n linii
fa fc fc %
obinem aa-numita 171 174 ||||||||| 9 9 30 30,00 300,00
distribuie statistic 175 178 ||||| 5 14 21 16,66 166,66
179 182 |||||| 6 20 16 20,00 200,00
ce formeaz baza 183 186 |||| 4 24 10 13,33 133,33
prelucrrilor de date 187 190 ||| 3 27 6 10,00 100,00
ulterioare. n exem- 191 -193 ||| 3 30 3 10,00 100,00
30
plul nostru vom avea
urmtoarea distribuie statistic:
nsumnd efectivele (frecvenele) tuturor intervalelor, va rezulta, evi-
dent, numrul total de msurtori (n). Este, de asemenea, posibil s calculm
frecvenele cumulate, fie ascendent, fie descendent, ca expresie a adunrii
frecvenei intervalului curent la frecvena cumulat a intervalului anterior.
Astfel, pentru primul interval, att frecvena, ct i frecvena cumulat ascen-
dent au valoarea 9. Pentru al doilea interval, frecvena absolut este 5, iar
frecvena cumulat ascendent devine 9+5=14. Al treilea interval are frecven-
a absolut 6, iar frecvena cumulat ascendent 14+6=20 i aa mai departe.
Procedura de calcul este analoag i n cazul frecvenelor cumulate descen-
dent, cu singura deosebire c adunarea se face ncepnd de la ultimul interval.
Rolul frecvenelor cumulate este acela de a ordona cresctor sau
descresctor datele grupate n intervale i de a indica numrul de cazuri, ci
subieci se afl pn la o anumit valoare (frecvenele cumulate ascendente)
sau ci subieci au depit o anumit valoare (frecvenele cumulate descen-
dente). Dac discutm de ordonare, este evident c variabila trebuie s se afle
cel puin la un nivel ordinal de msur, calculul frecvenelor cumulate n ca-
zul variabilelor nominale fiind un nonsens.

66
Cristian Opariuc-Dan

Putem exprima, de asemenea, frecvenele relative, ca proporie a sco-


rurilor dintr-o clas. Cele mai utilizate frecvene relative sunt procentele (%)
i promilele (). Ca modalitate de calcul al procentelor sau al promilelor
vom folosi regula de trei simpl, astfel:
Pentru prima clas vom avea urmtoarea valoare:
dac 30 reprezint 100%
atunci 9 reprezint x
9 100 900
= = = 30%
30 30

II.2 Reprezentarea grafic a datelor


Sintagma o imagine face mai mult dect o mie de cuvinte este vala-
bil i n statistic. Uneori, este mai convenabil s reprezentm grafic datele
pentru a ne forma intuitiv o reprezentare a acestora. Nu trebuie s uitm ns
faptul c, n statistic, afirmaiile pe care le facem trebuie demonstrate, iar
demonstraia se poate face doar cifric.
Exist multe moduri prin care putem reprezenta grafic datele pe care
le vom discuta n momentul n care tematica le va impune. Pentru moment,
ne vom rezuma la graficele cu bare, histograma, poligonul frecvenelor, poli-
gonul frecvenelor cumulate i plcinta.
Reprezentarea prin graficele
cu bare const n ridicarea unei per-
pendiculare de lungime egal cu frec-
vena pentru fiecare valoare sau clas
aezat pe axa Ox. Cu ajutorul barelor,
putem reprezenta att datele negrupate,
ct i datele grupate. Astfel, pentru
Figura 2.1 Graficul cu bare al nlimii
subiecilor exemplul nostru, prezentm reprezenta-

67
Statistic aplicat n tiinele socio-umane

rea prin grafice cu bare a nlimii subiecilor sub form de valori. Un tip par-
ticular de reprezentare a graficelor cu bare este histograma. O histogram se
deosebete de un grafic cu bare prin aceea c, n locul liniilor, sunt ridicate
dreptunghiuri cu baza egal cu intervalul
folosit. Pentru a putea folosi histogramele,
datele trebuie s fie grupate, aadar, pe
intervale egale.
Dac unim prin linii vrfurile gra-
ficelor cu bare sau mijlocul bazei de sus a
histogramelor obinem un alt tip de grafic,
i anume poligonul frecvenelor absolute
Figura 2.2 Histograma pentru nli-
mea subiecilor

sau relative. Poligonul frecvenelor


absolute se refer la exprimarea cifri-
c direct a efectivelor, n timp ce
poligonul frecvenelor relative coni-
ne exprimarea procentual a acestora.
De asemenea, este posibil
construirea poligonului frecvenelor
Figura 2.3 Poligonul frecvenelor
absolute
cumulate ca reprezentare grafic a

funciei de repartiie cumulativ. La fel


ca n cazul graficului cu bare, n dreptul
fiecrei valori se nal o perpendicular
de mrime egal cu frecvena cumulat.
Unind vrfurile acestor perpendiculare se
obine poligonul frecvenelor cumulate,
care poate fi exprimat absolut sau relativ.
Figura 2.4 Poligonul frecvenelor
cumulate

68
Cristian Opariuc-Dan

Uneori este mai convenabil s reprezentm, mai ales atunci cnd lu-
crm cu procente, compoziia msurtorilor printr-o structur radial. Un
asemenea grafic se numete plcint (pie) i este util atunci cnd ne intere-
seaz s urmrim proporia cu care fieca-
re clas particip la construcia ntregu-
lui.
Pentru o variabil continu, deoa-
rece avem o densitate de probabilitate pe
intervalul de valori, reprezentarea grafic
se face sub forma unei curbe numit cur-
b de distribuie, ns acest aspect va
Figura 2.5 Reprezentarea prin diagram face obiectul unui capitol viitor.
de structur (plcint)

n concluzie:
O colecie de date are o valoare informativ extrem de redus. n vederea
extragerii unor informaii preliminare, este necesar ordonarea i grupa-
rea datelor;
La o amplitudine de variaie mic, pot fi ordonate valorile i numrate
efectivele fiecrei valori, realizndu-se astfel un protocol sistematizat;
La o amplitudine de variaie mare i la msurtori numeroase, se va reali-
za gruparea datelor n clase, pe baza unui interval de grupare. Att num-
rul claselor, ct i intervalul de grupare pot fi calculate n baza unor for-
mule sau a unor tabele de referin;
O distribuie statistic reprezint un protocol de date sistematizat i orga-
nizat care conine clasele, diagramele n linii (puncte, stelue etc.) i frec-
venele absolute. Alte informaii care mai pot fi incluse sunt frecvenele re-
lative (procentuale), frecvenele cumulate absolute i relative;
Distribuiile statistice pot fi reprezentate i grafic, folosindu-se graficele cu
bare, histogramele, poligoanele de frecvene sau graficele plcint.

69
Statistic aplicat n tiinele socio-umane

III.STATISTICI DESCRIPTIVE TENDINA CENTRAL


n acest capitol se va discuta despre:
Conceptul de statistici descriptive;
Definirea noiunilor de populaie i eantion;
Indicatori ai tendinei centrale media, mediana
i modul;
Obinerea indicatorilor tendinei centrale n
SPSS;
Dup parcurgerea capitolului, cursanii vor fi capabili s:
neleag semnificaia statisticilor descriptive;
Fac distincia ntre populaie i eantion;
Disting ntre diferitele modaliti de eantiona-
re;
Calculeze indicatorii tendinei centrale;
Utilizeze corect indicatorii tendinei centrale,
n funcie de modul de distribuie al datelor;
S extrag indicatorii tendinei centrale utili-
znd programul SPSS.

Statistica descriptiv se refer la totalitatea metodelor care per-


mit descrierea i gruparea n diferite moduri a datelor rezultate din cer-
cetri. Orice procedeu de analiz a datelor presupune efectuarea unor opera-
iuni preliminare de statistic descriptiv. Statisticile descriptive nu au ca
scop efectuarea unor predicii, ci doar sumarizarea i prezentarea datelor.
Procedeele utilizate n statisticile descriptive se refer la gruparea i prezenta-
rea datelor n tabele i grafice, calculul indicatorilor tendinei centrale i ai
variabilitii, indicatori ai asocierii i ai legturii dintre variabile (studii core-
laionale simple).
nc de la nceput s-a stabilit c, prin statistic, putem descrie, compa-
ra i relaiona variabile. Totodat, modul de realizare a unei variabile se face
prin atribuirea de valori rezultate din diferite surse de date. Totui, cum cule-
gem aceste date? Cum facem ca, pornind de la un numr relativ redus de su-

70
Cristian Opariuc-Dan

bieci, s extindem cunotinele noastre la nivelul ntregii populaii? i, n


definitiv, ce nseamn populaie i ce nseamn eantion?

III.1 Populaie i eantion


Cnd discutm de populaie, nu este obligatoriu s ne referim la popu-
laia unei ri sau a unui ora; n general, ne referim la un grup distinct de
persoane sau obiecte. De exemplu, vorbim de populaia fumtorilor, popula-
ia deficienilor mintali, populaia consumatorilor de Coca-Cola sau populaia
mainilor Lamborghini. Acest lucru se refer la totalitatea obiectelor, de un
anumit tip, existente ntr-un spaiu sau teritoriu, la un moment dat. O
prim observaie se refer la faptul c populaia este relativ la un criteriu (de
exemplu, cel teritorial) sau la mai multe criterii (de exemplu, automobile i
Romnia). Prin urmare, cnd vorbim de populaie relevant, avem n vedere
totalitatea obiectelor care satisfac unul sau mai multe criterii.
De exemplu, dac desfurm un studiu n care dorim s demonstrm
eficiena unui medicament care va accelera abandonul fumatului n Romnia,
ne intereseaz criteriul teritorial (Romnia), dar i calitatea de fumtor, pre-
zent sau trecut.
Populaia este definit, deci, ca fiind totalitatea unitilor de in-
formaie care constituie obiectivul de interes al unei investigaii. ntot-
deauna, la nceputul unei cercetri, trebuie menionat populaia cercetrii, n
vederea specificrii domeniului la care vom extinde rezultatele, concluziile
obinute.
De cele mai multe ori, nu putem studia ntreaga populaie, din cauza
numeroaselor limitri pe care le-ar impune un asemenea demers (costuri,
timp, accesibilitate, dinamica populaiei etc.). De aceea, majoritatea cercetri-
lor se efectueaz pe un grup de subieci extrai din populaie, care s prezinte
caracteristicile acesteia, grup mult redus ns din punct de vedere numeric.
Un asemenea grup poart numele de eantion. Un eantion este, deci, o se-

71
Statistic aplicat n tiinele socio-umane

lecie a indivizilor dintr-o populaie. Cercettorii utilizeaz eantioane, deoa-


rece lucrul cu acestea este mai ieftin, mai rapid i mai uor n comparaie cu
cercetarea ntregii populaii, iar rezultatele pot fi extinse la nivelul ntregii
populaii.
Eantionul reprezint unitile de informaie selecionate pentru a fi
efectiv studiate. Ideea pe care se bazeaz cercetrile orientate pe eantioane
este aceea c se pot face aprecieri asupra unei ntregi populaii, n anumite
condiii, doar pe baza caracteristicilor msurate pe o parte a acesteia.
Totui, pentru ca rezultatele obinute prin studiul eantionului s poat
fi extinse la nivelul ntregii populaii, acel eantion trebuie s fie reprezenta-
tiv, adic s ntruneasc caracteristicile de baz ale populaiei din care a fost
extras.
S presupunem, de exemplu, c dispunem de o urn foarte. Cum veri-
ficm dac boabele de fasole au fost fierte? n primul rnd, amestecm boa-
bele n oal. Dac nu le-am amesteca, am putea risca s le lum pe cele de la
suprafa (care sunt mai puin fierte), nu i pe cele de la fund (care probabil
sunt mai fierte). Dup aceea, lum o lingur de fasole i gustm. n funcie de
rezultat, decidem dac aceasta este sau nu este fiart. Nu trebuie se mncm
toat oala de fasole ca s decidem dac boabele sunt sau nu fierte. Este sufi-
cient s verificm un eantion de boabe de fasole, pentru ca mai apoi s ex-
tindem cunoaterea la nivelul ntregii oale. Iat c exact acesta este i princi-
piul eantionrii. Prin amestecarea n oala cu fasole, am creat posibilitatea ca
fiecare boab de fasole s aib ansa de a fi aleas. Apoi, am extras aleatoriu
un eantion de boabe de fasole pe care l-am verificat. Dac am decis c sunt
fierte, nu voi mai continua cercetarea. ansele s m nel sunt prea mici 5.
Afirmam anterior c un eantion trebuie s fie reprezentativ, adic s
ndeplineasc caracteristicile populaiei din care face parte. Evident, n mo-
5
Exemplul a fost preluat i adaptat dup Lungu Ovidiu Ghid introductiv pentru SPSS 10.0
pentru Windows

72
Cristian Opariuc-Dan

mentul n care voi dori s tiu dac sunt fierte boabele, voi extrage un eanti-
on de boabe de fasole i nu unul de boabe de mazre din oala alturat. Posi-
bilitatea de a generaliza la nivelul ntregii populaii a cunotinelor dobndite
la nivelul eantionului este vital n cercetarea experimental. De aceea, asi-
gurarea reprezentativitii unui eantion este de maxim importan.
Metoda prin care selectm un eantion dintr-o populaie are implicaii
asupra validitii i generalizrii concluziilor dobndite n urma studiului
eantionului. Metodele de eantionare se mpart n dou mari categorii: me-
tode prin care eantionul este extras aleatoriu dintr-o populaie i metode prin
care eantionul nu este extras aleatoriu.
ntr-un eantion care nu este extras aleatoriu, probabilitatea ca un su-
biect s fac parte din eantion nu poate fi calculat. Este exemplul clasic n
care subiecii sunt selectai pe baz de voluntariat sau dintre cei care retur-
neaz chestionarele completate prin pot.
ntr-un eantion extras aleatoriu, fiecare individ are o probabilitate
calculabil de a fi inclus n eantion, iar aceast probabilitate va urmri s fie
egal pentru fiecare subiect. Este cazul extragerii unui eantion dintr-o baz
de date care conine, aleatoriu, ntreaga populaie.
Orice eantion se stabilete n baza unei scheme de eantionare. O
schem de eantionare reprezint un set de tehnici i reguli, n baza crora din
populaie se extrage eantionul necesar, iar compoziia acestuia este aleatoriu
derivat n funcie de definiiile probabilistice ale schemei de eantionare.

III.1.1 Eantionarea simplu randomizat


Randomizare nu nseamn hazard absolut, ci este o metod prin care
fiecare individ are o ans calculabil de a fi ales n eantion. Prin randomiza-
re simpl, fiecare individ are anse egale s fie selectat. Pentru a efectua o
asemenea eantionare, avem nevoie de o baz de eantionare, o list a ntre-
gii populaii (de exemplu, lista exhaustiv a fumtorilor din Romnia). Fieca-

73
Statistic aplicat n tiinele socio-umane

re individ din acea list are asociat un numr. Se folosesc apoi tabelele de
numere aleatoare sau numerele aleatoare se genereaz de un computer. Prac-
tic, numrul aleatoriu generat reprezint numrul de ordine al individului de
pe list. Procedura continu pn cnd s-a extras ntregul eantion. Metoda
randomizrii este o metod foarte simpl, ns dificultatea const n posibili-
tatea obinerii unei liste exhaustive pe criteriile dorite.

III.1.2 Randomizarea pe cote


Este o metod pseudo-randomizat de selectare a unui eantion n care
se iau n considerare anumite caracteristici ale populaiei cum ar fi sexul, vr-
sta, profesia etc. n eantion se intenioneaz respectarea proporiei n care
aceste caracteristici se regsesc n populaie. Dup ce se identific proporia
fiecrei caracteristici ce va fi inclus n eantion, fiecrui evaluator i revine
sarcina s investigheze un anumit numr de persoane ce prezint acea carac-
teristic, alegerea persoanelor rmnnd la latitudinea acestuia. Este impor-
tant ca acea caracteristic s poat fi identificat cu uurin i fr ambigui-
tate de ctre evaluator, altminteri putnd ap-
Tabel 3.1 Structura populaiei
rea serioase probleme la nivelul reprezentati- Vrsta (ani) Brbai Femei
vitii. De exemplu, dac avem urmtoarea 15-20 10000 9000
structur a populaiei din Romnia dup dou 21-30 12000 13000
31-50 12000 14000
criterii vrst i sex: peste 50 12000 18000
O eantionare pe cote presupune res-
Tabel 3.2 Proporii eantion
pectarea proporiei n care se gsete popula- Vrsta (ani) Brbai Femei
ia general, la aceste dou criterii i n ean- 15-20 10% 9%
21-30 12% 13%
tion. Astfel, dac extragem un eantion de 31-50 12% 14%
1000 de persoane, proporia subiecilor din peste 50 12% 18%
acest eantion va respecta proporia subiecilor din populaia general. Prin
urmare, vom obine un eantion avnd structura cuprins n tabelul 3.2:
Acesta este principiul eantionrii pe cote. Un evaluator va administra
instrumentele de cercetare unui numr de, s spunem, 120 de brbai cu vr-

74
Cristian Opariuc-Dan

sta cuprins ntre 31 i 50 de ani, avnd libertatea de a alege singur persoane-


le, atta timp ct respect aceste dou criterii.
O problem apare, ns, n momentul n care unul dintre criterii are o
pondere extrem de mic n populaie (de exemplu, cnd studiul se refer la
persoane cu un IQ sub 70). n acest caz, numrul persoanelor selectate n
eantion s-ar putea s fie prea mic pentru a permite generalizarea. ntr-o ase-
menea situaie, se procedeaz la supra-eantionare, adic la mrirea acestui
numr. Se consider c, pentru anumite caracteristici foarte rare, acest fapt nu
afecteaz reprezentativitatea eantionului.

III.1.3 Eantionarea stratificat


n condiiile n care putem identifica o serie de straturi dup care este
mprit populaia n funcie de unul sau mai multe criterii, vom putea pro-
ceda la o eantionare randomizat pentru fiecare strat. Acest lucru ne permite
s ne asigurm c fiecare grup este reprezentat n eantionul final. Numrul
fiecrui grup este proporional cu mrimea stratului, ns dac acel grup este
foarte mic, se procedeaz, la fel ca n cazul anterior, la mrirea numrului de
subieci n eantion pentru asigurarea reprezentativitii. De exemplu, putem
depista stratul fumtorilor, stratul nefumtorilor i stratul celor care au renun-
at la fumat. Aflm care este ponderea fiecrui strat n populaia general i
apoi, din fiecare strat, extragem aleatoriu eantionul nostru. Metoda se asea-
mn cu cea prezentat anterior, diferena fiind aceea c, n eantionarea pe
cote, evaluatorul poate alege liber subiecii dintr-un grup, n timp ce aici su-
biecii din grup sunt alei dinainte n baza eantionrii randomizate simple.
Dac discutm de eantionare randomizat simpl, evident c se ridic din
nou problema bazei de eantionare. Dei este mai precis n comparaie cu
eantionarea pe cote, eantionarea stratificat se lovete de aceeai problem,
dificultatea obinerii bazei de eantionare.

75
Statistic aplicat n tiinele socio-umane

III.1.4 Eantionarea pe cluster


Un cluster reprezint o unitate care prin ea nsi se prezint ca un in-
divid dintr-o populaie. Spre exemplu, dac populaia o considerm ca fiind
aceea a liceelor din Romnia, un cluster este liceul C Negruzzi din Iai, un
alt cluster liceul Mircea cel Btrn din Constana i aa mai departe. n
acest caz, eantionarea se face pe uniti de eantionare, iar evaluarea se face
exhaustiv la nivelul clusterului. Aadar, eantionul este stabilit pe uniti de
eantionare i nu pe indivizi, iar la nivelul unei uniti de eantionare se eva-
lueaz exhaustiv toate persoanele. Spre exemplu, dac baza de eantionare o
constituie liceele din Romnia, care sunt, s presupunem, n numr de 3000,
atunci vom extrage aleatoriu un eantion de 30 de licee pe care le vom inves-
tiga exhaustiv. Un asemenea liceu joac rolul unui individ dintr-o eantionare
randomizat i poart numele de unitate de eantionare.
Exist i alte modaliti de eantionare, ns acestea sunt cele mai im-
portante pentru cercetarea n tiinele socio-umane. Rmne ns problema
ct de mare s fie eantionul pentru a asigura generalizarea concluziilor la
nivelul ntregii populaii. Pentru a trata acest aspect, va trebui s tim cteva
lucruri despre distribuia datelor ntr-o populaie, mai precis despre curba de
distribuie normal. De aceea, asupra acestei probleme vom reveni i o vom
trata n amnunt ntr-un alt capitol.

III.2 Indicatori ai tendinei centrale


Calitatea datelor colectate este fundamental pentru scopul cercetrii.
Am aflat n capitolul al doilea cum putem organiza setul de date brute, astfel
nct informaiile s devin inteligibile. Urmeaz s ne asigurm c metoda
prin care am colectat datele este adecvat i c acestea ne pot informa ntr-o
manier tiinific. Am spus, de asemenea, c pentru volume mari de date,
acest proces de organizare poate fi unul extrem de laborios i mare consuma-
tor de timp. De asemenea, probabil c ai fost surprini c n capitolul al doi-
lea nu avem nici o aplicaie n SPSS. Motivul pentru care nu am inclus nici o

76
Cristian Opariuc-Dan

aplicaie practic a fost acela c, n realitate, n momentul n care lansm o


procedur de analiz de date, SPSS face automat aceast organizare. Indife-
rent ct de sofisticate ar fi analizele de date pe care le efectum, nu putem
obine la ieire dect ceea ce am introdus la intrare. n statistic este per-
fect valabil principiul GIGO (Garbage In, Garbage Out Gunoi la intrare,
gunoi la ieire). Iat c, nainte de a intra n procedee statistice mai elaborate,
am discutat cteva elemente referitoare la eantionare. Ceea ce trebuie s
reinei, este faptul c o cercetare greit proiectat duce n mod sigur la rezul-
tate eronate.
n cele mai multe cazuri, organizarea i sistematizarea datelor i re-
prezentarea grafic a acestora nu sunt suficiente. Avem nevoie de mai mult
dect de desene i grafice frumoase pentru a da un sens acelor date i pentru a
extrage concluzii utile. Uneori, avem nevoie s stabilim relaiile dintre dou
sau mai multe variabile sau s vedem cum scorul la o anumit variabil este
influenat de scorurile altor variabile. Alteori, trebuie s comparm variabile-
le, s vedem dac sunt diferene ntre ele i care este sensul acestor diferene.
Toate aceste aspecte sunt reunite sub denumirea generic de analiz a date-
lor.
n al doilea capitol, am vzut deja cum datele se concentreaz n jurul
unor valori i am constatat c, n raport cu dimensiunea eantionului, subiec-
ii pot fi considerai mai degrab scunzi dect nali. Iat c prin acest proce-
deu putem intui c datele noastre tind spre anumite valori considerate ca fiind
centrale. Aadar, putem vorbi despre o tendin central a rezultatelor.
Prima i cea mai comun form de descriere a datelor o reprezint
analiza tendinei centrale. Msura tendinei centrale ne d o indicaie asupra
scorurilor tipice din colecia de date. Cu alte cuvinte, ne indic modul n care
se grupeaz datele n jurul unei valori. Cei mai importani indicatori ai ten-
dinei centrale sunt media, mediana i modul.

77
Statistic aplicat n tiinele socio-umane

Procedeele statistice urmresc, n aproape toate cazurile, modelarea


lumii reale. Un model statistic este o reprezentare probabilistic a unei reali-
ti care nu poate fi cunoscut nemijlocit. Ar fi foarte greu s cunoatem
structura geologic a unui munte. Nu putem aduce muntele n laborator ca s-
l studiem i nici nu putem trimite mii de geologi care s investigheze fiecare
roc din compoziia muntelui. Totui, tim c muntele este calcaros sau gra-
nitic, putem aprecia vechimea acestuia i era geologic de formare. Acest
lucru devine posibil prin studiul unor eantioane prelevate din munte, pe baza
crora s-a construit un model probabilistic al muntelui.

III.2.1 Media
Considerm c termenul de medie mai precis media aritmetic es-
te conceptul cel mai uor de neles din ntreaga statistic. Au fost nenumra-
te situaiile n care ai ntlnit media: media la matematic pe trimestru sau
semestru prin care putei ti dac ai rmas corigent sau ai luat premiu, media
de la bacalaureat care v ridic sau v coboar ansele de admitere la faculta-
te, la fel i media anilor de studiu, media de vrst din familia dumneavoastr
sau media cheltuielilor zilnice care v ajut s v planificai mai bine bugetul.
Deci ce este media? Media nu este altceva dect suma valorilor unei
variabile, raportat la numrul msurtorilor, fiind, poate, cel mai simplu
model statistic. Aceasta este media aritmetic, deoarece n statistic mai
discutm i despre media geometric, media caracteristicilor alternative, me-
dia ptratic, media rangurilor etc. Aceste concepte le ntlnim ns mai rar n
domeniul tiinelor socio-umane i, prin urmare, nu vom face dect s le
amintim.
Probabil c vi se va prea ciudat afirmaia anterioar. Cum adic
media este un model statistic? Ei bine, aa este, deoarece nu reprezint alt-
ceva dect o valoare ipotetic ce poate fi obinut din orice set de date msu-
rate la un nivel parametric. Dac, de exemplu, am nregistra numrul de frai
pe care-i au cinci dintre prietenii mei, am obine urmtoarele valori: primul

78
Cristian Opariuc-Dan

prieten are un frate, al doilea 2 frai, al treilea i al patrulea 3 frai i al cinci-


lea 4 frai. Ci frai au n medie cei cinci prieteni ai mei? Dac adunm cele
cinci valori i mprim la cinci, obinem o medie de 2,6 frai. Ci frai???
Repet, ci frai? Media spune clar: 2,6 frai. Ce nseamn 2,6 frai? Probabil
doi frai ntregi i unul cruia i lipsete o mn sau un picior. Iat de ce me-
dia nu este altceva dect un model ipotetic, un model statistic care reprezint
tendina, direcia spre care converg datele.
Cnd vorbim de medie, trebuie s nelegem i condiiile n care o pu-
tem folosi, deoarece utilizarea ei n condiii inadecvate este inutil i primej-
dioas, putnd duce la multe confuzii i erori de interpretare. Am spus deja c
putem folosi media doar n cazul n care datele se afl cel puin la un nivel de
msurare de interval, altminteri nu are sens s discutm despre medie. Nu
putem face, v amintii, media ntre un colonel i un cpitan. Ce-ar rezul-
ta??!! n nici un caz un maior. De asemenea, media poate fi folosit doar n
cazurile n care valorile individuale se grupeaz n jurul acesteia, iar valorile
care se abat de la medie se anuleaz reciproc. Cu alte cuvinte, suma valorilor
individuale mai mari dect media i suma valorilor mai mici dect media tind
s se anuleze. Vom vedea, n acest capitol, care sunt limitele mediei i cum le
putem evita i atunci vei nelege mai bine aceste concepte.

=1
= (formula 3.1)

Iat i prima formul care are darul s v sperie. n realitate, aceast


formul este formula mediei aritmetice menionat mai sus. S-ar traduce prin
suma tuturor valorilor de la i la k, mprit la numrul valorilor n. Semnul
sigma este un semn folosit pentru a exprima suma. Observm c, pentru a
avea sens, trebuie s existe cel puin un element. Pn acum nimic avansat.
Media aritmetic se mai noteaz cu m sau folosind ca n formula noastr.
De fapt, dac respectm strict conveniile de notare din literatura de speciali-

79
Statistic aplicat n tiinele socio-umane

tate, atunci cnd vorbim de o populaie vom nota media cu (miu), iar cnd
de referim la un eantion o vom nota cu m sau .
Iat, avem un numr de 10 msurtori ale unor scoruri brute la un
chestionar de anxietate, dup cum urmeaz: 10, 22, 31, 9, 24, 27, 29, 9, 23,
12. Media aritmetic va fi suma acestora mprit la numrul lor, n cazul
nostru 10. Prin urmare, efectund calculele, obinem media de 19,6. Este
greu, nu?
10 + 22 + 31 + 9 + 24 + 27 + 29 + 9 + 23 + 12 196
= = = 19,6
10 10
Vom reconsidera acum exemplul din capitolul al doilea i vom ncer-
ca s-l utilizm pentru a efectua calculele n vederea stabilirii celor trei indi-
catori ai tendinei centrale. Vi-l reamintesc:
Exemplu: Presupunem c msurm nlimea unor subieci n centi-
metri i obinem urmtoarele rezultate: 182, 175, 174, 189, 177, 177, 180,
173, 188, 171, 184, 192, 180, 172, 177, 193, 184, 192, 172, 177, 174, 171,
172, 179, 185, 179, 183, 172, 179, 188.
Pentru a calcula media, va trebui s adunm toate aceste 30 de valori
i s mprim suma rezultat la 30 care reprezint numrul msurtorilor.
ncepei s adunai.. Suma tuturor acestor valori este 5391. Dac mprim
aceast sum la 30, vom obine valoarea 179,7, care nu reprezint altceva
dect media nlimii celor 30 de subieci.
Ai observat probabil c v-a luat destul de mult timp s calculai
aceast medie folosind adunarea valorilor. Nu ai avut dect 30 de valori de
adunat. Acum imaginai-v c avei 3000 sau 5000 de valori. V putei da cu
uurin seama c, n asemenea condiii, calculul mediei devine extrem de
dificil i foarte susceptibil la erorile ce pot s apar. Cnd volumul datelor
este destul de mic, putem calcula media prin nsumarea valorilor i prin ra-
portarea acestei sume la numrul de msurtori. Dac volumul de date este

80
Cristian Opariuc-Dan

ns mare, iar datele sunt grupate, vom prefera o alt metod de calcul, folo-
sind aceste date grupate. Iat o prim aplicaie a datelor grupate. V mai adu-
cei aminte de distribuia statistic folosit n capitolul doi? O vom reproduce
i apoi vom modifica acest tabel astfel nct s ne permit calculul mediei.
tim c intervalul de grupare este i=4, iar acest interval a fost stabilit prin
aproximare.
Tabelul 3.3 Distribuia statistic Urmeaz s stabi-
Distribuia lim valoarea central xk
Clasa f fc % %c
n linii
171 174 ||||||||| 9 9 30,00 30,00 ,care nu reprezint altceva
175 178 ||||| 5 14 16,66 46,66 dect mijlocul intervalului
179 182 |||||| 6 20 20,00 66,66
183 186 |||| 4 24 13,33 80,00
curent. Astfel, pentru pri-
187 190 ||| 3 27 10,00 90,00 mul interval avem valorile
191 -193 ||| 3 30 10,00 100,0 171, 172, 173, 174. Valoa-
n=30 100%
rea central a intervalului
va fi, aadar, ntre 172 i 173, mai precis 172,5. Pentru al doilea interval,
avem 175, 176, 177, 178 i, deci, valoarea central devine n acest caz 176,5
i aa mai departe. Ultimul interval conine ns doar trei elemente i anume
191, 192, 193. Aici valoarea central va fi, deci, 192.
Urmeaz apoi, stabilirea valorii fxxk care reprezint nmulirea, pentru
fiecare clas, a valorii xk cu frecven-
Tabel 3.4 Calculul mediei aritmetice
Clasa xk f fxxk a absolut f. Pentru primul interval
171 174 172,5 9 1552,5 vom avea, aadar, 172,5 x 9 =
175 178 176,5 5 882,5
179 182 180,5 6 1083 1552,5. Al doilea interval va avea ca
183 186 184,5 4 738 rezultat produsul 176,5 x 5 = 882,5
187 190 188,5 3 565,5 i aa mai departe pn la ultimul
191 -193 192 3 576
n=30 = 5397,5 interval.
Adunm apoi toate aceste produse obinute n coloana fxxk , pentru a
stabili suma produselor, . n cazul nostru, 1552,5 + 882,5 + 1083 + 738 +
565,5 + 576 = 5397,5. Constatm c valoarea este foarte apropiat de valoa-

81
Statistic aplicat n tiinele socio-umane

rea exact obinut prin nsumarea tuturor valorilor (5391). Acum, dac m-
prim totalul 5397,5 la numrul de msurtori n vom obine valoarea mediei
179,91. Aceast nou valoare difer foarte puin de media real obinut prin
nsumarea valorilor. Acest lucru se ntmpl, deoarece media pune n eviden-
tendina central a rezultatelor constatate ntr-o cercetare, iar gruparea da-
telor introduce o eroare n calculul mediei pentru c se face ipoteza c ele-
mentele fiecrei clase sunt concentrate la mijlocul intervalului, ceea ce nu
este aa. Cei zece subieci din primul interval, tim bine, nu au nlimi con-
centrate n jurul valorii de 172,5 i cu att mai puin subiecii din celelalte
intervale. Cu ct intervalul de grupare este mai mare, cu att aceast eroare de
grupare va avea o valoare mai mare. Statisticienii consider ns c, la volu-
me mari de date, eroarea este neglijabil comparativ cu timpul alocat nsum-
rii valorilor.
Iat c, din cele expuse mai sus, putem deduce o nou formul pentru
medie, valabil n cazul datelor grupate:

=1
= (formula 3.2)

unde fk reprezint frecvena absolut a unei clase k, xk reprezint mij-


locul clasei k, iar n reprezint numrul total de subieci.

Calculnd media, se obine o msur a nivelului mediu relativ la un


eantion studiat, fapt ce permite apoi comparaii ntre grupe.
Media aritmetic prezint o serie de proprieti importante, foarte
utile nelegerii condiiilor de utilizare a acestui indicator statistic.
Adugnd sau scznd o constant la fiecare valoare (scor) in-
dividual, media se mrete sau se micoreaz cu valoarea
acelei constante;
nmulind sau mprind fiecare scor individual cu o constant,
media se multiplic sau se divide cu valoarea acelei constante;

82
Cristian Opariuc-Dan

Suma scorurilor cu valori mai mici dect media este egal cu


suma scorurilor mai mari dect media, astfel nct scorurile
mai mici dect media anuleaz scorurile mai mari dect me-
dia;
O variant a mediei, utilizat destul de des n cercetrile socio-umane,
se refer la media ponderat. n cazul mediei aritmetice simple, fiecare scor
particular are aceeai pondere n calculul acestui indicator, situaie care se
schimb atunci cnd ne referim la media ponderat. n acest caz, ponderea
scorurilor este diferit. S presupunem c administrm unui subiect un numr
de 4 teste de inteligen, notate testul 1, testul 2, testul 3 i testul 4,
la care subiectul obine urmtoarele scoruri (pe o scal de la 1 la 10): 6, 8, 9,
7. Media aritmetic se calculeaz foarte simplu, adunnd aceste valori i apoi
mprind suma rezultat la patru. Obinem un scor mediu de 7,5. Pentru cal-
cului mediei ponderate, trebuie ca fiecare dintre cele patru teste s aib o
pondere n scorul final. Primul test, fiind mai greu, va avea o pondere mai
mare, s spunem 5. Al doilea test va avea ponderea 1, al treilea test 2 i al
patrulea test 3. Totalul ponderilor va fi, aadar, 5+1+2+3=11. Cunoscnd
aceste elemente, putem calcula media ponderat, astfel:

5 6 + 1 8 + 2 9 + (3 7) 30 + 8 + 18 + 21 77
= = = =7
11 11 11
Avnd n vedere algoritmul de mai sus, putem scrie n continuare
formula mediei ponderate, dup cum urmeaz:

=1
= (formula 3.3)
=1

unde pi reprezint ponderea scorului, iar xi reprezint scorul

III.2.2 Mediana i rangurile


Mediana este o alt msur a tendinei centrale i reprezint valoa-
rea care mparte irul de msurtori n dou pari egale; jumtate din

83
Statistic aplicat n tiinele socio-umane

irul de date va avea valori mai mici dect mediana, n timp ce cealalt
jumtate va avea valori mai mari dect mediana. S considerm urmto-
rul ir de date:

Scoruri: 12, 14, 10, 11, 15, 14, 12, 20, 19, 20, 13, 11, 14, 8

Pentru a calcula mediana, primul pas este acela de a ordona cresctor


sau descresctor aceste date. Ordonnd cresctor irul de mai sus, obinem:

Scoruri: 8, 10, 11, 11, 12, 12, 13, 14, 14, 14, 15, 19, 20, 20
Dup definiia medianei, n cazul nostru avem 14 valori. Prin urmare,
mediana va fi valoarea care mparte acest ir ordonat n dou pri egale. Fi-
ind 14 valori, mediana este situat la limita primelor apte valori. Deoarece
irul este un ir par, mediana se situeaz, n cazul nostru, ntre valoarea 13 i
valoarea 14, mai precis la valoarea 13,5. n cazul unui ir impar, mediana
este valoarea de la mijlocul unui ir. Dac relum exemplul anterior, i mai
adugm un scor, obinem:

Scoruri: 12, 14, 10, 11, 15, 14, 12, 20, 19, 20, 13, 11, 14, 8, 9

irul are acum 15 valori. Ordonnd irul, obinem:

Scoruri: 8, 9, 10, 11, 11, 12, 12, 13, 14, 14, 14, 15, 19, 20, 20
De data aceasta, la mijlocul acestui ir, gsim valoarea 13, valoarea
medianei.
Ordonnd un ir, putem preciza poziia fiecrui element n cadrul ace-
lui ir. Astfel, dac lum irul ordonat de 15 valori din exemplul de mai sus,
obinem:

Scoruri: 8, 9, 10, 11, 11, 12, 12, 13, 14, 14, 14, 15, 19, 20, 20
Poziia: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15

84
Cristian Opariuc-Dan

Altfel spus, mediana nu este altceva dect poziia rangului din mijloc
n irul ordonat de date. ntr-o serie de la 1 la 15, poziia din mijlocul irului
este evident, poziia 8. Acesta este de altfel i locul n care gsim mediana.
Am accentuat asupra poziiei n ir i nu am discutat despre rang. n cazul n
care avem dou sau mai multe scoruri identice (n exemplul nostru fiind vor-
ba despre 11, 12, 14 i 20), poziia n cadrul irului exprim poziia fizic a
acelui element. Observm c scorul 12 ocup poziia 6 i 7 n cadrul irului,
elementul 14 poziia 9, 10 i 11 i aa mai departe. Cnd vorbim de rangul
unui scor i avem mai multe scoruri care se repet, rangul acestora va fi
media aritmetic a poziiilor pe care scorurile le ocup n cadrul irului.
Astfel, dac relum exemplul nostru, l putem completa i cu rangul scoruri-
lor, astfel:

Scoruri:8, 9, 10, 11, 11, 12, 12, 13, 14, 14, 14, 15, 19, 20, 20
Poziia:1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15
Rang: 1, 2, 3, 4.5, 4.5, 6.5, 6.5, 8, 10, 10, 10, 12, 13, 14.5, 14.5
Iat, deci, c scorul 11 apare pe poziia 4 i 5 de dou ori. Prin urma-
re, rangul acestor scoruri este media dintre 4 i 5, adic 4,5. La fel, scorul 12
apare pe poziiile 6 i 7, rangul acestora fiind 6,5. Scorul 14 apare pe poziiile
9, 10 i 11, rangul acestora fiind 10 i aa mai departe.
Mediana poate fi calculat i atunci cnd avem datele grupate 6. n
acest sens, am reluat exemplul anterior de calcul al mediei. Ceea ce trebuie s
tim sunt frecvenele cumulate i numrul total de cazuri. n exemplul nostru,
numrul total de cazuri este 30. Mediana fiind valoarea care mparte grupul
de subieci n dou pri egale, ea poate fi calculat dup formula alturat,
unde l este limita inferioar a intervalului care conine mediana, i este inter-
valul de clas care conine mediana, PozMe poziia medianei, fc reprezint

6
Asemenea mediei, calculul medianei prin acest procedeu reprezint o aproximare a aces-
teia i nu valoarea ei exact.

85
Statistic aplicat n tiinele socio-umane

frecvena cumulat a intervalului pre-median (totalul frecvenelor situate na-


inte de median, iar f reprezint frecvena absolut a intervalului medianei.
1
= + (formula 3.4)

n cazul nostru, avnd 30 de msurtori, mediana va fi undeva ntre


poziia 15 i poziia 16, mai precis la 15,5,
Tabel 3.5 Distribuia statistic calcul
aa cum am prezentat anterior. Practic, median
msurtoarea care reprezint poziia me- Distribu-
Clasa f fc
ia n linii
dianei este determinat de formula 171 174 |||||||||| 9 9
+1 175 178 ||||| 5 14
= ,dac numrul de cazuri n
2 179 182 |||||| 6 20
este un numr par. Dac n este un numr 183 186 |||| 4 24
187 190 ||| 3 27
impar, poziia medianei este dat de for-
191 -193 ||| 3 30

mula = 2 . n cazul nostru, poziia n=30
30+1
medianei va fi la a = 15,5-a msurtoare. Dac privim n tabelul de mai
2
sus, la frecvene cumulate, observm c aceast poziie corespunde intervalu-
lui 179-182, intervalul imediat superior celei de a 14-a msurtori. Limita
inferioar a acestui interval (l) este 179, intervalul de clas (i) este 4 (179,
180, 181, 182), frecvena cumulat a intervalului pre-median (fc) este 14, iar
frecvena absolut (f) este 6. Avem acum toate datele necesare pentru a le
nlocui n formul i obinem valoarea 180. Iat i valoarea medianei, pe care
o putem obine n cazul n care valorile sunt grupate n clase.
30 +1
14 15,514 1,5
2
= 179 + 4 = 179 + 4 = 179 + 4 = 180
6 6 6

Mediana i rangurile sunt intens folosite atunci cnd lucrm cu date


neparametrice sau atunci cnd media nu este un indicator fidel al tendinei
centrale.

86
Cristian Opariuc-Dan

III.2.3 Modul
Doamnele, domnioarele ne pot spune cel mai bine ce este mdul, c-
ruia i se mai spune mod, mod sau valoare modal, n niciun caz modl cum
am auzit deseori. Un modul poate fi ataat unei staii cosmice eventual, ns
nu poate identifica indicatorul tendinei centrale despre care vrem s discu-
tm. Deci, doamnelor, ce este n definitiv moda? Ce nelegem cnd spunem
c ceva este la mod? Desigur, ceva este la mod atunci cnd o mare parte
dintre oameni poart, utilizeaz acel lucru. Spunem c cizmele roz sunt la
mod, adic foarte multe fete poart cizme roz. Iat un alt cuvnt din limbajul
uzual, provenind din acelai cmp etimologic al statisticii. Prin urmare,
modul nu este altceva dect categoria cu frecvena cea mai mare. Foarte
complicat, ntr-adevr Dac avem irul de date:

2, 15, 16, 18, 18, 21, 21, 21, 21, 25, 26

n acest caz, observm c exist un singur 2, un singur 15, un singur


16, doi de 18, patru de 21, un 25 i un 26. Care e categoria cu frecvena cea
mai mare? Evident 21. Deci, modul este 21.
Modul poate fi calculat i n cazul n care datele sunt grupate n clase 7.
n acest caz, este prezentat mai jos formula de calcul, n care l reprezint
limita inferioar a intervalului modal (intervalul cu frecvena absolut cea
mai mare), fm reprezint frecvena absolut a intervalului modal, fm-1 frecven-
a absolut a intervalului pre-modal (intervalul aflat naintea intervalului mo-
dal), fm+1 frecvena absolut a intervalului post-modal (intervalul aflat dup
intervalul modal), iar i este intervalul de clas al clasei modale.
1
= + 2 (formula 3.5)
1 +1

7
Asemenea mediei i a medianei, calculul modului prin acest procedeu reprezint o apro-
ximare a acestuia i nu valoarea sa exact.

87
Statistic aplicat n tiinele socio-umane

n cazul nostru, intervalul modal este intervalul cu frecvena absolut


cea mai mare, adic primul interval, 171-174, care are frecvena absolut 9.
Intervalul pre-modal nu exist, deci frecvena lui este 0, iar intervalul post-
modal este intervalul 175-178, care are frecvena absolut 5. Evident, interva-
lul de clas (i) este din nou 4 (171, 172, 173, 174). Aplicm acum formula i
obinem 173,76. Tabel 3.6 Distribuia statistic calcul mod
Distribuia n
90 Clasa f
linii
= 171 + 4 171 174 |||||||||| 9
2905
175 178 ||||| 5
9
= 171 + 4 179 182 |||||| 6
13 183 186 |||| 4
36 187 190 ||| 3
= 171 + 191 -193 ||| 3
13
n=30
= 173,76

III.2.4 Precizia indicatorilor tendinei centrale


Am ntlnit, iat, trei indicatori ai tendinei centrale. Care dintre cei
trei indicatori caracterizeaz mai bine setul nostru de date? Care este mai
precis? Media, vei spune toi i poate aa i este. Dar haidei s ne mai gn-
dim ce nseamn, totui, tendina central? Evident, un indicator al scoruri-
lor tipice din setul nostru de date, un model statistic al unei realiti. Cu alte
cuvinte, un indicator care descrie ct mai exact setul de date i care ne poate
spune cum se prezint majoritatea datelor. Haidei s considerm urmtorul
set de date:
1, 2, 3, 4, 5, 6, 7, 8, 9, 10

n acest caz, media este 5,5, iar mediana tot 5,5. S modificm puin
ultima cifr din setul nostru de date:
1, 2, 3, 4, 5, 6, 7, 8, 9, 20

Iat c, media devine acum 6,5, n timp ce mediana rmne 5,5. Hai-
dei s modificm mai mult ultima cifr:

88
Cristian Opariuc-Dan

1, 2, 3, 4, 5, 6, 7, 8, 9, 100

Acum media va fi 14,5, n timp ce mediana rmne tot 5,5. Putei in-
tui care indicator caracterizeaz cel mai bine tendina central n ultimul set
de date? Mediana, vei spune i avei dreptate. Iat c, atunci cnd avem
scoruri extreme, foarte mari sau foarte mici n comparaie cu setul de
date, mediana este un indicator mai bun dect media. Despre modul n
care depistm scorurile extreme, vom discuta ntr-un alt capitol. Pentru a n-
elege mai bine, lum ca exemplu veniturile zilnice ale unor persoane, dup
cum urmeaz, n RON:
100, 105, 110, 115, 120, 125, 130, 135, 140

n cazul nostru, media este 120, iar mediana este tot 120. Putem con-
cluziona ca aceti oameni sunt relativ sraci, ctig doar 120 de RON pe zi.
Dar haidei s modificm ultima valoare, n loc de 140 vom stabili 1400. i-
rul devine:
100, 105, 110, 115, 120, 125, 130, 135, 1400

n acest caz, media devine 260, n timp ce mediana rmne tot 120.
Putem, oare, afirma c aceti nou oameni ctig n medie 260 RON zilnic?
Categoric nu; observm c, n afar de ultima persoan, eventual un mare
latifundiar i implicat n tranzacii sportive, niciuna dintre cele opt persoane
rmase nu ctig nici mcar 150 RON, darmite 260. Dac ne-am lua dup
medie, am putea spune c oamenii acetia sunt relativ bogai, ceea ce este
complet fals. Prin urmare, acest scor extrem face media nereprezentativ pen-
tru setul de date. Cel mai bun indicator rmne tot mediana. Desigur, media-
na nu este un indicator att de sensibil ca i media, ns n momentul n care
nu putem folosi media datorit valorilor extreme, folosim mediana ca indica-
tor al tendinei centrale.

89
Statistic aplicat n tiinele socio-umane

O alt observaie o facem n situaia datelor neparametrice, aflate la


un nivel nominal de msurare. Spre exemplu, urmrim culoarea ochilor unor
elevi dintr-o clas i obinem:
Albatri = 5, Verzi = 6, Cprui = 15, Negri = 10

n acest caz, nu putem folosi media ca indicator al tendinei centrale


pentru c nu are sens (care e media? Un soi de albastro-verzuio-cprui-
negri????), dar nici mediana, pentru c nu putem ierarhiza categoriile. Nu
putem spune c o culoare de ochi este superioar alteia. Singurul indicator al
tendinei centrale rmne modul. Bazndu-se pe o simpl numrare de frec-
vene, are sens s vorbim aici de mod i s afirmm c modul este cprui,
aceasta fiind categoria cu frecvena cea mai mare.
Prin urmare, pentru date neparametrice aflate la un nivel nominal
de msurare, singurul indicator al tendinei centrale care poate fi calcu-
lat este modul.
Modul poate fi, de asemenea, un bun indicator al tendinei centrale i
n cazul datelor parametrice. S considerm urmtorul exemplu:
1, 2, 2, 2, 2, 2, 2, 2, 3, 4, 5, 6, 7, 8
1, 2, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12
n primul caz, observm c avem o frecven foarte mare a categoriei
2 comparativ cu al doilea caz. Deci, n primul caz, modul ar fi cel mai bun
indicator al tendinei centrale (al scorurilor tipice din serie). i n al doilea
caz, modul este tot doi, ns observm c apare doar o singur dat n plus n
comparaie cu celelalte valori, spre deosebire de primul caz n care apare de
ase ori n plus. Iat c n al doilea caz, modul nu este un bun indicator al
tendinei centrale i se prefer media, n timp ce, n primul caz, se prefer
modul, acesta indicnd cel mai bine scorurile tipice.

90
Cristian Opariuc-Dan

n situaia n care frecvena unei categorii este mult mai mare n


comparaie cu frecvena celorlalte categorii, cel mai bun indicator al
tendinei centrale este modul.
Cel mai sensibil indicator este media, deoarece se bazeaz pe scoruri,
ns media induce erori dac avem scoruri extreme, mult mai mari sau mult
mai mici n comparaie cu celelalte scoruri. Mediana se bazeaz pe ranguri i,
de aceea, este mai puin
precis dect media, ns
i insensibil la aceste
scoruri extreme. Modul
se bazeaz pe frecvena
de apariie i este cel mai
imprecis indicator al ten-
dinei centrale, dar i cel
mai flexibil. l putem
folosi n cazul datelor
categoriale sau n cazul
n care o categorie are o
frecven mult mai mare
n comparaie cu celelalte
categorii. De asemenea,
pentru date categoriale
(neparametrice la nivel
nominal de msurare),
putem folosi doar modul
ca indicator al tendinei
Figura 3.1 Baza de date populat cu date afiarea asocia-
centrale. Pentru date or- iilor sub form de coduri
dinale, unde putem sta-
bili ierarhii, putem folosi modul sau mediana, iar pentru date parametrice
(scalare) putem folosi modul, mediana sau media n funcie de tipul datelor.

91
Statistic aplicat n tiinele socio-umane

III.2.5 Obinerea indicatorilor tendinei centrale n SPSS


V mai amintii, cred, de baza de date creat n SPSS n capitolul unu
i pe care am numit-o IQ. Haidei s o deschidem. Dac nu reuii, revedei
primul capitol.
Acum vom introduce cteva date n SPSS. Trecem, deci, n modul
Data View prin apsarea tabulatorului din partea din stnga jos a progra-
mului SPSS.
Se afieaz o foaie de lucru, un tabel similar tabelului din Excel, n
care, pe prima coloan, cea de culoare gri (capul de tabel), ntlnim numele
variabilelor definite anterior.
Modul de lucru este analog celui din Excel. Se scriu pur i simplu da-
tele n celule. Atenie! Avem dou variabile pentru care am asociat valori:
variabila sexul i variabila scoala. Aici nu vom scrie cuvntul Mascu-
lin sau Feminin, ci vom tasta 1 pentru Masculin i 2 pentru Feminin.
La fel i n cazul variabilei scoala, vom tasta 1 pentru Primare, 2 pentru
Gimnaziu i aa mai departe.
Baza dumneavoastr de date trebuie s arate n final ca n figura de
mai sus. O mic precizare. Pe bara de instrumente, penultimul buton se nu-
mete Value Labels i arat ca n imaginea alturat. La o apsare a
acestuia, butonul se activeaz, iar
n baza de date se afieaz etiche-
tele asociaiilor fcute, ca n figu-
ra alturat. La o nou apsare,
etichetele asociaiilor nu se mai
afieaz, ci se afieaz valorile
asociaiilor ca n figura mare de Figura 3.2 Baza de date cu afiarea etichetelor
mai sus. asocierilor

92
Cristian Opariuc-Dan

Dup ce am introdus cele 30 de date, vom salva baza de date i vom


iniia procedura de extragere a indicatorilor tendinei centrale. Indicatorii
tendinei centrale ne sunt furnizai prin interme-
diul numeroaselor proceduri statistice. Cele mai
simple comenzi, pentru a nu complica inutil ex-
punerea, le gsim n meniul Analyze i apoi n
meniul Descriptive Statistics. n traducere,
Figura 3.3 Lansarea proce-
durilor de analiz descriptiv analize statistici descriptive. Primele trei co-
pe frecvene menzi din acest submeniu pot extrage indicatorii
tendinei centrale. Vom analiza doar prima comand, comanda
Frequencies, urmnd ca celelalte dou s le discutm cu alte ocazii,
deoarece presupun i alte informaii.
Comanda Frequencies sau
frecvene prezint cele trei puncte, fapt
care va duce la deschiderea unei noi case-
te de dialog. Dai clic pe aceast comand
i vei obine o caset ca cea din imaginea
de mai jos.
Figura 3.4 Caseta de analize descrip-
n partea stng se afl o list cu tive utilizndu-se frecvenele
toate variabilele din baza dumneavoastr
de date. Alturi de aceast list, se afl un buton de transfer (acel buton cu o
sgeat pe el). Urmeaz apoi lista Va-
riable(s), care nseamn variabilele pe
care le introducem spre analiz. Pentru
a introduce o variabil spre analiz,
trebuie s o selectm, printr-un clic
simplu pe numele acesteia, din lista de
variabile din partea stng. O variabil
Figura 3.5 Includerea variabilelor spre
analiz
selectat are fundalul albastru (sau o

93
Statistic aplicat n tiinele socio-umane

alt culoare n funcie de schema de culori a calculatorului dumneavoastr).


Dup ce o selectai, apsai butonul de transfer (care va avea sgeata orientat
spre lista Variable(s)) pentru a transfera variabila dumneavoastr n lista
variabilelor ce urmeaz a fi analizate. n figura din stnga, transferm variabi-
la Varsta subiectilor din lista variabilelor din baza de date n lista variabile-
lor supuse analizei. n final, va trebui s obinei o imagine ca cea de alturi.
Observai c dac am transferat variabila Varsta subiectilor n lista variabi-
lelor supuse analizei, butonul de transfer i-a schimbat sensul. Acum, dac
apsm pe el, scoatem variabila noastr din lista variabilelor supuse anali-
zei (dup ce, n prealabil, evident, o selectm) i o introducem n lista variabi-
lelor totale din baza de date. Oricum, acest buton de transfer ne va nsoi
permanent n analizele noastre, deoarece va trebui s spunem programului
ce variabile s analizeze i pe care s nu le analizeze.
Vom trece n revist acum toate comenzile din aceast fereastr, cu
precizarea c unele dintre ele vor fi abordate n detaliu n cadrul altor capito-
le.
Caseta de bifare Display frequency tables informeaz aplicaia
SPSS dac s afieze tabelul frecvenelor (n condiiile n care aceast caset
o bifai) sau s nu-l afieze (n condiiile n care nu o bifai). Tabelul frecven-
elor este acel tabel general, studiat la capitolul despre organizarea datelor,
nainte de a grupa valorile n clase. Iat c, acum, am ales ca acest tabel al
frecvenelor s fie afiat.
n partea dreapt a acestui formular, se afl un numr de cinci butoane
de acionare.
Butonul OK este butonul pe care vom apsa pentru a lansa
analiza, dup ce am configurat modul n care dorim ca analiza
s fie efectuat.

94
Cristian Opariuc-Dan

Butonul Paste este un buton pe care nu-l vom folosi deloc.


El permite lipirea codului care efectueaz analiza curent
ntr-o fereastr de sintax de comenzi. El se adreseaz utiliza-
torilor care doresc s fac programare n SPSS, utiliznd lim-
bajul propriu de programare al acestei aplicaii. ntr-o alt lu-
crare, vom aborda i aspecte legate de programarea n SPSS.
Butonul Reset permite reiniializarea ferestrei la starea ei
original. Cu alte cuvinte, toate variabilele din lista de analiz
sunt eliminate, toate configurrile de analiz pe care le-am f-
cut sunt iniializate la valoarea lor implicit. Este un buton pe
care-l vom folosi destul de frecvent.
Butonul Cancel este butonul prin care renunm la analiz
i nchidem aceast fereastr, fr a mai efectua nicio operai-
une.
Butonul Help este butonul cu ajutorul cruia obinem asis-
ten i informaii (n limba englez) referitoare la funciona-
rea acestei proceduri. Dac tii englez, nu ezitai s-l utili-
zai. SPSS are un tutorial excelent pe care l putei parcurge i
nelege cu succes.
n partea de jos a formularului,
se afl trei butoane care permit configu-
rarea statisticilor pe care le vom calcula.
Butonul Statistics este bu-
tonul pe care vom i apsa acum pentru
a calcula indicatorii tendinei centrale.
Dup cum i spune i numele, cu ajuto- Figura 3.6 Fereastra de alegere a
indicatorilor tendinei centrale
rul acestui buton, putem stabili ce statis-
tici descriptive vom analiza. Iat c cele

95
Statistic aplicat n tiinele socio-umane

trei puncte de suspensie deschid acum o nou fereastr. Fereastra are mult
mai multe opiuni. Pentru moment, ne vom rezuma la cele care ne interesea-
z. Observm c, n partea dreapt a acestei noi ferestre, gsim seciunea
Central Tendency, adic exact ceea ce urmrim s punem n eviden. n
aceast seciune, observm casetele de bifare Mean (media), Median
(mediana) i Mode (modul). Acestea sunt elementele pe care dorim s le
calculm. Vom bifa deci, una cte una, aceste casete, prin efectuarea unui clic
simplu pe ele, astfel nct formularul s arate ca n figura de mai sus. Mai
exist i caseta de bifare Sum (suma), prin bifarea creia obinem suma
valorilor din variabila respectiv. Variabila noastr este vrsta subiecilor i
nu ne intereseaz s nsumm vrstele celor 30 de subieci. Ar fi un indicator
fr nici o relevan pentru noi.
Dup ce am bifat cele trei casete, apsm butonul Continue (conti-
nuare), pentru a prsi aceast fereastr i a ne ntoarce n cea iniial. Acum
am comunicat programului SPSS ce indicatori statistici s extrag.
Butonul Chart i Format permite afiarea unor grafice,
respectiv configurarea modali-
tii n care vor fi afiate re-
zultatele. Despre aceste bu-
toane vom discuta cu alt oca-
zie.
Cam asta ar fi tot.
Practic, am spus programului
SPSS s calculeze media, me-
diana i modul pentru variabi-
la Varsta subiectilor cu afi-
area tabelului de frecvene.
Figura 3.7 Fereastra de afiare a rezultatelor
Nu ne rmne acum dect s
apsm butonul OK i s

96
Cristian Opariuc-Dan

vedem ce se ntmpl.
Iat c a aprut fereastra de rezultate sau fereastra Output. Nu vom
intra acum n detalii explicative ale acestei ferestre, pentru c s-ar putea s v
speriai de prea multe informaii i s trecei la Solitaire. Ne vom concentra
asupra celor dou tabele pe care le-a generat SPSS n partea din dreapta a
ferestrei de rezultate (partea cea mare), care nu reprezint altceva dect cele
dou tabele pe care le-am solicitat. Primul tabel conine indicatorii tendinei
centrale pe care i-am configurat n etapa anterioar.
Tabelul se numete Statistics i conine n partea de sus numele va-
riabilei, Varsta subiectilor, pentru a putea identifica variabila cu care ope-
rm. Apoi ne d numrul de cazuri, N, i ne spune c sunt 30 de date vali-
de (Valid) i zero date lips (Missing). Cu alte cuvinte, toi cei 30 de
subieci au nregistrat vrsta lor. Nu exist nici un subiect la care s fi uitat
s introducem aceast valoare. n continuare, ne spune c media de vrst
este 29,33 (Mean), mediana este 29 (Median), iar modul. avem o
problem. SPSS ne infor- Tabel 3.7 Indicatorii tendinei centrale
Statistics
meaz n josul tabelului c
sunt mai multe valori cu Varst a subiectilor
N Valid 30
frecvena cea mai mare i Missing 0
c o va afia pe cea mai Mean 29,33
Median 29,00
mic, 24 (Multiple mod-
Mode 24a
es exist. The smallest a. Mult iple modes exist. The smallest v alue is shown
value is shown). Acesta
este, deci, un singur mod real, cel inferior, i urmeaz s vedem care este i
cealalt valoare modal, deoarece avem o distribuie cu mai multe moduri
(multimodal).

97
Statistic aplicat n tiinele socio-umane

Urmtorul tabel este tabelul de frecvene. i aici se afieaz numele


Tabel 3.8 Distribuia statistic variabilei. Probabil c acest
Varsta subiectilor
tabel v pare extrem de cunos-
Cumulat iv e
Frequency Percent Valid Percent Percent cut. Desigur, nu avem diagra-
Valid 20 2 6,7 6,7 6,7
21 1 3,3 3,3 10,0 ma n linii, ns tabelul seam-
24 5 16,7 16,7 26,7
26 3 10,0 10,0 36,7 n frapant cu cel descris de noi
28 1 3,3 3,3 40,0
29 5 16,7 16,7 56,7
la capitolul despre sistematiza-
30
31
1
3
3,3
10,0
3,3
10,0
60,0
70,0
rea datelor. Astfel c acum
32
34
1
1
3,3
3,3
3,3
3,3
73,3
76,7
toate valorile sunt ordonate
35 2 6,7 6,7 83,3 cresctor i avem frecvena
37 2 6,7 6,7 90,0
38 2 6,7 6,7 96,7 absolut (Frequency) pen-
39 1 3,3 3,3 100,0
Total 30 100,0 100,0 tru fiecare valoare, frecvena
relativ (Percent) i frec-
vena relativ cumulat (Cumulative percent). Mai apare o coloan, frec-
vena relativ valid (Valid percent), care este identic cu frecvena rela-
tiv, deoarece nu exist valori lips n irul nostru de date. Iat c acum pu-
tem s gsim i cellalt mod. tim c primul mod este 24, iar acesta este mo-
dulul inferior. Ne uitm n tabelul de frecvene i vedem c valoarea 24 are
frecvena 5. Cutm acum o valoare mai mare de 24 cu aceeai frecven i
observm c este 29. Prin urmare, cele dou valori modale sunt 25 i 29.
Aceasta este metoda cea mai simpl i cea mai complet de extragere
a indicatorilor tendinei centrale. nchidem acum fereastra de rezultate, prin
efectuarea unui clic pe butonul X din colul din dreapta sus al acesteia.

n concluzie:
Populaia reprezint totalitatea unor elemente dintr-un anumit spaiu la un anumit
moment dat;
n mod curent, nu putem studia populaia i de aceea lucrm cu eantioane extrase
din populaie, care s fie reprezentative, adic s respecte caracteristicile populai-
ei pe anumite criterii;
Cele mai utilizate metode de eantionare sunt:
o Eantionarea simplu randomizat;

98
Cristian Opariuc-Dan

o Eantionarea pe cote;
o Eantionarea pe straturi;
o Eantionarea pe clusteri.
Indicatorii tendinei centrale sunt media, mediana i modul;
Media este cel mai precis indicator, urmat fiind de median i de mod;
Pentru date categoriale, singurul indicator ce poate fi utilizat este modul;
Pentru date ordinale, se poate utiliza modul sau mediana;
Pentru date parametrice se folosete modul, mediana sau media;
Media nu se folosete atunci cnd avem scoruri extreme, foarte mici sau foarte mari
n distribuia noastr;
Modul se folosete la date parametrice atunci cnd frecvena unei valori este foarte
mare n comparaie cu frecvena celorlalte valori;
Media nu poate fi folosit la date neparametrice.

99
Statistic aplicat n tiinele socio-umane

IV. MEDIA POPULAIEI. REPREZENTRI GRAFICE ALE


TENDINEI CENTR ALE
n acest capitol se va discuta despre:
Teorema limitei centrale;
Reprezentri grafice ale datelor;
Interpretri ale reprezentrilor grafice de date;
Dup parcurgerea capitolului, cursanii vor fi capabili s:
neleag termenul de medie a eantioanelor;
Reprezinte grafic datele utiliznd SPSS;
Interpreteze semnificaia reprezentrilor grafice.

Atunci cnd lucrm cu un eantion, deci cu un numr relativ redus de


subieci, calculul mediei nu este o operaiune att de dificil. Indiferent dac
folosim formula de definiie a mediei sau o alt modalitate de calcul, n final,
vom reui obinerea acestui indicator al tendinei centrale. Ce ne facem ns
atunci cnd avem de stabilit un asemenea indicator la nivelul populaiei? Da-
c ne propunem s aflm media nlimii populaiei din Romnia, cum am
putea, oare, proceda? Teoretic ar trebui s msurm nlimea fiecrui om din
Romnia i apoi s mprim suma acestor nlimi la populaia total a rii.
Practic, acest lucru este imposibil. Avem oare vreo variant prin care s pu-
tem afla totui acest indicator? Vei afirma c putem extrage un eantion din
populaie i avei dreptate. Vom extrage un eantion, ns exist posibilitatea
s selectm n acest eantion oameni mai curnd nali. Dac, de exemplu,
obinem o medie a nlimii persoanelor din eantion de 178 centimetri, pu-
tem afirma c aceasta este media populaiei din Romnia? Nu cred c putem
face aceast supoziie. Putem ns s mai extragem un eantion i obinem o
medie a nlimii populaiei de 165 centimetri. Aceast nou valoare este evi-
dent diferit de prima evaluare i putem suspecta c am ales n eantion per-
soane mai curnd scunde. Prin urmare, care dintre cele dou medii se apropie
mai mult de media nlimii populaiei din Romnia? Rspunsul este acela c

100
Cristian Opariuc-Dan

niciuna. Vom putea ns face media acestor dou eantioane. Adunm 178 cu
165 i mprim la doi. Obinem 171,5 centimetri, un indicator mai precis
pentru media populaiei. Iat c media eantioanelor este un indicator care
aproximeaz mai bine media unei populaii. Cu ct avem mai multe eantioa-
ne, cu att putem stabili mai precis media populaiei. Aceast caracteristic a
mediei eantioanelor de a tinde ctre media populaiei poart n statistic nu-
mele de teorema limitei centrale. Asupra acestui aspect vom reveni i
vom avea ocazia s-l tratm amnunit ntr-un alt capitol.

IV.1 Reprezentri grafice


Am studiat n primul capitol o serie de repre-
zentri grafice uzuale. Vom vedea cum putem repre-
zenta grafic datele folosind SPSS i ce semnificaie
au aceste reprezentri. Aadar, vom deschide baza de
date creat anterior, baza de date IQ, i ne propunem
s reprezentm datele noastre printr-un grafic cu ba-
re.
Figura 4.1 Meniul
pentru graficul cu bare Vom folosi pentru
aceasta meniul Graphs i
apoi opiunea Bar n general, n meniul
Graphs gsim toate posibilitile de reprezentare
grafic a datelor pe care SPSS le pune la dispoziie8.
n momentul n care am accesat opiunea
Bar... apare o nou fereastr, n care va trebui s
alegem tipul de grafic cu bare pe care dorim s-l re-
prezentm. Avem la dispoziie trei variante: Sim- Figura 4.2 Alegerea
ple (simplu), Clustered (pe clusteri) i tipului de grafic cu bare

8
n SPSS versiunea 15, modalitatea de construcie a graficelor difer radical, fiind mult mai
simpl i mai inteligent. Vom aborda aspectele grafice ale aplicaiei SPSS 15, la sfritul
acestui volum i n volumele viitoare

101
Statistic aplicat n tiinele socio-umane

Stacked (aditiv). Graficul simplu ne permite reprezentarea cu bare doar a


variabilei noastre (n cazul nostru vom folosi reprezentarea cu bare a coefici-
entului de inteligen, iq). Graficul pe clusteri l folosim dac dorim s in-
cludem o variabil categorial (de exemplu, dac dorim s prezentm compa-
rativ coeficientul de inteligen al brbailor i al femeilor), iar graficul aditiv
prezint valorile una deasupra alteia i se folosete atunci cnd urmrim s
vedem cu ct crete o variabil n timp sau care este rezultatul cumulrii mai
multor variabile. n cazul nostru, vom folosi graficul cu bare simplu. Aadar
vom efectua clic pe imaginea graficului Simple pentru a-l selecta.
Exist, dup cum putei observa, un numr de trei opiuni pe care le
vei folosi: prima opiune, Summaries for group of cases arat c SPSS
va parcurge categoriile unei singure variabile i va afia, pentru fiecare bar,
categoria corespunztoare. A doua opiune, Summaries of separate va-
riables arat c dou sau mai multe variabile vor fi parcurse, iar barele vor
indica fiecare dintre variabile. n sfrit, opiunea Values of individual cas-
es ne spune c SPSS va lucra cu o singur variabil, iar barele vor reprezen-
ta valorile sale. Aceasta este, de fapt, i opiunea care ne intereseaz pe noi.
Alegem, deci, aceast opiune, dup care apsm butonul Define pentru a
defini variabilele ce vor fi reprezentate.
Apare o nou fereastr cu mai
multe elemente. Recunoatem, n par-
tea stng, lista variabilelor din baza
noastr de date. n partea dreapt, pri-
mul element l reprezint caseta Bars
Represent care se refer la ceea ce
vor reprezenta barele noastre. Variabi-
la pe care dorim s o reprezentm este
Coeficient de inteligen. O vom
selecta i apoi vom apsa butonul de Figura 4.3 Opiunile de reprezentare ale
graficului simplu cu bare

102
Cristian Opariuc-Dan

transfer pentru a o include n caseta Bars Represent ca n figura de mai jos.


Pentru moment, att avem de fcut n vederea trasrii graficului cu bare.
Exist i alte opiuni pe care le putem folosi. Seciunea Category Labels
ne permite s alegem dac pe axa
categoriilor (axa O X) va fi afiat
numrul fiecrui caz (opiunea
Case number) sau valorile unei
alte variabile categoriale pe care le
vom specifica (opiunea
Variable:). Seciunea Panel
by permite gruparea barelor n
funcie de o alt variabil categori-
al. Gruparea poate fi efectuat fie
pe linii, fie pe coloane, cazuri n
Figura 4.4 Reprezentarea prin grafic cu bare
a QI pe nivele se colarizare i n funcie de sex care va trebui s specificm i vari-
abilele categoriale n funcie de
care se va face gruparea, introducndu-le n listele Rows: sau
Columns:. Dac avem vreun ablon de grafic preferat, descrcat de pe
Internet sau construit de noi, l putem folosi pentru a desena graficul nostru,
bifnd caseta Use chart specification from: i apoi apsnd butonul Fi-
le care se activeaz i ne invit s
ncrcm acel fiier. Putem, de aseme- 125

nea, da un titlu graficului nostru ap- 120


Value Coeficient de inteligenta

snd butonul Titles. Utilizarea 115

acestui buton v-o lsm dumneavoas-


tr ca exerciiu. Dup ce am terminat
110

de stabilit variabila pentru care dorim 105

s trasm graficul, apsm butonul 100

OK, care devine activ. SPSS va


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Case Number

genera graficul n fereastra de rezultate Figura 4.5 Graficul cu bare simplu al


coeficientului de inteligen

103
Statistic aplicat n tiinele socio-umane

(Output), rezultnd un desen ca n figura de mai sus. Iat, aadar, reprezenta-


rea cu bare care ne intereseaz.
Pentru a exemplifica i ce- 125

lelalte faciliti ale acestei repre-


120

Feminin
115

zentri grafice, v prezentm, n

Value Coeficient de inteligenta


110

Sexul subiectilor
figura alturat, un grafic cu bare, 105

100

n care am folosit ca variabil eti- 125

chet Nivelul de colarizare, iar


120

Masculin
115

graficul este mprit pe linii dup 110

variabila Sexul subiecilor. Lan-


105

100

snd procedura de desenare prin


Li Li Li Gi Li Li Po Po Fa Fa Fa Fa Fa Pr Pr Gi Li Li Li Li Po Po Po Po Li Li Li Po Fa Fa
ce ce ce m ce ce stl stl cu cu cu cu cu im im m ce ce ce ce stl stl stl stl ce ce ce stl cu cu
u u u na u u ic ic lta lta lta lta lta ar ar na u u u u ic ic ic ic u u u ic lta lta
zi ea ea te te te te te e e zi ea ea ea ea ea te te
u la la u la la la la la

apsarea butonului OK, obinem Nivelul de scolarizare

urmtorul grafic cu bare: Figura 4.6 - Reprezentarea prin grafic cu bare


a QI pe nivele se colarizare i n funcie de sex
Observm dou grafice, n
cel de jos fiind reprezentat coeficientul de inteligen al brbailor, iar n gra-
ficul de sus cel al femeilor. Dac privim cu atenie pe axa O X, observm c,
pentru fiecare bar, este indicat i nivelul de colarizare al subiectului respec-
tiv. Dup ce vei stpni la un nivel suficient de ridicat lucrul n SPSS, vei
putea face combinaii ntre variabile pentru a realiza grafice intuitive cu care
s v susinei demonstraiile statistice.

Exerciiu:
Reprezentai, folosind un grafic cu bare, valorile variabilei Varsta
subiectilor.
n primul capitol discutam, de asemenea, despre poligonul frecvene-
lor absolute (al valorilor individuale), al frecvenelor relative i al frecvene-
lor cumulate absolute sau relative. Folosind SPSS, vom putea desena poligo-
nul valorilor individuale prin folosirea unui grafic cu linii. Pentru aceasta,
vom accesa, tot meniul Graphs i apoi, submeniul Line. La fel ca n

104
Cristian Opariuc-Dan

graficul cu bare, se afieaz o nou fereastr care ne invit s alegem tipul


graficului pe care-l dorim. Avem de ales ntre un grafic simplu (Simple),
care ne intereseaz i pe noi, un grafic cu linii multiple (Multiple), ce
permite trasarea a dou sau mai multe variabile pe ace-
lai grafic i un grafic de tip pivot (Drop-line), cu
ajutorul cruia putem reprezenta dou sau mai multe
categorii de date. Pentru exemplul nostru, vom alege
graficul de tip simplu. La fel ca n cazul graficului cu
bare, i aici avem cele trei opiuni cu exact aceeai
semnificaie. Vom alege, ca i n exemplul anterior,
opiunea Values of individual cases, deoarece dorim
Figura 4.7 Meniul
pentru graficul cu linii s reprezentm un poligon al
frecvenelor individuale. Pentru
a putea lansa procedeul de definire a graficului, putem
apsa butonul Define.
Observm apariia unei ferestre identice cu fe-
reastra pe care am ntlnit-o la graficul cu bare i care
are exact aceeai funcionalitate. Nu vom intra din
nou n detalii
Figura 4.8 Selecta-
asupra elemen- rea tipului de grafic cu
linii
telor pe care le
gsim aici, deoarece ele au fost discu-
tate la graficul cu bare. Vom transfera
doar variabila Coeficient de inteli-
gen, din lista variabilelor n lista
Line Represents, pentru a indica
programului SPSS variabila pe care
urmeaz s o reprezinte prin linii. De
Figura 4.9 Definirea graficului simplu cu fapt, aceasta este singura diferen
linii
ntre cele dou ferestre. n fereastra

105
Statistic aplicat n tiinele socio-umane

anterioar, acest element se numea Bar 125

Represent, deoarece era vorba de un 120

Value Coeficient de inteligenta


grafic cu bare, iar aici se numete Line
115

Represents, deoarece suntem n faa


unui grafic cu linii. Nu ne rmne acum 110

dect s apsm butonul OK care 105

vedem c s-a activat, pentru a lansa pro- 100

cedura de desenare a graficului. Iat, n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Case Number

fereastra de rezultate, apare dup cteva Figura 4.10 Poligonul frecvene-


momente i poligonul frecvenelor lor absolute pentru coeficientul de
inteligen
individuale pe
care l-am solicitat.
Cum am putea totui s reprezentm grafic
poligonul frecvenelor absolute cumulate? Ne
amintim, din capitolul despre organizarea datelor,
c frecvenele cumulate se calculeaz prin aduga-
rea frecvenei unei valori la frecvena cumulat a
valorii anterioare, irul valorilor fiind un ir ordo-
nat. La fel, am vzut c la desenarea unui grafic cu
Figura 4.11 Configurarea linii (sau cu bare) n SPSS, avem la dispoziie mai
graficului pentru
frecvenele cumulate
multe opiuni, iar
noi nu am folosit
dect opiunea Values of individual cases.
De data aceasta, vom merge tot n meniul
Graphs, opiunea Line.. . Nu vom mai
alege acum Values of individual cases, ci
Summaries for groups of cases, adic i
vom comunica programului s cumuleze ntr-
un fel valorile unei variabile. Rmnem tot la
graficul simplu, deoarece ne intereseaz s Figura 4.12 Stabilirea parametri-
lor de configurare a frecvenelor
cumulate

106
Cristian Opariuc-Dan

reprezentm o singur linie i nu un grup de linii sau categorii de linii. Lan-


sm apoi procedura de definire a graficului, prin apsarea butonului
Define.
n momentul n care am schimbat opiunea cu care vom defini datele
n zona grafic, evident, va aprea o alt fereastr de definiie a datelor, ca n
figura alturat.
Exist multe elemente comune cu fereastra anterioar, ns i seciuni
specifice pe care vom ncerca s le descriem pe scurt. Cea mai important
seciune este Line Represents, n care nu mai introducem pur i simplu
variabila, ci definim modul n care vor fi cumulate datele. Putem opta pentru
N of cases, prin care SPSS va numra apariiile fiecrei valori n irul de
date, obinnd un poligon al frecvenelor absolute pe date grupate, Cum.
N, adic apariiile fiecrei valori n irul de date (frecvenele), dar prezentate
cumulat i exprimarea procentual a acestora (sau frecvenele relative i rela-
tive cumulate) % of cases i Cum. %. Exist i posibilitatea s repre-
zentm grafic anumite statistici, folosind opiunea Other statistics, situaie
n care va trebui s includem varia- 30

bila pentru care vom extrage anumii


indicatori statistici i, de asemenea,
25
Cumulative Frequency

s precizm ce indicatori se vor fo- 20

losi prin activarea butonului 15

Change Statistic. Nu intrm 10

acum n detalii legate de aceast 5

opiune. n cazul nostru, am ales 0

opiunea Cum. N, deoarece dorim 100 101 103 104 105 107 108 109 110 111 120 121 124

Coeficient de inteligenta
s reprezentm frecvenele cumulate
Figura 4.13 Poligonul frecvenelor
absolute. Avem de stabilit i variabi- cumulate
la pentru care vom desena poligonul
frecvenelor cumulate absolute, pe care trebuie s o introducem n cmpul
Category Axis:, folosind butonul de transfer din faa acestui cmp. Acum,

107
Statistic aplicat n tiinele socio-umane

nu mai trebuie dect s apsm butonul OK i obinem, iat, poligonul


frecvenelor absolute cumulate aa cum ne-am dorit. Folosind celelalte trei
opiuni, pot fi desenate poligoanele frecvenelor absolute i ale frecvenelor
relative i relative cumulate, activiti pe care vi le lsm ca exerciiu.
Reprezentarea procentual a unor variabile
categoriale, cum ar fi genul biologic sau nivelul
de colarizare, se poate face, cel mai bine, folosind
un grafic de tip plcint (pie), numit i diagram
de structur. Cu ajutorul programului SPSS, vom
ncerca s desenm graficul de tip plcint pentru
variabila nivel de colarizare. Pentru a reui acest
lucru, vom apela tot
Figura 4.14 Meniul
pentru diagramele de la meniul Graphs
structur i vom alege apoi
submeniul Pie....
De aceast dat, nu mai avem ce tip de
grafic plcint s selectm, iar urmtoarea Figura 4.15 Alegerea tipului de
grafic
fereastr prezint doar cele trei opiuni pe care
le-am discutat. Vom selecta acum prima
opiune, Summaries for groups of
cases, deoarece ne intereseaz s re-
prezentm grafic frecvenele cu care
apar subiecii cu studii primare, cei cu
gimnaziu, cu liceu etc. i, n plus, aceas-
t reprezentare s aib un caracter pro-
centual. Deci, alegnd aceast opiune,
SPSS va aduna cazurile care au o ace-
eai valoare.

Figura 4.16 Configurarea reprezentrii


prin diagram de structur

108
Cristian Opariuc-Dan

Pentru a defini graficul, procedm ca i n exemplul anterior, apsnd


butonul Define. Se va deschide fereastra de definire a graficului, o fereas-
tr pe care o cunoatem deja de la reprezentarea poligonului frecvenelor cu-
mulate. Singura deosebire const n seciunea Slices Represents sau, tra-
dus, ce reprezint feliile plcintei. Evident, n aceast seciune am selectat
opiunea % of cases, adic am comunicat programului SPSS s-mi repre-
zinte grafic procentul n care se gsete fiecare nivel al acestei variabile n
eantionul total.
Desigur, trebuie s precizm i variabila pentru care vor fi reprezenta-
te grafic procentele. Acest lucru l putem face prin transferarea variabilei
Nivelul de colarizare din lista variabilelor din baza de date n caseta De-
fine Slices by: Selectai, aadar, vari- Nivelul de scolarizare
Primare

abila n lista variabilelor din baza de Gimnaziu


Liceu
Postliceala

date i apsai butonul de transfer din Facultate

faa acestui element pentru a obine o


imagine ca n figura alturat. n acest
moment, se activeaz i butonul OK
pe care va trebui s apsm pentru a
lansa n execuie procedura de desena-
re a graficului. Dup cteva momente,
obinem n fereastra de rezultate urm- Figura 4.17 Diagrama de structur pentru
nivelul de studii
torul grafic plcint:
Observm c acest grafic prezint i o legend prin care suntem in-
formai asupra categoriilor variabilei analizate. Putem cu uurin constata c
majoritatea subiecilor sunt absolveni de liceu, apoi, n proporii relativ ega-
le, absolveni de postliceal i facultate. Cei mai puini sunt cei cu studii pri-
mare i gimnaziale.
Iat, aadar, cteva metode extrem de simple prin care putem desena
grafice intuitive utiliznd aplicaia SPSS. Toate aceste statistici pe care le-am

109
Statistic aplicat n tiinele socio-umane

prezentat i pe care le vom mai prezenta fac parte din analiza de date explo-
ratorie, deoarece scopul acesteia este acela de a explora, de a cunoate struc-
tura datelor analizate.
V mai amintii, desigur,
fereastra studiat n capitolul ante-
rior, prin care am calculat indica-
torii tendinei centrale. Iat-o, v-o
reamintesc, iar dumneavoastr va
trebui s gsii comenzile prin
care s ajungei la ea, deoarece
reprezentarea grafic a datelor se
Figura 4.18 Selectarea variabilei ce ur-
meaz s fie reprezentat
poate face i n acest mod. S in-
troducem, la fel ca n capitolul
anterior, variabila Coeficient de inteligen, pentru a extrage indicatorii
tendinei centrale. Sper c v amintii cum se face. Dac nu, v dau un indi-
ciu: folosii butonul Statistics. Iat c, lng acest buton, se afl un alt
buton, butonul Charts pe care vom
apsa. Se deschide o nou fereastr, n
care putem stabili ce grafic s desenm
pentru variabila introdus n analiz.
Opiunea None nu deseneaz niciun
fel de grafic i ignor setrile grafice.
Opiunea Bar charts deseneaz un
grafic cu bare, opiunea Pie charts
deseneaz grafice plcint i, iat, opiu-
nea Histograms: ne permite desena-
rea unei histograme. Aceast opiune o Figura 4.19 Modul de reprezentare
grafic din analiza frecvenelor
ntlnim aici, alturi de caseta de bifare
With normal curve ce permite dese-
narea curbei normale care caracterizeaz datele din variabila noastr. Nu vom

110
Cristian Opariuc-Dan

bifa acum aceast caset, deoarece despre curba normal vom discuta ntr-un
alt capitol. Ne rezumm s alegem doar graficul sub form de histogram.
Anumite grafice pot fi reprezentate sub form de frecvene absolute
(opiunea Frequencies) sau sub form de frecvene relative (opiunea
Percentages), prin selectarea uneia dintre cele dou opiuni din seciunea
Chart Values. Folosind
Histogram aceast fereastr, avem de
configurat mult mai puine
5

elemente. Deoarece am in-


4
trodus anterior variabila pe
care dorim s o analizm,
Frequency

SPSS va lua singur decizia


2
modului n care va desena
1
graficul. Apsm butonul
Continue pentru a con-
Mean =111,33
Std. Dev. =8,511

firma aciunea noastr i


0 N =30
100 105 110 115 120 125

Coeficient de inteligenta
apoi butonul OK pentru a
Figura 4.20 Histograma pentru coeficientul lansa analiza.
de inteligen
Dup cteva momen-
te, SPSS va extrage indicatorii tendinei centrale sub forma celor dou tabele
discutate n capitolul anterior, ns ne va oferi i histograma variabilei Coe-
ficient de inteligen, alturi de o serie de date din inventarul statistic de
baz, pe care le vom discuta ntr-un alt capitol.

IV.2 Analiza grafic a tendinei centrale


Afirmam n capitolul dedicat indicatorilor tendinei centrale c media
este cel mai fin, cel mai precis indicator, ns ea are o problem este sen-
sibil la scoruri extreme i, n acest caz, nu mai aproximeaz bine tendina
central a setului de date. Totui, cum ne dm seama de existena acestor sco-
ruri extreme? Tot analiza exploratorie ne vine n ajutor. Utiliznd reprezent-

111
Statistic aplicat n tiinele socio-umane

rile de date de mai sus, ne putem face o imagine intuitiv asupra acestor sco-
ruri extreme. Exist oare o metod mai precis de a le depista? Rspunsul
este pozitiv i vom prezenta n continuare dou tipuri de grafice deosebite,
dar care pot caracteriza mai precis scorurile extreme.

IV.2.1 Graficul tulpin i frunze


A fost conceput de ctre Tuckey (1977) i se aseamn foarte mult cu
histogramele de frecvene, ns, spre deosebire de acestea, afieaz i scoruri-
le individuale. Un asemenea grafic se deseneaz mai uor manual dect com-
puterizat i ofer o imagine precis a distribuiei, deoarece alturi de repre-
zentarea numeric ofer i o imagine vizual a datelor analizate (Dancey, i
alii, 2002).
Dac avem, de exemplu, urmtorul ir ordonat de date: 2, 12, 12, 19,
19, 20, 20, 20, 25 i dorim s construim un grafic tulpin i frunze, acesta
va arta dup cum urmeaz:
Tulpina Frunzele
0 2
1 2299
2 0005

Oare ce informaii noi ne aduce acest grafic i cum se interpreteaz?


Destul de simplu. Tulpina reprezint valorile zecilor, iar frunzele valo-
rile unitilor. Deci, tulpina 0 cuprinde scorurile de la 0 la 9, tulpina 1-
scorurile de la 10 la 19, tulpina 2 - scorurile de la 20 la 29 i aa mai departe.
Frunzele reprezint frecvenele scorului observat. Astfel, la tulpina 0 (scoruri
ntre 0 i 9) avem o singur apariie a lui 2. La tulpina 1 (scoruri ntre 10 i
19) avem frunza 2 de dou ori (adic dou apariii ale lui 12) i frunza 9 de
dou ori (dou apariii ale lui 19). La tulpina 2 (scoruri ntre 20 i 29) avem
frunza 0 cu trei apariii (trei scoruri de 20) i frunza 5 cu o singur apariie
(un singur scor de 25). Simplu, nu? Iat c, dei seamn cu o histogram,
acest grafic aduce n plus posibilitatea monitorizrii scorurilor individuale.

112
Cristian Opariuc-Dan

Pentru a nelege mai bine, s considerm un set mai voluminos de date: 1, 1,


2 ,2 ,2 , 5, 5, 5, 12, 12, 12, 12, 14, 14, 14, 14, 15, 15, 15, 18, 18, 24, 24, 24,
24, 24, 24, 25, 25, 25, 25, 25, 25, 25, 28, 28, 28, 28, 28, 28, 28, 32, 32, 33,
33, 33, 33, 34, 34, 34, 34, 34, 35, 35, 35, 35, 35, 42, 42, 42, 43, 43, 44. Pentru
acest set de date, avem urmtorul grafic tulpin i frunze:
0 11222555
1 2222444455588
2 44444455555558888888
3 22333344444455555
4 222334
Prin aceast reprezentare avem o metod mai concis i mai sintetic
de explorare a unui volum mare de date. Putem observa c scorurile de la
tulpina 2 (ntre 20 i 29) sunt cele mai frecvente, iar datele sunt relativ grupa-
te, fr scoruri extreme. n acest caz, am putea decide utilizarea mediei ca
indicator al tendinei centrale. Comparativ, s considerm un ir de date cu
scoruri extreme i s l reprezentm sub forma acestui grafic.
0, 0, 0, 0, 0, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5,
5, 5, 5, 5, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 9, 9, 9, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10, 10, 10, 13,
13, 13, 13, 13, 18, 18, 18, 23, 64

Graficul pentru acest ir de date ar fi:


0 0000022222222333333333555555555555555777777777777799999999
1 000000033333888
2 3
6 4

Observm c graficul ne indic faptul c majoritatea scorurilor se si-


tueaz sub 20, ns avem i un scor extrem, scorul 64. Iat deci o situaie tipi-
c, n care mediana va fi cel mai bun indicator al tendinei centrale. Totui,
acest grafic efectuat pe blocuri de 10 valori nu este foarte informativ. Nu
avem o reprezentare foarte clar a scorurilor sub 20, deoarece exist foarte
multe. Prin urmare ar fi mai comod pentru noi s reprezentm grafic aceste
scoruri folosind nu blocuri de 10, ci blocuri de cinci (ntre 0 i 4, apoi ntre 5

113
Statistic aplicat n tiinele socio-umane

i 9, ntre 10 i 14 i aa mai departe). Folosind un asemenea sistem, graficul


devine:
0. 0000022222222333333333
0* 555555555555555777777777777799999999
1. 000000033333
1* 888
2. 3
6. 4

Observm c am folosit punctul (.) pentru a desemna prima jumtate a


blocului (0-4) i stelua (*) pentru a desemna a doua jumtate a blocului (5-
9). De data aceasta, lucrurile au devenit ceva mai clare. Exist acelai scor
extrem, 64, ns acum putem afirma precis c cei mai muli subieci au obi-
nut rezultate ntre 5 i 9, ceea ce reprezint un plus de informaie. Rolul aces-
tei reprezentri este mai ales acela de a identifica existena scorurilor extreme
ntr-un set de date n vederea stabilirii indicatorului tendinei centrale ce va fi
folosit.
Discutam, pe la nceputul lucrrii noastre, despre situaia n care or-
donm toate valorile posibile i apoi stabilim frecvenele absolute prin num-
rarea apariiilor fiecrui scor individual. La fel, am abordat i problema orga-
nizrii datelor n clase. Am vzut atunci c un numr mare de clase reprezint
o abordare analitic, accentul cznd mai mult pe valori individuale i se
pierde tendina de ansamblu. Analog, un numr mic de clase determin o
perspectiv sintetic, unde vedem clar tendina de ansamblu, ns de pierde
viziunea individual. Unul dintre avantajele incontestabile ale acestui grafic
este acela c permite o viziune de ansamblu fr, ns, a se pierde repartiia
scorurilor individuale n distribuie.
Prin intermediul acestui tip de grafic, se pot reprezenta, comparativ,
dou distribuii, n situaia n care dorim, spre exemplu, s comparm rezulta-
tele la dou probe psihologice. Utiliznd cele dou seturi de date de mai sus,
am putea s le reprezentm grafic dup cum urmeaz:

114
Cristian Opariuc-Dan

Test 1 Test 2
9999999977777777777775555555555555553333333332222222200000 0 11222555
888333330000000 1 2222444455588
3 2 44444455555558888888
3 22333344444455555
4 222334
5
4 6
Datorit uurinei n realizare i a avantajelor pe care le ofer, acest
tip de grafic se utilizeaz tot mai frecvent n tiinele socio-umane.

IV.2.2 Graficul cutie (box-plot)


Dei graficul anterior sesizeaz scorurile extreme suficient de bine,
uneori devine destul de puin sensibil, iar scorurile extreme sunt greu de ob-
servat. O metod mai precis o reprezint graficul cutie sau graficul cutiei
cu musti. Aceast tehnic, la fel ca tehnica anterioar, a fost descoperit de
ctre Turkey (1977) i reprezint una dintre cele mai importante metode de
analiz exploratorie a datelor. La fel ca graficul tulpin i frunze, graficul
cutie descrie modul n care sunt distribuite datele i ofer, n plus, o metod
precis de depistare a scorurilor extreme (Dancey, i alii, 2002).
Acest tip de reprezentare este format dintr-un dreptunghi cu baza in-
ferioar situat n dreptul percentilei 25, iar baza superioar n dreptul
percentilei 75, cuprinznd ntre aceste limite, 50% dintre rezultate (n fapt,
intervalul cuartil despre care vom vorbi n capitolul urmtor). n interiorul
acestui dreptunghi se afl marcat linia median, corespunztoare percentilei
50. Distana dintre cele dou baze (intervalul cuartil) poart numele de h-
spread sau pe scurt H. De la cele dou baze pornesc, n sus i n jos, dou
musti de lungime maxim 1,5 H. ntre limitele acestor dou musti se
afl zona normal. Orice scor mai mare de limita mustii superioare sau
mai mic de limita mustii inferioare se consider a fi un scor extrem.
Pentru realizarea acestui grafic, vom parcurge urmtorii pai, conside-
rnd irul ordonat de date 2, 12, 12, 19, 19, 20, 20, 20, 25.

115
Statistic aplicat n tiinele socio-umane

Pasul 1 Stabilirea medianei i a poziiei pe care aceasta o ocup n


cadrul irului de date. n cazul nostru, mediana este 19, iar poziia pe care o
ocup este poziia a cincea.
2, 12, 12, 19, 19, 20, 20, 20, 25
Pasul 2 Calculul pivoilor. Pivoii reprezint valorile care mpart
irul de date n sfertul inferior (primele 25% dintre scoruri, numit i cuartilul
inferior) i sfertul superior (ultimele 25% dintre scoruri, numit i cuartilul
superior). Dac mediana este valoarea care mparte irul ordonat de date n
dou pri egale, cuartilul este valoarea ce mparte acelai ir n 4 pri egale,
dup cum vom vedea n capitolul ce urmeaz. Reconsidernd exemplul, obi-
nem poziia primului cuartil ntre a doua i a treia valoare, adic primul
cuartil va avea valoarea 12 (amintii-v exemplul de calcul al medianei). Si-
milar, al treilea cuartil va fi situat ntre poziia 7 i poziia 8 i va avea valoa-
rea 20.
2, 12, 12, 19, 19, 20, 20, 20, 25
Pivoii, n cazul exemplului de fa, vor avea valorile 12 i 20. Putem
acum trasa dreptunghiul care ne intereseaz (box).
Pasul 3 Obinerea valorii
Pivot superior
valoarea 20 expansiunii (factorul h-spread).
Acest factor nu reprezint dect
Linia medianei Pivot inferior
valoarea 19 valoarea 12 amplitudinea scorurilor dintre cei
doi pivoi (intervalul cuartil). n
cazul nostru, h-spread = 20 12 =
Figura 4.21 Calculul pivoilor
8.
Pasul 4 Stabilirea scoruri-
lor extreme. Un scor extrem este un scor care depete o dat i jumtate
valoarea factorului h-spread raportat la cei doi pivoi. Aceste puncte de refe-
rin se numesc limite de barier. n cazul nostru, 1,5 x 8 = 12. Deci limitele

116
Cristian Opariuc-Dan

de barier sunt 12 12 = 0 i 20 + 12 = 32. Scorurile mai mici de 0 vor fi


considerate extreme, deoarece depesc limita de barier inferioar n jos, iar
scorurile mai mari de 32 vor fi considerate de asemenea extreme, deoarece
depesc n sus limita de barier superioar.
Pasul 5 Scorurile care se afl ntre pivoi i limitele de barier, mai
apropiate de limitele de barier se numesc scoruri adiacente. n cazul nostru,
scorurile adiacente sunt 2 i 25, deoarece 2 se afl ntre 0 i 12, iar 25 este
situat ntre 20 i 32.
2, 12, 12, 19, 19, 20, 20, 20, 25
Liniile cuprinse ntre pi-
voi i bariere (zonele scorurilor
adiacente) poart numele de
musti, iar dreptunghiul for-
mat de cei doi pivoi, care coni-
ne mediana, se numete cutie.
De aici provine i numele grafi-
cului, grafic cutie sau cutie cu
musti. Zona mustilor re-
prezint de fapt amplitudinea
scorurilor care prsesc zona
aa- numit normal, delimitat
de cei doi pivoi, scoruri care
ns rmn n limitele barierelor.
Orice scor care iese din limita
barierelor se numete scor ex-
trem.
Figura 4.22 Graficul box-plot
Dac reconsiderm irul
anterior de date, 0, 0, 0, 0, 0, 2,

117
Statistic aplicat n tiinele socio-umane

2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5,
5, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 9, 9, 9, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10, 10,
10, 13, 13, 13, 13, 13, 18, 18, 18, 23, 64, atunci graficul nostru se va prezenta
ca n figura de mai jos.

70,00
Iat c observm existena a
dou scoruri extreme ns. acestea
77

60,00

sunt notate cu 77 i 76. Am fi ncli-


50,00

nai s credem c aceste valori re-


prezint scorurile nsei. Totui, s
40,00

30,00

76
nu uitm c acest grafic se bazeaz
20,00
pe poziia unui scor n irul ordonat
10,00 de date. Prin urmare, 77 i 76 nu
0,00 reprezint scorurile propriu- zise, ci
Exemplu poziia acestora n irul ordonat de
Figura 4.23 Graficul box-plot n SPSS. Se obser- date. Deci poziia 77 se refer la
v scorul extrem, al 77-lea element ultimul scor, adic la valoarea 64,
iar poziia 76 la penultimul scor,
adic la valoarea 23. Avem, aadar, dou scoruri extreme n irul nostru de
date i anume scorul 23 i 64. Desigur, n acest caz, indicatorul care exprim
cel mai bine tendina central este mediana. Programul SPSS ofer i o mo-
dalitate de a marca scorurile extreme. Observm c alturi de poziia 77 (co-
respunztoare scorului 64) apare o stelu. Aceast stelu are rol de avertis-
ment, n sensul c valoarea 64 este foarte ndeprtat de limita superioar a
irului de date. De asemenea, alturi de poziia 76 (corespunztoare scorului
23) apare un cercule. Acest cercule ne spune c, dei 23 este i el un scor
extrem, nu este, totui, att de deprtat de limita superioar a irului de date.

IV.3 Tratarea scorurilor extreme


Nu ne putem mulumi s constatm doar existena acestor scoruri ex-
treme, mai ales n condiiile n care acestea ar afecta puternic analiza datelor.

118
Cristian Opariuc-Dan

Un scor extrem duce la o distribuie de date care nu mai respect criteriul


normalitii, face media un indicator irelevant pentru acel set de date i, im-
plicit, determin imposibilitatea utilizrii statisticilor parametrice. Totui, de
unde pot s apar aceste scoruri extreme? Ce surse pot determina prezena
unor asemenea valori? (Popa, 2003)
Cea mai frecvent surs se refer la erorile de nregistrare a
datelor. Dac introducem un chestionar, la care subiecii rs-
pund la ntrebri pe o scal de la 1 la 5 i, n loc s tastm 5,
tastm, din greeal, 55, evident c acesta va aprea ca fiind
un scor extrem. Din fericire, remedierea acestei probleme este
simpl. Nu trebuie dect s analizm minimul i maximul dis-
tribuiei. Dac una dintre aceste valori iese din domeniul de
definiie, putem reveni uor la baza de date i o vom corecta.
Dac sunt mai multe valori incorecte, putem sorta datele cres-
ctor sau descresctor i putem corecta mai uor erorile sau
putem apela la o operaiune de recodificare;
Erorile de eantion se refer la situaia n care eantionul es-
tras este prea mic, iar posibilitatea de apariie a unui caz atipic
(extrem) va deveni foarte mare, dar i la cazul n care eantio-
nul a fost extras dintr-o populaie asimetric. Putem, de exem-
plu, s studiem nlimea unor subieci dintr-un liceu, iar pen-
tru aceasta extragem zece persoane din dou clase. Probabili-
tatea ca un elev s fie baschetbalist este destul de mare. Dac
avem ghinionul s l selectm tocmai pe acela, va aprea,
evident, i un caz extrem. De asemenea, dac una dintre clase
este reprezentat de clasa de sport, cu elevi nali, printre care
am gsit i un elev cu nlime normal, acea nlime normal
se va comporta ca un caz extrem;

119
Statistic aplicat n tiinele socio-umane

Erorile determinate de existena unor populaii diferite de


valori apar atunci cnd n eantionul studiat gsim, sub aspec-
tul variabilei msurate, mai multe grupe de subieci care difer
ntre ele. De exemplu, dac studiem veniturile angajailor unei
ntreprinderi, avem suficiente anse ca salariile conducerii s
se comporte ca scoruri extreme n raport cu celelalte categorii
de angajai. n realitate, acestea nu sunt scoruri extreme, ci
problema se refer tocmai la faptul c exist mai multe catego-
rii de salarizare n acea instituie;
Erorile de msurare se datoreaz unor msurtori incorecte
sau apariiei unor situaii anormale n condiiile experimentale.
La nregistrarea temperaturii unor persoane, se poate defecta,
la un moment dat, aparatul de nregistrare sau, msurnd per-
formanele unor sportivi, putem constata apariia unor valori
extreme ca efect al dopajului.
Indiferent de sursa de eroare, naintea realizrii prelucrrilor statistice
prin metode i tehnici specifice, este absolut necesar analiza preliminar a
datelor, prin intermediul creia s depistm caracteristicile distribuiei, iar
dac acestea sunt inadecvate prelucrrilor necesare, s impunem msuri co-
rective. Din fericire, cu excepia situaiei defectrii unor aparate sau a design-
urilor de cercetare defectuoase, exist suficiente mijloace prin care putem
repara aceste disfuncionaliti. Deoarece tehnicile de transformare a date-
lor brute presupun i alte cunotine, vom amna tratarea acestora pentru un
capitol viitor.
Orice prelucrare mai avansat de date ncepe cu statisticile descriptive
i este absolut necesar o asemenea analiz exploratorie pentru a vedea care
sunt caracteristicile irului nostru de date i ce indicatori putem folosi. Pro-
gramul SPSS ne pune la dispoziie, iat, o serie de metode prin intermediul
crora putem verifica rapid i precis structura datelor cu care lucrm.

120
Cristian Opariuc-Dan

IV.3.1 Obinerea graficelor pentru tendina central n SPSS


Vom rmne la baza noastr de date IQ i ne propunem s obinem
aceste grafice folosind programul SPSS. Pentru a realiza acest lucru, apelm
la meniul Analyze, apoi la submeniul Descriptive Statistics i n final
utilizm opiunea Explore. Iat o
nou ancor mnemotehnic care ne
spune c ne aflm n analiza datelor, la
statistici descriptive i la analize explo-
ratorii. Efectund clic pe aceast opiu-
ne, se deschide o fereastr nou prin
Figura 4.24 Meniul de analiz explora-
torie a datelor intermediul creia putem stabili analize-
le de date ce vor fi efectuate.
Avem mai multe elemente
noi n aceast fereastr. n primul
rnd, caseta Dependent List:
care se refer la variabilele ce vor
fi incluse spre analiz. n aceast
caset vom include variabila
noastr i anume Vrsta subiec-
ilor, prin selectarea ei din lista
variabilelor din baza de date i Figura 4.25 Configurarea variabilelor n analiza
descriptiv exploratorie
apsarea butonului de transfer. n
acest moment, se activeaz i
butonul OK, ceea ce ne spune c putem face imediat prelucrarea datelor.
S nu ne grbim ns i s studiem mai atent aceast fereastr. ntr-un capitol
anterior, discutam despre faptul c indicatorii tendinei centrale (i nu numai
ei) pot fi obinui prin mai multe metode. Atunci am analizat numai opiunea
Frequencies i am promis c celelalte modaliti vor fi studiate cu alt

121
Statistic aplicat n tiinele socio-umane

ocazie. Iat c a venit i momentul acesta. Caseta Factor List: se refer la


variabile categoriale ce pot fi utilizate n vederea gruprii analizei n funcie
de anumite criterii. Att aceast list, ct i ele-
mentul Label Cases by: vor fi studiate atunci
cnd vom clarifica conceptele de variabil de-
pendent i variabil independent. n seciunea
Display, situat imediat sub lista variabilelor
din baza de date, putem stabili ce fel de rezulta-
te s se afieze n fereastra de rezultate. Putem
opta pentru afiarea doar a rezultatelor prelucr- Figura 4.26 Stabilirea indi-
catorilor statistici
rilor statistice (Statistics), pentru afiarea
doar a graficelor (Plots) sau a ambelor (Both). Noi vom dori s afim
toate aceste date i, de aceea, am selectat opiunea Both. Butonul Statis-
tics permite afiarea statisticilor descriptive care vor fi calculate. La ap-
sarea acestuia va aprea urmtoarea fereastr:
Sunt mai multe opiuni aici, noi vom bifa doar opiunea de calcul a
statisticilor descriptive, Descriptives. Seciunea Confidence interval for
Mean: se refer la intervalul de ncredere la care va fi calculat media.
Asupra acestui aspect vom reveni, ns, ntr-un alt capitol. De asemenea, ce-
lelalte opiuni nu ne intereseaz deocamdat, astfel nct le vom ignora pe
moment. Menionm doar c M-
estimators reprezint o alternativ la me-
dia i mediana eantionului, Outliers
afieaz primele cinci valori cele mai mari,
respectiv cele mai mici (extremele), iar
Percentiles permite calculul unor valori
percentile. n vederea confirmrii aciunii
Figura 4.27 Configurarea graficelor
noastre, va trebui s apsm butonul Con-
exploratorii
tinue pentru a reveni la fereastra anterioa-
r.

122
Cristian Opariuc-Dan

Acionarea butonului Plots determin afiarea unei alte ferestre,


care va configura modul de prezentare grafic a datelor. i aici avem mai
multe informaii. Pentru nceput observm c este bifat caseta Stem-and-
leaf, adic va fi afiat graficul tulpin i frunze.
De asemenea, vom afia i histograma, bifnd caseta Histogram.
Seciunea Boxplots, situat n partea stng-sus, permite configurarea mo-
dului de calcul al graficului cutie cu musti discutat anterior. Putem opta
pentru combinarea nivelurilor variabilei categoriale (dac am inclus vreuna n
fereastra anterioar), alegnd Factor levels together sau putem combina
mai multe variabile incluse n lista variabilelor independente alegnd opiu-
nea Dependents together. Desigur, putem renuna la afiarea acestui gra-
fic, selectnd opiunea Tabel 4.1 Sumarul cazurilor
None. n cazul nostru,
Case Processing Summary

Cases

avnd doar o singur varia- N


Valid
Percent N
Missing
Percent N
Total
Percent
Varsta subiectilor
bil inclus spre analiz, pe
30 100,0% 0 ,0% 30 100,0%

oricare dintre primele dou opiuni am alege-o, obinem acelai efect. Prsi-
rea acestei casete va fi fcut tot prin apsarea butonului Continue. Nu ne
rmne acum dect s apsm butonul OK pentru a lansa procedurile de
analiz. n fereastra de rezultate avem acum mai multe tabele i grafice.
n tabelul Case
Tabel 4.2 Descriptives
Statistici descriptive
St at ist ic St d. Error Processing Summary ne sunt
Varst a subiectilor Mean 29,33 1,008
95% Conf idence
Interv al f or Mean
Lower Bound
Upper Bound
27,27 prezentate numrul de cazuri.
31,40

5% Trimmed Mean 29,33 Aflm c avem 30 de cazuri vali-


Median
de, adic 30 de subieci ce au date
29,00
Variance 30,506
St d. Dev iation 5,523
Minimum
Maximum
20
39
completate pentru variabila Vr-
Range
Interquart ile Range
19
10
sta subiecilor, ceea ce reprezint
Skewness ,116 ,427
Kurt osis -,878 ,833 un procent de 100%. Evident, nu
avem nici un caz lips (Missing)
i, corespunztor, un procent de 0%. n total, sunt deci 30 de cazuri ce repre-
zint un procent de 100%.

123
Statistic aplicat n tiinele socio-umane

Urmtorul tabel este acela al statisticilor descriptive (Descriptives).


Remarcm cu uurin media (Mean) egal cu 29,33 ani i mediana (Medi-
an) egal cu 29 de ani. Sunt mult mai multe informaii aici, legate de eroarea
standard a mediei, intervalul de ncredere al acesteia, precum i indicatori ai
dispersiei pe care-i vom studia n alt capitol. Observm c din acest tabel
lipsete modul. ntr-adevr, folosind aceast opiune nu putem calcula modul.
Urmeaz apoi histograma pentru variabila Vrsta subiecilor, nsoi-
t de o serie de date statistice cum ar fi media, abaterea standard i numrul
de cazuri i, iat, graficul tulpin i frunze, pe care l-am discutat anterior.
Varsta subiectilor Stem-and-Leaf Plot

Frequency Stem & Leaf

3,00 2 . 001
,00 2 .
5,00 2 . 44444
3,00 2 . 666
6,00 2 . 899999
4,00 3 . 0111
1,00 3 . 2
3,00 3 . 455
2,00 3 . 77
3,00 3 . 889

Stem width: 10
Each leaf: 1 case(s)

Observm c acest grafic a 39

fost creat din doi n doi (20-21, 22- 36

23, 24-25, 26-27, 28-29 ani i aa 33

mai departe), pentru a oferi o bun 30

reprezentare a datelor. Iat c, anali- 27

znd acest grafic, putem afirma c


24

21

Varsta subiectilor

cei mai muli subieci au vrste de 28 Figura 4.28 Graficul box-plot

124
Cristian Opariuc-Dan

i 29 de ani i nu exist scoruri extreme. Pentru a fi siguri de acest lucru, pri-


vim urmtorul grafic, graficul cutie. Constatm lipsa scorurilor extreme,
mediana fiind situat la valoarea 29 i o distribuie destul de uniform a aces-
tor rezultate.
Putem afirma, deocamdat, c aceste date permit utilizarea mediei ca
indicator al tendinei centrale pentru setul nostru.

n concluzie:
Media unei populaii la un parametru poate fi aproximat prin media eantioanelor
extrase din populaie;
Analiza scorurilor extreme se poate face n baza a dou tipuri principale de grafi-
ce: graficul tulpin i frunze i graficul tip cutie;
Prezena scorurilor extreme scade puterea statistic a analizei. Prin urmare, trebu-
ie s efectum analize statistice preliminare asupra setului de date i, eventual, s
procedm la tehnici de transformare a datelor naintea analizei statistice efective.

125
Statistic aplicat n tiinele socio-umane

V. STATISTICI DESCRIPTIVE MPRTIEREA


n acest capitol se va discuta despre:
Conceptul de mprtiere;
Indicatori simpli i compleci ai abaterii de la
tendina central;
Calculul indicatorilor abaterii de la tendina
central;
Dup parcurgerea capitolului, cursanii vor fi capabili s:
neleag legtura dintre tendina central i
dispersie;
Calculeze indicatorii abaterii de la tendina cen-
tral;
Utilizeze SPSS n calculul indicatorilor abaterii
de la tendina central.

Indicatorii tendinei centrale caracterizeaz, dup cum am vzut, va-


loarea n jurul creia se grupeaz datele. Ei au, desigur, o mare putere infor-
mativ, ns nu ne prezint o msur a compoziiei acestor date. De exemplu,
media greutii unui numr de 2 copii este 20 Kg. Cei doi copii pot s aib 20
de Kg fiecare, unul 10 Kg i cellalt 30 Kg sau unul 15 Kg, iar cellalt 25 Kg
i aa mai departe. Iat c indicatorii tendinei centrale nu pot caracteriza sin-
guri o distribuie. Avem nevoie, pentru aceasta, de o msur a gradului de
rspndire, de mprtiere a datelor n jurul tendinei centrale, cum se reparti-
zeaz rezultatele n jurul acestei valori. Aceti indicatori, care msoar gradul
de mprtiere a rezultatelor n jurul tendinei centrale poart numele de indi-
catori ai mprtierii. Indicatorii mprtierii pot fi grupai n indicatori ele-
mentari ai mprtierii i indicatori sintetici ai mprtierii.
Modelul statistic al mediei va trebui, aadar, completat cu ali indica-
tori caracteristici gradului de mprtiere a rezultatelor n jurul tendinei cen-
trale. Dac relum exemplul cu prietenii mei i numrul de frai pe care fieca-
re dintre ei i are, am stabilit c, primul prieten are un frate, al doilea are doi
frai, al treilea i al patrulea au cte trei frai i al cincilea are patru frai. Re-

126
Cristian Opariuc-Dan

zultase o medie de 2,6 frai, cu alte cuvinte doi frai ntregi i unul fr un
picior. Fiind un model statistic, media estimeaz o realitate. S vedem acum
dac aceast medie estimeaz corect sau nu realitatea frailor prietenilor mei.

+1,4
+0,4 +0,4

m=2,6
-0,6

-1,6

Figura 5.1 Diferenele dintre scorul observat i medie

n figura 5.1 am reprezentat grafic distanele la care se situeaz fiecare


scor particular fa de medie. Este, aadar, media un bun model pentru num-
rul de frai ai primului prieten? Primul meu prieten are un singur frate, iar
media postuleaz 2,6 frai. Iat c, n ceea ce-l privete pe primul prieten,
media supraestimeaz modelul real cu 1,6 frai. Pentru al doilea prieten,
media supraestimeaz realitatea cu doar 0,6 frai (probabil, o mn i un pi-
cior dintr-un frate). Referitor la ceilali trei frai, media subestimeaz realita-
tea cu 0,4 frai i 1,4 frai.
Mrimea acestor supraestimri, respectiv subestimri se obine foarte
simplu, scznd din medie scorul particular (x-m). Cum am putea folosi aces-
te informaii pentru a testa acurateea modelului? O variant ar fi s adunm
toate aceste abateri pentru a vedea suma, totalul abaterilor elementelor de la
modelul statistic al mediei.
(-1,6)+(-0,6)+(0,4)+(0,4)+(1,4)=0
Am obinut totalul erorilor, totalul abaterilor de la medie ca fiind zero.
Cu alte cuvinte, modelul nostru statistic reprezint perfect realitatea? Aa s
fie? Ei bine, nu, deoarece tocmai am demonstrat particularitatea esenial a
mediei, conform creia scorurile mai mici dect media balanseaz perfect

127
Statistic aplicat n tiinele socio-umane

scorurile mai mari dect media. Totui, cum putem obine mrimea erorii?
Cum putem estima dac modelul statistic este o imagine suficient de bun
pentru a reprezenta realitatea? Vom vedea imediat. Pentru nceput, s ne con-
centrm asupra unor indicatori elementari ai mprtierii.

V.1 Indicatori elementari ai mprtierii


Indicatorii elementari ai mprtierii in cont doar de cteva valori, iar
calculele sunt efectuate n baza acestora. Dei sunt foarte uor de obinut,
sunt sensibili la modul de distribuie a rezultatelor n colecia de date.

V.1.1 Amplitudinea de variaie


Termenul englezesc pentru acest indicator este acela de Range, iar
noi l-am abordat deja n momentul n care am fcut sistematizarea datelor,
doar c nc nu tiai (dei probabil bnuiai) c el reprezint un indicator al
mprtierii. Amplitudinea de variaie nu este altceva dect diferena dintre
valoarea maxim i valoarea minim din irul nostru de date. Prin urmare, A
= Xmax Xmin. Dac avem, de exemplu, urmtoarele date: 10, 22, 31, 9, 24,
27, 29, 9, 23, 12, atunci constatm cu uurin c valoarea cea mai mare din
ir este 29, iar cea mai mic valoare este 9. n acest caz, amplitudinea de va-
riaie devine A = 29 9 = 20.
tim, de asemenea, semnificaia acestei valori. ntre maxim i minim
pot exista cel mult 20 de valori diferite. Amplitudinea de variaie indic, n
mod absolut, domeniul de valori ntre care este cuprins distribuia. Amplitu-
dinea de variaie poate fi exprimat i procentual, ca expresie a raportului
dintre amplitudinea de variaie i medie.

% = (formula 5.1)


n cazul nostru, % = , = %. Acest indicator poart
numele de amplitudine relativ de variaie. n exemplul nostru, avem 10

128
Cristian Opariuc-Dan

valori, iar media acestora este 19,6. Amplitudinea relativ de variaie este, n
cazul nostru, 102%. Amplitudinea relativ de variaie o putem utiliza n con-
diiile n care cunoatem domeniul teoretic ntre limitele cruia se ncadreaz
distribuia. Putem astfel s comparm amplitudinea real de variaie a datelor
cu amplitudinea de variaie teoretic.
Indicatorii amplitudinii de variaie pot fi utilizai atunci cnd cunoa-
tem plaja de variaie normal a unui fenomen, deoarece apariia unor valori
extreme duce la amplitudini de variaie aberante. n exemplul nostru, dac
introducem o singur valoare n plus, 120, atunci minimul rmne 9, iar ma-
ximul devine 120. Amplitudinea de variaie va fi 120 9 = 111, desigur o
valoare suspect pentru irul nostru de date.
Analiznd figura alturat, obser-
vm c cele dou distribuii au aceeai am-
plitudine de variaie. Totui, forma lor dife-
r foarte mult. n timp ce distribuia A
Figura 5.2 Dou distribuii cu
este puternic eterogen, distribuia B este aceeai amplitudine
mult mai omogen.

V.1.2 Abaterea cuartil sau abaterea intercuartil


Este un alt indicator elementar al mprtierii, independent de existen-
a unor valori extreme, fiind, prin urmare, mai stabil i mai precis n compa-
raie cu amplitudinea de variaie. Ce este ns un cuartil? Am mai adus discu-
ia despre acest subiect n capitolul anterior. Dac tii ce este mediana i da-
c v spunem c mediana nu este altceva dect al doilea cuartil, atunci cred
ca putei deduce semnificaia termenului de cuartil. tim c mediana este
valoarea care mparte setul ordonat de date n dou pri egale; jumtate din-
tre valori sunt mai mici dect mediana, jumtate dintre valori sunt mai mari
dect mediana. Ei bine, valorile cuartile sunt valorile care mpart acelai
set ordonat de date n patru pri egale. Un sfert din valori (25%) sunt mai
mici dect primul cuartil (Q1), dou sferturi din valori (jumtate) sunt mai

129
Statistic aplicat n tiinele socio-umane

mici dect al doilea cuartil (Q2 iat c, de fapt, Q2 nu este altceva dect me-
diana), iar trei sferturi din valori (75%) sunt mai mici dect al treilea cuartil
(Q3). Abaterea cuartil nu este altceva dect diferena dintre cuartilul 3
i cuartilul 1.

Prin urmare, RQ=Q3 Q1. (formula 5.2)

Abaterea cuartil poate fi absolut cazul prezentat sau relativ, ra-


portat la median (abaterea intercuartil relativ).
3 1
% = = (formula 5.3)
2 2

Dac mprim abaterea cuartil la valoarea 2, adic dac facem me-


dia diferenei dintre Q3 i Q1, obinem abaterea semi-intercuartil.
3 1
RSQ= RQ:2 = = (formula 5.4)
2 2

ntr-o distribuie de date perfect simetric, abaterea semi-intercuartil


va fi egal cu mediana. Aceasta reprezint un indicator al distanei unui scor
considerat reprezentativ n raport cu ntreaga distribuie.
Dac relum urmtoarele date 10, 22, 31, 9, 24, 27, 29, 9, 23, 12 i
apoi le ordonm, obinem: 9, 9, 10, 12, 22, 23, 24, 27, 29, 31. Procedura de
calcul a cuartilelor este similar medianei. Primul cuartil va fi situat, evident,
+1 11
n poziia 2,75 1 = = = 2,75 , deoarece am mprit irul ordonat de
4 4
date n patru pri egale. Urmrind irul ordonat de date, poziia 2,75 se afl
ntre 9 i 10, adic la 9,5. Al doilea cuartil, mediana (Q2), se va afla la de do-
u ori poziia primului cuartil, adic 2x2,75 = 5,5. S-a observat probabil c ai
obinut exact poziia medianei. n cazul nostru, poziia 5,5 este cuprins ntre
22 i 23, adic 22,5. Similar, al treilea cuartil (Q3) este de trei ori poziia pri-
mului cuartil, adic 3x2,75=8,25. Iat c, valoarea lui Q3 se afl ntre 27 i
29, adic 28. Abaterea cuartil devine, aadar, RQ=Q3Q1=289,5=18,5. Cu
alte cuvinte, ntre valoarea obinut de 75% din populaie i valoarea obinut

130
Cristian Opariuc-Dan

de 25% din populaie pot exista cel mult 18,5 valori diferite. Iat c doar 18,5
puncte fac diferena dintre persoanele considerate slabe sau cu scoruri infe-
rioare i persoanele considerate bune, cu scoruri superioare. Observai c
acest indicator este mai precis n comparaie cu amplitudinea. Dac vei in-
clude acum acel scor de 120, vei constata c nu influeneaz deloc valoarea
abaterii cuartile. Abaterea semi-intercuartil va fi, prin urmare,
RSQ=RQ:2=18,5:2=9,25. Acest lucru nseamn c, teoretic, 9,25 valori ar tre-
bui s fie mai mici dect mediana i tot attea valori mai mari dect mediana.
Din grupul oamenilor medii, 9,25 valori i difereniaz pe cei mediu-slabi
i 9,25 valori pe cei mediu-buni.
Similar medianei, cuartilele pot fi calculate folosind i date grupate.
Dac vom considera distribuia statisti-
c din tabelul alturat: Tabelul 5.1 Calculul cuartilelor
Distribuia
Cuartilul inferior (Q1) va fi situ- Clasa f fc
n linii
+1 45 <= 4 || 2 2
at n poziia = = 11,25, iar 59 |||||| 6 8
4 4
quartilul superior (Q3) n poziia 10 14 |||||||| 8 16
15 19 |||||||||||| 12 28
3Q1=3x11,25=33,75. Aadar, primul 20 29 |||||||||| 10 38
cuartil se va afla undeva n intervalul n 30 39 |||| 4 42
care se gsete a 11-a msurtoare iar al >= 40 || 2 44
n=44
treilea cuartil n intervalul n care se
gsete a 33-a msurtoare.
n cazul nostru, Q1 se va gsi n intervalul 10-14, iar Q3 n intervalul
20-29. Sper c v mai aducei aminte formula de calcul a medianei pentru
date grupate.
1
= +

131
Statistic aplicat n tiinele socio-umane

+1
Dac ne reamintim, poziia medianei a fost reprezentat prin n
2

cazul unui ir de date par sau prin pentru irul impar de date. Dar cum me-
2
diana nu era altceva dect Q2, valoarea preciza, de fapt, poziia cuartilului al
doilea. Deci, singura modificare n formul ar fi nlocuirea poziiei medianei
cu poziia cuartilului care ne intereseaz. Formula generalizat devine cea
alturat, unde PQn nseamn poziia cuartilului n (1, 2 sau 3), iar fcQn-1 frec-
vena cumulat a intervalului pre-cuartil de ordin n.
1
= + (formula 5.5)

+1
Am specificat mai sus c poziia lui Q1 este 1 = , poziia lui Q2
4
+1 +1
este 2 = 2 , iar poziia lui Q3 este 3 = 3 . Aplicnd n formu-
4 4
le, obinem valorile corespunztoare cuartilului 1 i cuartilului 3, astfel:
1 11 11,258 3,25
1 = + = 10 + 5 = 10 + 5 = 12,03
8 8

3 31 33,7528 5,75
3 = + = 20 + 10 = 20 + 10 = 25,75
10 10

Abaterea cuartil va deveni RQ=Q3-Q1=25,75 12,03=13,72, iar aba-


terea semi-intercuartil RSE=RQ:2=13,72;2=6,86.
Abaterea cuartil este un indicator mai precis dect amplitudinea de
variaie. Totui, dac distribuia este puternic asimetric (dac, de exemplu,
foarte multe valori se concentreaz n zona cuartilului superior), atunci acest
indicator nu furnizeaz o imagine real a dispersiei. Se prefer, n acest caz,
utilizarea abaterii semi-intercuartile n locul abaterii cuartile, indicator care
ne d numrul de valori diferite ce separ 50% din mijlocul eantionului, ns
nu explic modul n care se grupeaz aceste valori n jurul medianei.
Discutnd despre median i cuartile, am vzut c acestea nu repre-
zint dect valori la care se situeaz un anumit procent din eantion, n condi-

132
Cristian Opariuc-Dan

iile n care setul de date este unul ordonat. Mediana este valoarea la care se
situeaz 50% din eantion, cuartilele sunt valorile la care se situeaz 25%,
50%, 75% din eantion i aa mai departe. n termeni generali, putem afla
orice valoare la care se situeaz un anumit procent din eantion. Astfel, dac
vom dori s aflm valorile la care se afl procente de 20% din eantion, vom
avea cinci categorii cvintile. Procentele de 33,33% reprezint valorile
trecile i aa mai departe. Generic, valoarea la care se afl un anumit procent
din populaie poart numele de percentil. nelegerea conceptului de
percentile are o importan deosebit n problematica realizrii etaloanelor, a
normelor, prin metoda cuantilrii, metod folosit de obicei ntr-o distribuie
care nu este normal. Despre aceste lucruri vom discuta, ns, atunci cnd
vom aborda sistemele de etalonare.

V.2 Indicatori sintetici ai mprtierii


Indicatorii sintetici ai mprtierii nu in cont doar de cteva valori, ca
n cazul celor elementari, ci iau n considerare toate msurtorile care apar n
colecia de date i de aceea au o valoare informativ mult mai mare n com-
paraie cu indicatorii elementari.

V.2.1 Diferena medie Gini


Este un indicator independent de ordinea de efectuare a msurtorilor,
iar valoarea acestuia nu depinde de medie. De aceea, diferena medie Gini se
folosete n distribuii n care media nu este un bun indicator al tendinei cen-
trale (v mai amintii probabil de distribuiile cu scoruri extreme). Indicatorul
nu exprim altceva dect modul n care valorile se mprtie, n interiorul
seriei, unele fa de altele. Practic, nu este altceva dect o medie aritmetic a
diferenelor obinute prin asocierea n perechi, dou cte dou, a tuturor valo-
rilor din irul de date. Aceste diferene se vor lua n valori absolute.

133
Statistic aplicat n tiinele socio-umane

Dac avem, spre exemplu, urmtoarele 4 msurtori: 25, 23, 21, 27,
atunci, cu aceste valori putem forma un numr de 42 ,adic 16 perechi de di-
ferene dup cum urmeaz:
2525; 2523; 2521; 2527; 2325; 2323; 2321; 2327; 2125;
2123; 2121; 2127; 2725; 2723; 2721; 2727.
Fcnd apoi diferenele, obinem:
0; 2; 4; -2; -2; 0; 2; -4; -4; -2; 0; -6; 2; 4; 6; 0
Analiznd aceste diferene, observm c nu reprezint altceva dect
modul n care se abat valorile unele fa de altele. Fcnd apoi suma acestor
valori, luate fr semn, obinem:
0+2+4+2+2+0+2+4+4+2+0+6+2+4+6+0 = 40
Indicatorul diferenelor medii al lui Gini nu este altceva dect media
diferenelor luate n valori absolute. Aceast sum va fi, aadar, mprit la
numrul de perechi rezultate (16). Obinem, aadar, 40:16 = 2,5, care repre-
zint valoarea acestui indicator. Mai condensat, am putea scrie acest lucru
astfel:

=1 =1
= (formula 5.6)

Dei procedura de calcul a acestui indicator este extrem de simpl, la


un numr mare de valori, calcularea manual a diferenei medii Gini devine
imposibil, iar pentru obinerea indicatorului este absolut necesar utilizarea
unui program computer. Diferena medie Gini este un indicator slab al gra-
dului de mprtiere i arat cum se abat, n medie, scorurile unul fa de ce-
llalt.

V.2.2 Oscilaia
Calculul oscilaiei reprezint tot o medie a diferenelor dintre perechi,
ns, de aceast dat, ordinea de efectuare a msurtorilor conteaz. n mod

134
Cristian Opariuc-Dan

normal, sunt rare situaiile n care ne intereseaz ordinea de efectuare a msu-


rtorilor. Vizm acest fapt ndeosebi n experimente, atunci cnd ntre msu-
rtori intervenim prin manipularea unor variabile. Dac avem, de exemplu,
urmtoarele 4 msurtori ale ritmului cardiac al unui subiect la prezentarea
unor imagini 80, 85, 91, 96, constatm c, de la o msurtoare la alta, ritmul
cardiac s-a accelerat i putem concluziona c imaginile au avut ca efect cre-
terea constant a tensiunii psihice manifestate prin astfel de reacii. Dac ns
ordinea msurtorilor ar fi fost 80, 96, 91, 85, atunci am observa c avem de
a face cu o cretere rapid a tensiunii psihice urmat de o diminuare progre-
siv a acesteia. Este cu totul altceva. Iat c, uneori, ordinea msurtorilor
poate avea o semnificaie important. n asemenea situaii, se calculeaz osci-
laia ca indicator sensibil la aceste diferene.
Oscilaia nu este altceva dect media diferenelor dintre o valoare i
cea anterioar i se poate calcula n valori absolute sau relative, iar numrul
acestor diferene este n-1.
Oscilaia absolut reprezint un indicator care furnizeaz volumul
oscilaiilor aprute de la o msurtoare la alta i se calculeaz utilizndu-se
valorile absolute ale diferenelor dup formula urmtoare:

=2 1
= (formula 5.7)
1

Relund cele dou exemple anterioare, obinem pentru oscilaia abso-


lut a primului set de date, valoarea:
85 80 + 91 85 + 96 91
= = 5,33
3
Pentru al doilea set de date, obinem, dup efectuarea calculelor, ur-
mtoarea valoare:
96 80 + 91 96 + 85 91
= =9
3

135
Statistic aplicat n tiinele socio-umane

n mod evident, cele dou valori difer, deoarece ordinea de efectuare


a msurtorilor difer i ea. Prima valoare, mai mic, indic un volum mai
mic al oscilaiilor, o cretere constant, dei rapid a ritmului cardiac. Valoa-
rea a doua, mare, arat un volum mare al oscilaiilor, o fluctuaie a msurto-
rilor efectuate.
Oscilaia relativ ine cont de semnul diferenelor, spre deosebire de
oscilaia absolut care lua diferenele n valori fr semn. De aceea, oscilaia
relativ, dei nu ofer o imagine a volumului oscilaiilor, ne informeaz ns
asupra direciei lor, n ce sens oscileaz msurtorile, aspect care nu poate fi
sesizat de oscilaia absolut. De aceea, aceti doi indicatori se calculeaz n
general mpreun. Oscilaia relativ are o formul de calcul asemntoare
celei absolute, ignorndu-se modulul:

=2 1
= (formula 5.8)
1

Pentru primul set de date, oscilaia relativ rmne 5,33, n timp ce


oscilaia relativ pentru al doilea set de date devine 1,66. tim c valoarea nu
este reprezentativ pentru volumul oscilaiilor, ns, comparnd cele dou
valori, putem trage concluzii importante. Iat c, la primul subiect, sub influ-
ena imaginilor, ritmul su cardiac crete n mod constant pe msur ce-i sunt
prezentate noi informaii, n timp ce, la al doilea subiect, dup o cretere ini-
ial foarte mare (tim acest lucru din oscilaia absolut), urmeaz o scdere a
ritmului cardiac, ca urmare, probabil, a instalrii obinuinei.
Indicatorii oscilaiei ne furnizeaz informaii valoroase asupra tendin-
ei tipice sau atipice de evoluie a scorurilor, reprezentnd un rezultat impor-
tant atunci cnd urmrim s vedem evoluia unui fenomen n timp sau sub
influena unor modificri experimentale.

136
Cristian Opariuc-Dan

V.2.3 Abaterea medie


Se mai numete variaie medie, deviaie medie, abatere absolut me-
die sau abatere liniar medie i se poate calcula atunci cnd media este un
bun indicator al tendinei centrale. Acest indicator informeaz asupra modu-
lui n care se abat, n valori absolute, rezultatele de la medie, acordnd ace-
eai pondere tuturor variabilelor. Abaterea medie se poate calcula pe date
grupate sau pe date discrete.
S ne amintim de exemplul cu prietenii. Am vzut c simpla adunare
a abaterilor fiecrui scor de la medie nu rezolv problema verificrii gradului
de potrivire a modelului statistic cu modelul real, suma lor fiind ntotdeauna
nul. Ce-ar fi, ns, dac am lua aceste valori n modul, adic nu am ine cont
de semn. Am obine, atunci, urmtoarea valoare:
1,6+0,6+0,4+0,4+1,4=4,4
Rezult un indicator mai bun al erorii totale, care indic faptul c toa-
te abaterile de la medie sunt n valoare de 4,4, adic numrul de frai cu care
se abat toi cei 5 prieteni ai mei de la media de 2,6 este de 4,4 frai. Ideea nu
este rea, ns aceast sum depinde de numrul de msurtori i crete pe
msur ce crete numrul de cazuri. Dac a avea 1000 de prieteni, suma ar
avea valori foarte mari. De aceea, se mparte aceast sum la numrul de ca-
zuri i se obine media cu care modelul statistic se abate de la modelul real.
Aceasta este i ideea abaterii medii. n cazul nostru, mprind 4,4 la 5, obi-
nem 0,88, adic numrul de frai ai prietenilor mei se abate, n medie, cu 0,88
frai.
Calculul abaterii medii se realizeaz dup formula urmtoare, n care
xi reprezint valoarea msurtorii, x barat reprezint media, iar n reprezint
numrul de msurtori.

=1
= (formula 5.9)

137
Statistic aplicat n tiinele socio-umane

Dac avem urmtoarele date 10, 22, 31, 9, 24, 27, 29, 9, 23, 12, pentru
care media este 19,6, iar numrul de msurtori este 10, avem:

Tabel 5.2 Calculul Practic, formula ne spune s scdem din fiecare


abaterii medii valoare valoarea mediei, adic s realizm diferena
xi xi-m | xi-m|
10 -9,6 9,6
dintre scor i medie. Aceast diferen o vom trata n
22 2,4 2,4 termeni de valori absolute (fr semn), dup care fa-
31 11,4 11,4 cem suma acestor valori absolute, iar suma o mprim
9 -10,6 10,6
24 4,4 4,4 la numrul de msurtori. Rezultatul obinut reprezint
27 7,4 7,4 tocmai valoarea abaterii medii.
29 9,4 9,4
9 -10,6 10,6 n cazul nostru, efectund calculele conform
23 3,4 3,4 tabelului alturat, am obinut suma diferenelor absolu-
12 -7,6 7,6
76,8 te de 76,8. Dac mprim aceast valoare la numrul
de msurtori, 10 n cazul nostru, obinem 7,68, valoa-
rea abaterii medii.
Pentru date grupate n intervale vom utiliza, n vederea calculrii aba-
terii medii, urmtoarea formul, unde xi reprezint mijlocul intervalului de
distribuie, fi frecvena absolut a acestui interval, x barat media i n numrul
de msurtori.

=1
= (formula 5.10)

Tabel 5.3 Calculul abaterii medii (clase) S lum urmtorul


Clasa xi f |xi-m| exemplu de distribuie n
|xi-m|*f
171 174 172,5 9 7,4 66,6
175 178 176,5 5 3,4 clase. tim dintr-un capitol
17
179 182 180,5 6 0,6 anterior c media calculat a
3,6
183 186 184,5 4 4,6 18,4
acestei distribuii este 179,9.
187 190 188,5 3 8,6 25,8
191 -193 192 3 12,1 Similar exemplului anterior
36,3
n=30 =167,7
va trebui s calculm dife-
rena dintre mijlocul fiecrui interval i medie, diferen pe care o vom con-
sidera n valori absolute. Cu alte cuvinte, dorim s aflm n ce msur se aba-

138
Cristian Opariuc-Dan

te fiecare interval de la media general a eantionului. Urmeaz apoi s n-


mulim aceste abateri cu frecvena absolut a fiecrui interval i s realizm
suma acestor rezultate. n cazul nostru, suma abaterilor intervalelor de la me-
dia general este 167,7. mprind aceast valoare la numrul de msurtori,
obinem 5,59, care nu reprezint altceva dect abaterea medie (d) calculat pe
intervale de clase.

V.2.4 Abaterea median


Se mai numete i variaie median sau deviaie median i se utili-
zeaz n situaia n care nu putem folosi media, fie datorit faptului c nivelul
de msur al variabilei este unul ordinal, fie c avem scoruri extreme ntr-o
distribuie, fapt ce face media un indicator inadecvat.
Modalitatea de calcul a abaterii mediane este similar celei de mai sus
(abaterea medie), sigura diferen fiind aceea c, n loc de valoarea mediei,
vom folosi valoarea medianei. Calculul acesteia vi-l lsm dumneavoastr ca
exerciiu.

Exerciiu:
Calculai abaterea median pentru datele discrete i datele grupate,
utiliznd exemplele de mai sus.

V.2.5 Dispersia
Atunci cnd putem utiliza media, un indicator frecvent este indicato-
rul dispersiei sau indicatorul varianei (atenie, nu variaie, ci varian) notat
cu 2 pentru populaie sau s2 n cazul unui eantion. Variana reprezint me-
dia ptratic a diferenelor valorilor individuale fa de media aritmetic i
are o relaie direct cu cel mai important indicator al gradului de mprtiere
a rezultatelor, abaterea standard.
n loc s folosim valorile absolute (n modul) pentru a realiza suma di-
ferenelor, preferm s ridicm la ptrat aceste diferene. tim foarte bine c

139
Statistic aplicat n tiinele socio-umane

dac ridicm un numr la ptrat, indiferent de semn, rezultatul este ntot-


deauna pozitiv. Iat o alt modalitate prin care evitm anulrile reciproce
determinate de semn.
Pentru fraii prietenilor mei, vom avea:
(-1,6)2+(-0,6)2+(0,4)2+(0,4)2+(1,4)2
2,56+0,36+0,16+0,16+1.96 = 5,20
Aceast valoare, 5,20, poart numele de suma abaterilor ptratice i
reprezint un indicator mai bun dect suma abaterilor simple luate n modul.
La fel, aceast sum depinde de numrul de cazuri i de aceea, pentru a com-
pensa acest lucru, se mparte suma abaterilor ptratice la numrul de cazuri.
n situaia noastr, 5,20:5=1,04, exact valoarea varianei.
Ajuni aici, se impune, totui, o precizare. mprirea la numrul cazu-
rilor (n) se realizeaz atunci cnd vorbim de o populaie. Dac ne referim la
eantion, atunci nu mprim la numrul de cazuri, ci la numrul de cazuri
minus unu (n-1). Aceasta este o ajustare statistic, iar motivele care o susin
vor fi explicate mai trziu. Iat c, 5,20:4 = 1,30 este adevrata msur a va-
rianei.
Formula de calcul a dispersiei este urmtoarea, n care xi reprezint
valoarea msurat, x barat media, iar n numrul de msurtori.

2
2 = =1
(formula 5.11)

n activitatea curent, deoarece lucrm cu eantioane i nu cu popula-


ii, se nlocuiete n cu n-1, astfel nct formula dispersiei pentru eantioane
devine:

2
2 = =1
(formula 5.12)
1

140
Cristian Opariuc-Dan

i dispersia se poate calcula pe date discrete sau pe date grupate n


intervale.
Relund exemplul anterior, ne amintim c avem urmtoarele date: 10,
22, 31, 9, 24, 27, 29, 9, 23, 12, pentru care media este 19,6, iar numrul de
msurtori este 10. Vom utiliza un tabel similar cu
Tabel 5.4 Calculul
dispersiei cel prezentat n exemplul de mai sus i vom analiza
xi xi-m (xi-m)2 formula.
10 -9,6 92,16
22 2,4 5,76 Privind cu atenie, observm c trebuie s fa-
31 11,4 129,96
9 -10,6 112,36
cem, prima dat, diferena dintre scorul brut i me-
24 4,4 19,36 die (xi-m), la fel ca n procedura de calcul a abaterii
27 7,4 54,76 medii. Deoarece obinem valori negative i valori
29 9,4 88,36
9 -10,6 112,36 pozitive, dac le-am nsuma n aceast etap, valori-
23 3,4 11,56 le contrare s-ar anula reciproc i nu am obine nici o
12 -7,6 57,76
informaie sintetic util. Pentru a preveni acest lu-
684,4
cru, vom ridica la ptrat fiecare diferen. n acest
fel, compensm anularea reciproc ce poate s apar la nsumarea valorilor,
toate valorile rezultate fiind pozitive. Dup ridicarea la ptrat, putem face,
fr s ne preocupe anularea valorilor, suma rezultatelor (suma abaterilor
ptratice). n cazul nostru, suma abaterilor ptratice este 684,4. mprind
acum suma ptratelor la numrul de msurtori (10), obinem valoarea 68,44,
ca valoare a indicatorului varianei sau dispersiei. Deoarece lucram cu un
eantion i nu la nivelul populaiei, mprirea o vom face la n-1 (10-1=9),
rezultnd valoarea corectat a dispersiei. Deci, pentru setul nostru de date,
variana s2=70,04.
Pentru date grupate n intervale de clas, formula de calcul a varianei
se modific puin, unde fi reprezint frecvena absolut a intervalului de clas,
xi reprezint mijlocul acestui interval, restul elementelor fiind cunoscute.

=1 2
2 = (figura 5.13)

141
Statistic aplicat n tiinele socio-umane


=1 2
2 = (figura 5.14)
1

Relund distribuia prezentat n seciunea anterioar, ne reamintim c


media acestor rezultate a fost de 179,91, iar numrul de cazuri 30.
Primul lucru pe care l vom face va fi s calculm diferena dintre mij-
locul fiecrui interval de clas i medie. Din motivele expuse anterior, nu
putem face, n
Tabel 5.5 Calculul dispersiei (clase)
acest moment,
Clasa xi f xi-m (xi-m)2 f*(xi-m)2
171 174 172,5 9 -7,41 54,90 494,1729 suma diferenelor
175 178 176,5 5 -3,41 11,62 58,1405 obinute. Va trebui
179 182 180,5 6 0,59 0,34 2,0886
183 186 184,5 4 4,59 21,06 84,2724 s ridicm la ptrat
187 190 188,5 3 8,59 73,78 221,3643 aceste diferene,
191 -193 192 3 12,09 146,16 438,5043 dup care s n-
n=30 =1298,54
mulim ptratele
obinute cu frecvena absolut a fiecrui interval. Dup aceast operaiune,
putem calcula suma abaterilor ptratice, care, n cazul nostru, va deveni
1298,54. mprind aceast sum la numrul de msurtori (n=30), obinem
valoarea varianei 43,28. Totui, numrul de msurtori fiind mic, acest re-
zultat n corectm mprind nu la 30, ci la 29. Va rezulta astfel 44,77, valoa-
rea corectat a varianei.

V.2.6 Abaterea standard


Se noteaz cu s n cazul unui eantion sau cu n cazul unei populaii
i o putem ntlni sub numele de abatere etalon, abatere tip, abatere ptratic
medie. Acest indicator este cel mai precis i inteligibil pentru msura gradu-
lui de mprtiere al rezultatelor n jurul tendinei centrale i contribuie la
definirea distribuiei normale. Poate fi calculat i dobndete semnificaie
numai atunci cnd poate fi calculat media.
Variana ne d expresia medie a abaterilor dintre medie i observaii,
ns aceast valoare este exprimat sub form ridicat la ptrat. Nu tiu dac

142
Cristian Opariuc-Dan

v este foarte util o expresie de genul n medie, numrul de frai ridicat la


ptrat, cu care se abat fraii prietenilor mei de la media de 2,6 frai, este de
1,3 frai. Cred c, mai degrab, v poate crea confuzie. Acest lucru se n-
tmpl deoarece, pentru a evita problemele legate de semn, am ridicat la p-
trat diferenele. Cum scpm acum de aceast ridicare la ptrat? V mai
amintii probabil c inversul ridicrii la ptrat este extragerea rdcinii ptrate
(a radicalului). Exact acest lucru l vom face i noi. Extrgnd radical din 1,3
vom obine valoarea 1,14, expresia abaterii standard. Putem acum afirma c,
n medie, numrul de frai ai prietenilor mei se abate de la valoarea de 2,6 cu
1,14.
Abaterea standard se calculeaz dup formula urmtoare, unde toate
datele ne sunt deja cunoscute. Dac privim cu atenie aceast formul, con-
statm c expresia de sub radical nu este altceva dect variana. Prin urmare,
dup ce calculm variana, putem afla uor abaterea standard, extrgnd radi-
calul de ordin doi din varian.
2
=1
= = 2 (formula 5.15)

2
=1
= = 2 (formula 5.16)
1

n primul exemplu, cel n care am folosit date discrete, variana obi-


nut a fost s2=70,07. Deci, abaterea standard va fi egal cu rdcina ptrat
din 70,07, adic 8,37. Similar, pentru datele grupate n intervale, variana a
fost 44,77, iar abaterea standard devine 6,69.
Abaterea standard msoar modul n care rezultatele se mprtie n
jurul mediei, valorile mari indicnd un grad mare de mprtiere. Este, dac
dorii, un indicator ce arat n ce msur media este reprezentativ pentru
observaii, n ce msur modelul statistic se potrivete cu modelul real. Aba-
terile standard mici arat c valorile sunt puin distanate fa de medie, acest

143
Statistic aplicat n tiinele socio-umane

indicator al tendinei centrale reprezentnd foarte bine datele. Valorile mari


ale abaterii standard arat c datele sunt distanate, mprtiate puternic n
jurul mediei, aceasta nefiind un bun model statistic. Abaterea standard zero
indic faptul c avem aceleai valori (de exemplu, o distribuie 5, 5, 5, 5, 5, 5,
5, 5, 5, 5, 5 are media 5 i abaterea standard 0).
Comparnd cele dou rezultate de mai sus, constatm c, n primul
exemplu, rezultatele sunt mai mprtiate n jurul mediei dect n al doilea
exemplu. Cu ct abaterea standard este mai mic, cu att datele sunt mai gru-
pate n jurul tendinei centrale.
Abaterea standard se exprim n aceleai uniti de msur ca i me-
dia. Dac media nlimii unor subieci este de 179,91 centimetri, atunci aba-
terea standard de 6,69 va fi exprimat tot n centimetri. Convenim, aadar, s
descriem o distribuie de acest gen, prin media nlimii subiecilor din ean-
tion egal cu 179,91 centimetri cu o abatere standard de 6,69 centimetri.
Ridicarea la ptrat din formula dispersiei, introduce o oarecare distor-
siune n analiza mprtierii datelor, deoarece, prin aceast operaie, se atribu-
ie o pondere mai mare valorilor aflate la o distan mare fa de medie.
Reinei c mprirea la numrul de cazuri n este valabil pentru o va-
riabil teoretic sau n cazul populaiei. Deoarece, n general, lucrm cu ean-
tioane i nu cu populaii, vom folosi n formul mprirea la n-1, valabil
pentru variabila empiric. Aceast corecie se folosete n vederea evitrii
subestimrii gradului de mprtiere a rezultatelor n jurul mediei i poart
numele de grade de libertate.
Media i abaterea standard sunt cei doi indicatori importani n analiza
distribuiei normale. Utilizarea lor este condiionat de absena unor scoruri
extreme i de variabile situate cel puin la un nivel de msur de interval.
La fel ca i media, indicatorul principal al tendinei centrale, abaterea
standard are i ea o serie de proprieti utile n practic:

144
Cristian Opariuc-Dan

Dac adugm sau scdem o valoare constant la fiecare scor


din distribuie, abaterea standard nu sufer modificri;
Dac nmulim sau mprim fiecare scor din distribuie cu o
constant, abaterea standard se multiplic sau se divide cu va-
loarea acelei constante;
Distana dintre valoarea abaterii standard i medie este mai
mic n comparaie cu distana dintre abaterea standard i orice
alt scor. Cu alte cuvinte, media se distaneaz cel mai puin de
abaterea standard n comparaie cu orice alt scor.

V.2.7 Coeficientul de variaie


Prezint, mai intuitiv dect abaterea standard, gradul de mprtiere al
rezultatelor n jurul mediei, deoarece este o expresie procentual a mpririi
abaterii standard la medie. De asemenea, pentru datele ordinale, se poate cal-
cula coeficientul de variabilitate ca expresie procentual a mpririi abaterii
mediane la median. Formulele de calcul n acest caz sunt:

= 100, (formula 5.17)

= 100, (formula 5.18)

Prin nmulirea coeficientului de variaie cu 100, obinem exprimarea


procentual a acestui indicator, mai intuitiv n comparaie cu valoarea brut.
n exemplul nostru, = 8,37:19,6=0,42x100=42%, adic o variaie de
42% n cazul datelor discrete i = 6,69:179,91=0,03x100=3%, o variaie de
doar 3,00% pentru datele grupate n interval.
Cu ct valoarea acestui coeficient este mai mare, cu att media este un
indicator mai imprecis pentru tendina central. Valoarea acestui coeficient
nu depinde de unitatea de msur, ca n cazul abaterii standard, i de aceea el

145
Statistic aplicat n tiinele socio-umane

poate fi folosit n situaii n care comparm, sub aspectul variabilitii, dou


distribuii diferite.
Exist anumite reguli care permit aprecierea gradului de mprtiere a
scorurilor n jurul mediei, utilizndu-se acest coeficient (Popa, 2006):
Un coeficient de variaie mai mic de 15% indic un grad de
mprtiere redus, media fiind un bun indicator al tendinei
centrale;
Un coeficient de variaie cuprins ntre 15% i 30% arat o m-
prtiere moderat, caz n care reprezentativitatea mediei este
satisfctoare;
Un coeficient de variaie de peste 30% arat o mprtiere ma-
re, media nemaifiind un bun indicator pentru tendina central.

V.3 Obinerea indicatorilor mprtierii n SPSS


Pentru a studia modul n care aflm
indicatorii dispersiei n SPSS, vom folosi
baza de date IQ.sav, n care avem deja
datele introduse n capitolul anterior. Folo-
sim, pentru aceasta, tot comanda
Figura 5.3 Meniul de analiz a
Analyze, apoi submeniul Descriptive frecvenelor
Statistics i opiunea Frequencies.
Se va deschide binecunoscuta de acum
fereastr, pe care am studiat-o n mo-
mentul n care am aflat cum putem cal-
cula indicatorii tendinei centrale. i de
data aceasta, vom folosi, ca exemplu,
variabila Varsta subiectilor, variabil
pe care o vom transfera din lista varia-
Figura 5.4 Includerea variabilei n bilelor din baza de date n lista variabi-
analiz

146
Cristian Opariuc-Dan

lelor supuse analizei (Variable(s)) din partea dreapt a formularului, aa


cum se poate observa n figura 5.4. Asupra modului n care se face acest
transfer nu mai insistm, deoarece procedeul a fost descris pe larg n capitolul
destinat indicatorilor tendinei centrale. Dac nu v putei aminti, revedei
capitolul 3.
Dup transfer, va trebui s comunicm aplicaiei SPSS s ne calculeze
indicatorii mprtierii. V amintii probabil c acest lucru l putem face ap-
snd butonul Statistics situat n partea de jos a acestui formular. Imedi-
at, se va deschide o nou fereastr, cunoscut de la calculul indicatorilor ten-
dinei centrale. Observm, n partea din stnga-jos a acestei ferestre, seciu-
nea destinat calculului indicatorilor dispersiei
(seciunea Dispersion). Vom putea calcula
abaterea standard, prin bifarea casetei Std.
deviation, variana, bifnd caseta
Variance sau amplitudinea de variaie cu
ajutorul casetei Range. De asemenea, este
posibil afiarea valorii minime i maxime din Figura 5.5 Selectarea
distribuia noastr prin bifarea casetelor Mi- indicatorilor mprtierii
nimum i Maximum. Seciunea permite i
calcularea erorii standard a mediei (caseta S.E mean), ns asupra acestui
element vom reveni ceva mai trziu.
Vom alege, dup cum putei observa n figura de mai sus, afiarea
Tabel 5.6 Indicatorii mprtierii
abaterii standard, a varianei, amplitudinii
distribuiei, minimului i maximului. Ap-
sm apoi butonul Continue pentru ca
SPSS s memoreze comenzile noastre i
ne ntoarcem n formularul anterior. Nu ne
mai rmne dect s apsm butonul
OK, pentru a lansa procedeul de analiz.

147
Statistic aplicat n tiinele socio-umane

Dup cteva fraciuni de secund, SPSS va afia n fereastra de rezul-


tate tabelul cu rezultatele comandate de noi. Automat, SPSS include i num-
rul de cazuri (N). Aflm, din analiza acestui tabel, c avem un numr de 30
de subieci (N=30) i toi subiecii au valori pentru variabila Varsta
subiectilor (Valid=30; Missing=0). Cu alte cuvinte, niciunul dintre aceti
subieci nu are necompletat valoarea pentru variabila vrst. Aflm, n con-
tinuare, c abaterea standard (Std. Deviation) este 5,523, iar variana (Va-
riance) este 30,506. Dac vei extrage rdcina ptrat din varian (30,506),
vei obine exact valoarea abaterii standard (5,523), ceea ce confirm teoria
expus mai sus. De asemenea, amplitudinea de variaie (Range) este 19, cu
alte cuvinte, ntre Minimum 20 i Maximum 39 pot exista cel mult 19 valori
posibile. Pare mult mai simplu dect s efectum manual calculele prezentate
la nceputul acestui capitol. Iat de ce SPSS i merit cu prisosin banii pe
care i solicit productorul

n concluzie:
Dincolo de tendina central, este necesar s studiem i modul n care rezultatele se
mprtie n jurul tendinei centrale prin calculul indicatorilor dispersiei;
Indicatorii dispersiei pot ine seama doar de anumite date i se numesc indicatori
elementari ai mprtierii sau de toate datele, cazul indicatorilor sintetici;
Indicatorii elementari ai mprtierii sunt:
o Amplitudinea de variaie absolut i relativ;
o Intervalul cuartil i abaterea cuartil;
Indicatorii sintetici ai mprtierii sunt:
o Diferena medie Gini;
o Oscilaia absolut i relativ;
o Abaterea medie;
o Abaterea median;
o Dispersia sau variana;
o Abaterea standard;
o Coeficientul de variaie.
Media i abaterea standard sunt indicatorii pe baza crora se caracterizeaz o dis-
tribuie normal;
Indicatorii dispersiei bazai pe medie pot fi calculai numai dac nivelul de msura-
re al variabilei este cel puin unul de interval i nu exist scoruri extreme n distri-
buie.

148
Cristian Opariuc-Dan

VI. DISTRIBUIA NORMAL


n acest capitol se va discuta despre:
Distribuia normal;
Analiza distribuiei normale;
Note standardizate;
Inventarul statistic de baz
Etaloane i sisteme de etalonare.
Dup parcurgerea capitolului, cursanii vor fi capabili s:
neleag caracteristicile unei distribuii norma-
le;
Analizeze o distribuie sub aspectul caracteristi-
cilor acesteia i s precizeze dac este sau nu
normal;
Realizeze i s interpreteze inventarul statistic
de baz utiliznd SPSS;
Transforme o not brut n note standardizate i
s precizeze poziia pe care o ocup scorul parti-
cular;
Decid ce sistem de etalonare poate fi utilizat n
funcie de distribuie i s realizeze un etalon.

Am menionat deseori acest concept al distribuiei normale i a venit


momentul s l abordm n detaliu. Vom ncepe, ca de obicei, cu un exemplu:
dac am avea posibilitatea s msurm nlimea tuturor brbailor din Ro-
mnia, am observa c exist
foarte puini pitici i foarte
Frecvena de apariie

puini gigani; ceva mai muli


oameni mici i, la fel, ceva
mai muli oameni foarte nali,
iar cei mai muli oameni sunt
de statur medie. Care ar fi,
aadar, probabilitatea ca s
nlimea subiecilor ntlnim n populaia masculi-
Figura 6.1 Distribuia nlimii tuturor brbailor
din Romnia

149
Statistic aplicat n tiinele socio-umane

n un gigant? Foarte mic. Ceva mai mare ar fi probabilitatea de a ntlni n


populaie un om nalt i foarte mare probabilitatea s ntlnim, de exemplu,
un om cu nlimea de 178 centimetri, nlime medie. Dac am reprezenta
grafic, printr-un grafic cu bare, nlimea tuturor brbailor din Romnia, am
obine o figur asemntoare cu figura de mai sus.
Privind cu atenie figura, observm c, la nlimi ale subiecilor foar-
te mici (piticii), frecvena de apariie este i ea foarte mic, apropiat de zero.
Pe msur ce nlimea crete, crete i frecvena de apariie a acesteia, astfel
nct va atinge un maximum n zona tendinei centrale, dup care ncepe din
nou s scad spre nlimi mari. La nlimi foarte mari (giganii), frecvena
de apariie se apropie din nou de zero.
Aceast distribuie este o distribuie normal i poate fi evaluat nu-
mai n cazul unei variabile continue. De aceea, distribuia normal se mai
numete i distribuie continu. O distribuie normal este pe deplin caracte-
rizat de medie, ca indicator al tendinei centrale i de abaterea standard, ca
indicator al dispersiei. Aceti doi indicatori poart numele de parametri ai
repartiiei normale. Dac cunoatem media i abaterea standard, putem ori-
cnd calcula probabilitatea de apariie a unei valori particulare n aceast dis-
tribuie.
Distribuia normal a fost descris prima dat de Ch. Fr. Gauss (1777-
1855) i de aceea distribuia normal se mai numete i distribuie
gaussian. Deoarece la demonstrarea acestui concept a participat i P.S. Lap-
lace (1749-1827), n literatura de specialitate se va ntlni i termenul de dis-
tribuie gauss-laplace. Toi aceti termeni se refer la acelai lucru, distribuia
normal.
Am vzut deja c media i abaterea standard descriu complet o distri-
buie normal. n literatur, se folosete pentru medie simbolul m sau x barat,
iar pentru abaterea standard simbolul s, atunci cnd vorbim de un eantion.

150
Cristian Opariuc-Dan

La nivel teoretic sau atunci cnd vorbim de populaii, folosim simbolul


pentru medie i simbolul pentru abaterea standard.
Pentru ca o distribuie s fie considerat normal, vor trebui ndeplini-
te simultan urmtoarele condiii:
S fie unimodal adic s existe un singur mod, o singur
categorie cu frecven maxim;
S fie simetric fa de medie adic s nu fie deplasat spre
stnga sau spre dreapta;
S fie normal boltit adic s nu fie nici ascuit (foarte
omogen) i nici turtit (foarte eterogen).
De asemenea, limitele din stnga i din dreapta ale unei distribuii
normale tind spre valoarea zero, pe care, ns, nu o ntlnesc niciodat. O
distribuie perfect normal are aceeai valoare pentru toi cei trei indicatori ai
tendinei centrale (media, mediana i modul), adic media = mediana = mod.
n practic, acest lucru se ntlnete extrem de rar i, de aceea, ne punem pro-
blema ntre ce limite putem considera o distribuie ca fiind normal.

VI.1 Modalitatea
O distribuie normal este o distribuie unimodal, adic exist doar o
singur categorie cu frecvena maxim. Prezena a dou sau mai multe valori
modale determin distribuii
bimodale, trimodale, n general
polimodale (multimodale), distri-
buii ce nu pot fi considerate ca
fiind distribuii normale.
O distribuie ca aceea din
figura 6.1 este o distribuie norma-
Figura 6.2 Distribuie bimodal l. O distribuie similar distribu-

151
Statistic aplicat n tiinele socio-umane

iei din figura 6.2 este o distribuie bimodal, deoarece observm existena a
dou categorii cu frecvena egal i maxim.
Normalitatea distribuiei, sub aspectul modalitii, se verific prin cal-
cularea valorii mod. Dac exist o singur valoare cu frecvena maxim,
atunci distribuia poate fi considerat normal sub acest aspect. n condiiile
n care sunt dou sau mai multe valori cu frecvena maxim i, evident, egal,
distribuia este polimodal (multimodal) i nu poate fi considerat ca fiind
normal.

VI.2 Simetria
O distribuie este simetric, dac valorile sunt egal (simetric) rspn-
dite n jurul tendinei centrale. Atunci cnd rezultatele tind ctre valori mici,
sunt aglomerate n partea stng a
distribuiei, avem de a face cu o
distribuie asimetric spre dreapta
(sau distribuie skewness pozitiv).
Cnd rezultatele tind ctre valori
mari, se aglomereaz n partea
dreapt a distribuiei, vorbim des-
pre o distribuie asimetric la
stnga (skewness negativ). Iat c
Figura 6.3 Distribuie simetric (B), asimetric
la dreapta (A) i asimetric la stnga (C) asimetria este dat de panta distri-
buiei i nu de vrful acesteia, aa
cum trateaz i consider unii.
n figura 6.3, distribuia B este o distribuie simetric. Distribuia
A este o distribuie asimetric la dreapta (skewness pozitiv), unde predo-
min scorurile sczute, n timp ce distribuia C este o distribuie asimetric
la stnga (skewness negativ), n care predomin scorurile mari.

152
Cristian Opariuc-Dan

Nu ne putem limita la o apreciere pur vizual a simetriei; acest lucru


necesit demonstrarea statistic a simetriei sau a asimetriei distribuiei. n
acest scop exist mai muli coeficieni care pot fi calculai.

VI.2.1 Coeficientul Yule


Coeficientul msoar gradul de asimetrie prin raportul dintre diferena
i suma abaterilor cuartile i se calculeaz dup formula alturat. Observm
c, pentru a calcula acest coeficient, este necesar s calculm pur i simplu
cele trei cuartile, dup metoda prezentat ntr-unul dintre capitolele anterioa-
re.
3 2 2 1
= (formula 6.1)
3 2 + 2 1

Coeficientul poate lua, n general, valori de la -1 la +1 i indic mri-


mea asimetriei negative sau pozitive. Cu ct valorile sunt mai apropiate de 0,
cu att distribuia este mai simetric. Cu ct se apropie de -1 sau de +1, ea
devine tot mai asimetric spre stnga sau spre dreapta.
Acest coeficient este foarte uor de calculat, ns ine cont doar de c-
teva valori valorile cuartile i nu de toate valorile din distribuie, fapt care
i limiteaz precizia i se consider c este doar un coeficient elementar al
simetriei.
S ne reamintim exemplul de calcul al cuartilelor, din capitolul ante-
rior. Am stabilit atunci i nu vom mai intra acum n detalii, c primul cuartil
(Q1) are valoarea 12,03, al doilea cuartil (Q2) este 16,16, iar al treilea cuartil
(Q3) avea valoarea 25,75. nlocuind n formula noastr, obinem valoarea
negativ -1,35, indicnd o asimetrie spre stnga, adic o tendin ctre scoruri
mari, fapt ce se poate observa cu uurin din distribuia statistic.

VI.2.2 Coeficientul de asimetrie Fisher


Coeficientul de asimetrie al lui Fisher nu se bazeaz pe cteva ele-
mente, precum coeficientul Yule, ci pe toate valorile din distribuie i se cal-

153
Statistic aplicat n tiinele socio-umane

culeaz folosindu-se momentele centrate. Variana, de exemplu, este momen-


tul centrat de ordin doi, deoarece am ridicat la ptrat fiecare diferen dintre o
valoare particular i medie. Dac ridicm aceste diferene la cub, obinem
momentul centrat de ordin 3, iar dac ridicm la puterea a patra, momentul
centrat de ordin patru. tim, de la abaterea standard, c ridicarea la ptrat
amplific ponderea pe care o au variabilele distanate puternic de la medie.
Aceast pondere este amplificat i mai mult prin ridicare la cub, ns, de
aceast dat, va fi luat n considerare i semnul cubului diferenelor.

3
1 = 33 = =1
(formula 6.2)
3

Dac raportm momentul de ordin trei la cubul abaterii standard, ob-


inem exact expresia coeficientului de asimetrie a lui Fisher.
Iat o prim formul care, probabil, v va determina s aruncai cartea
din mn. Dac ai ajuns la aceast fraz, dac acum continuai s citii, n-
seamn c dumneavoastr chiar dorii s nvai serios aceste noiuni Ide-
ea este c, dei pare complex, formula nu face altceva dect s calculeze un
fel de varian, doar c nu mai ridi-
Tabel 6.1 Calculul coeficientului de
cm numai la ptrat fiecare diferen asimetrie
ntre scorul obinut, ci i la cub. Proce- xi x i -m (xi-m)2 (xi-m)3
10 -9,6 92,16 -884,736
deul nu este deloc mai complicat dect 22 2,4 5,76 13,824
calculul varianei, dup cum vom vedea 31 11,4 129,96 1481,544
9 -10,6 112,36 -1191,02
n urmtoarele exemple.
24 4,4 19,36 85,184
Relund exemplul cu date dis- 27 7,4 54,76 405,224
29 9,4 88,36 830,584
crete, ne amintim c avem urmtoarele 9 -10,6 112,36 -1191,02
date 10, 22, 31, 9, 24, 27, 29, 9, 23, 12, 23 3,4 11,56 39,304
12 -7,6 57,76 -438,976
pentru care media este 19,6, iar numrul
684,4 -850,08
de msurtori este 10.

154
Cristian Opariuc-Dan

De asemenea, am aranjat aceste date ntr-un tabel pentru a ne uura


procedeul de calcul. Tot la calculul dispersiei, v amintii, am fcut ptratul
diferenelor (xi-m)2, dup care suma ptratelor.
n formul trebuie s mai calculm cubul acestor diferene (pentru
momentul centrat de ordin trei). Vom mai aduga o coloan pe care o vom
denumi (xi-m)3 i vom ridica la puterea a treia fiecare diferen xi-m. La final,
vom face suma ptratelor i suma cuburilor. Suma cuburilor poate fi un nu-
mr pozitiv sau negativ, n funcie de ponderea pe care o au abaterile scoruri-
lor nspre partea dreapt sau nspre partea stng fa de medie. n acest mo-
ment, nu ne rmne dect s nlocuim n formul. Suma ptratelor este 684,4,
suma cuburilor este -850,08, iar numrul de msurtori este 10. nlocuind,
obinem urmtoarele momente de ordin trei i doi, prezentate n figura altu-
rat. Dup efectuarea calculelor, obinem un coeficient de asimetrie de - 0,15,
coeficient care indic o distribuie simetric.
3 850,08 850,08
1 = = 3 = = 0,15
3 684,4 5661,93
10 10

Similar se realizeaz calculele i n cazul datelor grupate n clase, de-


rivnd din formula de calcul a dispersiei pentru date grupate. Acest exemplu
l lsm ca exerciiu.
Acest coeficient are valoarea zero pentru distribuii perfect simetrice.
Valorile negative sunt considerate asimetrii la stnga, iar valorile pozitive
indic asimetrii la dreapta. O valoare zero este ns o valoare pe care o vom
ntlni foarte rar n practic. n mod normal, valorile sunt diferite de zero.
ns nu orice valoare diferit de zero poate indica o asimetrie care s devieze
semnificativ de la distribuia normal. Vom vedea, puin mai trziu, care sunt
limitele ntre care, totui, putem considera normal o distribuie asimetric.

Exerciiu:

155
Statistic aplicat n tiinele socio-umane

Calculai coeficientul de asimetrie, folosind distribuia n clase pre-


zentat la capitolul de calcul a dispersiei.
Atunci cnd discutm despre asimetrie, trebuie s precizm o serie de
relaii care apar ntre indicatorii tendinei centrale, medie, median i mod.
ntr-o distribuie perfect simetric, media, mediana i mo-
dul au exact aceleai valori. Caracteristica acestei distribuii o
reprezint coincidena abso-
lut a celor trei indicatori ai
tendinei centrale. Dup
cum putei observa n figura
alturat, att media, ct i
mediana i modul, se afl n
acelai punct, la mijlocul
distribuiei. Grupa subieci- Figura 6.4 O distribuie perfect simetric
lor cu scoruri mai mici de-
ct media este perfect simetric cu grupa subiecilor cu scoruri
mai mari dect media. Acest aspect este menionat din raiuni
teoretice. n practic, nu vom ntlni o distribuie perfect nor-
mal, ci o distribuie care poate fi acceptat ca fiind o distribu-
ie normal.
ntr-o distribuie asimetric
la dreapta (distribuie
skewness pozitiv, vezi figura
alturat), predomin scoruri-
le mici. n acest caz, modul
este valoarea situat cel mai
la stnga n irul de date, iar Figura 6.5 O distribuie asimetric
la dreapta
mediana este mai mic dect
media. Evident, mediana fiind valoarea care mparte irul or-

156
Cristian Opariuc-Dan

donat de date n dou pri egale, iar dac n distribuie pre-


domin scorurile mici, atunci scorurile mari sunt considerate
ca scoruri extreme. tim, de la analiza preciziei indicatorilor
tendinei centrale, c, ntr-o serie de date n care ntlnim sco-
ruri extreme mari, media tinde s le pun n valoare. Iat c
acest fapt este ilustrat grafic n figura de mai sus. Observai re-
laia existent ntr-o asemenea distribuie: Mo<Me<m. Aceas-
t relaie este relaia caracteristic a unei distribuii asimetrice
pozitiv.
ntr-o distribuie asimetric la stnga (distribuie skewness
negativ, vezi figura alturat), predomin scorurile mari. n
acest caz, modul este valoarea situat cel mai la dreapta n i-
rul de date, iar mediana este mai mare dect media. Evident,
mediana fiind valoarea ca-
re mparte irul ordonat de
date n dou pri egale, iar
dac n distribuie predo-
min scorurile mari, atunci
scorurile mici sunt consi-
derate ca scoruri extreme. Figura 6.6 O distribuie asimetric la
tim, de la analiza precizi- stnga

ei indicatorilor tendinei
centrale, c, ntr-o serie de date n care ntlnim scoruri extre-
me mici, media tinde s le pun n valoare. Iat c acest fapt
este ilustrat grafic n figura de mai sus. Observai relaia exis-
tent ntr-o asemenea distribuie: Mo>Me>m. Aceast relaie
este relaia caracteristic a unei distribuii asimetrice negativ.
n baza acestor relaii stabilite ntre medie i median, dar lund n
considerare i abaterea standard, o variant a coeficientului skewness poate fi

157
Statistic aplicat n tiinele socio-umane

3
calculat dup formula: = , unde x barat reprezint media, Me

reprezint mediana, iar abaterea standard. Valorile sale se interpreteaz la
fel ca orice coeficient de asimetrie. Avnd n vedere simplitatea acestei for-
mule, exersarea ei pe unul dintre exemplele de mai sus v-o lsm ca exerci-
iu.
Simetria este al doilea aspect important al unei distribuii normale. O
distribuie normal este o distribuie simetric.

VI.3 Boltirea sau excesul


Asimetria pe orizontal presupune, dup cum am vzut, o deplasare a
tendinei centrale spre stnga sau spre dreapta, ctre scoruri mici sau ctre
scoruri mari. Aceasta este singura asimetrie posibil? Ei bine, nu. Exist i
un fel de asimetrie vertical sau
boltire. Termenul folosit generic
pentru acest concept este termenul
de kurtosis (din limba greac, kurtos
= cocoat). Practic, boltirea se
refer la aspectul cocoaei distri-
buiei rezultatelor. Cocoaa poate fi
ascuit i atunci putem vorbi de o
Figura 6.7 Distribuie mezocurtic (A), distribuie ascuit sau leptocurtic,
leptocurtic (C) i platicurtic (B)
poate fi turtit, distribuia turtit,
plat sau platicurtic sau normal,
distribuie mezocurtic. O distribuie normal este ntotdeauna o distribu-
ie mezocurtic.
n figura de mai sus, distribuia C este o distribuie leptocurtic, as-
cuit. Distribuia B este o distribuie platicurtic, turtit, iar distribuia A
este o distribuie normal sub aspectul boltirii sau mezocurtic.

158
Cristian Opariuc-Dan

Ai observat deja c boltirea nu este altceva dect simetria pe axa ver-


tical (OY), spre deosebire de simetria propriu zis, deplasarea valorilor pe
axa orizontal (O X). Dac la simetrie vorbeam de frecvene (Care sunt cele
mai frecvente scoruri obinute, unde se concentreaz acestea? n eantionul
nostru avem mai degrab subieci mici sau subieci nali? Ori, poate, exist
un echilibru ntre subiecii scunzi i cei nali?), la boltire discutm de valori,
de modul n care aceste valori se grupeaz n jurul tendinei centrale (dac
sunt mai grupate valorile n jurul mediei sau, din contra, foarte mprtiate).
La fel ca simetria, boltirea nu poate fi apreciat pur ochiometric, ci
avem nevoie i aici de anumii coeficieni rezultai din formule de calcul spe-
cifice. Pearson a discutat despre boltire n termeni de momente, la fel ca si-
metria, rezultnd astfel coeficientul de boltire sau coeficientul kurtosis.

4
2 = 42 = =1
(formula 6.3)
2 4

Dac skewness reprezenta raportul dintre momentul centrat de ordin


trei i momentul centrat de ordin doi, coeficientul de boltire reprezint rapor-
tul dintre momentul centrat de ordin patru i momentul centrat de ordin doi.
Formula nu ar trebui s v pun probleme dac ai neles modalitatea
de calculare a coeficientului de asimetrie. Tehnica este asemntoare.
Una dintre recomandrile interpretative ale coeficientului de boltire
afirm c o distribuie normal are un coeficient de boltire egal cu 3, iar
comparaiile se fac n funcie de aceast valoare. Pe msur ce coeficientul de
boltire are valori mai mari de 3, distribuia este din ce n ce mai cocoat
(leptocurtic), iar cu ct acest coeficient scade de la valori mai mici dect 3,
cu att distribuia este mai plat (platicurtic).
Deoarece n practica statistic suntem obinuii mai degrab cu coefi-
cieni care iau n considerare valori ntre -1 i +1, o variant a formulei de
mai sus, care-i pstreaz aceeai valoare interpretativ, poate fi urmtoarea:

159
Statistic aplicat n tiinele socio-umane


4 =1 4
2 = = 3 (formula 6.4)
22 4

Sunt i alte modaliti de interpretare ale acestui coeficient, modaliti


pe care le vom discuta imediat, n subcapitolul destinat aplicaiilor practice.
Vom reconsidera exemplul folosit la aprecierea simetriei, n vederea
calculrii boltirii. De data aceasta, nu mai suntem interesai de ridicarea la
cub a diferenelor dintre valori i medie, ci de ridicarea la puterea a patra,
pentru a afla momentul centrat de ordin Tabel 6.2 Calculul coeficientului de boltire
patru. Dup efectuarea calculelor, suma xi xi-m (xi-m)2 (xi-m)4
10 -9,6 92,16 8493,466
ptratelor diferenelor este 684,4, iar
22 2,40 5,76 33,1776
suma ridicrii la puterea a patra a dife- 31 11,40 129,96 16889,6
renelor va fi 65316,59. Acum va trebui 9 -10,60 112,36 12624,77
s aplicm formula de calcul i vom 24 4,40 19,36 374,8096
obine valoarea coeficientului kurtosis 27 7,40 54,76 2998,658
29 9,40 88,36 7807,49
de 1,39, ceea ce determin o distribuie
9 -10,60 112,36 12624,77
uor platicurtic. Acest lucru devine 23 3,40 11,56 133,6336
mai evident, dac aplicam formula a 12 -7,60 57,76 3336,218
doua i scdem valoarea 3. Va rezulta Suma 684,4 65316,59
un coeficient de boltire de -1,61, putnd suspecta aceast form a distribuiei.
4 65316,59 65316,59
2 = = = = 1,39
22 684,4
4 46840,30
10 10

O distribuie leptocurtic, ascuit, arat c datele sunt foarte


grupate i apropiate de medie, lotul de subieci avnd un mare
grad de omogenitate a scorurilor. Aceast distribuie nu ridic
niciun fel de probleme atunci cnd trebuie s difereniem su-
biecii care obin scoruri mici sau mari. Avem ns dificulti
atunci cnd trebuie s difereniem subiecii din zona medie a
distribuiei. De exemplu, ntr-o clas de 30 de elevi, 27 obin

160
Cristian Opariuc-Dan

medii anuale ntre 7,9 i 8,1. Iat c, doar dou zecimi diferen-
iaz ntre elevii aproape a ntregului efectiv al clasei. Nu
avem nicio problem cu repartizarea celorlali trei elevi. Pe
aceia i vom considera ori foarte buni, ori foarte slabi, n func-
ie de media obinut sub 7,9 sau peste 8,1. Ce ne facem ns
cu cei 27 de subieci? Suntem, iat, n imposibilitatea de a-i ie-
rarhiza n vreun fel. Dac presupunem c cei trei subieci au
note mai mari de 8,1, atunci cine va lua, dintre cei 27 de elevi,
premiul I, cine va lua premiul II i cine va lua premiul III. De-
cizia ar fi, dup cum se poate vedea, extrem de dificil, dac
nu chiar imposibil. Singura variant n acest caz, ar putea fi
creterea preciziei. Nu calculm media cu o singur zecimal,
ci cu 2, 3 sau 4 zecimale. Totui, sunt situaii n care un ase-
menea nivel de precizie este ridicol. O evaluare n care distri-
buia rezultatelor este leptocurtic va fi o evaluare ce nu poate
diferenia ntre subiecii de nivel mediu, iar o curb
leptocurtic nu este o distribuie normal.
O distribuie platicurtic, plat este o distribuie n care rezul-
tatele sunt foarte mprtiate fa de medie i care indic un
grad ridicat de eterogenitate a scorurilor. Problema general a
acestei distribuii, n opoziie cu distribuia leptocurtic, este
aceea c difereniaz greu la extreme i destul de bine n zona
mediei. Va fi greu, utiliznd o asemenea distribuie, s facem
diferenieri ntre elevii slabi i elevii buni, dei putem diferen-
ia relativ uor elevii medii. Datorit acestui fapt, o distribuie
platicurtic nu este nici ea o distribuie normal.
O distribuie normal este o distribuie mezocurtic.
Analiza unei distribuii sub aspectul normalitii este primul pas pe
care-l facem n orice prelucrare de date. Deoarece, n funcie de rezultatul

161
Statistic aplicat n tiinele socio-umane

acestei analize, vom putea alege tehnicile i procedeele statistice pe care le


putem folosi, aceast etap o ntlnim, de obicei, la nceputul oricrui raport
de cercetare, imediat dup descrierea eantionului.
Dei modalitatea, simetria i boltirea se pot analiza separat, n practic
putem avea surpriza ca cei doi indicatori, al simetriei i al boltirii, s-i cu-
muleze efectele i, cu toate c separat putem aprecia o distribuie ca fiind
normal, luat per ansamblu, vom constata c distribuia nu este normal.
Exist, aadar, alte tehnici de verificare a distribuiei normale, tehnici pe care
le vom discuta ntr-un alt volum, deoarece mai avei nevoie de unele informa-
ii suplimentare.

VI.4 Caracterizarea distribuiei normale


Afirmam, n capitolul anterior, c media i abaterea standard caracte-
rizeaz pe deplin o distribuie normal.
Teoretic, exist un numr infinit de
abateri standard la dreapta i la stnga
mediei. Practic, considerm c o dis-
tribuie normal are un numr de ase
abateri standard: trei la dreapta mediei
i trei la stnga mediei, deoarece vo-
lumul de populaie care rmne n afa-
ra acestor limite este nesemnificativ i Figura 6.8 Distribuia normal
poate fi ignorat. La o distribuie perfect
normal, jumtate din rezultate se situ-
eaz n dreapta mediei (rezultatele mari) i jumtate din rezultate se situeaz
n stnga mediei (rezultate mici).
ntre o abatere standard la stnga mediei i o abatere standard
la dreapta mediei, ntlnim aproximativ 68% din populaie
(mai precis 68,28%, cu 34,13% ntre medie i o abatere stan-
dard la stnga i tot 34,13% ntre medie i o abatere standard

162
Cristian Opariuc-Dan

la dreapta). Aceasta este zona normal, zona n care rezultate-


le pot fi considerate tipice. Dac lum, ca exemplu, coeficien-
tul de inteligen, n aceast zon se afl persoanele considera-
te normale sub aspect intelectual.
ntre dou abateri standard la stnga mediei i dou abateri
standard la dreapta, ntlnim aproape 95% din populaie (mai
precis 95,44% cu 47,72% ntre medie i dou abateri standard
la stnga i 47,72% ntre medie i dou abateri standard la
dreapta.). Zona ntre o abatere standard i dou abateri stan-
dard, att la stnga ct i la dreapta, este zona rezultatelor ac-
centuate i cuprinde, fiecare, cte 13,59% din populaie. Ast-
fel, ntre o abatere standard la stnga i dou abateri standard
la stnga, de afl persoanele cu un intelect mai redus, intelect
de limit. La fel, ntre o abatere standard la dreapta i dou
abateri standard la dreapta, se afl persoanele cu o inteligen
peste medie, cei detepi.
ntre trei abateri standard la stnga mediei i trei abateri stan-
dard la dreapta mediei, ntlnim aproximativ 99% din popula-
ie (mai precis 99,74% cu 49,87 % ntre medie i trei abateri
standard la stnga i 49,87% ntre medie i trei abateri stan-
dard la dreapta). Aceast zon este zona rezultatelor atipice.
Zona ntre dou abateri standard la stnga i trei abateri stan-
dard la stnga, este zona deficienilor mintali, cu un intelect
extrem de redus. n aceast zon, ntlnim 2,15% din popula-
ie, acelai procent ca i n zona situat ntre dou i trei aba-
teri standard la dreapta, zona celor cu o inteligen deosebit, a
persoanelor supradotate. Iat c, ntre deficienii mintali i su-
pradotai ntlnim aproape ntreaga populaie, peste 99%.

163
Statistic aplicat n tiinele socio-umane

Mai rmne, aproximativ 1% din populaie (mai exact 0,26%),


situat fie dup trei abateri standard la stnga (0,13%), fie du-
p trei abateri standard la dreapta (0,13%). Iat i zona rezul-
tatelor aberante, zon n care gsim mai puin de 1% din po-
pulaie. Dup trei abateri standard la stnga, l gsim pe idi-
otul idioilor, iar dup trei abateri standard la dreapta, l gsim
pe Einstein. Iat, aceast zon este zona idioiei sau a geniilor.
Spuneam c, dac noi cunoatem media i abaterea standard, putem
calcula probabilitatea cu care un rezultat particular se ncadreaz ntr-una
dintre aceste zone. S considerm c figura de mai sus reprezint o distribuie
perfect normal a rezultatelor unui test, la care scorurile variaz de la 0 la
100. Un subiect care obine nota brut 64, este situat n zona medie, foarte
aproape de rezultatele zonei superioare, n timp ce un subiect cu nota brut 27
se situeaz n zona accentuat inferioar. Iat c, astfel, ajungem la un alt
concept n statistic, i anume la conceptul poziie a unui scor particular n
raport cu rezultatele unui grup reprezentativ de persoane (eantion). Oare nu
cumva acest lucru seamn foarte bine cu un alt termen vehiculat n psiholo-
gie i anume termenul de etalon? Ba da, ai presupus foarte bine, chiar despre
etaloane este vorba. ns, pn s le aprofundm, vom aborda un alt element
de baz, i anume conceptul de note z.

VI.4.1 Notele z i note standard derivate


Cnd am discutat de abaterea standard, am vzut c aceasta reprezint
un mijloc de raportare a modului n care rezultatele se mprtie n jurul
mediei. De asemenea, am spus c, dac cunoatem media i abaterea standard
a unei distribuii, putem foarte uor s precizm probabilitatea ca un scor par-
ticular s se situeze ntr-o anumit poziie. Pentru disciplinele socio-umane,
acest lucru este vital, deoarece, atunci cnd msurm, practic precizm pozi-
ia pe care o are un subiect n raport cu o populaie de referin. Este ideal ca
aceast poziie s poat fi prezentat ntr-o manier standardizat. Acest lucru

164
Cristian Opariuc-Dan

poate fi uor de ndeplinit atunci cnd avem n vedere conceptul de note stan-
dardizate. La baza acestui concept stau notele z. Notele z reprezint
diferena dintre scorul observat i medie, n termeni de abatere stan-
dard. Cu alte cuvinte, notele z nu sunt altceva dect distanele la care se
situeaz scorurile particula-
re n raport cu media grupu-
lui, iar aceast distan este
exprimat standardizat.
Teoretic, notele z
sunt note obinute pe o
curb cu media 0 i abate-
rea standard 1. n acest caz,
o distribuie normal are
practic notele z cuprinse
ntre -3 i +3, ntre aceste
note regsindu-se peste 99%
din populaie, dup cum
observai n figura de al-
Figura 6.9 Diferite sisteme de note standard
turi.
Transformarea note-
lor obinute de ctre un subiect n note z este foarte simpl i se face dup
formula:

= (formula 6.5)

n care x reprezint nota brut, scorul obinut de ctre subiect, x barat


reprezint media eantionului cu care comparm performana subiectului, iar
sigma se refer la abaterea standard a acelui eantion.

165
Statistic aplicat n tiinele socio-umane

De exemplu, ntr-o coal, media elevilor unei clase la matematic es-


te de 6,25 cu o abatere standard de 3,94. Georgel a obinut, la matematic,
media 7,15. Ne intereseaz s tim dac Georgel este un elev mediu la mate-
matic, un elev bun sau un elev slab. Intuitiv, am putea spune c este un elev
bun, deoarece media lui este mai mare dect media clasei. Nu putem ti ns
cu precizie acest lucru, deoarece nu cunoatem cum se distribuie notele celor-
lali elevi n jurul mediei. Acest lucru ni-l spune abaterea standard. Cu alte
cuvinte, va trebui s precizm poziia pe care o ocup Georgel n cadrul gru-
pului de referin din care face parte, adic raportat la elevii din clasa sa.
Acest lucru devine posibil prin calculul notei z a lui Georgel, not care ne
spune la cte abateri standard se
afl scorul su n raport cu cla-
sa. Aplicnd formula de mai
sus, observm c nota z a lui
Georgel la matematic este de
7,156,25 0,9
= = 0,22. Deci
3,94 3,94
Georgel se situeaz, din punctul
de vedere al performanei sale la
matematic, la 0,22 abateri
standard fa de medie, adic n
zona punctului rou marcat pe
Figura 6.10 Reprezentarea poziiei unui subiect n
figura 6.10. funcie de nota z

Performana sa la mate-
matic este, prin urmare, o performan medie, situndu-se ntre medie i o
abatere standard la dreapta, deci n zona scorurilor medii.
Spre deosebire de Georgel, Costel are media la matematic de 4,08.
Este oare Costel un elev slab, un elev mediu sau un elev foarte slab? Nota z
a lui Costel este 0,55. i aceast not se situeaz ntre medie i o abatere
standard la stnga de aceast dat. Iat c, n ciuda aparenelor, raportat la

166
Cristian Opariuc-Dan

performana elevilor din clas, dei are media sub cinci, Costel este un elev
mediu la aceast disciplin.
Cred c intuii deja ce se ntmpl. n domeniul socio-uman, noi nu
putem niciodat s msurm ceva cu exactitate. Putem doar s comparm
rezultatul unui subiect cu rezultatul unui grup de referin. Comparaia aceas-
ta se poate realiza numai dac cunoatem media i abaterea standard a grupu-
lui de referin, n cazul n care, distribuia caracteristicii msurate n cadrul
grupului de referin este o distribuie normal.
Pentru a v clarifica mai bine acest concept, s lum un nou exemplu.
Avem un test de inteligen cu 20 de probleme. Dac subiectul rezolv corect
o problem, primete un punct. Dac nu o rezolv corect, primete zero punc-
te. Deci, scorul unui subiect poate varia de la zero puncte, atunci cnd nu
rezolv corect nici o problem, i pn la 20 de puncte, atunci cnd le rezolv
corect pe toate.
Avem dou persoane: Vasile, obine un scor la acest test de 10 puncte,
iar Viorel, un scor de 12 puncte. ntrebare: putei spune care dintre cei doi
subieci este mai bun? Care are un nivel intelectual mai ridicat?
Cei mai muli dintre dumneavoastr vor zmbi acum complice i mi
vor spune: Evident c Viorel, deoarece a rezolvat mai multe probleme.
Poate avei dreptate. ns, iat c v mai dau un amnunt. Vasile este cioban,
iar ciobanii rezolv corect, n medie, 7 probleme. Lucrurile se schimb acum.
Vasile poate obine linitit funcia de baci, deoarece nivelul su intelectual
este mai ridicat n comparaie cu nivelul ciobanilor. Viorel este profesor, iar
profesorii rezolv corect, n medie, 18 probleme. Fa de grupul profesorilor,
Viorel este cioban.
Dei exagerat, scopul acestui exemplu este acela de a v convinge c
notele brute, scorurile, nu ne spun nimic prin ele nsele. Notele brute dobn-
desc semnificaie numai n urma comparrii cu o populaie de referin. Pu-

167
Statistic aplicat n tiinele socio-umane

tem afirma despre cineva c este bun sau slab numai n raport cu un reper, cu
un grup de referin. Probabil c eu sunt bun la statistic n comparaie cu
studenii crora le predau aceast disciplin i slab n raport cu unii profesori
de ai mei sau cu Spearman ori Pearson. Termenul de bun sau slab dobndete
semnificaie numai raportat la un reper.
Toate aceste informaii servesc drept suport procesului de etalonare.
Un etalon nu este altceva dect un sistem de norme, la care se raporteaz per-
formana unui individ, la o anumit sarcin. Evident, un etalon este fcut pe o
anumit populaie, iar raportnd un rezultat al unui subiect la un etalon, nu
facem altceva dect s comparm performanele acelui subiect cu performan-
ele grupului pe care a fost construit etalonul. Despre etaloane vom discuta
ns imediat.
Notele z au i ele o serie de proprieti cu aplicabilitate practic de-
osebit, dintre care menionm (Popa, 2006):
Media unei distribuii z este egal cu zero, afirmaie care
rezult din proprietatea acestui indicator de a se diminua
atunci cnd scdem o constant din fiecare scor particular.
Deoarece din formul rezult aceast diferen (se scade fieca-
re scor particular din medie), n final media va ajunge la valoa-
rea zero.
Abaterea standard a unei distribuii z este ntotdeauna 1. i
aceast afirmaie rezult din proprietile abaterii standard.
tim c, dac mprim abaterea standard la o constant, va-
loarea acesteia se divide corespunztor. Din formul, obser-
vm c acea constant la care mprim este chiar abaterea
standard, iar mprirea a dou numere egale are ca rezultat 1.
Notele z sunt note direct calculabile, utilizndu-se media i abaterea
standard i reprezint temelia oricrui proces de standardizare. Totui,

168
Cristian Opariuc-Dan

principalul dezavantaj al notelor z este acela c sunt puin intuitive. Trebuie


s tim bine ce nseamn distribuia normal, pentru a nelege corect semni-
ficaia acestor note. n plus, au valori pozitive i negative, ceea ce le face,
iari, greu de utilizat.
Ar fi mai uor pentru noi dac, n loc s folosim o scal de la 3 la 3
pentru ncadra aproximativ 99% din populaie, am folosi o alt scal, de
exemplu de la 1 la 10, mult mai intuitiv, deoarece se asociaz rapid sistemu-
lui colar de evaluare sau o scal de la 1 la 5, de la 1 la 9 i aa mai departe.
Este oare posibil acest lucru? Dac ne amintim de proprietile scalei de in-
terval, prezentate la nceputul acestei lucrri, vom constata c una dintre aces-
te proprieti se referea la deplasare, prin modificarea constantei de deplasare.
Notele z au o constant de deplasare zero. Dac mrim aceast constant de
deplasare, vom putea s deplasm distribuia, astfel nct s nu ne mai situ-
m n zona scorurilor standardizate negative. Obinem astfel un alt sistem de
note standardizate, mai intuitiv i mai practic. Asemenea scale standardizate,
derivate din notele z, sunt staninele (numele provine din englezescul stan-
dard nine), un sistem n nou clase normalizate, sten (din englezescul stan-
dard ten), n zece clase normalizate, notele T sistem raportat la o distri-
buie cu media 50 i abaterea standard 10, abateri IQ media 100 i abate-
rea standard 15 etc.
Relund exemplele anterioare, ne propunem s convertim scorurile
z ale lui Georgel i Costel n stanine, sten, note T i abateri IQ. V reamin-
tesc c media elevilor clasei la matematic este de 6,25 cu o abatere standard
de 3,94, iar Georgel a obinut, la matematic, media 7,15 i Costel 4,08.
Pentru a calcula scorurile sten, vom deplasa distribuia cu media sca-
lei sten care este, evident, 5,5, iar formula de calcul va deveni:

= 5,5 + = 5,5 + . (formula 6.6)

169
Statistic aplicat n tiinele socio-umane

Aadar, scorul sten al lui Georgel este de 5,5+0,22, adic 5,72. Obser-
vm c poziia acestui scor nu modific punctul n care se afl Georgel pe
distribuia normal, ns scorul devine mult mai intuitiv. Media 5,75 la ma-
tematic ne spune mult mai multe dect 0,22. Scorul n stanine al lui Georgel
se calculeaz similar. Pe o scal de la 1 la 9, media este evident 5. Prin urma-
re, deplasm scala cu 5 de aceast dat i obinem 5 + 0,22 = 5,22. Obinem,
de fapt, exact acelai lucru, ns pe o scal de la 1 la 9 i nu de la 1 la 10 ca n
exemplul anterior.
Pentru notele T, avem de a face att cu o deplasare, ct i cu o ex-
tindere a intervalelor. Afirmam c scala T este o scal cu media 50 i aba-
terea standard 10, iar n acest caz, formula de calcul a notelor T va deveni:

= 50 + 10 = 50 + 10. (formula 6.7)

Nota T a lui Georgel, pe o scal de la 1 la 50 va fi, aadar, 50 +


10x0,22, adic 50 + 2,2 ceea ce nseamn 52,2. Surpriz. Din nou, nu se mo-
dific poziia acestui scor pe curba de distribuie. La fel putem proceda i n
cazul calculului abaterilor IQ. Formula, de aceast dat, va fi similar celei
pentru note T:

= 100 + 15 = 100 + 15. (formula 6.8)

n cazul nostru, rezultatul devine 100 + 15x0,22, adic 100 + 3,3, ceea
ce nseamn 103,3. Remarcm c, nici n acest caz, nu se modific poziia
subiectului pe curba de distribuie.
Iat ct de uor putem raporta att performanele subiectului la per-
formanele grupului din care acesta face parte, ct i care sunt semnificaiile
acestei raportri, indiferent de sistemul de scale standard utilizat. Calculul
notelor standardizate derivate ale lui Costel vi-l lsm dumneavoastr ca
exerciiu.

170
Cristian Opariuc-Dan

O alt caracteristic extrem de important a scorurilor standardizate


este aceea c putem efectua comparaii ntre rezultatele obinute de ctre su-
bieci la probe diferite care folosesc ele nsele scale diferite. De exemplu,
dac comparm performanele unui subiect la un test de inteligen, care are
60 de probleme cu performanele obinute de acelai subiect la o prob de
comprehensiune semantic, ce are 30 de probleme, iar subiectul obine o not
brut la testul de inteligen de 40, iar la cel de comprehensiune semantic de
28, atunci putem oare afirma c subiectul are o inteligen mai bun n com-
paraie cu capacitatea sa de comprehensiune semantic? Categoric nu! Chiar
i la prima vedere, n condiiile n care ambele teste au acelai sistem de
scorare, constatm c primul are mai multe ntrebri dect al doilea. Sunt 20
de probleme nerezolvate de subiect la testul de inteligen n comparaie cu 2
nerezolvate la cel de comprehensiune semantic. Este imposibil s comparm
direct aceste dou rezultate, mai nti trebuie s le aducem la un numitor co-
mun. Acest numitor comun l reprezint notele standardizate.
Prin urmare, va trebui s calculm notele z (sau orice alte note stan-
dardizate) ale acestui subiect la cele dou teste i apoi vom putea s compa-
rm rezultatele obinute utilizndu-se aceste note standardizate. De nenum-
rate ori mi-a fost dat s vd lucrri ale studenilor prin care acetia comparau
rezultatele subiecilor la dou teste diferite att sub aspectul numrului de
itemi, ct i sub aspectul sistemului de cotare. E ca i cum a compara dou
kilograme de mere cu 2 metri de sfoar. O asemenea abordare este complet
eronat i nu duce la niciun fel de rezultat. Trebuie gsit un numitor comun,
pe care l regsim sub forma acestor note standardizate.

VI.5 Transformarea datelor brute


Consider c v-am convins de avantajele utilizrii notelor standardiza-
te. Totui, folosirea lor este condiionat de o distribuie normal sau foarte
apropriat de cea normal. n absena criteriului normalitii, tot demersul
menionat mai sus nu se mai susine. Am vzut c sunt destule situaii n care

171
Statistic aplicat n tiinele socio-umane

distribuia rezultatelor nu mai este normal, putnd aprea scoruri aberante


care duc la o asimetrie pronunat sau un eantion extrem de omogen sau
extrem de eterogen ce poate influena radical boltirea. De asemenea, prezena
mai multor vrfuri n distribuie determin nclcarea criteriului modalit-
ii. Ce ne facem n aceste cazuri? Vestea bun este c avem la dispoziie me-
tode prin care putem normaliza aceast distribuie fcnd-o utilizabil.
Am vzut deja c, prin inspectarea datelor, putem vedea i corecta
scorurile extreme rezultate din erorile de introducere a datelor. Dac aparatele
de nregistrare sunt defecte ori designul de cercetare este defectuos, nu avem
prea multe posibiliti dect reproiectarea cercetrii sau repararea aparatelor.
Totui, ce facem dac nu sunt erori de introducere a datelor, aparatele sunt
bune, iar designul este n regul, ns nu am obinut o distribuie normal?
Soluia este transformarea datelor brute prin anumite procedee de
rescalare a valorilor, pentru ca noile valori s respecte condiiile de aplicare a
unor teste statistice (Sava, 2004). Dac i n urma acestor transformri, distri-
buia continu s pun probleme, vom utiliza statistici nonparametrice, re-
nunnd la prelucrrile parametrice de date.
Exist multe procedee de modificare a valorilor care s nu afecteze
semnificaia datelor, iar dintre cele mai cunoscute sunt tehnicile de normali-
zare a distribuiei.
O distribuie multimodal poate fi corectat relativ uor, inspectnd
valorile modale i renunnd la un singur scor. Deoarece modul este categoria
cu frecvena cea mai mare, renunnd la un singur caz din categoria modal,
transformm o distribuie bimodal ntr-una unimodal. De exemplu, dac
msurm greutatea unui numr de 50 de subieci i constatm c avem dou
categorii mod: subieci cu greutatea de 78 de kilograme 10 cazuri i su-
bieci cu greutatea de 84 de kilograme 10 cazuri, eliminnd din eantion un
singur subiect care are 78 de kilograme sau 84 de kilograme, determinm

172
Cristian Opariuc-Dan

transformarea ntr-o distribuie unimodal. Desigur, nu vom mai avea 50 de


cazuri, ci 49, ns este mai bine s tai un deget dect s pierzi mna.
O distribuie asimetric sau excesiv presupune utilizarea unor teh-
nici diferite, dintre care menionm:
Folosirea mediei 5% trim este o tehnic ce utilizeaz o
medie ajustat n care nu se ine cont de 5% dintre scorurile
aflate la extremitile distribuiei. Metoda se folosete n cazul
n care avem scoruri extreme reale. Prin acest procedeu, ele
sunt eliminate din calculul acestui indicator.
Extragerea radicalului din toate valorile distribuiei este o
tehnic folosit n special atunci cnd avem o distribuie asi-
metric moderat. Radicalul strnge o distribuie puternic
platicurtic i corecteaz asimetria.
Ridicarea la ptrat sau la cub este o tehnic utilizat n cazul
distribuiilor leptocurtice, deoarece prin acest procedeu se
mprtie rezultatele n jurul tendinei centrale.
Logaritmarea valorilor individuale i inversarea valorilor
sunt alte procedee de normalizare utilizate n cazul unor distri-
buii asimetrice severe.
Dup aceste prelucrri de date este necesar, n mod obligatoriu, o re-
verificare a distribuiei pentru a vedea modul n care se respect criteriile
normalitii distribuiei pe date astfel normalizate. Toate aceste operaii sunt
permise fr a afecta semnificaia iniial a datelor, dac lum n considerare
proprietile scalei de interval discutate n primul capitol.
Pentru a clarifica aceste situaii, vom considera o serie de exemple in-
tuitive propuse de F. Sava (Sava, 2004) i pe care am apreciat c ar fi util s
le reproducem aici.

173
Statistic aplicat n tiinele socio-umane

Figura 6.11 Distribuie asimetric moderat

Cele dou figuri de mai sus indic o asimetrie pozitiv, respectiv ne-
gativ moderat. n primul caz, extragerea rdcinii ptrate din fiecare scor
individual va conduce la normalizarea acestei distribuii. n al doilea caz,
radicalul se extrage din reflexia scorurilor. Prin operaia de reflectare, trans-
formm o asimetrie negativ ntr-o asimetrie pozitiv, dup care putem ex-
trage rdcina ptrat.
Operaia de reflectare este una extrem de uoar i presupune practic
inversarea valorilor. Dac, de exemplu, avem urmtorul ir de date:

irul normal: 5, 9, 13, 8, 7, 19

primul pas pe care trebuie s l facem este acela de a identifica valoarea ma-
xim din irul de date. n cazul nostru, valoarea cea mai mare din ir este 19.
Adugm apoi 1 la valoarea maxim i obinem valoarea 20.
La al doilea pas, vom scdea din valoarea obinut (20) fiecare scor i
vom obine irul reflectat. Constatm c aceast operaiune este similar unei
reflexii n oglind, n care stnga devine dreapta i dreapta stnga. Procedura
este necesar n cazul distribuiilor asimetric negative n vederea extragerii
radicalului, n vederea logaritmrii sau pentru inversare.

irul reflectat: 15, 11, 7, 12, 13, 1

174
Cristian Opariuc-Dan

Figura 6.12 Distribuie asimetric sever

O asimetrie ca cea din figura de mai sus reprezint o asimetrie sever.


n acest caz, extragerea radicalului din fiecare valoare sau din valorile reflec-
tate nu rezolv satisfctor problema. Avem nevoie, similar situaiei de mai
sus, de logaritmul natural din fiecare valoare sau, n cazul asimetriei negative,
de logaritmul natural din fiecare valoare reflectat.
n cazul asimetriilor extreme, curba are un aspect de curb n J, cu
asimetrie pozitiv sau negativ. n aceast situaie nici logaritmul natural nu
ne mai rezolv problema. Vom proceda la calcularea inversului fiecrei va-
lori pentru a normaliza distribuia. Inversul unei valori l putem obine mpr-
ind 1 la fiecare valoare din irul de date. Cu alte cuvinte, inversul valorii X
este dat de 1/X. Aceast inversare se realizeaz folosind valorile din irul nos-
tru de date, dac asimetria este pozitiv, sau valorile din irul reflectat de da-
te, dac asimetria este negativ.

VI.6 Sisteme de etalonare


Muli psihologi consider c realizarea unui etalon nseamn, de fapt,
adaptarea unei probe psihologice la specificul unei populaii. Nimic mai fals.
Etalonarea reprezint ultima etap n procesul de adaptare a unui instrument
sau de construcie a unei probe noi i nu are nici o treab cu celelalte caliti
psihometrice ale unui test. Un etalon reprezint un sistem de norme prin
care putem compara rezultatele unui subiect (caz individual) cu rezulta-
tele obinute de ctre un grup reprezentativ de subieci. Un etalon este,
aadar, o unitate de msur, care se folosete n acelai mod n care utilizm

175
Statistic aplicat n tiinele socio-umane

orice aparat de msurare. Atunci cnd msurm greutatea unei persoane,


avem valoarea acestei variabile, obinut prin folosirea unui cntar. ns sem-
nificaia acestei valori depinde de sistemul de referin la care ne raportm.
Dac o persoan are 100 de kilograme i se raporteaz la obezi, cu o greutate
peste 120 de kilograme, atunci acea persoan va fi una slab. Dac, ns, pe
acelai individ l comparm cu persoane de 70-80 de kilograme, l putem
considera o persoan grea.
Mai delicate sunt ns lucrurile n tiinele socio-umane. Dac atunci
cnd ne referim la greutate, avem totui un zero absolut, iar un kilogram n-
seamn un kilogram indiferent despre ce am vorbi, n tiinele sociale lucruri-
le nu stau chiar aa. tii deja de ce, astfel nct nu vom mai insista asupra
acestor aspecte. n domeniul nostru, msurarea nseamn de fapt ierarhizare.
Seciunea anterioar a lmurit modul n care comparm performana unui
subiect cu performana unui grup. Nu avem cum s facem n permanen
acest lucru. Dac lucrm ntr-o ntreprindere i trebuie s evalum un strun-
gar nou angajat, atunci, pentru evaluarea acestuia, nu va trebui s reexami-
nm toi strungarii din ntreprindere, pentru ca s comparm performana
acestuia cu performana grupului din care face parte. Ar fi absurd. Vom con-
sidera c performana grupului rmne stabil un anumit interval de timp. n
aceste condiii, examinnd la un moment dat grupul de referin, putem reine
concluziile desprinse i apoi putem compara orice nou individ cu aceste con-
cluzii. Ne referim acum tocmai la conceptul de etalon.
Etaloanele se construiesc n funcie de aspectul distribuiei datelor po-
pulaiei pe care s-a fcut studiul. Pentru distribuii care se abat de la norma-
litate, singura metod de realizare a unui etalon este cuantilarea, utilizndu-
se valorile percentile. Deoarece se bazeaz pe poziia valorilor n irul ordo-
nat de date, similar medianei i cuartilelor, asemenea etaloane sunt considera-
te ca fiind etaloane slabe i au o serie de limitri pe care le vom discuta. O
distribuie normal, n care media este un indicator bun al tendinei centra-
le, permite construcia unor etaloane normalizate, n uniti sigma sau

176
Cristian Opariuc-Dan

folosindu-se notele z, mult mai precise i mai utile n comparaie cu etaloa-


nele bazate pe percentile.
nainte de a intra n detalii tehnice referitoare la construcia unui eta-
lon, s menionm cteva criterii care indic un etalon bun, precum i aspec-
tele pe care le urmrim atunci cnd ntr-o prob psihologic ni se ofer un
asemenea sistem de norme.
Un etalon bun este un etalon construit pe un numr suficient de
mare de persoane. Deoarece scopul unui etalon este acela de a
compara un caz individual cu o populaie de referin, aceast po-
pulaie de referin trebuie s includ un numr suficient de mare
de subieci, astfel nct s fie reprezentativ. Cunoatem deja pro-
blemele pe care le poate pune un eantion redus ca dimensiuni.
Din nefericire, acestea nu sunt singurele. Exist i alte aspecte pe
care le vom discuta ulterior. Un numr mic de persoane selectate
n eantionul pe baza cruia se construiete etalonul numit i
eantion normativ duce la o reprezentativitate sczut a acestuia.
Comparnd apoi un subiect cu acest eantion, avem toate ansele
s ajungem la concluzii complet eronate. Un eantion prea mare
crete considerabil costul etalonrii, fcnd cercetarea extrem de
scump. Trebuie, astfel, gsit un optim ntre numrul subiecilor
inclui n eantionul normativ i reprezentativitatea acestuia. Un
etalon bun este un etalon construit pe un numr de 250-300 de su-
bieci. Se accept, n anumite situaii, i etaloane construite pe mai
puin subieci, dac acestea sunt specifice unui anumit grup (de
vrst, profesional, clinic etc.). Etaloanele testelor profesionale se
construiesc pe mii de subieci. De exemplu, eantionul normativ
pe care a fost etalonat chestionarul 16PF de ctre Pitariu i Iliescu
a cuprins cca. 3000 de subieci de pe ntreg teritoriul Romniei.

177
Statistic aplicat n tiinele socio-umane

Un etalon bun este un etalon adaptat specificului probei psiho-


logice i condiiilor de evaluare. Un etalon pe populaie general
are o valoare limitat ntr-un scop specific, spre exemplu ntr-o
uzin. De aceea, se recomand efectuarea de etaloane specifice
atunci cnd situaia o impune.
Un etalon bun are un numr suficient de mare de clase care s
poat diferenia subiecii. Un etalon cu dou clase nu ne este prea
util. O mprire a subiecilor n buni i slabi este rigid i fr
o mare valoare informativ. Ceva mai bine ar sta lucrurile, dac
am avea trei clase: buni, medii i slabi, doar c i n acest
caz vom avea o ncadrare oarecum forat a subiecilor n cele trei
clase. Putem discuta de un etalon cu o capacitate acceptabil de a
diferenia subiecii de la cinci clase n sus. La cinci clase vom
avea urmtoarele niveluri: foarte slab, slab, mediu, bun,
foarte bun, niveluri ce permit ordonarea mai fin a subiecilor.
Un numr prea mare de clase, ns, poate crea confuzii, iar o ase-
menea precizie devine, din nou, exagerat. n psihologie se utili-
zeaz, n general, etaloanele n cinci clase, n apte clase, n nou
clase sau n unsprezece clase.
De multe ori, atunci cnd un psiholog primete i utilizeaz o prob
psihologic, el nu i pune probleme asupra etalonului furnizat i l accept ca
atare. Mai mult, unele etaloane sunt pur i simplu scrise de mn pe o bucat
de hrtie, circul ntre psihologi, iar acetia le accept necondiionat. Nimic
mai eronat. Nu uitai c etalonul este unitatea noastr de msur. Avem
obligaia s obinem informaii legate de construcia etaloanelor, cine i cum
le-a fcut, deoarece numai n acest fel vom putea avea ncredere n instru-
ment i vom trage concluzii diagnostice pertinente. De fiecare dat cnd pri-
mii un etalon, acesta trebuie s conin, n mod obligatoriu, urmtoarele in-
formaii:

178
Cristian Opariuc-Dan

Structura eantionului pe care s-a realizat etalonul, sub as-


pectul variabilelor de eantionare. Etalonul este realizat pe po-
pulaie general sau pe subieci care fac parte dintr-o anumit
categorie? Un etalon realizat pe studeni sau pe elevi de liceu
va avea o valoare mai mult dect discutabil ntr-o uzin chi-
mic. Care este vrsta i genul biologic al subiecilor? Care es-
te distribuia acestor variabile n structura eantionului? Dac
avem un etalon realizat pe copii ntre 10 i 14 ani, cum oare l
vom putea folosi n studiile asupra btrnilor? Nu exist o re-
gul asupra variabilelor de eantionare utilizate la construcia
unui etalon. n general, se folosete vrsta, sexul, nivelul de
colarizare. Indiferent de variabilele folosite de ctre realizato-
rul etalonului, acesta trebuie s le prezinte. Nu ne putem mul-
umi doar cu sintagma etalonul a fost realizat pe populaie
general. Trebuie precizat i structura acestei populaii.
Numrul subiecilor din eantion va trebui, de asemenea, bine
precizat. Un etalon realizat pe 100 de subieci nseamn cu to-
tul altceva n comparaie cu un etalon realizat pe 1000 de su-
bieci.
Distribuia rspunsurilor subiecilor la funcia investigat
are o deosebit importan. Ne intereseaz s tim dac distri-
buia a fost normal sau dac s-au aplicat metode de normali-
zare a distribuiei, caz n care trebuie prezentate ambele distri-
buii. Suntem interesai s aflm dac, de exemplu, n eantion
majoritatea persoanelor au rezolvat corect 18 sarcini din 20
sau, din contra, au realizat corect 6 sarcini din 20. Acest lucru
ne informeaz asupra nivelului populaiei cu care vom compa-
ra rezultatele cazurilor individuale.

179
Statistic aplicat n tiinele socio-umane

Metoda de etalonare folosit se stabilete n funcie de dis-


tribuia rezultatelor. La o distribuie normal, vor fi folosite, n
general, unitile sigma sau clasele normalizate. n cazul unei
distribuii care se abate de la normalitate, se utilizeaz sistemul
de etaloane bazat pe valorile percentile.
Data la care a fost realizat etalonul ne furnizeaz informaii
despre momentul n care a fost construit. Datorit dinamicii
sociale i noilor achiziii tehnologice, atitudinile, normele so-
ciale se modific rapid, astfel nct un etalon devine depit
ntr-un timp destul de scurt. Un adolescent de astzi, examinat,
de exemplu, cu Inventarul Multifazic de Personalitate Minne-
sota, ar intra cu uurin n normele patologice din anii 1950.
Un etalon, n general, se reactualizeaz dup 5-6 ani.

VI.6.1 Etaloane n cuantile


Au la baz valorile percentile i se stabilesc ntr-un mod similar calcu-
lului medianei sau al cuartilelor. Bazndu-se pe poziia valorilor n cadrul
unui ir ordonat de date, aceste etaloane nu au precizia celor n clase normali-
zate, ns au avantajul c pot fi construite foarte uor i pe distribuii care se
abat de la distribuia normal.
Construcia unor asemenea etaloane se realizeaz dup urmtorul al-
goritm:
Se stabilete minimum i maximum dintr-o distribuie;
Se nscriu toate valorile situate ntre minimum i maximum;
Se stabilesc frecvenele absolute i cumulate;
Se alege numrul de clase al etalonului;
Se calculeaz scorul corespunztor procentului pentru fiecare
limit de clas.

180
Cristian Opariuc-Dan

S lum, spre exemplu, urmtorul ir de date, care reprezint nli-


mea unor subieci exprimat n centimetri: 182, 175, 174, 189, 177, 177, 180,
173, 188, 171, 184, 192, 180, 172, 177, 193, 184, 192, 172, 177, 174, 171,
172, 179, 185, 179, 173, 172, 179, 188.
n acest exemplu, minimul este 171, iar maximul este 193. Acum,
Tabel 6.3 Realizarea unui etalon
vom ordona cresctor toate valorile situate ntre
n cuantile minim i maxim i vom stabili frecvenele ab-
Diagrama
Valoare f fc solute i cumulate.
n linii
171 || 2 2 Ne propunem s construim un etalon n
172 |||| 4 6
cinci clase (cvintile). tim c un asemenea eta-
173 | 1 7
174 || 2 9 lon mparte lotul de subieci n procente de cte
175 | 1 10 20%. n prima clas, se vor afla 20% dintre
176 0 10 subieci, cei cu nlimea cea mai mic, urmai
177 |||| 4 14 fiind de ali 20% dintre subieci, cu nlime
178 0 14
mai mare i aa mai departe. n ultima clas, se
179 ||| 3 17
180 || 2 19
vor afla 20% dintre subieci, cu nlimea cea
181 0 19 mai mare.
182 | 1 20
Pentru prima clas, vom aplica regula
183 | 1 21
184 ||
de trei simpl, astfel:
2 23
185 | 1 24 Dac 30 nseamn 100%
186 0 24
187 0 24 Atunci x nseamn 20%
188 || 2 26
Din cte tim, l putem afla pe x nmul-
189 | 1 27
190 0 27
ind 30 cu 20 i mprind la 100. Deci
191 0 27 x=(3020)/100=6.
192 || 2 29
Cutm acum n tabel, n coloana frec-
193 | 1 30
venelor cumulate, valoarea cea mai aproape de
6, valoare corespunztoare primilor 20% dintre subieci, cu nlimea cea mai
mic. Observm c valoarea 6 corespunde chiar cotei 172. n prima clas

181
Statistic aplicat n tiinele socio-umane

vom include subiecii cu nlimea cuprins ntre minim i 172. n general,


acest lucru se scrie i astfel < 173. Acest lucru nseamn c, n prima clas,
vom include toi subiecii cu o nlime mai mic sau egal cu 172. n eanti-
onul normativ, am avut minimul egal cu 171, aceasta fiind cea mai mic nl-
ime din eantion. n practic, putem oricnd gsi un subiect cu o nlime de
169. Prin urmare, prima clas nu o vom scrie, n etalon, de forma 171 172,
ci < 173, pentru a asigura un loc n clasificare subiecilor cu valori ale carac-
teristicii mai mici dect minimul distribuiei eantionului normativ. Aceast
regul este valabil i pentru ultima clas.
Pentru a doua clas, aplicm aceeai regul de trei simpl, de data
aceasta pentru un procent de 40% din eantion:
Dac 30 nseamn 100%
Atunci x nseamn 40%
Noua valoare devine 12. n tabelul frecvenelor cumulate, cel mai
apropiat scor cu frecvena cumulat 12 este 175. Clasa a doua va avea, ca
intervale de clas, 173 175.
n mod similar procedm i pentru
Tabel 6.4 Etalon n 5 clase
Scoruri Clasa Semnificaia calcularea celorlalte repere i obinem
< 173 I Foarte scunzi valorile 18 pentru clasa a treia, corespun-
173 175 II Scunzi
ztor scorului 179, i 24 pentru clasa a
176 179 III Medii
180 186 IV nali patra, corespunztor scorului 186. Avnd
> 186 V Foarte nali reperele claselor, putem acum scrie etalo-
nul sub forma unui tabel ca cel de mai sus.
La distribuirea acestui etalon, nu vom uita s includem structura ean-
tionului normativ, distribuia scorurilor la variabila nlime cu precizarea
mediei, a medianei, a modului i a abaterii standard, precum i informaii
despre sistemul de etalonare folosit, n cazul nostru n cvintile.

182
Cristian Opariuc-Dan

Dac ai fost ateni, ai observat deja o serie de limitri ale acestui eta-
lon. n primul rnd, intervalele inegale. Dac, teoretic, nlimea minim a
unui om poate fi, s spunem, 150 de centimetri, iar nlimea maxim 220 de
centimetri, atunci remarcm numrul diferit de valori din fiecare clas. n
prima clas, putem include subiecii de la 150 de centimetri pn la 173 de
centimetri, deci 23 de valori diferite. n a doua clas, includem subiecii cu
nlimea cuprins ntre 173 i 175, deci doar 3 valori. n clasa a treia, gsim
5 valori posibile, n clasa a patra, 7 valori, iar n ultima clas, 33 de valori.
Iat c un asemenea etalon difereniaz inegal subiecii, aceasta fiind i prin-
cipala sa limit.
n al doilea rnd, dac avem o distribuie foarte omogen, nu mai pu-
tem diferenia aproape deloc utiliznd un asemenea etalon, deoarece interva-
lele de clase vor avea valori apropiate. Iat doar dou motive pentru care pre-
ferm utilizarea claselor normalizate, deoarece, la nivelul acestora, intervalele
sunt aparent egale.

Exerciiu:
Realizai, folosind acelai sistem de etalonare, un etalon n decile (10
clase) i precizai problemele ntmpinate. Explicai situaia aprut.

VI.6.2 Etaloane normalizate


Aceast metod de realizare a etaloanelor se bazeaz pe distribuia
normal i presupune, evident, respectarea criteriului normalitii. Dac vom
ncerca s realizm un asemenea etalon, utiliznd o distribuie care nu este
normal, vom avea surpriza s constatm c anumite intervale depesc chiar
i amplitudinea teoretic de distribuie a variabilei noastre. De exemplu, n
cazul nlimii subiecilor, s-ar putea s ntlnim, n prima clas, subieci cu
nlimea cuprins ntre 30 i 5 centimetri, ceea ce reprezint o aberaie.

183
Statistic aplicat n tiinele socio-umane

Dac distribuia scorurilor la variabila studiat este o distribuie


gaussian (normal), atunci putem folosi un etalon n clase normalizate, dato-
rit avantajelor nete pe care le prezint un asemenea sistem de etalonare.
Cel mai simplu etalon n clase
normalizate este reprezentat de unit-
ile sigma, n care folosim doar media
i abaterea standard. Cu ajutorul aces-
tor indicatori, putem construi un eta-
lon n 3, 5 i 7 clase normalizate, lu-
nd n calcul 1, 2 sau 3 abateri stan-
dard (vezi figura alturat). S consi-
derm, de exemplu, urmtoarele date,
reprezentnd vrsta unor subieci ex-
primat n ani: 35, 20, 21, 24, 29, 28,
29, 29, 24, 31, 26, 20, 38, 37, 38, 29,
24, 26, 29, 26, 24, 37, 30, 35, 24, 32,
Figura 6.13 Distribuia normal
31, 34, 39, 31. Amplitudinea de varia-
ie a acestui set de date este situat ntre un minim de 20 i un maxim de 39
de ani, media este de 29,33 ani, iar abaterea standard este de 5,52 ani. Aceste
scoruri se distribuie normal i putem construi un etalon n clase normalizate.
Pentru a construi un etalon n cinci clase normalizate folosind unitile sigma,
va trebui s lum intervalele formate de una i dou abateri standard n jurul
mediei. Prima clas va ncepe de la minim i se va finaliza la dou abateri
standard n stnga mediei. Dou abateri standard nseamn 2 x 5,52 = 11,04.
Dac scdem din medie valoarea 11,04, obinem reperul pentru limita primei
clase. Deci, 29,33 11,04 = 18,29 ani, rotunjit 18 ani. Prima clas, care cu-
prinde 2,14% din populaie, este situat ntre 0 ani i 18 ani i reprezint su-
biecii cu vrst foarte mic. A doua clas se situeaz ntre 2 abateri standard
i 1 abatere standard n stnga mediei i cuprinde 13,59% din populaie. Dac
scdem din medie o abatere standard, obinem limita superioar a celei de-a

184
Cristian Opariuc-Dan

doua clase. Prin urmare, 29,33 5,52 = 23,81 ani, rotunjit 24 de ani. A doua
clas va include subiecii cu vrsta cuprins ntre 19 i 24 de ani, subiecii
tineri. Clasa a treia, clasa medie, cuprinde 2x34,13% din populaie, adic
68,26% din populaie i are ca limite o abatere standard n stnga mediei i o
abatere standard n dreapta mediei. Prin urmare, a treia clas va avea ca limite
de interval 25 de ani i 29,33 + 5,52 = 34,85, rotunjit 35 de ani. Clasa a patra,
care cuprinde 13,59% din populaie, are ca limit inferioar 36 de ani i ca
limit superioar dou abateri standard n dreapta mediei, 29,33 + 11,04, adi-
c 40,37, rotunjit 40 de ani. Constatm c deja am ieit din amplitudinea dis-
tribuiei noastre, ceea ce ne face s suspectm o uoar asimetrie. n realitate,
numrul redus de subieci a determinat aceast situaie. n sfrit, clasa a
cincia cuprinde subiecii peste 40 de ani i conine 2,14% din populaie.
Etalonul poate fi scris n acelai Tabel 6.5 Etalon n 5 clase
mod ca i etalonul n cvintile i are aceeai Scoruri Clasa Semnificaia
< 19 I Foarte tineri
semnificaie. Evident c la distribuia
19 24 II Tineri
acestui etalon va trebui s furnizm date 25 35 III Medie
legate de structura eantionului normativ, 36 40 IV Maturi
> 40 V Foarte maturi
distribuia variabilei i sistemul de etalo-
nare folosit, n cazul nostru n cinci clase n uniti sigma.

Exerciiu:
Realizai un etalon n trei clase normalizate n uniti sigma. Pentru
trei clase normalizate se folosete o abatere standard n dreapta i n stnga
mediei.
Etaloanele n clase normalizate nu sunt altceva dect derivaii ale
etaloanelor n uniti sigma i se bazeaz pe transformarea notelor z n alte
categorii de note. Algoritmul de calcul este oarecum similar celui utilizat n
realizarea etaloanelor n uniti sigma i se bazeaz pe fraciuni de uniti
sigma.

185
Statistic aplicat n tiinele socio-umane

Astfel, un etalon n cinci clase normalizate are ca fraciuni ale lui z


valoarea z/2 ,iar clasele devin:
I Min -3z/2 6,7% din populaie
II -3z/2 -z / 2 24,2% din populaie
III -z / 2 z
/2 38,2% din populaie
z
IV /2 3z
/2 24,2% din populaie
3z
V /2 Max. 6,7% din populaie

Un etalon n apte clase normalizate are ca fraciuni ale lui z valoarea


z
/3 ,iar clasele devin:
I Min -5z/3 4,8% din populaie
II -5z/3 -3z/3 11,1% din populaie
III -3z/3 -z / 3 21,2% din populaie
IV -z / 3 z
/3 25,8% din populaie
z
V /3 3z
/3 21,2% din populaie
3z
VI /3 5z
/3 11,1% din populaie
5z
VII /4 Max. 4,8% din populaie

Un etalon n nou clase normalizate (stanine) are ca fraciuni ale lui z


valoarea z/4 ,iar clasele devin:
I Min -7z/4 4,0% din populaie
II -7z/4 -5z/4 6,6% din populaie
III -5z/4 -3z/4 12,1% din populaie
IV -3z/4 -z / 4 17,5% din populaie
V -z / 4 z
/4 19,6% din populaie
z
VI /4 3z
/4 17,5% din populaie
3z
VII /4 5z
/4 12,1% din populaie
5z
VIII /4 7z
/4 6,6% din populaie
7z
IX /4 Max. 4,0% din populaie

n mod similar, putem construi etaloane i n alte clase normalizate,


lund ca referin notele z. Astfel, printre cele mai uzitate sisteme de clase
normalizate putem meniona:
Sten (standard ten), distribuie cu media 2 i abaterea stan-
dard 5,5 rezultnd clase de la 1 la 10;

186
Cristian Opariuc-Dan

Stanford-Binet, distribuie cu media 100 i abaterea standard


16;
Notele T, distribuie cu media 10 i abaterea standard 50 re-
zultnd clase de la 1 la 100;

Tabel 6.6 Etalon n clase norma- Wechsler (abateri IQ), distri-


lizate buie cu media 100 i abaterea standard 15;
Diagrama
Valoare f fc
n linii Army General Clasification,
171 || 2 2
172 ||||
distribuie cu media 100 i abaterea standard
4 6
173 | 1 7 50;
174 || 2 9
Scala de aptitudini generale
175 | 1 10
176 0 10
pentru colegiu, distribuie cu media 500 i
177 |||| 4 14 abaterea standard 100.
178 0 14
Haidei acum s ncercm construirea
179 ||| 3 17
180 || 2 19
unui etalon n cinci clase normalizate, folosind
181 0 19 datele corespunztoare nlimii subiecilor
182 | 1 20 182, 175, 174, 189, 177, 177, 180, 173, 188,
183 | 1 21 171, 184, 192, 180, 172, 177, 193, 184, 192,
184 || 2 23 172, 177, 174, 171, 172, 179, 185, 179, 173,
185 | 1 24
172, 179, 188. Ne putem aminti c aceast dis-
186 0 24
187 0 24 tribuie are media 179,9 centimetri cu o abatere
188 || 2 26 standard de 6,69 centimetri, fiind considerat o
189 | 1 27 distribuie normal.
190 0 27
191 0 27 Exist mai multe metode de construire a
192 || 2 unui asemenea etalon. Cea mai simpl metod
29
193 | 1 const n utilizarea valorilor procentuale cores-
30
punztoare fiecrei clase, ntr-un mod identic cu cel descris la construirea
etaloanelor n cuantile.

187
Statistic aplicat n tiinele socio-umane

Vom relua alturat tabelul distribuiei nlimii celor 30 de subieci cu


precizarea frecvenelor absolute i cumulate. Prima clas, cea cu scorurile
cele mai mici, conine primii 6,7% din eantion. Prin regula de trei simpl,
dac 30 de subieci nseamn ntregul eantion, ci subieci nseamn 6,7%.
Vom avea astfel (6,730)/100=210/100=2,1. La fel cum am procedat i la
etalonul n cvintile, cutm n tabelul frecvenelor cumulate valoarea cea mai
apropiat de 2,1. Aceast valoare este chiar prima valoare, nlimea de 171
de centimetri. Prima clas va cuprinde, aadar, subiecii cu o nlime mai
mic sau egal cu 171 centimetri.
Urmtoarea clas conine nc 24,2% din populaie. Reperul de clas
va fi situat, aadar, la 6,7+24,2=30,9%. n continuare, aplicm din nou regula
de trei simpl. Dac 30 de persoane nseamn 100%, cte persoane nseamn
30,9%. Vom avea (30,930)/100=9,27. Valoarea cea mai apropiat de frec-
vena cumulat 9,27 este 174 de centimetri. Cea de-a doua clas va cuprinde
subiecii cu nlimea cuprins ntre 172 i 174 de centimetri.
Reperul pentru a treia clas va fi situat la 30,9+38,2=69,1. Analog,
avem (69,130)/100=20,73, iar reperul de clas va fi 183 de centimetri. A
treia clas cuprinde subiecii cu nlimea ntre 175 i 183 de centimetri.
Pentru a patra clas vom avea 69,1+24,2=93,3, iar reperul de clas va
fi valoarea situat n dreptul frecvenei
Tabel 6.7 Etalon n 5 clase
Scoruri Clasa Semnificaia cumulate de (93,330)/100=27,99. Aceas-
171 I Foarte scunzi t valoare este 191 de centimetri. Clasa a
172 - 174 II Scunzi
175 183 III Medii patra va cuprinde subiecii cu nlimea
184 191 IV nali ntre 184 i 191 de centimetri.
> 191 V Foarte nali
Evident, pentru ultima clas nu e
nevoie s mai calculm nimic. Aceast clas va conine subieci cu nlimea
mai mare de 191 de centimetri.

188
Cristian Opariuc-Dan

Etalonul se scrie la fel ca un etalon n cuantile i are aceeai semnifi-


caie. Nu uitai s inei cont de regulile elaborrii unui etalon, n momentul
n care intenionai s-l folosii sau s-l distribuii.

VI.7 Analiza distribuiei i realizarea etaloanelor n SPSS


Dup abordarea teoretic a distribuiei normale, a venit momentul
aplicrii practice a cunotinelor dobndite prin analiza unei distribuii de
date efectuat n SPSS. Vom utiliza aceeai baz de date pe care am creat-o
la nceputul acestui volum, baza de date IQ.sav.
Ne propunem s analizm modul n
care se distribuie scorurile obinute de cei 30
de subieci la variabila iq (Coeficientul de
inteligen).
Etapele le tii deja. Vom selecta din
meniul Analyze opiunea Descriptive
Figura 6.14 Includerea variabilei Statistics i apoi Frequencies. Apare
spre analiz.
cunoscuta caset de dialog, de unde vom
include spre analiz variabila iq.
Desigur, vom accesa apoi butonul
Statistics pentru a comunica progra-
mului SPSS ce fel de statistici s calcule-
ze.
Alturi de indicatorii tendinei
centrale (media, mediana i mod) i de
cei ai dispersiei (abaterea standard, am-
plitudinea distribuiei, minimul i maxi-
mul), vom include i cei doi indicatori ai Figura 6.15 Configurarea inventarului
statistic de baz
distribuiei (Skewness i Kurtosis), pen-
tru a putea analiza forma acestei distribu-

189
Statistic aplicat n tiinele socio-umane

ii i a decide dac distribuia poate fi considerat sau nu o distribuie norma-


l.
Dup selectarea adecvat a acestor elemente, putem apsa butonul
Continue i revenim la fereastra iniial a alegerii variabilelor. n acest mo-
ment, SPSS a memorat operaiunile pe care trebuie s le execute.
Este uneori util s afim i un grafic al distribuiei datelor noastre.
Pentru aceasta, putem accesa butonul Charts i se va deschide fereastra de
definire a graficelor pentru setul de date.
Aceast fereastr o cunoatem destul
de bine din capitolele anterioare. Motivul
pentru care am abordat-o din nou este acela
c, pentru a reprezenta grafic anumite date,
trebuie s facem nite precizri suplimenta-
re.
De nenumrate ori mi-a fost dat s
vd studeni care reprezint o variabil con-
tinu printr-o diagram de structur (grafic
Figura 6.16 Alegerea graficului tip plcint), ba mai mult, profesori univer-
cu bare pentru reprezentarea sitari de psihologie experimental, coordo-
datelor
natori de licen, care solicit studenilor
reprezentarea variabilelor continui printr-un asemenea procedeu. O reprezen-
tare prin diagram de structur se face n cazul unor date nominale sau cel
mult ordinale, atunci cnd dorim s vedem compoziia datelor i cnd num-
rul de valori pe care le ia variabila nu este prea mare. Este normal s repre-
zentm genul biologic al subiecilor printr-o plcint, deoarece vorbim n
acest caz de X% brbai i Y% femei. Variabila are doar dou niveluri, iar
aceast reprezentare ofer indicii clare asupra compoziiei unui eantion. Este
din nou normal s reprezentm prin plcint gradele didactice dintr-o univer-
sitate, deoarece variabila are cinci grade de intensitate. Este ns absurd s

190
Cristian Opariuc-Dan

reprezentm grafic prin plcint vrsta unor subieci, variabil continu, cu o


infinitate de valori. Un asemenea grafic nu ne spune nimic, ci, din contra,
induce distorsiuni care ne creeaz o imagine fals asupra datelor.
Foarte muli psihologi experimentaliti, care au rutin n analiza date-
lor, reprezint o variabil continu prin histogram, deoarece, folosind acest
procedeu, SPSS ofer o metod de estimare grafic a curbei de distribuie.
Unii chiar se rezum la a interpreta distribuia datelor dup aspectul grafic al
acestei curbe s fim serioi, statistica este totui o disciplin matematic, iar
demonstraiile se fac cu cifre, nu cu imagini i aprecieri subiective pe baza
acestora. Nu este att de grav n comparaie cu reprezentarea prin diagrame
de structur, ns probabil v amintii de faptul c histograma reprezint date-
le grupate n intervale. Este adevrat c SPSS efectueaz automat o grupare a
acestor date n intervale pe care le alege singur. Acesta nu este ns un motiv
n condiiile n care dorim s avem o viziune ana-
litic a scorurilor.
Prin urmare, pentru a reprezenta grafic o
variabil continu, atunci cnd discutm despre
distribuie, vom prefera graficul cu bare, care ne
ofer o viziune fin asupra modului n care datele
se distribuie sau graficul tip histogram, care
prezint datele ntr-un mod mai grosier, ns are
avantajul estimrii vizuale a curbei de distribuie.
Figura 6.17 Alegerea histo-
n nici un caz nu vom utiliza diagrame de structu- gramei pentru reprezentarea
r sau alte tipuri de diagrame, chiar dac acestea datelor

arat frumos.
n figura 6.16, am ales modul de reprezentare al unui grafic cu bare,
iar n figura 6.17, am optat pentru reprezentarea prin histogram. Vom anali-
za ulterior ambele tipuri de grafice i vom nva cteva metode de cosmeti-

191
Statistic aplicat n tiinele socio-umane

zare a graficelor, astfel nct imaginile noastre s prezinte i un aspect ele-


gant.
Indiferent de tipul de grafic ales (cu bare sau histogram), vom apsa
din nou butonul Continue pentru a reveni la fereastra iniial. n acest mo-
ment, toate configurrile fiind realizate, nu ne rmne dect s apsm buto-
nul OK pentru a comunica programului SPSS s efectueze analiza.
n cteva secunde, va fi afiat fereastra de rezultate (Output) n care
regsim prezentate informaiile solicitate.
Tabel 6.8 Inventarul statistic de baz n aceast fereastr, cel
Statistics mai important tabel este tabelul
Coef icientul de inteligent a
N Valid 30
Statistics, numit i inventarul
Missing 0 statistic de baz sau indicatorii
Mean 111,33
Median 108,50 statistici de start. Utiliznd
Mode 124
St d. Dev iation 8,511
numai acest tabel, putem decide
Skewness ,413 dac distribuia noastr este sau
St d. Error of Skewness ,427
Kurtosis -1,384 nu este o distribuie normal.
St d. Error of Kurtosis ,833 Cred c v mai amintii condii-
Range 24
Minimum 100 ile pe care trebuie s le ndepli-
Maximum 124
neasc o distribuie pentru a
putea fi considerat normal. O distribuie normal este o distribuie
unimodal, simetric i Tabel 6.9 Inventarul statistic de baz
Statistics
mezocurtic.
Varst a subiect ilor
N Valid
Unimodalitatea este uor Missing
30
0
de observat. SPSS raporteaz un Mean 29,33
Median 29,00
mesaj de genul Multiple mod Mode 24a
St d. Dev iation 5,523
exist. The smallest value is Skewness ,116
shown, afiat la subsolul tabelu- St d. Error of Skewness
Kurtosis
,427
-,878
lui cu o not, de obicei a n drep- St d. Error of Kurtosis ,833
Range 19
tul valorii modului. Acest mesaj Minimum 20
Maximum 39
a. Multiple modes exist. The smallest v alue is shown

192
Cristian Opariuc-Dan

ne comunic faptul c programul a identificat mai multe valori mod i c o


afieaz pe cea mai mic.
n inventarul statistic alturat, unde am analizat distribuia acelorai
30 de subieci n funcie de variabila vrst, avem un exemplu de distribuie
multimodal. Nu putem ti, deocamdat, dac distribuia este bimodal,
trimodal sau prezint mai multe valori ale modului. Tot ceea ce tim este c
cea mai mic valoare mod, n cazul nostru, reprezint 24 de ani.
Tabel 6.10 Identificarea valorilor mod
Pentru a afla tipul distri-
Varsta subiectilor

Cumulativ e
buiei sub aspectul modalitii i
Valid 20
Frequency
2
Percent
6,7
Valid Percent
6,7
Percent
6,7
a vedea toate valorile mod, vom
21
24
1
5
3,3
16,7
3,3
16,7
10,0
26,7
cuta n distribuia statistic (al
26 3 10,0 10,0 36,7
28 1 3,3 3,3 40,0
doilea tabel din fereastra de re-
29
30
5
1
16,7
3,3
16,7
3,3
56,7
60,0
zultate) valoarea 24. n cazul
31
32
3
1
10,0
3,3
10,0
3,3
70,0
73,3
nostru, observm c valoarea 24
34
35
1
2
3,3
6,7
3,3
6,7
76,7
83,3
se regsete n cinci cazuri (co-
37
38
2
2
6,7
6,7
6,7
6,7
90,0
96,7
loana Frequency). Nu trebuie
39
Total
1
30
3,3
100,0
3,3
100,0
100,0 acum dect s vedem ce valori,
mai mari de 24, au aceeai frec-
ven. Observm c valoarea 29 de ani are aceeai frecven i c nu exist o
alt valoare cu aceast frecven maxim. Aadar, distribuia vrstei subieci-
lor este o distribuie bimodal, cu modul de 24 i 29 de ani. Strict vorbind, o
distribuie multimodal nu este o distribuie normal. Analiza noastr ar tre-
bui s se opreasc aici i s folosim tehnici de eliminare a acestei anomalii (n
cazul nostru, renunnd la un subiect care are vrsta de 24 sau 29 de ani).
Totui, distribuia scorurilor subiecilor la variabila coeficient de inte-
ligen este o distribuie unimodal. n acest caz, vom trece la urmtoarea
etap i anume analiza simetriei.
Simetria sau oblicitatea este dat de valoarea indicatorului
Skewness. La modul teoretic, acest indicator are valoarea zero pentru o dis-

193
Statistic aplicat n tiinele socio-umane

tribuie perfect simetric. O asemenea valoare este ns aproape imposibil de


regsit n practic. ntotdeauna, acest indicator va avea valori diferite de zero,
fie n sens negativ distribuie asimetric negativ cu tendine ctre scoruri
mari, fie n sens pozitiv distribuie asimetric pozitiv cu tendine ctre sco-
ruri mici.
Exist mai multe metode de verificare a asimetriei, prin intermediul
crora putem decide dac o distribuie poate sau nu poate fi considerat sime-
tric.
Una dinte metode, valabil pentru eantioane mari (peste 200 de su-
bieci), este reprezentat de reperul propus de Lewis-Beck (Sava, 2004). Va-
lorile pentru Skewness mai mici de -0,80 sau mai mari de 0,80 indic o asi-
metrie clar, negativ sau pozitiv. n cazul nostru, valoarea Skewness este
de 0,41, iar eantionul este de doar 30 de persoane. Prin aceast metod, pu-
tem considera distribuia scorurilor ca fiind o distribuie simetric, chiar dac
nu s-a respectat cerina unui eantion mare.
O alt metod (Sava, 2004) valabil n cazul eantioanelor medii i
mici, se bazeaz pe calcului cotei z a indicelui de oblicitate Skewness. Cu
alte cuvinte, mprim valoarea indicelui de oblicitate la valoarea erorii stan-
dard a acestuia. n acest caz, exist dou praguri ale lui z n funcie de valori-
le obinute (Sava, 2004). Pentru un eantion mai mic de 30 de subieci, valoa-
rea pragului de semnificaie este de 1,58, iar pentru eantioane mai mari sau
egale cu 30 de subieci, acest prag are valoarea de 1,96. n cazul nostru, va-
loarea Skewness este de 0,41, iar eroarea standard Skewness este de 0,42.
Fcnd raportul 0,41:0,42=0,97. Cum eantionul nostru este de 30 de su-
bieci, pragul de semnificaie al lui z este de 1,96. Valoarea obinut de 0,97
fiind mai mic dect pragul, putem considera distribuia ca fiind simetric.
Aceast metod se folosete i n cazul boltirii.
A treia metod propus, aplicabil i pentru boltire, ia n considerare
stabilirea intervalului de ncredere al simetriei n baza erorii standard

194
Cristian Opariuc-Dan

Skewness i poate fi utilizat indiferent de mrimea eantionului. Eroarea


standard Skewness ne ofer limitele ntre care trebuie s se regseasc coefi-
cientul de oblicitate, astfel nct s putem considera, la un nivel de precizie
suficient de mare, distribuia ca fiind simetric. La acest nivel, exist dou
tipuri de intervale:
La un nivel de precizie de peste 99%, cu alte cuvinte n mai
puin de 1% din cazuri, distribuia noastr poate s se compor-
te ca o distribuie asimetric. Intervalul este determinat de o
eroare standard Skewness. Un asemenea interval este foarte
precis i se folosete atunci cnd simetria reprezint un ele-
ment critic pentru distribuia datelor.
La un nivel de precizie de peste 95%, cu alte cuvinte n mai
puin de 5% din cazuri, distribuia noastr poate s se compor-
te ca o distribuie asimetric. Intervalul este determinat de
dou erori standard Skewness. Un asemenea interval este mai
puin precis n comparaie cu primul i se folosete cnd sime-
tria nu reprezint un element critic pentru distribuia datelor.
Dac valoarea coeficientului de oblicitate Skewness intr ntr-unul
dintre aceste intervale, distribuia poate fi considerat simetric. Dac valoa-
rea coeficientului de oblicitate iese din acest interval la limita negativ, avem
de-a face cu o distribuie asimetric negativ, iar dac iese din interval la limi-
ta pozitiv, distribuia este asimetric pozitiv.
n situaia noastr, valoarea coeficientului de oblicitate Skewness este
de 0,41 iar valoarea erorii standard Skewness este de 0,42. Intervalul de n-
credere la un nivel de precizie de 99% este cuprins ntre -0,42 +0,42, iar la
un nivel de precizie de 95% este cuprins ntre -0,84 +0,84. Putem constata
cu uurin c valoarea coeficientului de oblicitate Skewness (0,41) intr att
n primul interval, ct i n al doilea interval. Putem aadar afirma, cu anse

195
Statistic aplicat n tiinele socio-umane

mai mici de 1% ca distribuia noastr s se comporte asimetric, c avem de a


face cu o distribuie simetric.
Indiferent de metoda folosit, am decis c distribuia scorurilor celor
30 de subieci la coeficientul de inteligen este o distribuie simetric. A tre-
ia metod, datorit viziunii extrem de precise pe care o ofer, v-o recomand
s o folosii ori de cte ori analizai simetria sau boltirea unei distribuii.
Am artat pn acum c distribuia scorurilor subiecilor la variabila
coeficient de inteligen este o distribuie unimodal i simetric. Mai rmne
s demonstrm c este o distribuie mezocurtic, pentru a decide faptul c
scorurile la coeficientul de inteligen se distribuie normal.
Boltirea sau excesul reprezint tendina rezultatelor de a se concentra
n jurul mediei (distribuia ascuit sau leptocurtic) sau, din contra, de a se
rspndi, disipa puternic n jurul mediei (distribuia platicurtic). Dup cum
tim, indicatorul care ne d mrimea acestei mprtieri este Kurtosis. Anali-
za boltirii se poate face prin a doua sau a treia metod expus anterior, pentru
care nu intrm n detalii.
Distribuia scorurilor celor 30 de subieci la variabila coeficient de in-
teligen prezint coeficientul de boltire Kurtosis de -1,34 i eroarea standard
a acestui coeficient de 0,83.
Utiliznd a doua metod, obinem nota z pentru Kurtosis de
1,34:0,83= 1,61. Pragul de semnificaie pentru eantionul nostru este, la fel ca
i n cazul simetriei, 1,96. Valoarea notei z pentru Kurtosis fiind mai mic
dect pragul de semnificaie, putem aprecia c suntem n faa unei distribuii
mezocurtice.
Haidei acum s analizm boltirea prin prisma celei de-a treia metode,
pentru a vedea diferena de precizie. Intervalul de ncredere la un nivel de
precizie de 99% este cuprins ntre -0,83 +0,83, iar pentru un nivel de pre-
cizie de 95% ntre -1,66 +1,66. Observm c valoarea Kurtosis de -1,34

196
Cristian Opariuc-Dan

intr ntr-al doilea interval (cu precizie mai mic) ns nu i n primul interval
(de mare precizie). Deci, n situaia n care eterogenitatea sau omogenitatea
scorurilor n jurul mediei este un element important, vom considera distribu-
ia noastr ca fiind o distribuie platicurtic, deoarece nu intr n intervalul cu
precizie mare. n situaia n care excesul nu este un element att de important,
putem considera distribuia ca fiind mezocurtic.
Oricum, n tiinele sociale nivelul de precizie acceptat este de peste
95%, astfel nct distribuia noastr poate fi considerat o distribuie
mezocurtic.
Valorile coeficientului de boltire Kurtosis negative i care ies din in-
tervalul de ncredere sunt reprezentative pentru o distribuie platicurtic. Da-
c avem de a face cu valori pozitive care ies din intervalul de ncredere, dis-
tribuia este leptocurtic.
Demonstrnd faptul c distribuia scorurilor celor 30 de subieci la va-
riabila coeficient de inteligen este o distribuie unimodal, simetric i
mezocurtic am demonstrat de fapt c distribuia respect toate caracteristici-
le unei distribuii gaussiene i poate fi considerat o distribuie normal.
Analiza distribuiei trebuie s precead orice analiz ulterioar
de date, deoarece, n funcie de normalitatea distribuiei, pot fi alese sta-
tisticile parametrice sau nonparametrice utilizabile pe parcursul demer-
sului de cercetare, dup asumpiile teoretice ale fiecrei metode n parte.
Pentru a concluziona, v voi oferi un model complet de analiz a dis-
tribuiei scorurilor n funcie de variabila coeficient de inteligen. ntotdeau-
na furnizai, n analiz, ct mai multe informaii legate de variabila dumnea-
voastr. V rog s avei n vedere ataarea exact a inventarului statistic de
baz din SPSS i a eventualelor grafice care v pot susine demonstraia.
ntr-o analiz de date, va trebui s precizai: denumirea variabilei ana-
lizate, numrul de cazuri, indicatorii tendinei centrale i ai mprtierii, indi-

197
Statistic aplicat n tiinele socio-umane

catorii distribuiei i explicarea acestora n cazul unor distribuii asimetrice,


platicurtice sau leptocurtice, tabelele valorice ale inventarului statistic de ba-
z, graficele sub forma graficului cu bare sau histogram.
Statistics

Coef icientul de inteligent a


N Valid 30
Missing 0
Mean 111,33
Median 108,50
Mode 124
St d. Dev iation 8,511
Skewness ,413
St d. Error of Skewness ,427
Kurtosis -1,384
St d. Error of Kurtosis ,833
Range 24
Minimum 100
Maximum 124

Distribuia rezultatelor celor 30 de subieci la variabila Coeficient


de inteligen este o distribuie unimodal (modul=124 IQ), simetric
(Skewness=0,41; Eroarea standard Skewness=0,42) i mezocurtic
(Kurtosis=-1,38; Eroarea standard Kurtosis=0,83), cu media 111,33 IQ,
mediana 108,5 IQ i abaterea standard 8,51 IQ. Amplitudinea distribuiei
este de 24 scoruri IQ cuprins ntre un minim de 100 IQ i un maxim de 124
IQ.
Avnd n vedere aceste elemente, putem considera c scorurile obi-
nute de cei 30 de subieci se distribuie normal n cazul variabilei Coeficient
de inteligen, aceast variabil suportnd proceduri parametrice de anali-
z statistic.
Iat un exemplu complet i profesional prin care putei realiza o anali-
z a distribuiei datelor, valid n orice comunicare tiinific naional sau
internaional. Muli vor spune c nu e chiar profesional, c trebuia s speci-
fic tabelul numrul . figura numrul. i ce nseamn acel tabel i acea
figur. Asemenea lucruri in de normele de redactare a documentelor tiinifi-
ce elaborate APA i vi le las ca studiu, deoarece nu intenionez s le abordez
n prezenta lucrare. Oricum, m adresez unor oameni inteligeni, iar aceste

198
Cristian Opariuc-Dan

amnunte le tii sau le putei afla i singuri. Nici cartea de fa nu le respec-


t, ns prefer s am un stil propriu i a fi ncntat dac ai nva din aceste
rnduri cum s facei efectiv analize de date mai mult dect cum s v con-
formai unor norme.
Deschiznd o parantez, tiu, desigur, c pot s fiu acuzat c am copi-
at i lipit n document tabele i grafice din SPSS fr s le traduc n romne-
te. Departe de mine aceast intenie. n primul rnd, pentru c SPSS ofer
tabelele i graficele n englez, iar eu doresc s introduc coninutul lor origi-
nal. n al doilea rnd, conform acelorai norme APA, utilizarea elementelor
furnizate de programe informatice n lucrri tiinifice se face prin includerea
coninutului original i nemodificat. n al treilea rnd, pentru c vreau s v
nv, imediat, cum s editai coninutul elementelor din fereastra de rezulta-
te.
Orice element din fereastra de rezultate SPSS este un element editabil.
Putei s facei aproape orice cu tabelele i graficele pe care SPSS le furni-
zeaz. Nu avei dect s dai un dublu clic pe elementul pe care dorii s-l
editai i vei intra ntr-un alt mod pe care SPSS l suport, modul de editare.
Pentru nceput, s dm dublu
clic pe tabelul inventarului statistic de
baz, tabelul Statistics. Observm c
marginea care ncadreaz acest tabel a
devenit o margine haurat i, de ase-
menea, este posibil s se afieze o bar
de instrumente de editare, similar
celei din programul Microsoft Word.
Primul buton de pe aceast ba-
Figura 6.18 Tabelul Statistics n mod r de formatare permite anularea aci-
editare
unilor efectuate (Undo). Cel de-al doi-

199
Statistic aplicat n tiinele socio-umane

lea buton este butonul pivot, care permite schimbarea rndurilor i a co-
loanelor n tabel.

Figura 6.19 Bara de formatare SPSS

Urmeaz apoi o caset derulant de aplicare a unui stil tabelului for-


matat, caseta derulant de alegere a fontului i caseta derulant de alegere a
dimensiunii fontului pentru textele selectate. Urmtoarele trei butoane permit
scrierea ngroat, nclinat i sublinierea, iar butonul al patrulea selecteaz
culoarea cu care s fie afiat fontul.
Cele patru butoane care se succed permit alinierea textului selectat, la
stnga, dreapta, centrat sau automat.
Ultimele dou butoane lanseaz sistemul de asisten (help) sau mo-
dul de creare a graficelor pentru variabila selectat iat o alt modalitate de
a realiza grafice, dac ai uitat s o facei n etapa de analiz. V recomand s
exersai aceste elemente, fr team c ai putea strica ceva (n definitiv avei
la dispoziie butonul de anulare - Undo). Nu vom intra n amnunte legate de
formatarea tabelelor, deoarece ar trebui s includem, inutil, mai multe pagini.
Un tabel n modul de edi-
tare permite modificarea elemen-
telor componente. Pentru nceput,
ne propunem s traducem n ro-
mnete cuvintele Missing (Lip-
s), Mean (Media), Media (Me-
diana) i Mod (Modul).
Aflndu-v n modul de
editare, efectum din nou dublu

Figura 6.20 Editarea valorilor n tabel


200
Cristian Opariuc-Dan

clic pe cuvntul Missing. Va rezulta o figur similar celei alturate. Obser-


vai c textul Missing este deja selectat acum; dac apsai orice tast, coni-
nutul selectat va fi nlocuit cu tasta apsat. Nu v rmne dect s scriei n
loc de Missing, Lips.
Cuvntul Missing este nlocuit
Inventar statisti c de baza
cu textul introdus, Lips. Procedai la Coef icientul de inteligent a
N Valid 30
fel cu toate celelalte cuvinte din tabel, Lipsa 0
pentru a putea traduce tabelul n limba Media
Mediana
111,33
108,50
romn. Putei folosi bara de formatare Modulul 124
Abaterea standard 8,511
pentru a ngroa, schimba culoarea sau Skewness ,413
Eroarea Skewness ,427
alinia textele selectate. Cnd ai terminat, Kurtosis -1,384
Eroarea Kurtosis
dai clic oriunde pe suprafaa alb a fe- Amplitudinea
,833
24

restrei de rezultate, pentru a iei din mo- Minimum


Maximum
100
124

dul de editare.
Figura 6.21 Inventarul statistic dup editare
n final, tabelul dumneavoastr
trebuie s arate la fel ca cel din figura de mai sus.
Iat modalitatea prin care putei traduce, dac dorii, orice element al
formularului de rezultate ntr-o alt limb.
Din nefericire, la fel cum pot fi traduse cuvintele, pot fi modificate i
cifrele, ceea ce v poate determina uneori s schimbai datele oferite de SPSS
cu alte date mai convenabile vou. Nu uitai c, n general, trebuie s punei
la dispoziie i baza de date n momentul n care publicai un studiu i de cele
mai multe ori analizele sunt refcute de comisia de publicare a articolului.
Tot folosind modul de editare, putei ajusta limea coloanelor pentru
ca tabelul dumneavoastr s prezinte un aspect elegant.
Deplasai cursorul mausului deasupra unei linii, ca n figura alturat,
pn cnd se transform ntr-o sgeat orizontal. Apoi inei apsat butonul
din stnga al mausului i tragei micnd mausul la dreapta sau la stnga,

201
Statistic aplicat n tiinele socio-umane

pentru a ajusta dimensiunea coloanei


din tabel. La fel putei proceda i
pentru ajustarea dimensiunilor pe
vertical.
Referitor la formatarea tabe-
lelor, SPSS pune la dispoziie mai
multe meniuri pe care nu le vom ana-
liza n detaliu aici, din considerente
de spaiu. Putei consulta, pentru

Figura 6.22 Inventar statistic tradus informaii suplimentare, manualul


SPSS. Ne vom limita doar s le pre-
zentm.
Meniul Insert permite adugarea, n cadrul tabelului
selectat, a unui nou titlu, a unei noi etichete n subsolul tabe-
lului sau a unei noi note se subsol ntr-un mod similar opera-
iunii pe care SPSS o face automat n momentul n care de-
pisteaz o distribuie multimodal.
Meniul Pivot permite marcarea tabelului cu-
rent n scopul unei regsiri rapide n fereastra de rezul-
tate, comutarea tabelului prin inversarea liniilor sau a
coloanelor sau lansarea ferestrei speciale prin care
poate fi controlat pivotarea tabelului. Acest meniu
este un meniu important n formatarea aspectului gra-
fic al tabelului, cu aplicaii n condiiile analizei unui volum mare de date.
Vom reveni asupra acestui meniu, n momentul n care vom discuta despre
studiile corelaionale.
Meniul Format cuprinde un set de utilitare prin intermediul crora
putem modifica aspectul celulelor din tabel, a ntregului tabel, a fonturilor

202
Cristian Opariuc-Dan

sau a notelor de subsol. SPSS conine, asemntor progra-


mului Microsoft Word, mai multe abloane grafice care pot
fi aplicate tabelelor. Alegnd un asemenea ablon grafic,
putei modifica complet aspectul tabelelor din foaia de re-
zultate.
Toate opiunile din acest meniu in doar de aspectul
grafic al tabelelor i nu afecteaz n niciun fel coninutul
datelor dumneavoastr. Se pot stabili, alturi de cele expuse mai sus, numrul
de zecimale pe care SPSS s le afieze, ordonarea datelor, includerea sau
excluderea capului de tabel etc. V invit s parcurgei acest meniu i s exer-
sai facilitile pe care le ofer. Oricnd v putei ntoarce la starea iniial,
anterioar unei aciuni, folosind butonul Undo.

VI.7.1 Calculul notelor z n SPSS


Programul SPSS permite calculul notelor z pentru fiecare dintre ca-
zurile individuale prezente n distribuia de date, ntr-un mod foarte simplu i
elegant.
Din acelai meniu, Analyze, vei alege opiu-
nea Descriptive Statistics i apoi opiunea Descrip-

tives
Figura 6.23 Meniul
statistici descriptive Cunoatei deja fereastra care se deschide, de-
oarece am analizat-o pe parcursul acestei lucrri, drept pentru care nu vom
insista dect asupra unui singur element. Este
vorba despre caseta de bifare Save standar-
dized values as variables. Rolul acestei casete,
pe care o vom bifa, este acela de a crea o nou
variabil care va stoca scorurile z ale fiecrui Figura 6.24 Fereastra de
caz din baza de date. Evident, va fi lansat fe- configurare a analizei
reastra de afiare a rezultatelor care conine un

203
Statistic aplicat n tiinele socio-umane

tabel pe care l-am discutat deja. Totui, unde sunt notele z att de cutate
de noi?
S ne amintim ce am bifat. Am bifat o op-
iune, dup ce am introdus variabila Coeficient
de inteligen n lista variabilelor ce trebuie ana-
lizate, prin care notele standardizate vor fi salvate
ca variabile. Trebuie, deci, s ne ntoarcem la baza
de date, unde vom regsi o nou variabil creat
automat. Este vorba despre variabila Ziq, ultima
din baza de date, care nu conine altceva dect
notele z ale fiecrui subiect.
Figura 6.25 Noua variabil Observm c primul subiect se afl la
ce conine scorurile z
1,33 abateri standard n stnga mediei, adic n
zona rezultatelor medii, al doilea la 1,01 abateri standard n dreapta mediei,
tot n zona scorurilor medii i aa mai departe.
Cum facem totui pentru a obine note standardi-
zate rezultate din notele z, scoruri sten spre exemplu.
V mai amintii probabil c scorurile sten se obin adu-
Figura 6.26 Meniul de nnd valoarea 5,5 la valoarea notei z. Dac avem
transformare SPSS notele z, restul este simplu. Cum facem ns acest
lucru n SPSS?
Vom folosi serviciile unui alt meniu, i anume meniul Transform, de
unde vom selecta opiunea Compute sau Compute variable, n funcie de
versiunea SPSS pe care o posedai.
Rezultatul acestei aciuni se concretizeaz
ntr-o fereastr similar celei alturate, care conine
urmtoarele elemente:
Target variable reprezint seciunea n care
Figura 6.27 Fereastra
de calcul a variabilelor

204
Cristian Opariuc-Dan

vom introduce numele variabilei destinaie, variabil n care se vor salva noi-
le rezultate. n cazul nostru, suntem interesai s calculm scorurile sten pen-
tru variabila iq i vom introduce un nume, ca spre exemplu StenIQ.
Sub aceast caset de text se afl un buton inti-
tulat Type & Label, pe care, dac apsm, vom pu-
tea configura proprietile noii variabile create.
Astfel, avem posibilitatea s adugm o etiche-
Figura 6.28 Proprie-
ti ale variabilei
t variabilei nou create, folosind cele dou opiuni din
seciunea Label. Putem decide dac introducem un
text ca etichet (ca n cazul figurii alturate) ori vom folosi drept etichet
formula de calcul, situaie n care va trebui s alegem opiunea Use expres-
sion as label. Seciunea Type permite alegerea tipului de variabil. Putem
decide ntre un tip numeric implicit i un ir de caractere, caz n care va trebui
s includem i dimensiunea acestui ir, numrul de caractere pe care l permi-
te variabila.
Sub butonul Type & Label se afl binecunoscuta list a variabilelor
din baza de date. n partea dreapt, apare caseta de text Numeric Expres-
sion, cu ajutorul creia putem scrie formula de calcul prin care va fi obinut
noua variabil. n acest sens, putem utiliza calculatorul de sub caset sau
putem tasta pur i simplu valorile sau formula n caseta de text. Pentru a v
uura accesul la formule, SPSS v pune la dispoziie dou liste: lista Func-
tion group care conine funciile sistemului grupate pe categorii i lista
Functions and Special Variables care se refer la funciile din categoria
selectat anterior. Dac, de exemplu, n prima list, efectum clic pe elemen-
tul Arithmetic, atunci, n cea de-a doua list, vor fi afiate funciile referitoa-
re la operaiile aritmetice uzuale.
Butonul If permite efectuarea condiional a calculelor, adic cal-
cularea doar a datelor care ndeplinesc o condiie.

205
Statistic aplicat n tiinele socio-umane

ntlnim aici posibilitatea de a include toate cazurile (Include all cas-


es) sau de a include doar cazurile care satisfac o condiie (Include if cases
satisfies condition). Dac, de exemplu, dorim s calculm scorurile sten doar
pentru brbai, vom alege aceast opiune, iar apoi vom scrie n caseta de
formule expresia sexul=1. n acest fel, SPSS va calcula scorurile sten nu-
mai pentru brbai, ignornd femeile. ntl-
nim i aici lista de funcii, util pentru crearea
unor expresii mai complexe. Deocamdat nu
ne intereseaz niciun calcul condiional, prin
urmare vom prsi fereastra fr a efectua
nicio modificare.

S vedem acum, concret, cum calcu- Figura 6.29 Calculul condiional


lm scorurile sten ale variabilei iq, folosind al datelor

aceste elemente. n primul rnd, am introdus numele i descrierea noii varia-


bile n caseta Target Variable, aa cum a fost
exemplificat mai sus. Ne amintim c nota sten se
calculeaz adunnd 5,5 la valoarea notei z. Nota
z, ns, am calculat-o anterior i o regsim n
baza de date sub denumirea Ziq (Zscore: Coefici-
entul de inteligen).

Figura 6.30 Calculul Restul e simplu. Nu v rmne dect s


scorurilor sten scriei n caseta Numeric Expression formula (5,5 +
Ziq), fie tastnd-o, fie folosind calculatorul. Variabila care conine nota z
(Ziq) se poate tasta sau se poate folosi butonul de transfer pentru a include
variabila din lista variabilelor n formul.
Nu mai trebuie dect s apsai butonului OK i s vedem ce se n-
tmpl. Apare, desigur, fereastra de rezultate care ne informeaz asupra fap-
tului c operaiunea a reuit. La fel ca la calculul notelor z, ne intereseaz
baza de date.

206
Cristian Opariuc-Dan

Iat c a aprut noua variabil StenIQ care conine, exact aa cum


am specificat, scorurile sten ale subiecilor. Observm c, de aceast dat,
notele nu mai sunt cuprinse ntre -3 i +3, ci pe o scal de la 1 la 10, exact ca
n sistemul colar. Este mult mai intuitiv, nu-i aa?

Ca exerciiu, v propun calculul notelor z i a scorurilor sten pen-


tru variabila vrsta subiecilor.

n concluzie:
Media i abaterea standard caracterizeaz pe deplin o distribuie i, de aceea,
aceti doi indicatori poart numele de parametri ai repartiiei normale;
O distribuie normal trebuie s ndeplineasc simultan urmtoarele trei condiii:
o S fie unimodal;
o S fie simetric;
o S fie mezocurtic;
Unimodalitatea reprezint existena unei singure categorii cu frecvena absolut
maxim i se analizeaz prin inspectarea valorii modale;
O distribuie normal este o distribuie unimodal;
Simetria reprezint echilibrarea distribuiei pe axa orizontal i se poate calcula
prin:
o Coeficientul Yule;
o Coeficientul Fisher;
o Relaia dintre medie, median i abaterea standard;
Referitor la simetrie, exist un sistem de relaii ntre indicatorii tendinei centrale
(medie, median i mod), distribuiile putnd fi simetrice, asimetrice la stnga i
asimetrice la dreapta.
O distribuie normal este o distribuie simetric
Boltirea reprezint o asimetrie vertical a distribuiei i se poate calcula prin:
o Coeficientul de boltire Pearson;
O distribuie normal este o distribuie mezocurtic;
ntr-o distribuie normal, exist un numr de ase abateri standard; trei la stnga
mediei i trei la dreapta mediei;
n funcie de abaterile standard, o distribuie normal prezint patru zone: zona
scorurilor normale, zona scorurilor accentuate, zona scorurilor atipice i zona sco-
rurilor aberante;
Notele z reprezint distana dintre un scor particular i medie, exprimat n ter-
meni de abateri standard;

207
Statistic aplicat n tiinele socio-umane

Notele z pot fi transformate, n baza proprietilor acestora, n alte sisteme de


note standardizate;
Prin intermediul notelor z, scorurile brute se aduc la un numitor comun, putnd
apoi face comparaii att ntre subieci, ct i ntre rezultate la probe diferite;
O distribuie care nu este normal poate fi normalizat prin procedee statistice
specifice:
o Media 5% trim;
o Extragerea radicalului;
o Ridicarea la ptrat sau la cub;
o Logaritmarea pe valori normale sau inversate;
o Reflectarea.
Etaloanele sunt sisteme de norme ce permit compararea scorului unui subiect cu
performana obinut de un grup reprezentativ de subieci;
Etaloanele se construiesc n funcie de aspectul distribuiei rezultatelor, astfel:
o Pentru distribuii normale se pot folosi etaloanele n cuantile sau etaloane
n clase normalizate, preferndu-se cele din urm;
o Pentru distribuii care nu sunt normale i nu pot fi normalizate, singurul
sistem de etalonare care poate fi folosit este cel al etaloanelor n cuantile.

208
Cristian Opariuc-Dan

VII. PROBABILITI I SEMNIFICAIE STATISTIC


n acest capitol se va discuta despre:
Conceptul de probabilitate;
Tipuri de probabiliti;
Eroare standard i intervale de ncredere;
Etapele metodei tiinifice;
Ipoteze i testarea ipotezelor;
Semnificaie statistic i erori n testarea ipo-
tezelor.
Dup parcurgerea capitolului, cursanii vor fi capabili s:
neleag regulile de probabilitate;
Disting ntre diferitele tipuri de probabiliti;
neleag i s calculeze eroarea standard i in-
tervalul de ncredere;
nsueasc etapele demersului tiinific;
Planifice o cercetare tiinific i s formuleze
ipotezele;
neleag logica testrii ipotezelor;
neleag conceptul de semnificaie statistic;
Recunoasc i s trateze tipurile de erori aprute
n procesul testrii ipotezelor.

Desigur, n activitatea dumneavoastr de zi cu zi, ai ntlnit frecvent


termenul de probabilitate. Care este probabilitatea s plou n momentul n
care ai decis s v petrecei o sptmn pe litoral sau care este probabilita-
tea s avei un cmin fericit n momentul n care v-ai cstorit? Dac arun-
cai o moned n sus, care este probabilitatea s cad cap sau stem? Unii
dintre dumneavoastr i doresc s poat afla probabilitatea prin care s obi-
n un ase la zar pentru a scpa de mar i aa mai departe.
Dac aruncm o moned n sus, atunci cnd cade, va putea s cad pe
faa cu capul sau pe faa cu stema. Exist doar dou posibiliti n acest caz,
care acoper complet posibilitile de manifestare ale acestui fenomen. Care
este ns probabilitatea s cad stema? Este una dintre cele dou posibiliti,

209
Statistic aplicat n tiinele socio-umane

adic, exprimat n termeni cifrici, =0,5. Dac avem un zar, care este proba-
bilitatea s dm un ase? De data aceasta cte posibiliti sunt? Poate s cad
1, 2, 3, 4, 5 sau 6, deci avem 6 posibiliti. Dac dm cu zarul, exist o singu-
r ans raportat la 6 anse de a nimeri, dintr-o singur ncercare, zarul cu
ase. Exprimat din nou cifric, avem o probabilitate de 1/6=0,166 s scpm de
mar. Dac ns, pentru a scpa de mar, ne trebuie un 6 sau un 4, care este
probabilitatea de a iei cu fa curat? De data aceasta, exist dou alternative
raportate la un total de ase, prin urmare 2/6=0,33.
Nu cred c toate aceste lucruri sunt elemente noi. n general, atunci
cnd vorbim de probabiliti, acestea se exprim sub form cifric, cu valori
de la 0 la 1, n care 0 reprezint probabilitatea nul, niciodat evenimentul nu
se va ntmpla, iar 1 reprezint probabilitatea maxim, evenimentul se ntm-
pl ntotdeauna. De foarte multe ori, este mai intuitiv s reprezentm procen-
tual probabilitile prin nmulirea probabilitii cu 100. Astfel, exist 50%
anse s cad stema la aruncarea unei monede (0,5x100) sau 16,6% anse s
scap de mar, dac nimeresc un ase i 33% dac nimeresc un ase sau un
patru. Muli prefer aceast exprimare, deoarece suntem obinuii s gndim
sub form de pri ale unui ntreg. n definitiv, fie c folosim exprimarea
0,33, fie c avem n vedere o form procentual, 33%, de fapt spunem ace-
lai lucru.
Toate aceste exemple reprezint cazuri de probabilitate necondiio-
nat, deoarece nu exist niciun factor, niciun element care s influeneze
desfurarea lor. Dac nu exist vreun magnet n zar sau vreun grunte de
plumb care s influeneze obinerea lui ase, atunci suntem n faa unui caz de
probabilitate necondiionat.
Probabil c la ora actual exist o sut de cri de statistic care tra-
teaz problemele pe care le-am expus aici, unele n mod cert mai complete i
mai academic scrise. Care ar fi, aadar, probabilitatea ca dumneavoastr s
citii acum cartea scris de mine? Este simplu de calculat 1/100=0,01 sau, ex-

210
Cristian Opariuc-Dan

primat procentual, 1%. Cam mici anse, nu-i aa? n mod sigur, nu cred c-
am s m mbogesc din vnzarea acestei cri Care ar fi probabilitatea ca
prietenul sau prietena dumneavoastr s citeasc aceast carte? Tot 1% dac
nu i-o recomandai dumneavoastr. Dac i-o recomandai, probabilitatea va
crete n funcie de numrul de recomandri efectuate i, iat cum, cu ajutorul
dumneavoastr, mi voi lua o vil pe plaj. Acest exemplu, n care probabili-
tatea de apariie a unui eveniment este influenat de prezena sau absena
unui alt eveniment, se numete probabilitate condiionat. Exist aadar
alte aspecte care influeneaz probabilitatea de apariie a unui eveniment.
Probabilitatea de a muri de cancer la plmni n urma fumatului este foarte
mare, n condiiile n care nu cunosc faptul c fumatul mi poate declana un
cancer. Dac tiu acest lucru, crete probabilitatea s reduc igrile i chiar s
abandonez fumatul, ceea ce va determina i reducerea probabilitii de a
muri. n prima situaie, ne aflm n faa unui exemplu de probabilitate necon-
diionat. n al doilea caz, avem de a face cu o probabilitate condiionat.
De ce, totui, am abordat aceste probleme pe care le tii att de bine?
Nu am fcut-o ca s va jignesc inteligena, ci pentru a ne asigura c avem
bazele nelegerii importanei probabilitilor n statistica social.
nelegerea acestor aspecte asigur, mai apoi, nelegerea conceptelor
de inferen statistic, de relaii ntre variabile, praguri de semnificaie i
semnificaie statistic.
Dup cum am afirmat, scopul unei cercetri este acela ca, pornind de
la rezultatele obinute la nivelul unui eantion de populaie, s tragem conclu-
zii valabile pentru o ntreag populaie. Dac voi studia cantitatea de bere
consumat de studenii de la psihologie i voi face afirmaia c n general
studenii de la psihologie consum mai mult bere n comparaie cu ceilali
studeni, la ce nivel de precizie m voi situa? Care este probabilitatea ca
afirmaia mea s fie exact? Pentru a calcula aceast probabilitate, avem ne-
voie s nelegem foarte clar ce nseamn probabilitate de apariie a unui eve-

211
Statistic aplicat n tiinele socio-umane

niment, fie ea condiionat sau necondiionat. Toate cercetrile n care se


folosesc procedee statistice urmresc, n principal, acelai scop. Din raiuni
de costuri i volum de munc, studiind un eantion, urmrim extinderea con-
cluziilor obinute la nivelul ntregii populaii. Singura problem care se pune
este aceea referitoare la ct de precise i adecvate sunt aceste concluzii.
Probabilitatea condiionat i simpl necondiionat reprezint dou
dintre cele mai importante reguli de probabilitate, alturi de evenimentele
mutual exclusive i evenimentele independente. n urmtoarele subcapitole,
vom aprofunda aceste noiuni, n vederea unei nelegeri complete.

VII.1Patru reguli de probabilitate


n exemplul anterior cu zarul, totalitatea rezultatelor care pot fi obi-
nute (1, 2, 3, 4, 5 sau 6) poart numele de eveniment n teoria probabiliti-
lor. Probabilitatea de scpa de mar, dac dau un ase sau dac dau un ase
sau un patru, poart numele de probabilitate de succes. Generaliznd, proba-
bilitatea de succes, n cazul unor asemenea evenimente, poate fi calculat cu

ajutorul formulei () = , n care P(S) reprezint probabilitatea de succes, ns

reprezint numrul rezultatelor de succes, iar n reprezint numrul total al
rezultatelor.
Este exact ceea ce am stabilit anterior. Care este probabilitatea de a
scpa de mar (probabilitatea de succes)? S dau un ase. Deci un singur re-
zultat va fi de succes dintr-un total de cte rezultate? Dintr+un total de ase
rezultate posibile (pot s dau un 1, 2, 3, 4, 5 sau 6). Aplicnd n formul, g-
sim c probabilitatea de succes este de 1/6=0,166.
n mod similar, pot calcula probabilitatea de succes pentru dou eve-
nimente (ase sau patru), pentru trei evenimente i aa mai departe.

212
Cristian Opariuc-Dan

VII.1.1 Probabilitatea simpl pentru evenimente egale


Se refer exact la evenimente tip aruncarea unei monede sau la arun-
carea unui zar i reprezint cea mai simpl regul de probabilitate. Pentru a
nelege mai bine acest lucru, s lum cazul unei rulete cu nou culori. Dum-
neavoastr va trebui s aruncai o moned de 50 de bani, n timp ce ruleta se
rotete. Dac, atunci cnd ruleta se oprete, moneda dumneavoastr se afl pe
culoarea verde, ctigai doi lei; n caz contrar, pierdei moneda.
Cunoscnd formula de mai sus, care este probabilitatea de succes?
Evident, numrul total de rezultate posibile este nou; moneda poate s cad
pe oricare dintre cele nou culori. O singur culoare este ns ctigtoare, i
anume culoarea verde, deci un singur rezultat va fi cel ctigtor. Probabilita-
tea de succes este, aadar, 1/9=0,111 sau 11,1%. Pn aici toate sunt clare i
limpezi. Care este ns probabilitatea de eec? Evident, toate celelalte culori
rmase, adic 8/9=0,888 sau 88,8%. Din nou anse posibile, avei, prin urma-
re, o singur ans s ctigai i opt anse s pierdei, adic 1/8 anse de c-
tig. Acum v vei uita nedumerii la mine i m vei ntreba. Parc era 1/9
probabilitatea de succes. Cum a devenit dintr-o dat 1/8? Dac ai fost ateni,
am fcut deja incursiunea ntr-un alt concept statistic, i anume cel de ans,
oarecum similar cu cel de probabilitate de succes i de eec, pe care, de altfel,
se bazeaz. ansa de succes poate fi scris ca raportul dintre probabilitatea
de succes i probabilitatea de eec (P(s)/P(e)). Pentru a nu mai folosi probabili-
tatea de eec, putem exprima ansa de succes doar n termeni de probabilitate
()
de succes, dup formula = . Acest lucru devine evident, dac
1 ()

nlocuim n raportul iniial semnificaia probabilitii de eec. Atunci cnd


vorbim n termeni de ans, putem spune c exist o ans s ctig doi lei i
opt anse s pierd 50 de bani, adic ansa mea de succes este de 1/8; una de
ctig i opt de pierdere.
Haidei s vedem dac aa stau lucrurile. Probabilitatea de succes, n
cazul ruletei, este de 1/9 i cea de eec este de 8/9. Vom face apel la cunotine

213
Statistic aplicat n tiinele socio-umane

() 1 1
de aritmetic de baz i vom spune c ansa de succes este =89=
() 9 9
9 1
= 8. Nu am folosit dect cunotine elementare de aritmetic. Demonstraia
8
formulei a doua este evident, deoarece probabilitatea de eec va fi 1 pro-
babilitatea de succes. Dac nlocuii i efectuai calculele, rezultatul va fi ace-
lai: o ans s ctig doi lei i opt anse s pierd 50 de bani.
De ce folosim totui termenul de ans de succes i nu cel de probabi-
liti de succes i de eec. Foarte simplu. Pentru a sintetiza ntr-o singur ex-
primare att succesul, ct i eecul. O ans s ctig doi lei i opt anse s
pierd 50 de bani se prezint mai concis i mai elegant n comparaie cu o
probabilitate de unu pe nou s ctig doi lei i o probabilitate de opt pe nou
s pierd 50 de bani. Desigur, sunt i alte motive pe care le vom discuta la
momentul potrivit.

VII.1.2 Evenimentele mutual exclusive


Toat discuia noastr s-a bazat pn acum pe un singur eveniment:
aruncarea unui singur zar, a unei singure monede sau jocul la o singur rule-
t. Ce se ntmpl, ns, dac avem dou evenimente? tii c la jocul de ta-
ble avem dou zaruri. Fiecare dintre cele dou zaruri poate lua, n mod inde-
pendent, valori de la unu la ase, n urma unei aruncri. Dac pentru a scpa
de mar, nu avem nevoie de un ase sau un patru, ci de un apte sau un zece,
cum vom calcula probabilitatea? S nu mi spunei c vei picta mai multe
puncte pe faa unui zar
Iat o situaie tipic de dou evenimente mutual exclusive. De ce mu-
tual exclusive? Pentru c punctele obinute pe un zar depind de punctele obi-
nute pe celalalt zar, pentru a rezulta scorul total. Fiecare dintre cele dou za-
ruri poate lua valori de la unu la ase. Cumulat, exist un numr de 36 de
posibiliti de a se combina cele dou zaruri (6x6 posibiliti). Pentru a obine
un apte, putem avea una dintre urmtoarele situaii:

214
Cristian Opariuc-Dan

Zar 1: 1 2 3 4 5 6
Zar 2: 6 5 4 3 2 1
Total: 7 7 7 7 7 7
n acest caz, funcioneaz o alt regul, derivat din regula probabili-
tilor simple a evenimentelor egale, numit regula aditiv pentru eveni-
mente mutual exclusive. Nu v speriai, c nu este cine tie ce demonstraie
matematic complex. Care este numrul total de rezultate al celor dou eve-
nimente? Primul zar are un total de ase rezultate, iar al doilea zar un numr
total de ase rezultate. Numrul total al rezultatelor celor dou evenimente
este de 6x6=36 de rezultate. Care este numrul de rezultate de succes, adic
numrul de rezultate care, prin nsumare, duc la cifra apte? Numrai rezul-
tatele din tabelul de mai sus. Sunt ase rezultate. Nu avem acum dect s n-
locuim n formula de mai sus pentru a calcula probabilitatea de succes
6 1
() = = 36 = 6 = 0,16. Cunoscnd probabilitatea de succes, este uor s

calculm ansa de succes. Aplicai doar formula specificat n capitolul ante-
rior i vei afla ansa de succes. Nu mi se pare deloc complicat. M vei n-
treba acum de ce vorbesc de o alt regul, cnd ,de fapt, este exact prima re-
gul studiat. Pentru c aceast regul spune c probabilitatea de succes a
unui numr de k evenimente mutual exclusive reprezint suma probabiliti-
lor de succes a fiecrui eveniment. Dac avem k evenimente (n cazul nostru
k are valoarea ase, deoarece sunt ase evenimente), atunci probabilitatea de
succes va fi P(s)=P(e1) + P(e2) + P(e3) + . P(ek)
Acest lucru se verific i n cazul nostru, dac ar fi s scriem formula
desfurat:
1 1 1 1 1 1 6 1
() = + + + + + = =
36 36 36 36 36 36 36 6
Iat c v-am lmurit i motivul pentru care aceast regul se numete
regula aditiv pentru evenimentele mutual exclusive.

215
Statistic aplicat n tiinele socio-umane

Ca exerciiu, calculai probabilitatea de succes i ansa de succes


pentru a obine la table un 10, ca s scpai de mar.
Am abordat pn acum situaia n care evenimentele sunt egale (cele
dou evenimente au acelai numr de rezultate fiecare dintre cele dou za-
ruri poate genera un numr de ase rezultate). Cum procedm, ns, dac
evenimentele nu sunt egale?
S presupunem c suntei un juctor de poker electronic i v aflai n
faa unui asemenea aparat care funcioneaz cu monede. Programatorul apa-
ratului a implementat urmtorul algoritm de ctig (Dowdy, i alii, 2004):
Careu de ai se ctig 50 de monede probabilitate 0,001
Careu de popi se ctig 30 de monede probabilitate 0,010
Careu de dame se ctig 25 de monede probabilitate 0,040
Careu de valei se ctig 10 monede probabilitate 0,359
Pierderea monedei probabilitate 0,590

Probabilitatea de succes este practic probabilitatea de a ctiga ceva,


fie valeii, fie damele, fie popii, fie aii. n acest caz, probabilitatea de succes
este suma probabilitilor evenimentelor, i anume 0,001+0,010+0,040+0,359
rezultnd 0,41.
Observm c probabilitatea de succes, aplicnd regula aditivitii eve-
nimentelor mutual exclusive, nu este altceva dect inversul probabilitii de
eec. n termeni probabilistici, opusul probabilitii de succes poat numele
de complement i se noteaz cu PS . ntotdeauna, suma dintre probabilitatea
de succes i complementul acesteia este unu. Dac revenim la formula ansei,
practic ansa de succes este raportul dintre probabilitatea de succes i com-
plementul acesteia.

216
Cristian Opariuc-Dan

VII.1.3 Evenimentele independente


Ai observat, din exemplul anterior cu jocul electronic, c probabilita-
tea de succes este destul de mare (0,41). Dac introducei o moned n aparat,
avei practic o probabilitate de 41% s ctigai ceva i 59% s pierdei. To-
tui, de ce nu ctigai? Dac suntei un mptimit al jocurilor de noroc, n
mod singur ai trecut prin situaia n care v spuneai: Am pierdut prea mult.
De acum, ar trebui s mai i ctig. n realitate ns, ai risipit toi banii fr
un ctig substanial. De ce? Rspunsul este foarte simplu. Deoarece eveni-
mentele sunt n realitate independente. Introducerea unei noi monede n apa-
rat nu are nici o legtur cu ceea ce ai jucat dumneavoastr anterior. Jocurile
anterioare nu influeneaz cu nimic probabilitatea de ctig pe care o avei. n
acest caz, evenimentele nu sunt mutual exclusive, ci independente. Dac vei
introduce n aparat 100 de monede, probabil c vei ctiga de 41 de ori i
vei pierde de 59 de ori.
Atunci cnd discutm despre evenimente independente, trebuie s
avem n vedere probabilitatea comun ca dou sau mai multe evenimente s
se ntmple simultan. S considerm un alt exemplu, n care presupunem c
avem la dispoziie un pachet de cri de joc. tii foarte bine c un pachet de
cri de joc conine un numr de 52 de cri aranjate pe dou culori: negru i
rou. De asemenea, exist, pentru fiecare culoare, un numr de 8 cri specia-
le: asul, popa, dama i valetul. Dac am sistematiza distribuia crilor de joc,
am obine o imagine similar tabelului de mai jos (Dowdy, i alii, 2004):
Carte special Negru Rou Total
Da 8 8 16
Nu 18 18 36
Total 26 26 52

n continuare, vom amesteca foarte bine crile din pachet i vom n-


cerca s gsim probabilitatea cu care putem extrage o carte special de culoa-
re neagr, dintr-o singur extragere. Cred c intuii deja rspunsul. Putem

217
Statistic aplicat n tiinele socio-umane

extrage oricare dintre cele 52 de cri din pachet. Deci totalitatea rezultatelor
este de 52. Totui, dintre aceste 52 de cri, doar 8 cri sunt speciale i negre.
Prin urmare, probabilitatea de a extrage o carte special i de culoare neagr
8 2
este de = 52 = 13 = 0,15. Dac n cazul evenimentelor mutual exclusive
am avut o regul aditiv, n acest caz, ne confruntm cu o regul multiplica-
tiv a evenimentelor independente. Conform acestei reguli, probabilitatea
de succes a unui numr de k evenimente independente reprezint produsul
probabilitilor de succes ale fiecrui eveniment. Dac avem k evenimente (n
cazul nostru k are valoarea doi, deoarece primul eveniment se refer la extra-
gerea unei cri de culoare neagr i al doilea eveniment - la extragerea unei
cri speciale), atunci probabilitatea de succes va fi P(s)=P(e1) x P(e2) x P(e3) x
26 16 1 4 4 2
. P(ek). n situaia de fa, = = = = = =
52 52 2 13 26 13
0,15. Am obinut, dup cum ai constatat, exact acelai rezultat.

VII.1.4 Probabilitatea condiionat


Atunci cnd ne gndim la un african, ne vine n minte imaginea unei
persoane cu tenul nchis la culoare, prul negru, eventual ondulat, buzele
groase. Dac ntlnim o asemenea persoan pe strad, putem afirma cu o pro-
babilitate foarte mare de succes c respectiva persoan este un african. Poate
fi vorba ns i despre un arab sau chiar un european. Ne-am bazat afirmaia
pe o serie de indicii fizice care au condiionat probabilitatea de succes. Un
asemenea exemplu este un caz tipic de probabilitate condiionat. n aceast
situaie, unul sau mai multe evenimente influeneaz, condiioneaz probabi-
litatea de apariie a unui alt eveniment.
S presupunem c facem un studiu pe 100 de persoane bolnave de
cancer pentru a vedea n ce msur fumatul contribuie la apariia cancerului
la plmni. Dup colectarea rezultatelor, le putem prezenta ntr-un tabel simi-
lar celui de mai jos (Dowdy, i alii, 2004):

218
Cristian Opariuc-Dan

Cancer Nefumtor Fumtor Total


Pulmonar 5 20 25
Alt tip de cancer 60 15 75
Total 65 35 100

Ne punem evident ntrebarea, avnd un numr de 25 de persoane cu


cancer pulmonar, care este probabilitatea ca un fumtor s contacteze un can-
cer pulmonar. Rspunsul este din nou simplu, dac privim cu atenie tabelul
de mai sus. Avem un numr total de 25 de bolnavi de cancer pulmonar, din
care 20 sunt fumtori. n acest caz, probabilitatea ca un fumtor s prezinte
cancer pulmonar este de 20/25 = 0,80. Cam mare, nu-i aa?
n realitate, probabilitatea condiionat are i ea o regul proprie, nu-
mit regula probabilitii condiionate, care se scrie sub forma 2|1 =
12
i semnific probabilitatea ca evenimentul al doilea s fie determinat de
1
primul eveniment.
n cazul nostru, care sunt evenimentele? Lotul nostru conine 100 de
persoane, toate bolnave de cancer. Primul eveniment l reprezint probabilita-
tea ca, dintre toi bolnavii de cancer, unii s fie bolnavi de cancer la plmni.
Avem un numr de 25 de bolnavi de cancer la plmni dintr-un numr de 100
de bolnavi de cancer. Probabilitatea va fi aadar 25/100. Al doilea eveniment
este reprezentat de bolnavii de cancer la plmni, fumtori. Avem un numr
de 20 de bolnavi de cancer la plmni care fumeaz. Probabilitatea pentru al
doilea eveniment va fi aadar 20/100. Dac aplicm formula de mai sus, obi-
20
20
nem | = = 100
25 = 25 = 0,8. Am obinut, prin urmare, exact acelai

100

rezultat.

219
Statistic aplicat n tiinele socio-umane

VII.2 Eroare standard i intervale de ncredere


Incursiunea anterioar n domeniul probabilitilor, dei puin mai ari-
d fa de cum v-ai obinuit, nu a fost deloc ntmpltoare i este menit s
v familiarizeze cu demersul tiinific. n momentul n care utilizai statistica
ntr-un studiu tiinific, trebuie c reinei c aceast metod nu ofer nici pe
departe concluzii certe. Orice afirmaie pe care o facem i care deriv din
procedee statistice are o anumit proba-
bilitate de a fi adevrat, dup cum
exist i o probabilitate de a ne nela.
Acest lucru se ntmpl, deoarece, n
demersul tiinific, rareori lucrm cu
ntreaga populaie. De obicei, studiile se
Figura 7.1 Distribuia coeficientului de
inteligen i a notelor la matematic fac pe un segment din populaie, numit
pentru ntreaga populaie de elevi
eantion, iar concluziile se extind la
nivelul ntregii populaii. Devine evident faptul c indicatorii statistici obi-
nui prin studiul eantionului difer de parametrii populaiei generale din care
acest eantion a fost extras. Acest lucru induce anumite erori n momentul n
care extindem concluziile la nivelul populaiei, erori numite n literatura de
specialitate erori sistematice de eantionare. Scopul oricrui studiu este s
minimizeze aceste erori, astfel nct datele obinute prin studiul eantionului
s se apropie ct mai mult de parametrii reali ai populaiei.
Dac vom dori, de exemplu, s studiem relaia care exist ntre coefi-
cientul de inteli-
gen i notele Eantion 90% din
populaie. Exist mari
obinute la mate- anse s fie inclui att
subieci buni ct i
matic de ctre slabi
elevii de gimnaziu
din Romnia,
vom ti c cele
Figura 7.2 Distribuia coeficientului de
dou variabile se inteligen i a notelor la matematic
pentru un eantion de 90%

220
Cristian Opariuc-Dan

distribuie normal la nivelul populaiei, ca n figura alturat.


Pentru a afla parametrii reali ai populaiei (media i abaterea stan-
dard ) ar trebui s nregistrm notele la matematic i rezultatele unui test
de inteligen pentru toi elevii de gimnaziu din Romnia. Un asemenea stu-
diu va fi extrem de greu de realizat i foarte costisitor. Dac, n loc s anali-
zm toat populaia, vom studia doar 90% din populaie, media obinut se va
apropia foarte mult de aceea a populaiei generale. Acest lucru devine posibil,
deoarece probabilitatea de a selecta subieci care vor obine scoruri egal rs-
pndite n jurul mediei populaiei este foarte mare.
ns resursele nu sunt suficiente n vederea realizrii unui studiu de o
asemenea amploare i se va lucra cu un numr mai redus de subieci. Ce se va
ntmpla dac, n loc de a studia un eantion suficient de mare, vom folosi
doar trei elevi? n
Putem selecta 3
elevi cu rezultate acest caz exist o
Putem selecta 3 foarte bune
elevi cu rezultate probabilitate foarte
foarte slabe
mare s selectm
trei elevi cu rezul-
tate foarte slabe sau
cu rezultate foarte
Figura 7.3 Distribuia coeficientului de
inteligen i a notelor la matematic bune. n aceast
pentru un eantion de 3 elevi
situaie, concluziile
pe care le tragem sunt eronate, deoarece eantionul ales nu este reprezentativ
pentru populaia investigat.
Pe msur ce cretem dimensiunea eantionului, crete i probabilita-
tea de a selecta subieci cu scoruri deasupra i sub media populaiei, fapt ce
determin reducerea erorilor de eantionare, indicatorii obinui la nivelul
eantionului apropiindu-se din ce n ce mai mult de parametrii populaiei.
ntr-un capitol anterior, am discutat despre teorema limitei centrale.
Acest concept afirm c, dac extragem mai multe eantioane dintr-o popula-

221
Statistic aplicat n tiinele socio-umane

ie i calculm media acestor eantioane, media eantioanelor aproximeaz


cel mai bine media populaiei. n mod surprinztor, distribuia mediei eanti-
oanelor, n cazul unui numr mare de subieci (peste 30 de subieci), este o
distribuie normal, indiferent de modul n care variabila se distribuie la nive-
lul ntregii populaii. Pentru a nelege mai bine acest concept, s presupunem
c avem la dispoziie un zar. Dup cum tim, aruncnd un zar, putem obine
1, 2, 3, 4, 5 sau 6. nsumnd aceste valori i mprind suma rezultat la ase,
rezult media teoretic a populaiei de 3,5. Acum, s considerm un numr de
5 eantioane de cte 10 aruncri cu zarul. Poate nu v vine s credei, ns
chiar acum fac acest experiment pe care vi-l recomand i dumneavoastr. Iat
rezultatele pe care le obin:
Eantion 1: 1, 2, 1, 2, 6, 6, 4, 6, 4, 1 media = 3,6
Eantion 2: 2, 2, 1, 2, 6, 5, 6, 3, 3, 4 media = 3,4
Eantion 3: 4, 1, 2, 5, 6, 6, 3, 5, 5, 2 media = 3,9
Eantion 4: 4, 2, 2, 2, 5, 3, 1, 4, 3, 4 media = 3,0
Eantion 5: 5, 3, 4, 2, 6, 6, 1, 1, 4, 2 media = 3,4

Fiecare eantion are o medie diferit de media teoretic, se abate ntr-


un sens sau altul de la media populaiei 3,5. Dac aplicm principiile teore-
mei limitei centrale, vom realiza media acestor eantioane. Adunai toate cele
cinci medii i mprii la cinci. Obinei valoarea 3,46 care, iat, aproximeaz
cel mai bine media populaiei. n mod similar, aceste principii se aplic i n
cazul cercetrilor tiinifice.
Media de sondaj (m) obinut pe baza unui eantion reprezint un es-
timator consistent, deoarece tinde spre valoarea teoretic pe msura creterii
numrului de observaii, nedeplasat, eficient, fiind estimatorul cu cea mai
mic abatere de la media populaiei i suficient n sensul c nicio alt estima-
re nu ofer informaii suplimentare cu privire la parametrul estimat.
(Vasilescu, 1992).

222
Cristian Opariuc-Dan

Dei media de sondaj aproximeaz bine media populaiei, gravitnd n


jurul acesteia, noi nu tim ct de bine o aproximeaz. Dac vei cumpra o
pung de cafea de 100 de grame, s nu v ateptai ca punga respectiv s
cntreasc exact 100 de grame. Vei observa pe ambalaj o specificaie im-
portant: 100 de grame 5 grame. Ce nseamn acest lucru? nseamn c
punga dumneavoastr conine minimum 95 de grame i maximum 105 grame
de cafea. Cantitatea exact de cafea se gsete undeva ntre aceste limite, n
acest interval, numit i interval de ncredere. Dac vom evalua o caracteris-
tic a populaiei prin mai multe eantioane, mediile fiecrui eantion vor re-
prezenta estimri punctuale ale parametrului populaiei, estimri situate, n
general, n acest interval de ncredere. De aceea, putem spune c media de
sondaj este un estimator punctual al mediei populaiei n timp ce intervalul
de ncredere reprezint un estimator de interval al mediei populaiei. Acest
indicator ne ofer un interval de valori ntre limitele cruia putem regsi me-
dia real a populaiei studiate.
Nu ntmpltor am menionat anterior o proprietate foarte important
a repartiiei mediei eantioanelor care tinde spre o distribuie normal, indife-
rent de modul n care se distribuie real variabila la nivelul populaiei. Cunos-
cnd acest lucru, ne amintim c distribuia normal este complet caracterizat
prin medie i abaterea standard, iar aceste concepte ne vor ajuta s determi-
nm intervalul de ncredere.
n figura numrul 7.4, am re-
prezentat distribuia nlimii brbailor
din Romnia. Evident, media acestei
caracteristici la nivelul populaiei este ?

i va rmne necunoscut. Dac vom


extrage cteva eantioane din popula- Figura 7.4 Distribuia nlimii brbai-
ie, mediile obinute le vom putea re- lor din Romnia
prezenta prin punctele de pe grafic.
Media fiecrui eantion se abate n sens pozitiv i negativ de la media real,

223
Statistic aplicat n tiinele socio-umane

ns, dac am face media acestor eantioane, ne-am apropia cel mai bine de
valoarea exact a acestui parametru.
Dar, dup cum am
spus, media eantioanelor are
proprietatea de a se distribui
normal. Folosind acest ele-
ment i proprietile distribu-
iei normale, putem calcula ?

cu ct se abate media unui


eantion fa de media teore-
tic care rmne n conti-
nuare necunoscut , stabi-
lind astfel intervalul de ncre-
Figura 7.5 Distribuia normal a nlimii brbai-
dere. n mod practic, mediile lor din Romnia
eantioanelor se vor abate de
la media teoretic cu un numr de abateri standard sau, mai precis, vor
dobndi, fiecare, o cot z. Indiferent de eantion, media acestui eantion se
poate situa ntre -3 i + 3 abateri standard, pentru o probabilitate de aproxi-
mativ 99,74%. Acest interval este ns prea
mare i permite mediei de sondaj s aib
aproximativ orice valoare din domeniul de
variaie al nlimii brbailor din Romnia.
n general, trebuie s ne asigurm, la un nivel
de probabilitate de 95%, c zona din curba de
distribuie a populaiei conine media de son-
Figura 7.6 Zona distribuiei nor- daj, adic intervalul de ncredere al mediei
male corespunztoare unui interval
de ncredere de 95% are o precizie de 95%, existnd mai puin
de 5% anse ca media populaiei s nu fie

224
Cristian Opariuc-Dan

coninut n acest interval. n termeni de abateri standard, zona corespunz-


toare unui interval de ncredere de 95% se afl situat ntre 1,96 i + 1,96
abateri standard.
Urmnd firul logic, dac scorul z al mediei eantionului se afl situat
ntre 1,96 i + 1,96 abateri standard, nseamn c aceast medie aproximea-
z suficient de bine media teoretic sau media populaiei la un nivel de n-
credere de 95%. Dac v amintii, o proce-
dur similar am utilizat atunci cnd am
analizat simetria i boltirea unei distribuii.
Abaterile mediilor de sondaj fa de
media teoretic seamn foarte mult cu un
alt indicator studiat anterior, ca msur a
mprtierii, i anume abaterea standard. De Figura 7.7 Media eantionului
ntr-un interval de ncredere de
fapt, abaterea standard a mediilor eantioa- 95%
nelor reprezint un alt concept statistic care
poart numele de eroare standard a mediei. Eroarea standard a mediei re-
prezint o msur n care media unui eantion deviaz de la media eantioa-
nelor, avnd o importan deosebit n stabilirea real a intervalului de ncre-
dere i a msurii n care media unui eantion aproximeaz media real a po-
pulaiei.
Metoda tradiional prin care am putea estima eroarea standard a me-
diei ar fi aceea de a extrage mai multe eantioane din populaie, de a calcula
media eantioanelor i apoi abaterea standard a acestora dup unul dintre
procedeele descrise n capitolele anterioare. Totui, acest lucru nu se ntm-
pl, deoarece, de cele mai multe ori, n cercetarea tiinific lucrm cu un
singur eantion. Din fericire, eroarea standard a mediei este n legtur cu
mrimea eantionului aa cum am artat anterior i poate fi calculat cu-
noscnd doar mrimea eantionului i abaterea standard a acestuia. Cu ct
eantionul este mai mare, cu att eroarea standard este mai mic i invers. O

225
Statistic aplicat n tiinele socio-umane

bun aproximare a erorii standard a mediei este dat de raportul dintre abate-
rea standard a rezultatelor obinute de ctre subiecii din eantion i rdcina
ptrat din volumul eantionului.
Aadar, eroarea standard a mediei poate fi calculat prin intermediul
formulei:

= (formula 7.1)

unde Sm reprezint eroarea standard a mediei, reprezint abaterea


standard a scorurilor la variabila analizat i n reprezint volumul eantionu-
lui.
Vom considera valorile ce reprezint nlimea subiecilor exprimat
n centimetri: 182, 175, 174, 189, 177, 177, 180, 173, 188, 171, 184, 192,
180, 172, 177, 193, 184, 192, 172, 177, 174, 171, 172, 179, 185, 179, 173,
172, 179, 188. tim c am msurat un eantion de 30 de brbai i am obinut
scorurile anterioare, distribuia avnd media de 179,7 centimetri i abaterea
standard de 6,69 centimetri.
Dac aplicm acum formula, vom obine eroarea standard a mediei de
6,69 6,69
= = 5,47 = 1,22 . ntr-adevr, n acest caz eroarea standard a me-
30
diei este destul de mic, media aproximnd bine media general a populaiei.
Cunoscnd eroarea standard a mediei, putem acum estima limitele n-
tre care gsim media populaiei () la un interval de ncredere de 95%. Dup
cum tim, n termeni de abateri standard, pe o distribuie normal, intervalul
de ncredere corespunztor nivelului de 95% este situat ntre +/- 1,96 abateri
standard. Particulariznd, intervalul de ncredere al mediei teoretice poate fi
calculat dup formula:

= 1,96 = 1,96 (formula 7.2)

226
Cristian Opariuc-Dan

n cazul nostru, media nlimii celor 30 de subieci este de 179,9


centimetri, iar eroarea standard a mediei este de 1,22 centimetri. Limita infe-
rioar a intervalului de ncredere va fi de 179,9 1,96x1,22 = 177,51 centi-
metri, iar limita superioar a intervalului de ncredere va fi de 182,29 centi-
metri. Cu alte cuvinte, ntre 177,51 centimetri i 182,29 centimetri se va afla
media de nlime a populaiei masculine din Romnia.

VII.3 Metoda tiinific n tiinele socio-umane


Avnd n vedere informaiile prezentate pn acum, ar fi momentul s
discutm despre metoda tiinific pe care o utilizm ori de cte ori suntem n
faa desfurrii unui studiu serios i valid n tiinele socio-umane. Abordez
aceast problem, pentru c am vzut de multe ori, n rndul cercettorilor
sau al cadrelor universitare, opinii cel puin paradoxale. Ce spunei, de exem-
plu, de o replic de genul: Aplicai instrumentele, vedem ce iese i dup
aceea formulm ipotezele. Nu tiu dac v-ai confruntat sau nu cu o aseme-
nea atitudine. Eu m-am confruntat pe parcursul multor lucrri de licen i
chiar teze de doctorat i am rmas stupefiat de lipsa elementar de cunotine
n ceea ce privete metoda tiinific. Este la fel cum am spune: Construim
acoperiul, vedem cum arat i dup aceea facem fundaia i pereii. Un
asemenea demers este unul diletantist, amatoristic, un demers care nu are
nicio legtur cu cercetarea tiinific. Demersul tiinific presupune, de fie-
care dat, un proces strict etapizat, care se raporteaz la urmtoarele aspecte
(Dowdy, i alii, 2004):
1. Enunarea problemei;
2. Formularea ipotezelor;
3. Proiectarea cercetrii;
4. Efectuarea observaiilor;
5. Interpretarea datelor;

227
Statistic aplicat n tiinele socio-umane

6. Formularea concluziilor.
Dei nu intenionez abordarea n detaliu a tuturor etapelor, a dori s
menionez faptul c, n principal, metoda statistic intervine n etapa a cincia,
etapa interpretrii datelor. Deoarece o interpretare a datelor presupune, ns,
i o colectare corect a lor, cunotine de statistic sunt necesare att n etapa
a doua formularea ipotezelor , ct i n etapa proiectrii experimentului
sau n aceea a sondajului. Numai n acest mod ne putem asigura de prezena
unui set valid de date, care va face posibil interpretarea acestora i transferul
ctre etapa a asea etapa formulrii concluziilor. Iat motivul pentru care
fiecare dintre aceste ase etape vor fi analizate separat.

VII.3.1 Enunarea problemei


Enunarea problemei vi se pare, probabil, cea mai simpl etap a de-
mersului tiinific. Trebuie s v informez, de la nceput, c acest stadiu nu
este deloc simplu i necesit un mare volum de cunotine, o bun intuiie
tiinific, un volum impresionant de observaii i, de asemenea, un potenial
creativ. Pot, spre exemplu, s enun problema cltoriei n timp. Demersul
tiinific va eua din start, deoarece, la ora actual, problema este insolvabil.
O problem apare n urma unui mare numr de observaii. Pot constata, de
exemplu, c un element major al ineficienei instituionale l reprezint inca-
pacitatea de comunicare la diferitele structuri ierarhice din cadrul instituiei.
Aceast problem, pe care mi-o propun spre soluionare, rezult n urma unui
numr semnificativ de observaii referitoare la analiza dinamicii i a climatu-
lui organizaional la nivelul multiplelor instituii. n acelai timp, trebuie s
ne asigurm de faptul c problema nu are nc o soluie pertinent. Degeaba
observ c, stnd la umbra unui mr, mi cade un fruct n cap. Poate voi fi ca-
pabil s m ntreb de ce cade, s mi pun problema i apoi s gsesc explica-
ia. ns aceast problem a fost rezolvat acum mult timp de ctre Newton.
Referitor la acest aspect, investigarea soluiilor pertinente este de domeniul

228
Cristian Opariuc-Dan

metaanalizei, demers ce ar trebui s precead etapa enunrii problemei i pe


care l vom aborda n al treilea volum al prezentei lucrri.
Legturile omului de tiin cu domeniul investigat sunt, din nou, de
mare importan. Am depit epoca renascentist n care un om putea fi foar-
te bun n chimie, fizic, anatomie, arte, matematici i aa mai departe. Volu-
mul de cunotine acumulat de omenire este att de mare, nct, chiar i ntr-
un subdomeniu limitat, fiina uman este depit. Vorbind de psihologie
ca s nu lum n discuie domeniul supraordonat al tiinelor socio-umane
numai un diletant poate pretinde c e psiholog. Este ca i cum a spune c
un medic este pur i simplu medic. Evident c e medic, ns n ce? n ortope-
die, pediatrie, neurologie, oftalmologie i aa mai departe. La fel, un psiholog
poate fi psihoterapeut, experimentalist, consilier colar, specialist n organi-
zaii, n psihologia social etc. Mie, de exemplu, mi place psihologia expe-
rimental i, n special, metoda statistic. Totui, la momentul n care scriu
aceste rnduri, consider c tiu cel mult 15-20% din metoda statistic i m
ntreb dac mi va ajunge viaa s dein un procent de 50-60%, dei studiul
acestei metode face parte din activitatea mea zilnic. n aceste condiii, cum
a putea, oare, s formulez o problem din domeniul psihoterapiei, ca s nu
mai vorbim de domeniul chimiei sau al astronomiei. Poate pare deplasat, ns
sunt adeptul strictei specializri i al lucrului n echipe multidisciplinare. Da-
c sunt psihoterapeut, desigur, am anumite cunotine de statistic psihologi-
c, ns nu m pot considera un expert n aceast problem. Este de preferat
lucrul ntr-o echip cu un specialist n psihologie experimental, care stp-
nete la un nivel perfect satisfctor metoda statistic, n momentul n care
apare necesitatea unui studiu tiinific care presupune analiza datelor, n locul
unui efort pe termen scurt de abordare pe cont propriu a unui domeniu n care
competenele sunt mediocre.
Dincolo de aceste meniuni, enunarea problemei presupune formula-
rea acesteia n scris, n termeni clari i explicii. n urma formulrii proble-

229
Statistic aplicat n tiinele socio-umane

mei, rezult obiectivele cercetrii, obiective exprimate n termeni de obiecti-


ve generale i specifice.
Obiectivele generale ghideaz cercetarea n ansamblul ei. Un studiu
tiinific are unul, maxim dou obiective generale. Nu ne putem concentra
eforturile pe mai multe planuri; or, planurile sunt ghidate exact de modul de
formulare al obiectivelor generale.
Obiectivele generale ale unei cercetri sunt formulate n urma unui
cumul de observaii i, eventual, n urma unui studiu metaanalitic. n ultima
situaie, este necesar prezentarea rezultatelor studiului metaanalitic care a
ghidat formularea obiectivului general i prin care se demonstreaz lipsa de
abordare sau abordarea nepertinet a problemei studiate. Spre exemplu, con-
statm c, pe msur ce crete numrul de kilometri parcuri cu un automo-
bil, crete i riscul de apariie al unui accident i ne propunem s studiem
tiinific aceast problem. n mod normal, ar trebui s ncepem prin a analiza
cercetrile existente n acest domeniu i s desfurm un studiu metaanalitic.
n urma acestui studiu, putem preciza obiectivul general al cercetrii, de for-
ma: Obiectivul general al cercetrii l reprezint stabilirea relaiei existente
ntre numrul de kilometri parcuri i probabilitatea de apariie a unui acci-
dent rutier. Observm c enunarea problemei ce urmeaz a fi studiat s-a
fcut extrem de clar i explicit, astfel nct se pot defini termenii i condiiile
proiectrii unui studiu experimental sau a unei cercetri bazate pe sondaj.
Obiectivele specifice reprezint aspecte detaliate ale investigaiei ti-
inifice, deriv din obiectivul general i creeaz baza formulrii ipotezelor de
cercetare (alternative). n funcie de dimensiunile cercetrii i de resursele pe
care le are la dispoziie cercettorul, se pot formula unul, dou, trei dou-
zeci de obiective specifice, aflate n legtur cu obiectivul general.
Concluzionnd, enunarea problemei reprezint prima etap a demer-
sului tiinific. Ea este nsoit de un studiu al cercetrilor n domeniu i de

230
Cristian Opariuc-Dan

prezentarea clar i precis, n termeni cuantificabili, a obiectivelor generale


i specifice.

VII.3.2 Formularea ipotezelor


A doua etap a demersului tiinific este reprezentat de formularea
ipotezelor cercetrii. O ipotez reprezint o prezumie clar, explicit i veri-
ficabil referitoare la relaiile sau diferenele existente ntre dou sau mai
multe variabile. Plecnd de la definiia menionat mai sus, rezult faptul c o
ipotez de cercetare este legat, evident, de obiectivele cercetrii. Deoarece o
ipotez urmeaz s fie testat statistic, formularea acesteia trebuie fcut n
termeni de claritate maxim, fr ambiguiti, demersul testrii ipotezelor
fiind unul logic i demonstrabil prin procedee statistice specifice.
Deoarece formularea ipotezelor i nelegerea logicii testrii acestora
reprezint un element vital n cercetarea tiinific, vom analiza pe larg mo-
dalitatea prin care sunt elaborate i verificate ipotezele.
Ipotezele sunt formulate att n cazul studiilor care urmresc stabilirea
unor relaii dintre variabile (numite i studii corelaionale), ct i pentru cer-
cetrile ce vizeaz existena unor diferene dintre variabile (studii factoriale).
O prim distincie se poate face ntre ipoteze unilaterale (unidirecionale) i
ipoteze bilaterale (bidirecionale) (Clocotici, i alii, 2000).
Ipotezele unilaterale se utilizeaz n momentul n care avem
o idee despre sensul, direcia n care evolueaz variabilele.
Aceste ipoteze sunt mai precise i permit dezvoltarea unor
studii pertinente, existnd anse mai mari s fie susinute de
analiza datelor. O ipotez unilateral se recunoate dup mo-
dul de formulare, deoarece n enunul acesteia regsim direcia
de evoluie a variabilelor. De exemplu, dac desfurm o cer-
cetare care are ca scop analiza legturii dintre anxietate i de-
presie, am putea formula o ipotez unidirecional de tipul:

231
Statistic aplicat n tiinele socio-umane

exist o legtur pozitiv ntre nivelul anxietii i nivelul


depresiei. n aceast situaie, ipoteza va fi susinut numai n
cazul n care legtura dintre anxietate i depresie este pozitiv,
adic n situaia n care subiecii cu anxietate mare manifest i
puternice simptome depresive sau subiecii cu anxietate mic
nu prezint simptome depresive. Ipoteza nu se susine dac, de
exemplu, subiecii cu anxietate mic manifest puternice simp-
tome depresive (cazul unei corelaii negative). Dei mult mai
precis, exist n permanen riscul s nu putem susine ipote-
za, n condiiile n care sensul formulat nu este reprezentat de
datele cercetrii, chiar dac, n urma analizei, pot rezulta i al-
te sensuri specifice;
Ipotezele bilaterale nu impun direcia de evoluie a variabile-
lor. Dei mai puin precise n comparaie cu cele unilaterale,
ipotezele bilaterale ofer o mai mare libertate cercettorului. O
formulare de genul exist o legtur ntre nivelul de anxieta-
te i predominana simptomelor depresive poate fi susinut
att n cazul n care corelaia este pozitiv, ct i n situaia
unei corelaii negative. Ipoteza nu este susinut doar n condi-
iile n care, cu o mare probabilitate, se demonstreaz inexis-
tena unei asemenea relaii.
Chiar dac vi se poate prea puin ciudat, testarea unei ipoteze nu se
face prin formularea menionat mai sus denumit i ipotez alternativ ,
ci printr-un fel de invers al acesteia, pe care l numim n statistic ipoteza
nul sau ipoteza statistic. Testarea unei ipoteze nseamn, de fapt, testarea
ipotezei nule n vederea respingerii sau a nerespingerii acesteia.

VII.3.2.1 Ipoteza nul i ipoteza alternativ


nainte de a aborta testarea ipotezelor, ar trebui s nelegem foarte
clar ce nseamn ipoteza nul i ipoteza alternativ.

232
Cristian Opariuc-Dan

Relund exemplul de mai sus, ipoteza alternativ se noteaz, de obi-


cei, cu H1 i poate fi enunat astfel:
H1: Presupunem c exist o legtur ntre nivelul de anxietate i ni-
velul de depresie.
Din punct de vedere statistic, nu putem verifica direct aceast ipotez.
Singura modalitate prin care putem sprijini ipoteza alternativ este s enun-
m i apoi s testm ipoteza nul. De obicei, ipoteza nul notat cu H0
este o negare logic a ipotezei alternative i poate fi formulat astfel:
H0: Nu exist nici o legtur ntre nivelul de anxietate i nivelul de
depresie.
ntr-o cercetare, exist o singur ipotez nul i una sau mai multe
ipoteze alternative. Ipoteza nul este cea care orienteaz planul (designul)
cercetrii. Dac n urma analizei datelor, respingem ipoteza nul, nseamn c
datele noastre susin una dintre ipotezele alternative. Dac ipoteza nul nu
este respins, datele nu sprijin ipoteza alternativ.
Acesta este singura modalitate prin care se poate testa o ipotez. Rei-
nei c nu putem confirma sau infirma ipoteza alternativ i nici ipoteza nul.
Singurul lucru pe care l putem face este s respingem sau s nu respingem
ipoteza de nul. Nu v revoltai. Acesta este adevrul, chiar dac nu v place.
Pentru ca acest lucru s v devin clar, vom explica puin, prin exemplu, lo-
gica testrii ipotezei de mai sus. Cum ai proceda pentru a studia legtura
dintre anxietate i depresie? Vom lua cazul cel mai simplu, n care dispunem
de dou chestionare, unul care msoar anxietatea i un al doilea care msoa-
r depresia. Administrm apoi cele dou chestionare unui eantion de, s zi-
cem, 30 de subieci. Dup colectarea datelor, plecm de la ideea c nu exist
nici o legtur ntre nivelul de anxietate i nivelul depresiei.
Nu trebuie s uitm faptul c scopul acestei cercetri l reprezint ex-
tragerea unei concluzii valabile la nivelul ntregii populaii, pe baza studiului

233
Statistic aplicat n tiinele socio-umane

unui eantion. Chiar dac observm o relaie ntre cele dou variabile, ntot-
deauna exist o probabilitate mai mare sau mai mic ca rezultatul s fie
obinut pe baza unei erori de eantionare. Ipoteza nul ne indic, de fapt, pro-
babilitatea de a obine aceste date n condiiile n care ar fi adevrat, adic n
condiiile n care datele se obin n urma unei erori de eantionare. Practic, n
momentul n care calculm relaia dintre cele dou variabile, calculm proba-
bilitatea de obinere a acestei relaii ca rezultat al unei erori de eantionare.
Oricnd exist posibilitatea ca relaia constatat la nivelul eantionului s nu
se regseasc ntr-adevr la nivelul populaiei, deoarece datele colectate la
nivelul eantionului sunt rezultate n urma unei erori de eantionare.
n exemplul nostru, s presupunem c gsim o relaie ntre anxietate i
depresie, n sensul c persoanele anxioase prezint i simptome depresive.
Am lucrat, totui, pe un eantion i nu cu ntreaga populaie. nainte de a face
aceast afirmaie valabil pentru ntreaga populaie, ne putem pune problema
care ar fi probabilitatea ca relaia pe care am descoperit-o s nu existe de fapt
(ipoteza nul), adic relaia s fie rezultatul unor erori de eantionare este,
evident, o probabilitate condiionat. Dac aceast probabilitate este suficient
de mic, s spunem 5%, atunci putem concluziona c relaia descoperit nu
este rodul unor erori de eantionare, ci o putem regsi la nivelul populaiei.
Acest procent de 5% nu nseamn altceva dect c, la doar 5 subieci dintr-o
sut de subieci, relaia s-ar putea s nu se verifice. n acest caz, probabilita-
tea ca ipoteza nul s fie adevrat este foarte mic i o putem respinge. Res-
pingnd ipoteza nul, putem sprijini ipoteza alternativ. Nu am spus c o con-
firmm sau c o acceptm. n realitate, ipoteza alternativ nu poate fi confir-
mat sau acceptat, deoarece n permanen apare excepia (cele 5 persoane
dintr-o sut) pentru care ipoteza alternativ nu este adevrat.
Sperm c, n baza exemplului de mai sus, ai reuit clarificarea mo-
dului n care are loc testarea ipotezelor ntr-o cercetare tiinific. Dac ar fi
s concluzionm, am putea spune c logica testrii ipotezelor cuprinde patru
etape (Dancey, i alii, 2002):

234
Cristian Opariuc-Dan

Formularea ipotezei;
Msurarea variabilelor implicate i stabilirea relaiilor dintre
variabile;
Calcularea probabilitii de obinere a acestor relaii n condii-
ile n care relaiile de fapt nu exist la nivelul populaiei;
Dac probabilitatea calculat n etapa anterioar este destul de
mic, atunci exist o probabilitate foarte mare ca relaia des-
coperit s se regseasc la nivelul populaiei.
O ultim meniune referitoare la ipoteza nul. n general, cercettorii
consider ipoteza nul o ipotez a absenei. (Sava, 2004). Aceast abordare
este o abordare eronat. Ipoteza nul nu nseamn lipsa unei corelaii sau
lipsa unei diferene dintre medii, ci probabilitatea ca diferena sau corelaia s
fie obinut ca rezultat al unei erori de eantionare. O legtur ntre dou
variabile, chiar foarte sczut, exist totui, doar c probabilitatea ca aceast
relaie s fie rezultatul unor erori de eantionare este foarte mare i nu trebuie
ignorat. Prin urmare, ipoteza nul nu afirm de fapt c nu exist o legtur,
ci trebuie privit mai degrab ca o ipoteza ce urmeaz s fie anulat i nu ca
ipoteza absenei.

VII.3.2.2 Semnificaie i eroare n testarea ipotezelor


Am afirmat c putem respinge ipoteza nul (ipoteza conform creia
relaia obinut este determinat de erorile de eantionare), dac probabilita-
tea s fie adevrat este foarte mic. Bine, m vei ntreba, dar ct de mic?
Care este pragul la care putem respinge ipoteza nul? n cercetarea tiinific,
lucrm cu dou asemenea praguri de semnificaie. Primul prag a fost postulat
de Fisher i reprezint probabilitatea de 0,05 (5% sau 1 caz din 20 de cazuri),
iar al doilea prag de semnificaie reprezint probabilitatea de 0,01 (1% sau 1
caz din 100 de cazuri).

235
Statistic aplicat n tiinele socio-umane

Pragul de semnificaie reprezint probabilitatea (de 5% sau 1%) ca


ipoteza nul s nu fie respins sau, cu alte cuvinte, la 1 din 20 de cazuri sau la
1 din 100 de cazuri, relaia s nu existe ori s fie determinat de erorile de
eantionare.
Pragul de semnificaie se noteaz, n literatura de specialitate, cu p sau
cu i permite respingerea ipotezei nule n condiiile unor valori strict mai
mici dect p (atunci cnd p<0,05). De asemenea, un indicator statistic poate
fi semnificativ sau nesemnificativ, n funcie de raportarea la acest prag.
Presupunnd c ipoteza nul este adevrat, dac probabilitatea ca re-
laia s fie obinut prin intermediul erorilor de sondaj este mai mic de 0,05
(5%), atunci se poate respinge ipoteza nul, iar indicatorul statistic este sem-
nificativ. n exemplul nostru, putem respinge ipoteza nul i putem afirma c
exist o legtur semnificativ ntre nivelul anxietii i nivelul depresiei. n
aceleai condiii, dac probabilitatea ca relaia s fie obinut prin intermediul
erorilor de sondaj este mai mare de 0,05, indicatorul nu este semnificativ, iar
ipoteza nul nu poate fi respins. Vom putea atunci afirma c nu exist nicio
legtur semnificativ ntre nivelul anxietii i nivelul depresiei.
n orice lucrare tiinific, alturi de valoarea indicatorului statistic, se
raporteaz i valoarea pragului de semnificaie. Exist dou modaliti prin
care putei raporta pragul de semnificaie:
prin raportarea inegalitii, de forma p<0,05 sau p<0,01.
Aceast modalitate, dei nc practicat, nu este extrem de
agreat n comunitatea tiinific, deoarece permite o raportare
grosier a probabilitii de respingere a ipotezei de nul. Un
p<0,05 poate nsemna att o probabilitate de 0,049, ct i o
probabilitate de 0,011;
prin raportarea exact a pragului de semnificaie, de forma
p=0,38. Aceast metod este preferat, deoarece permite o

236
Cristian Opariuc-Dan

evaluare exact a probabilitii de respingere a ipotezei de nul.


Unele programe statistice, printre care i SPSS, raporteaz
uneori pragul de semnificaie de forma .000, adic 0,000. Este
o greeal s precizai un p=0,000, acest lucru nsemnnd o
probabilitate nul de obinere a relaiei prin eroarea de eanti-
onare, ceea ce nu poate fi posibil. Deoarece SPSS rotunjete la
trei zecimale, probabil c pragul real de semnificaie este o va-
loare de genul 0,0000001457. n acest caz, se prefer prima
modalitate de raportare, de genul p<0,01.
Atunci cnd discutm de semnificaie, trebuie s avem n vedere fap-
tul c ne referim la o semnificaie statistic i nu la semnificaia psihologic,
social sau economic. Afirmaia, conform creia exist o corelaie semnifi-
cativ ntre nivelul de anxietate i nivelul depresiei la un prag de semnificaie
mai mic de 0,05, nu nseamn altceva dect c, la nivelul populaiei, exist o
probabilitate mai mic de 5% ca s nu fie nicio relaie ntre anxietate i de-
presie. Att. Semnificaia statistic nu implic o interpretare psihologic a
acestei legturi.
Valoarea pragului de semnificaie reprezint o probabilitate condiio-
nat, probabilitatea de apariie a unui eveniment, n condiiile n care ipoteza
nul este adevrat. Aceast valoare nu indic probabilitatea de apariie a
evenimentului la nivelul populaiei. Un prag de semnificaie mai mic de 0,05
ne spune doar c sunt mai puin de 5% anse ca relaia dintre anxietate i de-
presie s fie rezultatul unei erori de eantionare. Acest lucru ns nu nseamn
c avem peste 95% anse s regsim relaia la nivelul populaiei. Dup cum
am mai afirmat, testarea ipotezelor presupune doar testarea ipotezei nule, nu
i inferene referitoare la ipoteza alternativ.
Chiar dac pragul de semnificaie creeaz condiiile respingerii ipote-
zei nule, totui nu vom putea niciodat afirma cu certitudine c susinem ipo-
teza alternativ. n cercetarea tiinific, dei condiiile de semnificaie statis-

237
Statistic aplicat n tiinele socio-umane

tic pot fi ndeplinite, este posibil apariia a dou tipuri de erori: putem res-
pinge ipoteza nul, iar n realitate ea s nu ndeplineasc condiiile de respin-
gere la nivelul populaiei, sau putem s nu respingem ipoteza nul, n situaia
n care ar trebui respins.
Cnd credeai i dumneavoastr c ai scpat de lucrurile astea care
presupun logica probabilitilor, iat un nou concept care are darul s v ame-
easc. Personal, m mir c nu ai trecut nc la lectura unui volum de po-
veti. i dac tot veni vorba de poveti, s v relatez o poveste pe care mi-a
spus-o pe vremuri Ovidiu Lungu i care v va lmuri cu privire la natura
acestor erori.
A fost odat un mprat care avea obiceiul s poarte multe rzboaie.
nainte de a merge la rzboi, mpratul nostru l chema pe vrjitorul curii i l
punea s-i prezic soarta btliei. De fiecare dat, bietul vrjitor era n mare
impas, deoarece, dac greea previziunea, risca s-i piard capul, cum o p-
iser muli alii naintea lui. Totui, vrjitorul avea muli ani de cnd i ps-
tra capul pe umeri, iar prediciile acestuia, uneori, se dovedeau a fi adevrate.
ntrebarea mea este cum proceda? n primul rnd, vrjitor fiind, el citise
aceast carte i celelalte dou care urmeaz s apar. n al doilea rnd, avea
ceva noiuni legate de probabiliti i de verificarea ipotezelor i, naintea
btliei, i formula ipotezele, apoi construia un tabel similar tabelului de mai
jos:
H1: Prevd c mria sa va ctiga btlia
H0: Prevd c mria sa nu va ctiga btlia
Ce se ntmpl n urma btliei
Ctig Pierde
OK Eroare tip I
Ctig p= 1- p=
Ce a prevzut Caracteristica testului Pragul de semnificaie
c se ntmpl OK
Eroare tip II
Pierde p=1-
p=
Puterea testului

238
Cristian Opariuc-Dan

S analizm acum tabelul de mai sus. Observm c exist un numr


de patru situaii:
Vrjitorul a prezis c mpratul va ctiga btlia i mpratul
a ctigat-o. Aceasta este situaia descris pn acum. Vrjito-
rul respinge ipoteza nul i susine ipoteza alternativ, deoare-
ce probabilitatea de a nu ctiga btlia era foarte mic. Cel-
lalt mprat avea probabil un numr mic de oameni i o tehni-
c de lupt net inferioar. Vrjitorul a obinut o nou avere i
respectul mpratului;
Vrjitorul a prezis ctigarea btliei i mpratul a pierdut-o.
S-a comis astfel o eroare de tip I, respingndu-se ipoteza nul
cnd, de fapt, ar fi trebuit acceptat. Pragul de semnificaie a
fost probabil apropiat de limit (0,05), ns vrjitorul a riscat.
i-a pierdut i averea i capul. Este cea mai grav eroare pe
care o poate face. Probabil c s-a bazat pe faptul c cellalt
mprat are puini oameni i o tehnic de lupt inferioar, ns
l-au dezinformat spionii i a subapreciat fanatismul ostailor;
Vrjitorul a prezis pierderea btliei i mpratul a ctigat-o.
S-a comis acum o eroare de tip II, nerespingnd ipoteza nul
n condiiile n care ar fi trebuit respins. n bucuria victoriei,
mpratul s-ar putea s-i crue capul vrjitorului, ns va pierde
respectul i o parte din avere. Vrjitorul nu a vrut s rite, de-
oarece cunotea fanatismul lupttorilor celuilalt mprat;
Vrjitorul a prezis pierderea btliei i mpratul a pierdut-o.
Din fericire, i-a pstrat i capul i averea, deoarece a avut n-
elepciunea c calculeze puterea unui test statistic, adic pro-
babilitatea de a respinge ipoteza nul atunci cnd ea este fals.

239
Statistic aplicat n tiinele socio-umane

Dup cum ai putut observa, eroarea de tip I este situaia n care un


cercettor respinge ipoteza nul n condiiile n care aceasta nu ar fi trebuit
respins, iar eroarea de tip doi este situaia n care nu se respinge ipoteza nu-
l, dei ar trebui respins. Cele dou tipuri de erori se afl ntr-un raport in-
vers proporional. Pe msur ce cresc ansele de apariie a erorii de tip I, scad
ansele de apariie a erorii de tip II i invers.
Din nefericire, cele mai multe cercetri risc apariia unei erori de tip
I, care am vzut c este i cea mai grav, neglijnd posibilitatea de apariie a
erorii de tip II.
Eroarea de tip I corespunde pragului de semnificaie de 0,05 (5%).
Avem 5% anse s respingem ipoteza nul, n condiiile n care s-ar dovedi
adevrat. O probabilitate cam mare atunci cnd e n joc capul vrjitorului.
Eroarea de tip doi corespunde unui prag de semnificaie de 0,01 (1%).
De data aceasta, avem doar 1% s respingem ipoteza nul, n condiiile n
care s-ar dovedi adevrat, ns mult mai multe anse s nu o respingem,
cnd ar trebui respins i, astfel, s comitem o eroare de tip II. Oricum, con-
secinele ar fi mult mai blnde.
Putei acum s-mi spunei cum de i-a pstrat vrjitorul capul pe
umeri atia ani? Intuii deja c a lucrat la un prag de semnificaie de 0,01, n
care crete riscul apariiei erorii de tip II, ns scade probabilitatea unei erori
de tip I.
Rolul acestor erori este deosebit de important n cercetare. S presu-
punem c o firm de medicamente descoper un nou produs care oprete evo-
luia cancerului, ns are efecte secundare n ceea ce privete viaa pacieni-
lor, deoarece genereaz o serie de produse toxice. Problema care se pune este
la ce nivel de risc pot fi acceptate efectele toxice n raport cu beneficiile pe
care le poate aduce medicamentul. n urma unui studiu, pot exista dou posi-
biliti:

240
Cristian Opariuc-Dan

Prima posibilitate este aceea corespunztoare unei erori de tip


I. Medicamentul s fie pus pe pia n condiiile n care pragul
de semnificaie este de 0,05. S-a respins ipoteza nul, conform
creia medicamentul este toxic i s-a optat n favoarea benefi-
ciilor pe care le aduce. La un asemenea prag de semnificaie,
s-ar putea ca, la nivelul populaiei, tratamentul s provoace
mai multe decese dect vindecri;
A doua posibilitate este aceea corespunztoare unei erori de
tip II. Medicamentul s nu fie pus pe pia, deoarece pragul de
semnificaie a fost mai mare de 0,01. Dei medicamentul poate
opri evoluia cancerului, totui riscul efectelor toxice este mult
prea mare pentru a fi acceptat. Oricum, este o situaie mult mai
convenabil n raport cu primul caz.
Cunoscnd aceste tipuri de erori, cum le putem totui evita? Modalita-
tea cea mai bun de evitare a erorilor este replicarea cercetrii prin proiecta-
rea unui alt studiu. Dac, n urma unui alt studiu, rezultatele se pstreaz,
nivelul de ncredere n concluziile extrase va crete. Dac observm o singur
dat un fenomen, exist un mare risc ca aceast observaie s se datoreze n-
tmplrii. Dac l observm de dou, trei, patru ori, putem afirma cu mai ma-
re certitudine c el reprezint un fenomen real, reproductibil i generalizabil.

VII.3.2.3 Ipoteze unilaterale i bilaterale


Importana acestei clasificri a ipotezelor de cercetare implic preci-
zri suplimentare, n afara celor menionate n seciunea anterioar. Am stabi-
lit deja c putem formula unidirecional o ipotez, atunci cnd precizm di-
recia exact a relaiilor dintre dou variabile (Exist o corelaie pozitiv
puternic ntre anxietate i depresie) sau bidirecional, atunci cnd nu pu-
tem anticipa exact natura relaiilor dintre variabile (Exist o corelaie ntre
anxietate i depresie). n literatura de specialitate prima situaie poart nu-
mele de one-tailed hypothesis, iar a doua situaie two-tailed

241
Statistic aplicat n tiinele socio-umane

hypothesis sau, ntr-o variant romneasc aproximativ ipoteze la un ca-


pt al distribuiei - unilaterale i ipoteze la ambele capete ale distribuiei -
bilaterale. Aceast denumire o ntlnim i n cadrul programului SPSS i nu
ar fi ru s aflm lo-
gica ce st n spatele Probabilitate foarte mare de a
acestor nume. obine scoruri n zona central

tim deja c
distribuia normal
prezint dou capete, Probabilitate foarte mic de a obine Probabilitate foarte mic de a obine
dou extreme care se scoruri n zona extremelor scoruri n zona extremelor

apropie de frecvena
zero, pe care nu o
ating ns niciodat i Figura 7.8 Probabilitatea de a obine
am studiat deja pro- scoruri n zona central a distribuiei n
comparaie cu extremele
babilitatea de a obine
scoruri la capetele distribuiei n comparaie cu probabilitatea de a obine sco-
ruri n zona central. Care ar fi probabilitatea de a ntlni o persoan cu nl-
imea de 178 de centimetri? Ne aducem aminte c aceast valoare reprezint
o nlime comun, cu probabilitate de apariie mare, o persoan cu aceast
nlime regsindu-se undeva n zona din mijloc a distribuiei. O persoan cu
nlimea de 250 de centimetri are o probabilitate de apariie foarte mic, si-
tuat undeva la captul din dreapta al distribuiei, n timp ce o persoan cu
nlimea de 120 de centimetri are, de asemenea, o probabilitate mic de apa-
riie, undeva la captul din stnga al distribuiei. La fel procedm i n cazul
n care discutm de o alt variabil, s spunem coeficientul de inteligen. Un
IQ de 110 este unul comun, pe care l putem ntlni n zona de probabilitate
mare. Un IQ de 180 este unul foarte mare, cu o probabilitate de apariie mic,
similar nlimii de 250 de centimetri. La fel, un IQ de 60 are o probabilitate
mic de apariie i se situeaz spre extrema stng a distribuiei.

242
Cristian Opariuc-Dan

Haidei s ne punem acum problema relaiei dintre cele dou variabi-


le. Ce se poate ntmpla cu coeficientul de inteligen pe msura variaiei
nlimii subiecilor? Pot exista mai multe variante posibile:
Pe msur ce crete nlimea, crete i coeficientul de inteli-
gen. Persoanele cu nlime mare vor avea un coeficient de
inteligen ridicat, n timp ce persoanele cu nlime mic vor
avea un coeficient de inteligen sczut. Spunem n acest caz
c creterea scorurilor la o variabil determin creterea scoru-
rilor la cea de-a doua variabil;
Pe msur ce crete nlimea, scade coeficientul de inteligen-
. Persoanele cu nlime mare au un coeficient de inteligen
sczut, n timp ce persoanele scunde au un coeficient de inteli-
gen ridicat. Spunem n acest caz c creterea scorurilor la o
variabil determin micorarea scorurilor la a doua variabil.
Nu exist nicio relaie ntre cele dou variabile. ntlnim per-
soane nalte cu coeficieni de inteligen mari i mici, la fel i
n cazul persoanelor scunde sau cu o nlime medie. n acest
caz, spunem c cele dou variabile nu sunt relaionate, sunt in-
dependente.
Teoretic su-
Zona de obinere a notelor z,
n frumos, ns ce n condiiile n care variabilele
ne facem c nli- sunt independente

mea o msurm n
Scoruri z obinute n cazul n care
centimetri, iar coe- creterea unei variabile determin
micorarea celeilalte variabile Scoruri z obinute n cazul n care
ficientul de inteli- creterea unei variabile determin
gen n uniti IQ. creterea celeilalte variabile

Din ncurctur ne
scoate capitolul
anterior. Ne amin- Figura 7.9 Reprezentarea relaiei dintre
dou variabile

243
Statistic aplicat n tiinele socio-umane

tim c exist un sistem de note standardizate, numit note z, care are propri-
etatea de a aduce la un numitor comun cele dou variabile. Mai mult, notele
z sunt note aditive i multiplicative. Dac am transforma att nlimea, ct
i coeficientul de inteligen n note z, am putea calcula un scor total i am
putea sa-l reprezentm pe o distribuie normal. Acest lucru l putem observa
cu uurin n figura 7.9, prezentat mai sus.
tim, de asemenea, de la semnificaia statistic, faptul c testele de
semnificaie explic probabilitatea de obinere a unor diferene sau a unor
relaii dintre dou variabile, ca rezultat al unei erori de eantionare, indicnd
probabilitatea ca aceast relaie sau diferen s nu existe de fapt la nivelul
populaiei (Dancey, i alii, 2002). Un prag de semnificaie de 0,05 nseamn
c, pentru a fi respins ipoteza nul, trebuie s existe mai puin de 5% anse
ca scorurile de mai sus s fie obinute printr-o eroare de eantionare. S con-
siderm acum o ipotez formulat n urmtorii termeni:
Exist o legtur semnificativ ntre nlimea subiecilor i coefici-
entul lor de inteligen.
Am formulat o ipotez bilateral, fr a preciza sensul acestei legturi.
Ipoteza nul (Nu exist nici o legtur semnificativ ntre nlimea subieci-
lor i coeficientul lor de inteligen)
poate fi respins la un prag de semnifi-
caie de 0,05 att pentru situaia n care
creterea nlimii subiecilor determin 2,5% 2,5%

creterea coeficientul lor de inteligen,


ct i n situaia n care creterea nl-
imii duce la scderea coeficientului de Figura 7.10 Reprezentarea zonelor de
respingere a ipotezei nule pentru ipotezele
inteligen. Acest prag de 5% va fi, bidirecionale
aadar, egal distribuit la captul din
stnga i la captul din dreapta al distribuiei. Observm c aceste praguri
corespund la aproximativ dou abateri standard la stnga i la dreapta mediei.

244
Cristian Opariuc-Dan

Dac scorurile z ale subiecilor investigai vor fi situate n aceste zone, pu-
tem stabili legtura ntre nlimea i coeficientul de inteligen ca fiind o
legtur semnificativ, la un nivel mai mic de 5% ca datele s fie obinute
printr-o eroare de eantionare.
S considerm acum cel de-al doilea caz, n care formulm ipoteza
astfel:
Exist o legtur semnificativ pozitiv ntre nlimea subiecilor i
coeficientul lor de inteligen.
Iat o ipotez unidirecional care ne spune foarte clar c la creterea
nlimii apare creterea coeficientului de inteligen i, similar, scderea
nlimii determin scderea coeficientului de inteligen. Ipoteza nul poate
fi respins n acest caz numai la un prag
de semnificaie mai mic de 0,05 situat n
zona dreapt a distribuiei, la aproxima-
5%
tiv 1,5 abateri standard la dreapta medi-
ei, aa cum putei observa n figura al-
turat.
Nu suntem interesai ce se n- Figura 7.11 Reprezentarea zonelor de
respingere a ipotezei nule pentru ipotezele
tmpl dac creterea nlimii implic unidirecionale
scderea coeficientului de inteligen.
Putem respinge ipoteza nul numai n cazul unei legturi pozitive ntre cele
dou variabile. n mod analog, se poate arta zona de respingere a ipotezei
nule pentru legturile negative (creterea unei variabile implic micorarea
celeilalte), aceasta fiind situat aproximativ la 1,5 abateri standard n stnga
mediei.
Observm c probabilitatea de a respinge ipoteza nul este mult mai
mare n cazul ipotezelor unidirecionale n comparaie cu ipotezele bidireci-
onale. Exist anse mult mai mari s gsim scoruri n zona marcat din figura

245
Statistic aplicat n tiinele socio-umane

7.11 n comparaie cu zona marcat n figura 7.10. n general, dac ai obinut


pragul de semnificaie n cazul unei ipoteze bidirecionale i dorii s aflai
pragul de semnificaie pentru ipotez unidirecional, vei njumti valoarea
acesteia. De exemplu, dac obinei valoarea 0,04 n cazul unei ipoteze bidi-
recionale, corespondentul su pentru valorile unidirecionale este de 0,02.
Prin dublarea valorii pragului de semnificaie, se poate obine valoarea aces-
tuia, dac ai lucrat cu ipoteze unidirecionale i dorii s aflai pragul de
semnificaie pentru o ipotez bidirecional.

VII.3.3 Proiectarea cercetrii


Metodele statistice reprezint un instrument de cercetare. Etapa de
proiectare a cercetrii nu face obiectul prezentei lucrri, existnd pe pia
suficient bibliografie care trateaz aceast tem. Abordm totui, pe scurt,
subiectul, din considerentele relaiei care exist ntre proiectarea unei cerce-
tri i analiza ulterioar a datelor. Nu putem obine niciodat mai mult dect
am proiectat iniial. Erorile de proiectare a cercetrii induc invariabil erori de
analiz i de interpretare a datelor.
Proiectarea unei cercetri necesit rspunsul la o serie de ntrebri,
dintre care cele mai importante sunt (Dowdy, i alii, 2004):
Ce tratamente sau condiii vor fi aplicate subiecilor n vederea
testrii ipotezelor;
Care sunt variabilele de interes i cum vor fi acestea msurate;
La ce nivel de precizie vor fi efectuate msurtorile;
Care va fi lotul de subieci pe care se va desfura cercetarea.
Orice cercetare necesit un plan de cercetare numit i design de cerce-
tare. n urma acestui plan, se stabilesc variabilele care vor fi analizate i nu-
mrul de subieci necesar. Problematica planurilor de cercetare va fi tratat n

246
Cristian Opariuc-Dan

detaliu n volumul al doilea al lucrrii, n timp ce proiectarea eantionului sau


a lotului de subieci va face subiectul urmtorului capitol.

VII.3.4 Efectuarea observaiilor


Cel puin la nivel teoretic, un studiu nu trebuie s conin alte erori,
exceptnd erorile aleatorii de msurtoare determinate de erorile instrumente-
lor de msur.
n literatura de specialitate, se vehiculeaz frecvent termenul de bias,
vorbindu-se, chiar i la noi n ar, de studii biasate. Biasul reprezint tendin-
a de afectare a msurrii unei variabile de ctre anumii factori externi
(Dowdy, i alii, 2004). Exist surse de asemenea erori determinate de in-
strumente (erori de calibrare a instrumentului), de influena cercettorului
(proiectarea unui interviu n care exist tendina sugerrii rspunsurilor), de
efectele de halo (tendina unei evaluator de a fi influenat de evalurile ante-
rioare) sau chiar de condiiile atmosferice ori de subiecii nii.
Imediat dup efectuarea observaiilor se impune inspecia datelor n
vederea depistrii unor valori extreme, inconsistente cu celelalte date. Incon-
sistenele de acest tip vor fi analizate n vederea corectrii datelor sau a eli-
minrii acestora, n cazul n care metodele de corecie i ajustare a datelor nu
determin rezultate satisfctoare. Detalii despre aceste procedee ntlnii n
capitolele anterioare.

VII.3.5 Interpretarea datelor


Procesul de interpretare a datelor debuteaz, dup cum am afirmat, cu
analiza inventarului statistic de baz. n urma acestui studiu, se decide nor-
malitatea sau lipsa de normalitate a unei distribuii, dup care se aleg testele
statistice necesare analizei de date.
Aplicarea testelor statistice se face n vederea verificrii ipotezei nule,
proces prin care decidem dac datele experimentale sunt obinute n condiiile
n care ipoteza de nul este adevrat. Dac diferena dintre ipoteza nul i

247
Statistic aplicat n tiinele socio-umane

datele experimentale nu se datoreaz ntmplrii (dac pragul de semnificaie


este mai mic de valoarea stabilit 0,05), putem respinge ipoteza nul, n caz
contrar, ipoteza nul nu poate fi rejectat.
Trebuie s reinei faptul c procedeele statistice nu demonstreaz ni-
mic. Metodele statistice descriu probabilitatea cu care un eveniment apare
ntr-o populaie. Poate exista doar un singur caz din zece miliarde de cazuri,
care s demonstreze acceptarea ipotezei nule. Prin metode statistice stabilim
doar la ce nivel de ncredere putem respinge ipoteza nul i nu putem demon-
stra niciodat falsitatea acesteia.
Dup Dancey i Reidy (Dancey, i alii, 2002), majoritatea testelor
statistice le utilizm pentru a face o inferen de la studiul pe un eantion spre
caracteristicile populaiei. Deoarece caracteristicile populaiei poart numele
de parametri, testele utilizate poart denumirea de teste parametrice. Pentru
a putea ns utiliza testele parametrice, este necesar ndeplinirea simultan a
unor condiii axiomatice. Dup aceeai autori, (Dancey, i alii, 2002) exist
un numr de trei axiome necesare utilizrii testelor parametrice:
Axioma normalitii distribuiei. Distribuia scorurilor obi-
nute de ctre subieci la variabilele analizate trebuie s fie o
distribuie normal. n absena unei distribuii normale, nu pot
fi utilizate teste parametrice. Reamintim c, utiliznd testele
parametrice, facem asumpia c media i abaterea standard re-
prezint indicatori reprezentativi ai tendinei centrale, respec-
tiv ai mprtierii. Dac aceast asumpie este fals, ntreaga
logic a aplicrii testelor statistice va fi i ea fals. Nu intrm
acum n detalii, deoarece au fost prezentate anterior, ci ne re-
zumm s amintim c, dac distribuia nu este normal, vor fi
aplicate tehnici de normalizare a acesteia. Dac nici n acest
caz nu reuim obinerea unei distribuii normale, vor fi utiliza-
te teste nonparametrice.

248
Cristian Opariuc-Dan

Axioma omogenitii varianelor. Reprezint o a doua


asumpie important care postuleaz c variana populaiilor
trebuie s fie aproximativ egal. Ca i n cazul primei axiome,
nu putem ti dac variana populaiei este aproximativ egal i
ne vom rezuma la studiul varianei eantionului sau a lotului
de cercetare.
Axioma scorurilor extreme. Cea de-a treia axiom a fost, de
asemenea, tratat anterior i postuleaz inexistena scorurilor
extreme n distribuia statistic. Acest lucru este evident din
raiuni ce in de utilizarea mediei. Nu vom mai insista asupra
acestui lucru, deoarece considerm c l-am discutat suficient
pe parcursul acestei lucrri.
Autorii suscitai nu menioneaz ns o cerin important i anume
cea a nivelului de msur. Evident, nu putem utiliza media i abaterea stan-
dard dect la variabile aflate la un nivel de msur cel puin de interval. Este
absurd s vorbim de distribuie normal n cadrul variabilelor nominale sau
ordinale.

VII.3.6 Formularea concluziilor


Formularea concluziilor reprezint etapa final a oricrei cercetri ti-
inifice i rezum ntregul demers tiinific prezentat mai sus. Decizia luat va
fi o decizie probabilistic i consistent cu datele experimentale. Dac pra-
gul de semnificaie este mai mare dect pragul acceptat, atunci probabil ipo-
teza nul este adevrat i va trebui acceptat. n caz contrar, putem respinge
ipoteza nul. Ipoteza experimental nu poate fi respins sau acceptat. Singu-
ra decizie pe care o putem lua se refer la ipoteza de nul.

249
Statistic aplicat n tiinele socio-umane

n concluzie:
Exist patru reguli de probabilitate: probabilitatea simpl pentru evenimente egale,
evenimente mutual exclusive, evenimente independente, probabilitatea condiiona-
t;
Extinderea concluziilor de la studiul unui eantion la nivelul populaiei implic
existena erorilor sistematice de eantionare;
Indicatorii de sondaj aproximeaz parametrii populaiei n zona unui interval de
ncredere;
Abaterea standard a mediilor eantioanelor poart numele de eroare standard de
eantionare;
Metoda tiinific n tiinele socio-umane presupune parcurgerea unui numr de
ase etape:
o Enunarea problemei;
o Formularea ipotezelor;
o Proiectarea cercetrii;
o Efectuarea observaiilor;
o Interpretarea datelor;
o Formularea concluziilor;
Enunarea problemei presupune formularea obiectivelor generale i specifice, n
general n urma unui demers metaanalitic;
Specificarea ipotezelor face referire la ipoteza alternativ i la ipoteza nul;
Ipotezele pot fi unidirecionale sau bidirecionale;
Acceptarea sau respingerea ipotezei nule se face prin referire la pragul de semnifi-
caie statistic;
Aplicarea testelor parametrice se face n baza unor axiome;
Orice concluzie i decizie luat n urma aplicrii metodei statistice este o decizie
probabilistic i nu cert.

250
Cristian Opariuc-Dan

VIII. EANTIONARE I REPREZENTATIVITATE


n acest capitol se va discuta despre:
Conceptele de populaie i eantion;
Tipuri i surse de date;
Caracteristicile unui eantion;
Tipuri de eantioane;
Tehnici de construcie a unui eantion;
Dup parcurgerea capitolului, cursanii vor fi capabili s:
neleag conceptul de populaie;
Identifice sursele de colectare a datelor;
neleag principiul statistic al extragerii ean-
tionului dintr-o populaie;
Fac diferena dintre indicatori i parametri;
Aleag tipul de eantion adecvat cercetrii;
Stabileasc i s caracterizeze proprietile unui
eantion;
Realizeze eantioane utiliznd SPSS for Windows.

Pe parcursul acestui volum, am abordat de multe ori problematica


eantioanelor i am discutat sumar despre o serie de metode de eantionare. A
venit momentul s tratm n detaliu aceste elemente, deoarece foarte puine
lucrri de statistic social le abordeaz la un nivel comun, iar importana
stabilirii unui eantion reprezentativ condiioneaz n mod direct valoarea
cercetrii. Dac la nivelul unor studii specifice eantionul nu primeaz, atunci
cnd vorbim de elaborarea unor teste psihologice ori despre desfurarea cer-
cetrilor a cror rezultate vor caracteriza populaia, procesul de eantionare
dobndete o valoare special.
Vom relua, pentru nceput, o serie de lucruri deja cunoscute, referitoa-
re la populaie i eantion, ulterior urmnd s aprofundm att tipurile de
eantioane, ct i metodele specifice de construcie ale acestora.

251
Statistic aplicat n tiinele socio-umane

VIII.1 Populaia
Definiia din capitolul al treilea afirma c populaia reprezint totalita-
tea obiectelor, de un anumit tip, existente ntr-un spaiu sau teritoriu, la un
moment dat. O definiie mai larg susine c o populaie reprezint o colec-
ie natural, geografic sau politic de persoane, animale, plante sau obi-
ecte (Dowdy, i alii, 2004). Definiia subliniaz c o populaie reprezint, de
fapt, o colecie fizic. Fiind o colecie fizic, orice populaie se caracterizeaz
prin anumite proprieti pe care le denumim generic parametri. Termenul de
populaie este, de fapt, o abstraciune. Nu putem concepe populaia fr s
facem apel la aceste proprieti prin care se definete. Dac ne referim la po-
pulaia brbailor, implicit am definit un parametru al acesteia i anume se-
xul. Dac vorbim de populaia nlimii brbailor, avem n vedere doi para-
metri i anume nlimea i sexul. Similar, nlimea brbailor din Romnia
presupune trei parametri: locaia, sexul i nlimea. Toi aceti parametri se
numesc variabile de interes ale cercetrii i permit nregistrarea unor valori
la nivelul acestora.
ntr-o cercetare, odat stabilite variabilele (parametrii) de interes, tre-
buie s acordm mult atenie n momentul n care dorim s extindem con-
cluziile la nivelul populaiei. Vom reine faptul c o populaie se caracteri-
zeaz prin aceste variabilele de interes. Nu putem face o afirmaie de genul
nlimea brbailor este de 178 de centimetri, n condiiile n care am efec-
tuat un studiu pe populaia din Romnia. Nu am desfurat o cercetare prin
care s investigm nlimea brbailor din lume. O formul adecvat ar fi
nlimea brbailor din Romnia este de 178 de centimetri.
Populaia odat definit, apare necesitatea nregistrrii valorilor pentru
variabilele de interes. O metod exhaustiv care-i propune investigarea
tuturor elementelor dintr-o populaie este recensmntul.
Recensmntul este o metod de observare total, cu caracter perio-
dic, care surprinde un fenomen n mod static. Este una dintre cele mai vechi

252
Cristian Opariuc-Dan

metode de observare i asigur o fotografiere, o surprindere a unui fenomen


ntr-un anumit moment de timp. n mod particular, recensmntul populaiei
este un proces de culegere, prelucrare i publicare a datelor demografice,
economice i sociale, la un timp specificat, i valabile pentru toate persoanele
din ara respectiv sau de pe un teritoriu delimitat. O form particular a re-
censmntului o reprezint referendumul, ca demers similar de investigare a
opiniilor populaiei.
O asemenea metod de colectare a informaiilor este extrem de costi-
sitoare. De multe ori, nu este practic (uneori chiar imposibil) s observm
toate valorile pe care le poate lua o variabil la nivelul populaiei.

VIII.2 Surse de date


Odat stabilite variabilele de interes i definit populaia, se pune pro-
blema colectrii datelor necesare. Care sunt ns sursele de date? Dup Cur-
win i Slater (Curwin, i alii, 1996), datele pot proveni din surse principale
i/sau din surse secundare.

VIII.2.1 Sursele principale de date


Reprezint surse care permit colectarea direct de observaii noi. Me-
todele prin care putem efectua un asemenea demers includ observaia, discu-
iile individuale sau de grup, experimentele, chestionarele, testele, utilizarea
unor aparate specifice etc. Colectarea datelor la acest nivel poate fi costisitoa-
re att din punct de vedere financiar, ct i sub aspectul duratei, ns avem
certitudinea unor date reale i valide. La nivelul elementelor de populaie,
cercetarea poate presupune o explorare exhaustiv, ca n cazul recensmntu-
lui, sau poate implica utilizarea eantioanelor. n mod curent, cercetrile folo-
sesc, de cele mai multe ori, surse principale de date.

253
Statistic aplicat n tiinele socio-umane

VIII.2.2 Sursele secundare de date


Reprezint date provenite din cercetri deja efectuate. Costurile nece-
sare procurrii acestor date sunt semnificativ mai reduse, uneori informaiile
sunt de o nalt valoare tiinific, ns dezavantajul principal este acela c nu
putem avea controlul asupra veridicitii i validitii acestora. Astfel, datele
pot proveni din anuarele statistice ale unor ri sau teritorii, din rapoartele
unor organizaii sau instituii, din cercetri existente sau din baze de date pu-
blice ori private. Metaanaliza, ca metod tiinific, utilizeaz predominant
asemenea surse de date.

VIII.3 Eantionul
Exceptnd recensmntul, toate celelalte metode implic utilizarea
unei mici pri dintr-o populaie n vederea colectrii datelor. O asemenea
colectivitate statistic poart numele de eantion i reprezint un subset de
elemente din populaie, care, ns, pstreaz caracteristicile populaiei
din care provine. O cercetare efectuat pe un eantion induce, dup cum am
artat, o serie de erori care afecteaz rezultatele finale. Aceste erori apar ca
urmare a faptului c nu culegem informaii de la ntreaga populaie statistic,
ci doar de la elementele cuprinse n eantion. O cercetare efectuat pe un
eantion poart numele de cercetare selectiv, spre deosebire de recens-
mnt care se refer la cercetri exhaustive.
V mai amintii exemplul cu oala de fasole? Atunci am extras o lingu-
r de boabe de fasole i am decis c boabele sunt fierte. Exact acesta este
principul eantionrii. Dac am fi luat o singur boab de fasole am fi putut
face aceast afirmaie? Eu cred c nu, deoarece ar fi existat prea multe anse
s aruncm apoi oala. Dar dac am fi mncat ntreaga oal? Atunci am fi tiut
sigur, ns nu am mai fi avut cu ce s facem mncarea. n plus, gndii-v ce
costuri ai fi suportat cu sistemul digestiv Dac n oal ai fi amestecat fa-
sole de 10 ani i fasole de 1 an? Probabil c decizia ar fi fost corect, ns ai

254
Cristian Opariuc-Dan

avea multe anse s v rupei uneori dinii. Dac ai fi gustat din oala de ma-
zre? Desigur c nu, pentru c v-ai fi referit la cu totul alt populaie.
Iat c un eantion trebuie s respecte caracteristicile populaiei din
care face parte. Aceasta este calitatea esenial a unui eantion i poart nu-
mele de reprezentativitate. Reprezentativitatea este, aadar, capacitatea
eantionului de a reproduce ct mai fidel structurile i caracteristicile
populaiei din care a fost extras (Rotariu, i alii, 2006). Dac valorile pro-
prietilor la nivelul populaiei poart numele de parametri, la nivelul eanti-
oanelor, ele se numesc indicatori sau statistici. n mod normal, noi nu cu-
noatem valorile parametrilor, valoarea exact pe care o are caracteristica
respectiv la nivelul populaiei, ci ncercm s-o estimm prin intermediul
valorii obinute la nivelul eantionului. Legat de acest aspect, trebuie ns s
reinei dou lucruri importante:
ntre valoarea unui indicator i valoarea unui parametru exist
ntotdeauna o diferen, numit eroare sau eroare statistic.
Sensul termenului de eroare nu este acela comun, de greeal.
Dac am msura toi brbaii din Romnia i am obine 179
centimetri pentru parametrul nlime medie, n timp ce un alt
studiu, efectuat pe 200 de brbai obine nlimea medie de
178,7 centimetri, diferena de 0,3 centimetri reprezint tocmai
eroarea statistic;
Pentru ca un studiu s fie valid, trebuie ca eroarea (diferena
dintre valoarea parametrului i cea a indicatorului) s nu dep-
easc un anumit prag. Acest prag poart numele de nivel de
ncredere i reprezint ansa ca eroarea real comis s nu de-
peasc limita erorii statistice. Cu alte cuvinte, ansa ca valo-
rile obinute s nu se datoreze unei erori de eantionare.
Aceste lucruri le-am abordat pe larg n capitolul anterior i nu le vom
discuta aici, deoarece consider c au fost bine nelese. Totui, vom prelua o

255
Statistic aplicat n tiinele socio-umane

serie de principii ale reprezentativitii eantionului, aa cum le prezint T.


Rotariu n lucrarea sa (Rotariu, i alii, 2006):
Reprezentativitatea unui eantion trebuie ntotdeauna evaluat
prin eroarea statistic i nivelul de ncredere, deoarece, n ab-
sena specificrii nivelului de ncredere, nu putem fi siguri c
eroarea comis este mai mic dect eroarea statistic;
Reprezentativitatea unui eantion, ca noiune statistic, la fel
ca populaia, este un termen abstract. Nu putem vorbi de re-
prezentativitate dect n raport cu o caracteristic dat (vrst,
gen biologic, nlime, coeficient de inteligen etc.);
Exist diferite grade de reprezentativitate a unui eantion. Un
eantion poate fi mai reprezentativ dect altul, n condiiile n
care, la acelai nivel de ncredere, eroarea este mai mic sau,
la aceeai eroare, nivelul de ncredere este mai ridicat.
Din cele expuse mai sus, putem concluziona c reprezentativitatea
unui eantion depinde de caracteristicile populaiei care va fi studiat, de
mrimea eantionului i de procedura folosit (Rotariu, i alii, 2006).
Principul de baz al eantionrii este ex-
pus succint n figura alturat. Din populaia ge-
neral se construiete populaia int, n funcie
de variabilele de interes necesare cercetrii.
Raportat la nivelul de precizie ales, se de-
termin mrimea eantionului, n baza populaiei
int, astfel nct s se poat stabili eroarea ma-
Figura 8.1 Relaia dintre populaia
general, variabilele de interes i
xim i nivelul de ncredere.
eantion
Desigur, problema se pune la nivelul
stabilirii mrimii eantionului, astfel nct acesta s fie reprezentativ.

256
Cristian Opariuc-Dan

VIII.3.1 Mrimea eantionului


V-ai pus n mod cert ntrebarea, n nenumrate rnduri, cum poate un
sondaj s vorbeasc n numele oamenilor. Sau cum pot cei care organizeaz
sondaje s ghiceasc cine va iei preedinte, evident dac sondajele sunt co-
recte. Dac nimeni nu m-a ntrebat nimic, cum poate cineva s fac o afirma-
ie valabil i pentru mine? Este o ntrebare pertinent, ns v dai seama ce
s-ar ntmpla i ce ar implica investigarea ntregii populaii la fiecare cerceta-
re? Nu numai c ar fi prohibitive costurile, ns nimeni nu ar putea da rezulta-
tele n timp util i, mai ales,
Reprezentativitate
nu ar fi necesar.
n mod cert, repre-
zentativitatea unui eantion
crete odat cu creterea
numrului de elemente i
atinge maximum la un vo-
lum egal cu cel al populaiei.
Totui, relaia dintre repre-
zentativitate i volumul
n n Volum eantion
eantionului nu este una lini-
Figura 8.2 Relaia dintre volumul eantionului i
reprezentativitate ar, ci una curbiliniar. n
figura alturat putem ob-
serva c, n cazul unui eantion format din zero persoane, reprezentativitatea
lui este i ea nul. Cu ct crete numrul de persoane, cu att crete i repre-
zentativitatea, ns pn la un punct situat ntre n i n. Dup acest nivel,
reprezentativitatea eantionului crete foarte puin, pe msur ce crete volu-
mul acestuia, astfel nct diferenele vor fi nesemnificative. Toat problema
este s determinm punctul pentru care reprezentativitatea este maxim,
punct situat ntre n i n care va determina mrimea (n) a eantionului. Un
volum al eantionului mai mic de n duce la un eantion nereprezentativ, iar
un volum al eantionului mai mare de n determin cheltuieli nejustificate.

257
Statistic aplicat n tiinele socio-umane

Un fapt importat pe care dorim s-l abordm este acela c, reprezen-


tativitatea eantionului nu depinde de mrimea populaiei. Fie c desfu-
rm un studiu n Romnia, fie n India sau n Statele Unite, un eantion de
500 de persoane va avea aceeai reprezentativitate.

VIII.3.2 Caracteristicile populaiei


Ce ne facem n situaia n care avem n oal fasole de 1 an i fasole de
10 ani? Iat c, n termeni statistici, populaia de fasole din oala dumneavoas-
tr este format, de fapt, din dou subpopulaii: cea de 10 ani i cea de 1 an.
Dei lingura de fasole pe care o gust este reprezentativ la nivelul populaiei,
ea nu mai este reprezentativ la nivelul subpopulaiilor. Sunt de fapt dou
straturi n populaia noastr, fiecare dintre aceste straturi avnd ponderi dife-
rite. Reprezentativitatea nu are de-a face cu aceast proporie a straturilor n
raport cu volumul populaiei, astfel nct, n aceast situaie, eantionul boa-
belor de fasole din lingura mea nu mai este reprezentativ la nivelul celor dou
subpopulaii de boabe de fasole. Ce este de fcut n acest caz? Dac cunoa-
tem ponderea straturilor, putem folosi o procedur specific de eantionare.
Dac nu, n general gustm mai multe linguri, adic mrim efectivul eantio-
nului.

VIII.3.3 Procedee de eantionare


Metodele i tehnicile de eantionare au fost abordate i n capitolul al
treilea al acestui volum. n cadrul acestei seciuni vom studia n detaliu fieca-
re tehnic, specificnd, atunci cnd este cazul, modalitatea de calcul. Cum
aflm totui cea mai bun metod de eantionare? n figura de mai jos, avei
un algoritm de decizie n vederea alegerii procedurii adecvate de eantionare.
n practic, se face distincia ntre procedeele de eantionare aleatoare
i procedeele de eantionare nealeatoare. Din punct de vedere statistic ns,
orice procedeu de eantionare nealeatoriu nu poate fi tratat prin prisma teoriei
probabilitilor, fiind prin urmare eliminat din categoria metodelor de eanti-

258
Cristian Opariuc-Dan

onare. Cnd discutm despre reprezentativitate, vom aborda strict procedeele


de eantionare aleatorii. O procedur de eantionare este aleatoare n
momentul n care fiecare individ din populaie are o ans calculabil de
a fi ales n eantion.

Precizie
mare?

Nu Da

Exist sub- Exist sub-


populaii? populaii?

Nu Da Nu Da

Eantion sub Eantion peste Eantion peste Eantion peste


50 elemente 50 elemente 50 elemente 50 elemente

Eantion peste
50 elemente

- Analiz; - Randomiza- - Randomiza- - Stratificat; - Randomiza-


- Convenie; re simpl; re simpl; - Proporiona- re simpl;
- Bulgre de - Sistematic; - Sistematic; l cu mri- - Sistematic;
zpad - Cluster; - Cluster; mea; - Cote;
- Proporiona-
l cu mrimea
- Multistadiu;
Figura 8.2 Algoritmul de decizie n alegerea metodei de eantionare - Cluster;
- Stratificat

VIII.3.3.1 Stabilirea eantionului prin convenie


Este un procedeu nealeatoriu de stabilire a unui eantion, bazat pe vo-
luntariat sau pe cazuri specifice, analizate de cercettor. De exemplu, situaia
n care un psihoterapeut i construiete un studiu tiinific bazat pe clienii pe

259
Statistic aplicat n tiinele socio-umane

care-i trateaz ori cazul cercetrilor efectuate pe studenii din cadrul unei uni-
versiti. Nu putem vorbi aici de reprezentativitate, iar rezultatele obinute nu
pot fi extrapolate la nivelul ntregii populaii. Un asemenea studiu, datorit
voluntariatului, este puternic biasat, iar rezultatele vor fi privite cu mare scep-
ticism. Avantajul l reprezint posibilitatea de colectare facil i rapid a da-
telor, iar cu ct grupul este mai mare, cu att rezultatele vor fi mai importan-
te. ntr-o cercetare n care se folosesc asemenea subieci, n general, elemen-
tele se raporteaz ca lot de cercetare sau lot de studiu i nu ca eantion, toc-
mai pentru a specifica lipsa oricror tehnici de eantionare.

VIII.3.4 Stabilirea eantionului prin analiz


Reprezint un alt procedeu nealeatoriu de colectare a datelor, bazat pe
alegerea deliberat a cazurilor. Nici n aceast situaie nu putem vorbi de
eantion, preferndu-se termenul de lot de cercetare. Erorile statistice sunt i
n acest caz foarte mari i nu se pot extinde cunotinele la nivelul ntregii
populaii, iar cercetarea prezint probleme de credibilitate. Se folosete, n
general, pentru studiile de caz sau n condiiile unor populaii cu un compor-
tament bine cunoscut.
Cele dou metode prezentate mai sus presupun utilizarea unor loturi
de cercetare de mici dimensiuni (n general, sub 50 de cazuri) i le ntlnim
frecvent n lucrri specifice domeniului psihologic. Din nefericire, concluziile
rezultate n urma unor asemenea studii au o valoare limitat la nivelul lotului
cercetat, orice posibilitate de generalizare fiind statistic exclus.

VIII.3.4.1 Metoda bulgrelui de zpad


Este o tehnic folosit destul de frecvent n cercetrile socio-umane,
n special n sociologie i se bazeaz pe metode multi-level. O persoan care
rspunde recomand n acelai timp o alt persoan care va rspunde (un pri-
eten, o cunotin etc.). Aceasta, la rndul ei, recomand o alt persoan i
aa mai departe. Cercetrile de acest tip fixeaz, de obicei, o dat limit pn

260
Cristian Opariuc-Dan

la care se pot primi rspunsurile subiecilor. n mod cert, metoda de alegere a


subiecilor nu este una aleatorie i prezint limitrile prezentate mai sus.
Avantajul este acela al costurilor reduse i al creterii exponeniale a volumu-
lui de date. ntr-un timp scurt, se pot colecta foarte multe date, ns cercetri-
le nu prezint relevan, datorit caracterului nealeatoriu i a faptului c nu
exist un control al rspunsurilor. Fiecare respondent poate s-i exprime
punctul su real de vedere sau un punct de vedere fals.

VIII.3.4.2 Eantionarea simpl aleatoare


Reprezint clasicul procedeu al loteriei sau al tragerii la sori, fiind
considerat cea mai simpl metod de eantionare. Nu presupune alte opera-
iuni prealabile, iar, prin aceast metod, fiecare individ dintr-o populaie are
ansa de a fi ales n eantion. Cnd eram copil, obinuiam s joc fotbal n
echipa de cartier. Bineneles c problema era cine s fie portar, deoarece
niciunul dintre noi nu dorea. Deoarece ne strngeam cam 30-40 de copii, sin-
gura soluie era s tragem la sori, astfel nct fceam un numr de bileele
egal cu numrul nostru, iar pe un singur bileel scriam portar. Amestecam
apoi bileelele ntr-o cciul i fiecare trgea cte unul. Ghinionistul sttea n
poart i, evident, au fost suficiente ocazii n care, cu sufletul trist, aveam
aceast onoare. Nu tiam atunci c aplic un procedeu statistic de eantiona-
re, numit eantionarea simpl aleatoare.
Nu cred c este cazul s mai menionez faptul c aceast metod este
o modalitate aleatorie de eantionare, prin care se poate estima un parametru
al populaiei, se poate calcula eroarea de eantionare, are un design simplu i
eficient, iar interpretarea este foarte uoar.
Strict matematic, pentru a construi un eantion aleatoriu se folosesc
tabele de numere aleatoare, formate din iruri lungi de numere alese la n-
tmplare, att sub aspectul numerelor n sine, ct i sub cel al poziiei n care
se afl n tabel. Metodele informatizate pot folosi, n acelai scop, generatoa-

261
Statistic aplicat n tiinele socio-umane

re de numere aleatorii. Stabilirea unui eantion pe baza eantionrii aleatorii


simple presupune urmtoarele etape:
Stabilirea populaiei int. Considerm c dorim s studiem
nlimea brbailor din Romnia. Populaia va fi format din
totalitatea brbailor din Romnia, persoane de sex masculin
cu vrsta de peste 18 ani. S presupunem c numrul acestora
este de 8 milioane (N=8000000);
Stabilirea bazei de eantionare. Prin baz de eantionare
nelegem o list exhaustiv a populaiei int. Avem nevoie,
prin urmare, de o list a tuturor brbailor din Romnia pe care
o numerotm succesiv de la 1 la 8 milioane. Practic se obine
iniial o list ordonat alfabetic, se genereaz apoi, aleatoriu,
pentru fiecare nregistrare din list, un numr i se reordoneaz
lista dup numrul generat. Astfel, amestecm baza de eanti-
onare, eliminnd criteriul alfabetic. Pe noua list amestecat,
generm apoi numere succesive de la 1 la 8 milioane;
Stabilirea mrimii eantionului. Prin procedee de calcul pe
care le vom aborda n urmtorul subcapitol, stabilim dimensi-
unea eantionului. n situaia noastr, presupunem c alegem
un eantion de 1000 de persoane (n=1000);
Generarea numerelor aleatoare. Se genereaz pe computer
1000 de numere aleatoare sau se utilizeaz tabelul cu numere
aleatoare;
Extragerea eantionului. Se citete primul numr aleatoriu
generat sau primul numr din tabelul de numere aleatoare.
Acel numr reprezint numrul de ordine al subiectului din
baza de eantionare care va fi inclus n eantion. Se trece apoi
la al doilea numr aleatoriu, acesta reprezentnd numrul de

262
Cristian Opariuc-Dan

ordine al celui de-al doilea subiect i se continu astfel pn la


completarea efectivului (1000 de subieci) eantionului.
Dei extrem de simpl, metoda prezint o serie de limitri serioase.
Principala problem o constituie obinerea bazei de eantionare. Cum gsim
lista cu numele, prenumele i adresa tuturor brbailor din Romnia? Unii
cercettori folosesc crile de telefon i genereaz aleatoriu volumul eantio-
nului n baza numerelor de telefon. Se pune ns problema dac toat popula-
ia are telefon. Cei care nu au telefon sau nu figureaz n cartea de telefon
sunt automat exclui din baza de eantionare, ceea ce duce la eliminarea ca-
racterului aleatoriu.
Pe de alt parte, presupunnd c am obinut baza de eantionare, toate
persoanele din eantion sunt accesibile? Dac unii sunt plecai n strintate,
au murit, s-au mutat ori nu pot fi contactai, ce se ntmpl? Se mai respect
reprezentativitatea eantionului? V las pe dumneavoastr s decidei acest
lucru. n general, cu ct volumul populaiei int este mai mare, cu att aceas-
t metod este mai dificil de implementat.

VIII.3.4.3 Eantionarea stratificat


Iat i metoda utilizat n verificarea boabelor de fasole de 1 an i a
celor de 10 ani. Eantionarea stratificat este considerat superioar eantio-
nrii aleatorii simple, deoarece, n condiiile n care la nivelul populaiei int
exist mai multe straturi (subpopulaii), se va putea reproduce ponderea fie-
crui strat n eantionul final.
Se consider c, dintre dou eantioane de volum egal, cel produs prin
stratificare va avea o reprezentativitate mai bun n comparaie cu cel produs
prin eantionarea aleatorie simpl (Rotariu, i alii, 2006).
Procedura concret de lucru const n urmtoarele etape principale:
Stabilirea variabilelor de stratificare. Stratificarea se poate
face dup o singur variabil (stratificare simpl) sau dup mai

263
Statistic aplicat n tiinele socio-umane

multe variabile (stratificare multipl). Spre exemplu, ne intere-


seaz consumul mediu zilnic de igri pentru populaia din
Romnia. Care ar fi variabilele de stratificare? Femeile con-
sum, oare, mai multe igri n comparaie cu brbaii? Grupa
de vrst influeneaz consumul de igri? Cei din mediul rural
fumeaz mai mult sau mai puin n comparaie cu cei din me-
diul urban? Nu exist o regul de stabilire a variabilelor de
stratificare, acestea fiind alese n funcie de scopul cercetrii i
de rolul pe care l au n legtur cu tema cercetat. ntotdeauna
ns, suma cazurilor din fiecare strat trebuie s redea totalul
populaiei. Dac ne intereseaz numai straturile determinate de
sex, efectum o stratificare simpl. Dac, ns, lum n con-
siderare sexul i mediul de provenien, avem o stratificare
multipl.
S lum un exemplu, prin care dorim s studiem consumul mediu de
igri din judeul X, cu o populaie total de 450.380 de persoane. Ne intere-
seaz o stratificare n funcie de variabilele sex i mediu de provenien. Pu-
tem obine, n aceast etap, urmtoarea structur a populaiei, prezentat n
tabelul de mai jos:
Tabel 8.1 Structura populaiei pentru cele dou variabile de strati-
ficare n judeul X

Brbai Femei
Rural Urban Rural Urban
120.215 80.360 113.456 136.394
(26,69%) (17,84%) (25,19%) (30,28%)
200575 (44,53%) 249805 (55,47%)
450.380 (100%)

264
Cristian Opariuc-Dan

Problema pe care ne-o punem se refer la proporia (procentul) din


populaia int reprezentat de fiecare strat. Pentru a afla acest lucru, nu ne
rmne dect s aplicm regula de trei simpl:
Dac 450.380 nseamn 100%
Atunci 120.215 nseamn X%
120.215 100 1.202.150
= = = 26,69%
450.380 450.380
n mod similar vom efectua calculele pentru toate cele patru seciuni.
Remarcm c totalul subiecilor din fiecare variabil de stratificare reprezint
ntreaga populaie int.
Stabilirea bazei de eantionare. Se realizeaz la fel ca n ca-
zul eantionrii aleatorii simple. Avem nevoie de lista comple-
t a tuturor persoanelor din judeul X, prelucrat dup modali-
tatea prezentat n subcapitolul anterior. Singura diferen este
c baza de eantionare va fi organizat pe seciuni diferite, n
funcie de variabilele de stratificare. n cazul nostru, vom avea
patru seciuni ale bazei de eantionare i anume: brbai din
mediul urban, femei din mediul urban, brbai din mediul rural
i femei din mediul rural. (N=450.380);
Stabilirea mrimii eantionului. Se face n urma unor calcu-
le specifice, adecvate acestui tip de eantionare, calcule pe ca-
re le vom prezenta ntr-un capitol ulterior. n cazul nostru, am
ales un eantion de 300 de persoane (n=300);
Stabilirea compoziiei eantionului. Reprezint etapa prin in-
termediul creia ne asigurm c proporia din populaie o re-
gsim i n eantion. Vom folosi, de asemenea, regula de trei
simpl.

265
Statistic aplicat n tiinele socio-umane

Dac 300 nseamn 100%


Atunci X nseamn 26,69%
26,69 300 8007
= = = 80
100 100
Tabel 8.2 Structura eantionului pe cele dou variabile de stratifi-
care n judeul X

Brbai Femei
Rural Urban Rural Urban
80 (26,69%) 54 (17,84%) 76 (25,19%) 91 (30,28%)
134 (44,53%) 167 (55,47%)
301 (100%)

Observm c structura eantionului selectat reproduce fidel structura


populaiei din care a fost extras, pentru fiecare dintre cele dou variabile de
stratificare. Desigur, n loc de 300 de subieci au rezultat 301 subieci, datori-
t rotunjirilor aprute prin calcul. Vom pstra, n cele din urm, aceast va-
loare obinut.
Generarea numerelor aleatoare. Se realizeaz similar ean-
tionrii aleatorii simple pentru fiecare baz de eantionare. Se
vor genera 80 de numere aleatoare pentru brbaii din mediul
rural, 54 de numere aleatoare pentru brbaii din mediul urban,
76 de numere aleatoare pentru femeile din mediul rural i 91
de numere aleatoare pentru femeile din mediul urban;
Extragerea eantionului. Numerele aleatoare generate n eta-
pa anterioar reprezint numerele de ordine pentru subiecii
din cele patru baze de eantionare. Eantionul final va fi com-
pus din 301 persoane, aparinnd tuturor celor patru categorii.

266
Cristian Opariuc-Dan

Dei mai laborioas dect eantionarea aleatorie simpl, eantionarea


stratificat are avantajul unei mai bune reprezentativiti.

Exerciiu:
Calculai cte boabe de fasole de 10 ani i cte boabe de fasole de 1
an trebuie s avei n lingur, cunoscnd c n oal se afl 854 de boabe de
fasole de 1 an i 362 de boabe de fasole de 10 ani.
Dei, aparent, caracterul aleatoriu nu se pstreaz datorit crerii pon-
derilor pe straturi, aceast alegere a subeantioanelor asigur tuturor indivizi-
lor o probabilitate egal de a intra n eantion. O problem poate s apar n
situaia n care ponderea unui strat este foarte mic n populaie. Dac vom
considera variabila de eantionare nivelul de inteligen, exist posibilitatea
ca grupa geniilor sau a idioilor s aib foarte puine cazuri n populaie (s
spunem 10). n aceast situaie, n eantion ar trebui s includem 0,003 (un
exemplu, cifra nu a rezultat din calcul) persoane, ceea ce este imposibil.
Asemenea situaii impun o supra-reprezentare (adic includerea mai multor
cazuri n eantion dect proporia din populaie) urmat apoi, n decursul ana-
lizei indicatorilor statistici, fie de ponderarea valorilor pariale la nivelul stra-
tului respectiv, fie de includerea acelui strat ntr-un alt strat supraordonat sau
subordonat (de exemplu, includerea geniilor n categoria celor cu un intelect
superior i redenumirea stratului inteligen superioar-genialitate).

VIII.3.4.4 Eantionarea multistadial


Dei cu o reprezentativitate mai redus n comparaie cu eantionarea
aleatorie simpl, aceast metod este intens utilizat n cercetrile sociologice
din raiuni de eficien practic i cost. Se folosete n special atunci cnd
volumul populaiei este foarte mare (studii la nivel naional), costurile cerce-
trii sunt limitate i se urmrete obinerea rapid a unor date.

267
Statistic aplicat n tiinele socio-umane

Principiul de baz al acestei eantionri este acela al proximitii spa-


iale i al faptului c persoanele pot fi privite ca indivizi aparinnd unor gru-
puri. Eantionarea multistadial presupune parcurgerea urmtoarelor etape:
Stabilirea stadiilor (grupurilor). Este etapa prin intermediul
creia definim grupurile din care vor fi extrase eantioanele.
Dac am dori s investigm, la nivel naional, consumul mediu
de igri pe zi, am putea efectua o eantionare aleatorie simpl
sau stratificat. Ce ne facem ns cu operatorii care trebuie s
administreze 100 de chestionare unor persoane din cteva ju-
dee, puternic dispersate spaial. Efortul i costurile ar fi sub-
staniale. Prin eantionarea multistadial ne putem referi, spre
exemplu, la organizarea teritorial. Romnia este organizat
pe judee, la nivelul judeelor se afl municipii, orae, comune
i sate, municipiile sunt organizate pe cartiere etc. Grupurile
pe care le putem folosi ar fi judeele, oraele, comunele i sate-
le.
Stabilirea eantionului de rangul I. Presupune extragerea
unui eantion din grupul de prim rang. n exemplul nostru,
grupul de prim rang este reprezentat de judee. n Romnia,
exist un numr de 42 de judee, dintre care, prin procedee
aleatorii, vom extrage, s spunem, un eantion de 5 judee
(Constana, Bacu, Timi, Satu Mare i Cluj). Aceste cinci ju-
dee formeaz populaia int pentru urmtorul stadiu.
Stabilirea eantionului de rangul II. Presupune extragerea,
din judeele selectate n etapa anterioar, a unui numr de lo-
caliti. n cazul nostru, judeul Constana are un numr de 69
de localiti, judeul Bacu 88 de localiti, judeul Timi
92 de localiti, judeul Satu Mare 60 de localiti i judeul
Cluj 83 de localiti. n total, avem un numr de 392 de loca-

268
Cristian Opariuc-Dan

liti, din care calculm un eantion de 17 localiti pe care le


extragem prin procedee aleatorii. Vor rezulta 3 localiti din
Bacu (Ciui, Drmneti i Sascut), 5 localiti din Constan-
a (Ostrov, Dobromir, Saraiu, Medgidia i Techirghiol), 2 lo-
caliti din Satu Mare (Vama i Carei), 4 localiti din Cluj
(Mihai Viteazu, Ciucea, Scuieu i Vad) i 3 localiti din Ti-
mi (Tometi, Cenad i Pichia). Aceste localiti vor repre-
zenta baza de eantionare pentru urmtorul stadiu.
Stabilirea eantionului de rangul III. Putem continua cu
grupurile pn la nivel de individ sau putem include, n aceas-
t etap, un alt grup care va funciona ca stadiu de eantionare.
M voi rezuma acum la a considera acest stadiu ca fiind ulti-
mul i vom proceda la extragerea eantionului final. Baza de
eantionare va fi constituit din totalul populaiei celor 17 lo-
caliti, sub forma binecunoscutei liste exhaustive de popula-
ie. Presupunem c n cele 17 localiti triesc 1.854.360 de
persoane (N=1.854.360);
Stabilirea mrimii eantionului. Prin procedee de calcul pe
care le vom aborda n urmtorul subcapitol, stabilim dimensi-
unea eantionului. n situaia noastr, presupunem c alegem
un eantion de 200 de persoane (n=200);
Generarea numerelor aleatoare. Se genereaz pe computer
200 de numere aleatoare sau se utilizeaz tabelul cu numere
aleatoare;
Extragerea eantionului. Se citete primul numr aleatoriu
generat sau primul numr din tabelul de numere aleatoare.
Acel numr reprezint numrul de ordine al subiectului din
baza de eantionare care va fi inclus n eantion. Se trece apoi
la al doilea numr aleatoriu, acesta reprezentnd numrul de

269
Statistic aplicat n tiinele socio-umane

ordine al celui de-al doilea subiect i se continu astfel pn la


completarea efectivului de 200 de subieci solicitat de eanti-
on.
Dei aceast metod de eantionare permite construirea unor eanti-
oane aflate n proximitate spaial, reducnd costurile de cercetare i facili-
tnd achiziia datelor, se poate ntmpla ca, la nivelurile de rang nalt, ele-
mentele s fie selectate numai dintr-o anumit zon (spre exemplu 3 judee
din Moldova i 2 din Ardeal). n acest caz, o mare parte a teritoriului rmne
neacoperit, ceea ce determin probleme serioase de reprezentativitate. Pen-
tru a evita acest lucru, se combin eantionarea multistadial cu eantionarea
stratificat.
O alt problem care se poate pune este aceea a inegalitii grupurilor.
La un anumit nivel de eantionare, se creeaz, ntr-adevr, o probabilitate
egal de alegere a tuturor elementelor, ns ntre Covasna cu 45 de localiti
i Mure cu 111 localiti exist o important diferen de mrime. Pentru a
evita acest lucru, n general se pondereaz probabilitatea de extragere a unui
grup, proporional cu mrimea acestuia.
Un alt dezavantaj al acestei metode l reprezint calculele laborioase.
De obicei, resursele economisite prin colectarea datelor sunt pe deplin folosi-
te la proiectarea eantionului, n condiiile unei reprezentativiti satisfctoa-
re.

VIII.3.4.5 Eantionarea pe clusteri


Reprezint o metod ieftin de eantionare, ns costurile sczute sunt
compensate pe deplin de erori de eantionare destul de mari. n plus, dac
volumul clusterului este mare, cresc i cheltuielile de colectare a datelor.
Acest tip de eantion este considerat a fi cel mai ieftin, cel mai rapid i mai
comod mijloc de eantionare, care nu necesit nici mcar informaii complete

270
Cristian Opariuc-Dan

despre populaie. Se preteaz mai degrab la analize de tip calitativ, cum ar fi


interviurile sau focus-grupurile.
Un cluster reprezint o structur care se comport ca un individ
ntr-o populaie. Dac considerm populaia municipiilor din Romnia,
atunci un cluster este reprezentat de Municipiul Constana, un alt cluster de
Municipiul Iai i aa mai departe. Modalitatea de realizare a unui eantion
pe clusteri este urmtoarea:
Stabilirea bazei de eantionare. n acest caz, baza de eanti-
onare este reprezentat de totalitatea populaiei de clustere.
Dac suntem interesai de o cercetare pe nvmntul liceal,
baza de eantionare va conine lista exhaustiv a liceelor din
Romnia. S presupunem c avem 5423 de licee n Romnia
(N=5423);
Stabilirea mrimii eantionului. Prin procedee specifice de
calcul, se determin mrimea eantionului pe care urmeaz s-
l selectm. n cazul nostru, considerm un numr de 12 licee
(n=12);
Generarea numerelor aleatoare. Se genereaz pe computer
12 de numere aleatoare sau se utilizeaz tabelul cu numere
aleatoare;
Extragerea eantionului. Se citete primul numr aleatoriu
generat sau primul numr din tabelul de numere aleatoare.
Acel numr reprezint numrul de ordine al liceului din baza
de eantionare, care va fi inclus n eantion. Se trece apoi la al
doilea numr aleatoriu, acesta reprezentnd numrul de ordine
al celui de-al doilea liceu i se continu astfel pn la comple-
tarea efectivului (12 licee) eantionului.

271
Statistic aplicat n tiinele socio-umane

Specific acestui tip de eantion este desfurarea cercetrii la nivelul


ntregului cluster. ntr-un liceu selectat n eantion se investigheaz toi pro-
fesorii, toi elevii, personalul auxiliar.
Aceast metod este destul de des utilizat n investigaii psihologice
sau psiho-sociologice, predominante fiind totui cercetrile calitative.

VIII.3.4.6 Eantionarea sistematic


Se numete i eantionare cu pas i reprezint o variant a eantion-
rii aleatorii simple, fiind chiar mai comod dect aceasta. Ca principale avan-
taje, menionm uurina n utilizare i posibilitatea de calcul a erorii de ean-
tionare. Pe lng dezavantajele eantionrii aleatorii simple, metoda prezint
i dezavantajul periodicitii. Modalitatea de lucru n vederea construirii unui
eantion prin eantionare stratificat este urmtoarea:
Stabilirea bazei de eantionare. Baza de eantionare se stabi-
lete prin acelai procedeu ca i n cazul eantionrii aleatorii
simple. Avem din nou nevoie de lista exhaustiv a brbailor
din Romnia, spre exemplu;
Se determin mrimea eantionului. Prin procedee de calcul
specifice, stabilim mrimea eantionului. Pentru exemplul nos-
tru, vom considera un eantion de 1000 de persoane (n=1000);
Se stabilete pasul de eantionare. Pasul de eantionare re-
prezint expresia raportului dintre volumul populaiei i volu-
mul eantionului: = . n cazul nostru, pasul de eanti-
onare va fi 8000000 1000 = 8000.

Stabilirea punctului de start. Punctul de start reprezint lo-


cul de ncepere a eantionului. Se genereaz un numr aleato-
riu ntre 1 i 8000, numr care va reprezenta punctul de start.

272
Cristian Opariuc-Dan

S presupunem c acest numr este 5421. Subiectul cu acest


numr de ordine va fi prima persoan inclus n eantion.
Elaborarea eantionului. La numrul care indic punctul de
start se adaug valoarea pasului de eantionare
(5421+8000=13.421). Subiectul cu acest numr de ordine n
baza de eantionare va fi al doilea subiect inclus n eantion.
Al treilea subiect inclus n eantion va fi cel cu numrul de or-
dine 13.421+8000=21.421 i aa mai departe pn la comple-
tarea efectivului de 1000 de persoane.

VIII.3.4.7 Eantionarea pe cote


Se aseamn cu eantionarea stratificat, ns nu mai are un caracter
aleatoriu i, de aceea, metoda este inclus n categoria procedeelor de eanti-
onare nealeatorii. Principul este acelai. Se identific o serie de straturi la
nivelul populaiei i se ncearc reproducerea acestora n eantion, fr a se
folosi ns tehnici aleatorii. Printre avantajele acestei metode putem meniona
rapiditatea obinerii eantionului, relativa economie de resurse i lipsa bazei
de eantionare. Totui, metoda nefiind aleatorie, riscul de obinere a erorilor
de eantionare este foarte mare. De asemenea, sunt necesare cunotine solide
referitoare la structura populaiei, iar eroarea de eantionare i nivelul de n-
credere sunt elemente ce nu pot fi calculate. Relund exemplul din judeul X,
am putea construi un eantion pe cote prin urmtorul procedeu:
Stabilirea cotelor (variabilelor de stratificare) i a structu-
rii populaiei. Se face identic ca i n cazul eantionrii strati-
ficate. Vor rezulta cele patru grupe, cu procentele din popula-
ie asociate (vezi tabelul 8.1);
Stabilirea mrimii eantionului. Se face n urma unor calcu-
le specifice, adecvate acestui tip de eantionare.

273
Statistic aplicat n tiinele socio-umane

Stabilirea compoziiei eantionului. Este o etap n care se


opereaz ca i la eantionarea stratificat, stabilindu-se num-
rul de persoane cuprinse n eantion, n funcie de proporia n
care se regsesc n populaie (vezi tabelul 8.2). Aceasta este i
etapa final a eantionrii pe cote, nefiind implicat vreo pro-
cedur aleatorie sau vreo baz de eantionare.
Operatorilor li se comunic doar numrul subiecilor i categoria din
care fac parte, rmnnd la latitudinea lor alegerea concret a cazurilor. Acest
lucru induce erori de eantionare serioase, determinnd includerea acestei
metode n categoria procedeelor nealeatorii. De exemplu, dac avem un nu-
mr de 10 operatori pentru realizarea studiului de mai sus, acestora li se va
comunica doar necesitatea administrrii instrumentelor de cercetare pe un
numr de 8 brbai din mediul rural, 5 brbai din mediul urban, 8 femei din
mediul rural i 9 femei din mediul urban, fr vreo referire la persoane con-
crete.
Eantioanele pe cote se aplic destul de des n procesul de adaptare a
testelor psihologice n Romnia, instrumentele rezultate fiind i ele, la rndul
lor, limitate de problemele acestei metode.

VIII.3.4.8 Eantioane cu probabilitatea proporional cu


mrimea
Reprezint o metod derivat din eantionarea sistematic, prin inter-
mediul creia probabilitatea de selectare a unei uniti de eantionare este
proporional cu dimensiunea acesteia.
Tehnica este extrem de util n condiiile n care unitile de eantio-
nare difer foarte mult sub aspectul dimensiunilor, determinnd ca unitile
de eantionare mari s aib aceeai probabilitate de a fi selectate ca i cele
mici. ntre Bucureti i Pacani exist o mare diferen n ceea ce privete
numrul de locuitori. n mod normal, probabilitatea de a selecta ntr-un ean-

274
Cristian Opariuc-Dan

tion mai muli bucureteni este mult mai mare. Folosind aceast tehnic, pro-
babilitile se egaleaz. Eantioanele cu probabilitate proporional cu mri-
mea sunt utilizate, n special, n domeniul organizaional, n cercetri la nive-
lul crora se intenioneaz investigarea personalului. Deoarece cadrele de
conducere sunt mai puin numeroase n comparaie cu cadrele de execuie,
metoda permite egalarea anselor celor dou categorii de a fi incluse n ean-
tion.
Relund exemplul anterior, ne propunem s desfurm o cercetare
oarecare n judeul Y, care are un numr de 29 de localiti. Dup cum obser-
vai n tabelul 8.3, localitile sunt difereniate sub aspectul populaiei. n
timp ce localitatea 26 are un numr de 197 de locuitori, localitatea 21 are un
numr de 1590 de locuitori. Evident c ansele de a extrage mai muli locui-
tori din localitatea 21 sunt mai mari n comparaie cu localitatea 26, de unde,
cel mai probabil, nu va participa nimeni la cercetare. Prin acest procedeu de
eantionare putem egala situaia, astfel nct subiecii din fiecare localitate s
aib o ans calculabil de a fi inclui n eantion.
Etapele de realizare a unui asemenea eantion sunt urmtoarele:
Inventarierea unitilor de eantionare i a dimensiunii
acestora. n aceast etap, se listeaz toate unitile de eanti-
onare din teritoriu, precum i volumul corespunztor de popu-
laie. n cazul nostru, vom nregistra toate cele 29 de localiti
ordinea nu conteaz mpreun cu volumul populaiei pen-
tru fiecare unitate (coloanele Localitate i Populaie din tabelul
8.3). La acest nivel, se poate lucra fie cu lista complet, fie cu
uniti de eantionare grupate n interval (de exemplu, vrsta
ntre 0 i 10 ani, ntre 11 i 21 de ani etc.)

275
Statistic aplicat n tiinele socio-umane

Tabel 8.3 Eantion cu probabilitate proporional cu mrimea


Localitate Populaie Populaie cumulat Locaie selectat
1 542 542 423
2 245 787
3 1032 1819
4 867 2686 1891
5 256 2942
6 352 3294
7 835 4129 3359
8 645 4774
9 427 5201 4827
10 312 5513
11 1342 6855 6295
12 390 7245
13 604 7849 7763
14 465 8314
15 897 9211
16 476 9687 9231
17 365 10052
18 967 11019 10699
19 533 11552
20 215 11767
21 1590 13357 12167
22 423 13780 13635
23 645 14425
24 867 15292 15103
25 423 15715
26 197 15912
27 586 16498
28 365 16863 16571
29 756 17619
Calculul populaiei cumulate. Vom calcula apoi frecvena
cumulat a ntregului volum de populaie int. Ultima unitate
de eantionare va conine, evident, volumul total al populaiei.
n cazul nostru, n judeul Y triesc 17.619 persoane
(N=17.619). Ne reamintim c prin calculul frecvenelor cumu-
late, practic ordonm cresctor populaia noastr.

276
Cristian Opariuc-Dan

Stabilirea mrimii eantionului. Prin procedee specifice de


calcul, se determin mrimea eantionului. n cazul nostru,
vom considera c am ales un eantion de 120 de persoane, re-
prezentativ pentru judeul Y (n=120).
Determinarea numrului de locaii. Eantionul de 120 de
persoane va trebui constituit prin alegerea lor din cele 29 de
localiti ale judeului Y. n funcie de numrul total al uniti-
lor de eantionare, se stabilesc localitile n care se va desf-
ura cercetarea. Pentru 120 de persoane, am ales un numr de
12 localiti dintre cele 29. n fiecare localitate vor fi intervie-
vate 10 persoane.
Stabilirea pasului de eantionare. Se realizeaz la fel ca la
eantionarea sistematic, prin divizarea populaiei totale, de
data aceasta la numrul locaiilor i nu la volumul eantionu-
lui. Pentru exemplul nostru, avem un pas de eantionare de
17.619:12=1468,25 rotunjit 1468.
Stabilirea punctului de start. Se va alege aleatoriu un numr
ntre 1 i pasul de eantionare, acela fiind numrul locaiei de
start. S presupunem c numrul generat aleatoriu este 423. La
fel ca la stabilirea medianei, verificm categoria ce conine al
423-lea subiect, prin inspectarea coloanei Populaie cumula-
t. Observm c aceast valoare cumulat se regsete chiar
n prima locaie. Prin urmare, una dintre cele 12 locaii este lo-
calitatea 1. n acea localitate, folosindu-se ca baz de eantio-
nare lista exhaustiv a celor 542 de persoane ori prin alt me-
tod aleatorie sau sistematic (de exemplu, de la casa 10, fie-
care a 54-a cas) vor fi intervievate 10 persoane.
Stabilirea eantionului. La punctul de start 423 se adaug va-
loarea pasului 1468 i se obine noua locaie

277
Statistic aplicat n tiinele socio-umane

(423+1468=1891). Valoarea cumulat pentru a doua locaie se


afl n dreptul localitii 4 (V mai amintii, sper, c la nivelul
localitii 3 se afl a 1819-a persoan. Persoana cu numrul
1891 se afl n localitatea 4, care cuprinde subiecii de la al
1820-lea la al 2686-lea). Un alt operator se va deplasa n
aceast localitate i, printr-un procedeu similar, va intervieva
10 persoane. Procesul continu pn la stabilirea tuturor celor
12 localiti.
Au rezultat exact 12 localiti, mai precis localitile 1 542 locuitori,
4 867 locuitori, 7 835 locuitori, 9 427 locuitori, 11 1342 locuitori, 13
604 locuitori, 16 476 locuitori, 18 967 locuitori, 21 1590 locuitori, 22
423 locuitori, 24 867 locuitori i 28 365 locuitori.

VIII.3.5 Determinarea mrimii eantionului


n toate exemplele din subcapitolul anterior, am stabilit valori exacte
pentru mrimea unui eantion. Totui, ntrebarea pe care cred c v-o punei
este cum determinm mrimea eantionului, astfel nct folosind o anumit
tehnic de eantionare, eantionul rezultat s fie reprezentativ. Cel mai sim-
plu rspuns ar fi s consultai pagina de internet The Survey System, aflat
la adresa: http://www.surveysystem.com/sscalc.htm, unde gsii un excelent
calculator pentru mrimea eantionului, mpreun cu explicaiile de rigoare.
Un asemenea demers nu ar fi ns tiinific, de aceea vom descoperi mpreun
procedeele necesare stabilirii mrimii eantionului.
Determinarea mrimii unui eantion depinde, n principal, de cinci
factori:
Eroarea statistic ca expresie a diferenei dintre indicatorul
obinut la nivelul eantionului i valoarea parametrului la nive-
lul populaiei. Am mai spus acest lucru; prin studiul unui ean-
tion noi nu putem dect s estimm un parametru al populaiei.

278
Cristian Opariuc-Dan

Niciodat nu obinem valoarea sa exact. n funcie de modul


n care proiectm cercetarea i de nivelul de precizie dorit, pu-
tem reduce eroarea statistic, ns n condiiile unui eantion
de dimensiuni mai mari;
Variabilitatea populaiei estimat de obicei prin intermedi-
ul abaterii standard. Se refer la amplitudinea pe care o au
opiniile populaiei, element care afecteaz, de asemenea, di-
mensiunea eantionului. Cu ct variabilitatea este mai mare, cu
att acurateea estimrii este mai mic i va fi nevoie de un
eantion de dimensiuni mai mari;
Nivelul de ncredere indic gradul de precizie cu care rezul-
tatele obinute prin studiul eantionului se vor regsi la nivelul
populaiei. Cu ct nivelul de ncredere este mai mare, cu att
pretenia c rezultatele obinute nu sunt atipice crete, fiind
nevoie de eantioane de dimensiuni mai mari. Majoritatea cer-
cetrilor utilizeaz un nivel de ncredere de 95%;
Dimensiunea populaiei n mod normal, acest factor nu
afecteaz dimensiunea eantionului atta timp ct aceasta se
afl sub 5% din populaie. Dac dimensiunea eantionului este
mic n raport cu dimensiunea populaiei, factorul se poate ig-
nora. Dimensiunea populaiei devine important n condiiile
n care mrimea eantionului depete 5% din totalul popula-
iei (de exemplu, dac extragem un eantion de 40 de persoane
dintr-o populaie de 100 de persoane). n general, efectul este
acela de a se reduce uor dimensiunea eantionului.
Proporia din populaie se refer doar la situaia n care
eantionul este folosit pentru a msura un atribut din populaie
n locul unei variabile continue. Spre exemplu, opinia popula-
iei referitoare la realegerea preedintelui ori la efectele nocive

279
Statistic aplicat n tiinele socio-umane

ale fumatului. Subiecii se pot exprima prin Da sau Nu,


caz n care ne intereseaz proporia opiniilor pozitive i a celor
negative. Proporia estimat a acestor rspunsuri influeneaz
dimensiunea eantionului.
n mod curent, cercetrile tiinifice pe eantioane de 50 100 de per-
soane sunt suficient de precise n domeniul socio-uman. Poate c doar socio-
logia presupune eantioane mai mari, n cazul sondajelor de opinie. Uneori
este suficient un eantion de 30 de subieci, considerat ca fiind volumul mi-
nim de date ce permite analize statistice, respectiv aplicarea legii numerelor
mari i a distribuiei gaussiene. Eantioanele cu dimensiuni sub 30 de cazuri
fac parte din domeniul studiilor de caz, rezultatele obinute neputnd fi extin-
se la nivelul populaiei.

VIII.3.5.1 Calculul mrimii eantionului


Mrimea eantionului se calculeaz n funcie de tipul variabilei de in-
teres. Dac variabila de interes msoar un atribut, atunci stabilirea mrimii
eantionului se face prin intermediul proporiilor; dac este o variabil con-
tinu, mrimea eantionului se determin pe baza valorilor sau se convertete
variabila continu n atribut dihotomic.
Mrimea eantionului pentru o variabil care msoar un atribut (n-
trebri de tip Da i Nu, de exemplu) se determin pe baza formulei lui
Cochran:
2 1
= (formula 8.1)
2

unde: n reprezint mrimea eantionului, z scorul z asociat nive-


lului de ncredere dorit, e este precizia dorit (numit i marj de eroare)
i p reprezint ponderea rspunsurilor la nivelul populaiei.
Dup cum v-ai dat seama, valorile notei z sunt de fapt nite con-
stante, alocate n funcie de nivelul de ncredere, astfel:

280
Cristian Opariuc-Dan

La un nivel de ncredere de 80%, nota z este 1,28;


La un nivel de ncredere de 85%, nota z este 1,44;
La un nivel de ncredere de 90%, nota z este 1,65;
La un nivel de ncredere de 95%, nota z este 1,96;
La un nivel de ncredere de 99%, nota z este 2,58;
Dei scorurile pentru notele z au fost prezentate de la un nivel de
ncredere de 80%, tim foarte bine c nivelul de ncredere minim pentru o
cercetare serioas este de 95%. De aceea, nu recomand niciodat s utilizai
alte scoruri z, n afar de 1,96 i 2,58.
Ponderea rspunsurilor la nivelul populaiei reprezint un estimator a
valorii ateptate pe care o poate lua atributul respectiv atunci cnd ne referim
la populaia int. Situaia fericit este cnd anticipm diferene procentuale
mari. Spre exemplu, cnd putem bnui c 95% din populaie ar prefera intra-
rea n Uniunea European, n timp ce 5% din populaie nu ar prefera-o, sun-
tem n faa unei soluii optimiste, cu o pondere a rspunsurilor de 0,05 sau de
0,95 n funcie de sensul n care ne orientm. n acest caz, volumul eantio-
nului va fi mic (75 de persoane la un nivel de ncredere de 95%). Situaia
pesimist este aceea n care nu putem anticipa orientarea atributului. n acest
caz, suntem nevoii s presupunem o pondere de 0,5, adic jumtate din po-
pulaie ar rspunde Da, iar cealalt jumtate Nu. Volumul eantionului
va fi acum semnificativ mai mare (384 de subieci la un nivel de ncredere de
95%).
Precizia se refer la limitele marjei de eroare, ntre care acceptm s
se situeze valoarea indicatorului, exprimat sub form zecimal. O marj de
eroare 2% la un procent de, s spunem, 53% rspunsuri Da, obinut prin
studiul eantionului, nseamn c, la nivelul populaiei, procentul de rspun-
suri Da se situeaz undeva ntre 51% i 55%. Desigur, cu ct aceast preci-

281
Statistic aplicat n tiinele socio-umane

zie este mai mare, cu att crete i volumul eantionului. Marja de eroare de
2% se scrie n form zecimal 0,02.
Cunoscnd acum toate aceste elemente, s ne imaginm c desfu-
rm un studiu utiliznd un chestionar, la care subiecii rspund prin Da sau
Nu, nu avem idee care ar fi proporia rspunsurilor Da sau care ar fi pro-
poria rspunsurilor Nu, dorim un nivel de ncredere de 95% i un nivel de
precizie de 2%. Ce volum trebuie s aib eantionul?
2 1 1,962 0,5 10,5 3,840,50,5 0,96
= = = = = 2400
2 0,02 2 0,0004 0,0004

Vom avea un eantion de 2400 de persoane, pentru a obine reprezen-


tativitatea la acest nivel. Suntem cam pretenioi, nu-i aa? Bine c nu am
ales nivelul de ncredere de 99%, c cine tie ce obineam Dac dorii s
aflai, nlocuii n formula de mai sus 1,96 cu 2,58 i vedei.

Exerciiu:
Folosind acelai tip de studiu, calculai volumul unui eantion la un
nivel de ncredere de 95% i cu o precizie de 3%, estimnd c subiecii vor
rspunde 75% Da i 25% Nu.

n practic, se folosete o formul derivat din formula 8.1 n vederea


calculrii preciziei sau a marjei de eroare:

2 1
= (formula 8.2)

n presa scris, la televizor, la radio, auzii frecvent fraze de acest gen:


65% din populaie l prefer pe Icsulescu la alegerile prezideniale. Sondajul
are o marj de eroare de 2,5%. Cunoscnd marja de eroare i faptul c ni-
velul de ncredere nu se poate situa sub 95%, putei afla uor din cte persoa-
ne a fost format eantionul, aplicnd formula 8.1. Dar dac afirmaia de mai
sus nu prezint marja de eroare, ci doar volumul eantionului? Dac vi se
comunic rezultatele de mai sus, cu specificaia c eantionul a fost format

282
Cristian Opariuc-Dan

dintr-un numr de 180 de persoane, cum aflai precizia? Eu a fi de prere s


aplicm formula 8.2

2 1 1,962 0,65 10,65 3,840,650,35 0,87


= = = = =
180 180 180

0,004 = 0,06 = 6%
O precizie de 6% mi se pare extrem de mic pentru un asemenea
sondaj. Cu alte cuvinte, preferinele pentru Icsulescu variaz ntre 59% i
71%. Cam mare marja de eroare, nu credei?
Atunci cnd variabila msurat are un caracter continuu (cum ar fi, de
exemplu, nlimea), se utilizeaz o alt formul pentru determinarea mrimii
eantionului, formul ce ine cont de variana caracteristicii msurate la nive-
lul populaiei. Deoarece aceast varian de multe ori nu poate fi anticipat,
existnd prea puine anse s cunoatem n mod real variana parametrului la
nivelul populaiei, majoritatea studiilor de acest tip prefer transformarea
variabilelor continui sau polihotomice n variabile dihotomice pentru aplica-
rea calculului de proporii. Acest lucru se poate efectua prin combinarea rs-
punsurilor n dou categorii (de exemplu, subieci nali i subieci scunzi) i
apoi aplicarea metodei de estimare prin proporii, aceast tehnic fiind accep-
tat cvasi-universal.
Dac nu dorim totui s facem acest lucru, o alt metod prin care pu-
tem determina volumul unui eantion n cazul variabilelor continui este aceea
prin care nlocuim variana populaiei cu variana eantionului. Deoarece aba-
terea standard la nivelul unui eantion aproximeaz bine abaterea standard a
populaiei, ne putem permite s realizm un studiu pilot pe un numr de 30-
40 de subieci, calculm apoi abaterea standard pe care o folosim la determi-
narea mrimii eantionului dup formula:
2
= (formula 8.3)
2

283
Statistic aplicat n tiinele socio-umane

Spre exemplu, dorim s efectum o cercetare n care s putem stabili


nlimea medie a brbailor din Romnia. Dac am ti abaterea standard a
parametrului nlime pentru ntreaga populaie, ar fi perfect. O asemenea
valoare probabil c nu poate fi niciodat cunoscut. Totui, avem nevoie s
stabilim volumul unui eantion reprezentativ de brbai, la un nivel de ncre-
dere de 95% i cu o marj de eroare de 0,2. Nu cunoatem, ns, valoarea
abaterii standard. Pentru a o afla, vom stabili un lot de 30 de brbai, alei
ntmpltor, i vom msura nlimea acestora. Datele au fost deja analizate
ntr-un capitol anterior, de unde am reinut c abaterea standard avea valoarea
4,46. Nu ne rmne acum dect s nlocuim n formul i obinem:
1,962 4,46
= = 428
0,22
Formulele de mai sus sunt aplicabile numai n condiia n care volu-
mul eantionului nu depete 5% din volumul populaiei. n situaia n care
volumul eantionului trece de acest prag, se aplic o corecie care-i reduce
uor dimensiunea, dup formula:

= 1 (formula 8.4)
1+

Dac ntr-o cercetare am stabilit volumul unui eantion la 398 de ca-


zuri, iar volumul populaiei (N) este de 2000 de cazuri, atunci, aplicnd for-
mula, vom obine:
398 398
= = = = 334
1 398 1 1,19
1+ 1 + 2000

S-a constatat o uoar reducere a eantionului ctre pragul de 5%.


Aceast metod poart numele de corecie pentru populaii finite. Yamane
a stabilit o formul direct de calcul a eantionului pentru populaii de mici
dimensiuni, pe baza formulei:

284
Cristian Opariuc-Dan


= (formula 8.5)
1+ 2

Dac vom aplica formula pe cazul anterior, vom obine la un nivel de


precizie de 5%:
2000 2000
= 2
= 2
= = 333
1+ 1 + 2000 0,05 6
Observm c valoarea se apropie mult de cea obinut anterior prin
corecie.

VIII.4 Construcia eantioanelor n SPSS


SPSS prezint un instrument foarte puternic de creare a eantioanelor
n condiiile n care avei la dispoziie baza de eantionare. Cu ajutorul pro-
gramului SPSS, putei crea urmtoarele tipuri de
eantioane:
Eantioane simple aleatorii, cu sau
fr nlocuire;
Eantioane stratificate i pe clusteri;
Eantioane multistadiale;
Eantioane probabilistice propori-
onal cu mrimea sau tipuri de ean-
Figura 8.4 Meniul de creare
tioane nealeatorii. i analiz a eantioanelor

Structura eantioanelor n SPSS se prezint sub forma unor fiiere tip


plan. Exist dou categorii de planuri:
Planul de eantionare conine specificaiile de definire a
eantionului;
Planul de analiz conine date necesare procedurilor de
analiz complex pentru a calcula variana eantionului. Planul

285
Statistic aplicat n tiinele socio-umane

include structura eantionului, metodele de estimare pentru fi-


ecare stadiu, referinele la variabilele de interes.
Debutul procedurii de creare a unui eantion se face prin deschiderea
bazei de eantionare. Vom folosi, n acest scop, o baz de date pus la dispo-
ziie de SPSS Inc., situat n directorul n care s-a instalat aplicaia. Baza de
date se numete 1991 U.S. General Social Survey.sav i conine un numr
de 1517 nregistrri, reprezentnd rezultatele unui sondaj efectuat n Statele
Unite. Deoarece volumul de date este destul de mare, avnd i o serie de va-
riabile factuale i demografice, putem folosi acest fiier ca exemplu pentru
baza noastr de eantionare.

VIII.4.1 Crearea unui eantion n SPSS


Proiectarea unui nou plan de eantionare se realizeaz prin apelarea
meniului Analyze, iar din submeniul Complex Samples se alege opiu-
nea Select a Sample. Crearea unui eantion este asistat de un program
special (Wizard sau asistent) care presupune mai muli pai.

Figura 8.5 Primul pas al crerii unui eantion. Salvarea fiierului plan

Prima fereastr afiat ne solicit alegerea unui fiier n care va fi


stocat planul de eantionare. Opiunea implicit este Design a sample, pe
care o vom folosi pentru a specifica locaia i numele planului de eantionare.
Vom putea introduce direct calea ctre fiierul ce urmeaz a fi salvat sau vom

286
Cristian Opariuc-Dan

putea apsa butonul Browse pentru a alege locul pe hard-disc unde va fi


salvat planul de eantionare. Evident, va trebui s furnizm i un nume pentru
acest fiier. n cazul nostru, am denumit fiierul Test.csplan i a fost salvat
direct pe discul C:\. Observai c extensia fiierelor de tip plan de eantionare
este .csplan.
Pentru a modifica un plan de eantionare existent, avei la dispoziie
opiunea Edit a sample design. Cu ajutorul acesteia, vei putea reconfigu-
ra sau elimina stadii din cadrul unui plan de eantionare multistadial creat
anterior. Evident, acest plan de eantionare va trebui iniial deschis prin tasta-
rea cii ctre fiierul de tip .csplan sau folosind butonul Browse.
Dac avei deja un plan de eantionare fcut i dorii s creai un ean-
tion n baza acestuia, putei folosi opiunea Draw a sample, dup care ale-
gei fiierul plan dorit, la fel ca mai sus. Trecerea la urmtoarea etap se face
prin intermediul butonului Next. Putei oricnd abandona operaia apsnd
pe butonul Cancel sau putei parcurge sistemul de asisten contextual
prin accesarea butonului Help.
A doua fereastr presupune definirea planului de eantionare. n par-
tea stng, avnd o structur arborescent, sunt afiate opiunile acestui sta-
diu. Prima opiune implic precizarea variabilelor de eantionare n cazul
unor eantioane care presupun acest lucru (opiunea Design variables).
Avem prezentate, n seciunea central, toate variabilele din baza de eantio-
nare. Folosind butoanele de transfer (butoanele sgeat), vom putea include
aceste variabile n seciunea Stratify By, dac dorim un eantion stratificat
dup acea variabil. Se vor putea preciza astfel straturile sau subpopulaiile
(amintii-v de boabele de fasole de 1 an i de 10 ani). n urma acestei selecii
se obin eantioane separate pentru fiecare strat. Pentru a se putea mbunti
precizia estimrilor, unitile din fiecare strat vor fi ct mai omogene din
punctul de vedere al caracteristicii estimate.

287
Statistic aplicat n tiinele socio-umane

Figura 8.6 Pasul 2: Definirea variabilelor cercetrii

O variabil introdus n seciunea Clusters permite crearea unui


eantion pe clusteri n care se definesc grupuri de uniti de observaie. Pen-
tru a se evita pierderea preciziei i a compensa dezavantajele eantionrii pe
clusteri, ntre clusteri trebuie s existe o eterogenitate ct mai mare sub as-
pectul variabilei de interes.
Dac planul de eantionare este parte dintr-un plan de eantionare mai
complex, putei introduce o variabil numeric n seciunea Input Sample
Weight, variabil ce reprezint dimensiunea unui eantion construit ntr-un
stadiu anterior.
Pentru claritate, se poate introduce un scurt text care va descrie stadiul
n curs, folosind caseta de text Stage Label.

288
Cristian Opariuc-Dan

n acest exemplu, vom dori s construim un eantion simplu randomi-


zat. Deocamdat nu ne intereseaz n mod deosebit opiunile prezentate.
Urmtoarea seciune, Method, permite stabilirea tehnicii de eanti-
onare pe care o folosim.

Figura 8.7 Pasul 2: Alegerea metodei de eantionare

SPSS permite selectarea, n funcie de variabilele precizate n etapa


anterioar, a mai multor tipuri de eantioane. Deoarece nu am inclus nici o
variabil n etapa anterioar optnd pentru un eantion simplu randomizat
, n caseta de selecie Type din cadrul seciunii Method, vor fi disponi-
bile doar opiunile de acest tip. Observm existena doar a eantioanelor de
tip randomizat simplu, sistematic i secvenial i a eantioanelor de tip pro-
porional cu mrimea PPS simplu, sistematic i secvenial. Din aceast list
vom alege eantionul simplu randomizat (opiunea Simple Random Sam-
ple).

289
Statistic aplicat n tiinele socio-umane

La nivelul acestei etape, exist posibilitatea de a efectua selecia fr


reintroducerea bilei n urn opiunea Without replacement (WOR)
sau cu reintroducerea bilei n urn opiunea With replacement (WR).
Cu alte cuvinte, o unitate selectat n eantion va fi eliminat de la urmtoare-
le posibile selecii n cazul WOR sau nu va fi eliminat, existnd posibili-
tatea unei noi selecii n cazul WR. n acest din urm caz, bifnd caseta
Use WR estimation for analysis, comunicai programului SPSS s esti-
meze aceast probabilitate de reincludere a unui element n eantion. Implicit,
metoda de estimare este specificat n fiierul plan i este consistent cu tipul
de eantion selectat. Opiunea permite, de asemenea, forarea metodei cu in-
troducerea bilei n urn, chiar dac metoda de eantionare presupune o selec-
ie fr introducerea bilei n urn.
Pe scurt, tipurile de metode ce pot fi alese n aceast etap sunt:
Simple Random Sampling eantion aleatoriu simplu, n ca-
re unitile sunt selectate cu o probabilitate egal. Metoda poa-
te fi folosit cu sau fr reintroducerea bilei n urn;
Simple Systematic eantion sistematizat simplu (cu pas).
Unitile sunt selectate cu un pas fix de eantionare din baza
de eantionare. Se poate folosi i n cazul eantionrii stratifi-
cate, dac s-au specificat anterior variabilele de stratificare.
Selecia se face fr introducerea bilei n urn;
Simple Sequential unitile sunt extrase secvenial cu pro-
babilitate egal i fr introducerea bilei n urn;
PPS eantion proporional cu mrimea n care unitile sunt
extrase aleatoriu cu o probabilitate proporional cu mrimea.
Orice unitate se selecteaz cu reintroducerea bilei n urn, ex-
ceptnd configurarea anterioar a unui eantion pe clusteri;

290
Cristian Opariuc-Dan

PPS Systematic eantion proporional cu mrimea de tip


sistematic.
PPS Sequential eantion proporional cu mrimea de tip
secvenial;
PPS Brewer eantion proporional cu mrimea n care sunt
selectate dou clustere din fiecare strat cu o probabilitate pro-
porional cu mrimea clusterului, fr introducerea bilei n
urn. Necesit precizarea unei variabile de tip cluster;
PPS Murthy un eantion similar celui anterior. Difer doar
metoda statistic prin care sunt alese unitile;
PPS Sampford eantion proporional cu mrimea care se-
lecteaz mai mult de doi clusteri din fiecare strat cu o probabi-
litate proporional cu mrimea clusterului i fr introducerea
bilei n urn. Necesit, de asemenea, specificarea unui variabi-
le pentru cluster.
Opiunea Measure of Size (MOS) se aplic eantioanelor de tip
PPS proporionale cu mrimea i implic precizarea unei dimensiuni de-
finitorii pentru mrimea fiecrei uniti. Aceste valori pot fi definite n mod
explicit, extrase fiind dintr-o variabil (prin bifarea opiunii Read from va-
riable i introducerea variabilei din care vor fi extrase datele) sau pot fi cal-
culate automat selectnd Count data records. De asemenea, se poate pre-
ciza amplitudinea acestor dimensiuni, introducnd valorile minime i maxime
n casetele de text Minimum respectiv Maximum.
Determinarea mrimii eantionului reprezint ultima aciune din acest
stadiu. Pentru baza noastr de date, un eantion cu o marj de eroare de 2% i
un interval de ncredere de 95% implic un numr de 930 de subieci, pentru
a fi reprezentativ.

291
Statistic aplicat n tiinele socio-umane

Acest pas presupune specificarea numrului sau a proporiei n care


vor fi selectate unitile de eantionare. Dimensiunea eantionului poate fi
fix sau poate varia n funcie de straturi.

Figura 8.8 Pasul 2: Stabilirea dimensiunii eantionului

Caseta de selecie Units permite alegerea ntre un numr fix de uni-


ti selectate alegnd opiunea Counts i o proporie de uniti n ean-
tion alegnd opiunea Proportions.
Opiunea Value permite aplicarea unei valori unice pentru toate
straturile. n modul numrului fix, va trebui s introducei valoarea dimensiu-
nii eantionului (n cazul nostru, 930). Dac optm pentru proporii, vom in-
clude proporia din populaie pe care o regsim n eantion (de exemplu 0,10
pentru 10% din populaie).
Opiunea Unequal values for strata permite introducerea valorilor
eantionului pentru fiecare strat definit, n condiiile n care dimensiunile
straturilor nu sunt egale.

292
Cristian Opariuc-Dan

Read values from variable permite selectarea unei variabile nu-


merice, n care sunt stocate dimensiunile fiecrui strat.
La alegerea eantionului bazat pe proporii, putem, de asemenea, spe-
cifica limitele inferioare i superioare ale numrului de uniti care vor fi se-
lectate (de exemplu, nu mai puin de 50 Minimul i nu mai mult de 200
Maximum).
Apsarea butonului Next determin afiarea ferestrei variabilelor
care urmeaz a fi calculate.

Figura 8.9 Pasul 3: Alegerea variabilelor eantionului

Pe parcursul acestei etape putem preciza ce variabile vor fi salvate n


baza de date n urma crerii eantionului, astfel:
Bifnd caseta Population size, vom comunica aplicaiei
crearea unei variabile care va stoca numrul estimat de uniti
din populaie la un anumit stadiu. n baza de date, aceast va-
riabil va ncepe cu PopulationSize_;

293
Statistic aplicat n tiinele socio-umane

Bifnd caseta Sample size, vom putea salva o variabil care


s conin numrul de uniti selectate la un anumit stadiu. n
baza de date, aceast variabil va ncepe cu SampleSize_;
Bifnd caseta Sample proportion, se va crea o variabil ce
va conine proporia eantionului selectat din populaie. Varia-
bila va ncepe cu SamplingRate_;
Bifnd caseta Sample weight, comunicm programului
SPSS s creeze o variabil ce va stoca inversul probabilitilor
de includere a unui element n eantion. Numele variabilei va
ncepe n baza de date cu SampleWeightCumulative_, iar
variante ale acestei variabile au un rol important n procesul de
analiz a eantionului.
Alturi de aceste variabile, n baza de date va fi creat automat o serie
de noi variabile, dup cum urmeaz:
Probabilitatea de includere proporia unitilor selectate la
nivelul unui anumit stadiu, variabil identificat prin
InclusionProbability_;
Mrimea cumulat mrimea cumulat a eantionului de la un
stadiu la altul, variabil identificat prin
SampleWeightCumulative_;
Indexul permite specificarea unitilor selectate de mai multe
ori la nivelul unui stadiu, variabil identificat prin Index_.
Variabila este salvat doar n condiiile n care se folosete op-
iunea cu introducerea bilei n urn.
Ca regul general, n baza de date, fiecare variabil nou creat va fi
urmat, dup linia de subliniere, de o cifr care indic stadiul. De exemplu,

294
Cristian Opariuc-Dan

probabilitatea de includere a unei uniti n eantion, pentru primul stadiu, va


aprea n baza de date sub forma InclusionProbability_1_.
n exemplul nostru, am bifat salvarea tuturor variabilelor n baza de
date n vederea comentrii ulterioare a ctorva cazuri. Apsarea butonului
Next permite trecerea la urmtorul pas al crerii eantionului. Am observat
c, la un moment dat, s-a activat i butonul Finish. Acest lucru nseamn
c SPSS are deja suficiente informaii pentru a crea eantionul i putem sri
peste paii rmai. Noi vom parcurge, totui, ntregul proces pentru a putea
analiza etapele acestui instrument.

Figura 8.10 Pasul 4: Sumarul stadiului

Noua etap afieaz sumarul stadiului curent. Obinem scurte infor-


maii despre numrul stadiului, eticheta acestuia n cazul n care am definit
una , variabila de stratificare, variabila de cluster, dimensiunea eantionului
i metoda de eantionare folosit. La acest nivel, avem posibilitatea crerii
unui nou stadiu, selectnd opiunea Yes, add stage 2 now, n cazul n care

295
Statistic aplicat n tiinele socio-umane

ne intereseaz o eantionare multistadial, sau posibilitatea iniierii etapelor


de creare efectiv a eantionului, alegnd No, do not add another stage
now, care este, de fapt, i varianta implicit selectat. De asemenea, ne pu-
tem ntoarce la etapele anterioare, apsnd butonul Back.
Pentru moment, nu suntem interesai dect de crearea unui eantion
simplu aleatoriu, fr alte stadii suplimentare, astfel nct vom apsa butonul
Next.

Figura 8.11 Pasul 5: Crearea eantionului. Opiuni de selecie

Noua fereastr prezint o serie de opiuni care iniiaz modalitatea de


creare efectiv a eantionului. Sistemul ne ntreab dac dorim s crem
acum eantionul (Do you want to draw a sample?). Putem alege crearea
eantionului, selectnd Yes, situaie n care vom avea posibilitatea de gene-
rare a tuturor stadiilor, alegnd All din lista derulant sau crearea eantio-
nului doar pentru un anumit stadiu, prin selectarea numrului acestuia. Stadii-

296
Cristian Opariuc-Dan

le pot fi generate doar n ordine. Prin urmare, nu putem crea stadiul 3 n con-
diiile n care nu au fost executate stadiile 1 i 2.
Seciunea What type of seed value do you want to use? permite
stabilirea valorii de iniializare pentru generatorul de numere aleatoare. Pu-
tem alege ntre un numr oarecare, generat automat de computer (selectnd
A randomly-chosen number) sau putem include o valoare n caseta de
text Custom value, n situaia n care se dorete reproducerea caracteristi-
cilor eantionului.
Cele dou casete de bifare permit tratarea cazurilor n care lipsesc in-
formaii la nivelul unor elemente i accelerarea procesului de generare a ean-
tionului. Bifarea primei casete are ca efect includerea ntr-o categorie separa-
t a unitilor cu date lips, iar debifarea acesteia ignor unitile care au date
lips.
Bifarea celei de-a doua casete are ca efect accelerarea procesului de
generare a eantionului, n condiiile n care datele sunt deja sortate dup va-
lorile unei variabile de stratificare. Altminteri, SPSS va proceda la o nou
resortare, operaiune consumatoare de timp.
Urmtoarea etap permite precizarea locului n care va fi salvat ean-
tionul i variabilele pe care acesta le genereaz. Putem opta ntre baza de date
curent (Active dataset), caz n care SPSS va selecta din baza de eantio-
nare unitile incluse n eantion i va calcula variabilele necesare doar pentru
acestea, putem alege o nou baz de date (New dataset), caz n care SPSS
va crea o nou baz de date, nesalvat, n care va include doar unitile selec-
tate n eantion sau putem crea o nou baz de date cu salvare (External
file), caz similar celui anterior, singura deosebire fiind aceea c SPSS va
crea un nou fiier pe disc i va salva eantionul. n cele dou situaii, va tre-
bui s precizm numele bazei de date, respectiv numele i calea ctre fiierul
de date.

297
Statistic aplicat n tiinele socio-umane

Figura 8.12 Pasul 5: Crearea eantionului. Opiuni de salvare

n aceast fereastr se mai afl un numr de dou elemente:


Fiierul n care vor fi salvate probabilitile cumulate (Joint
probabilities), n cazul n care se folosesc eantioane propor-
ionale cu mrimea i fr introducerea bilei n urn.
Regulile de selecie ale cazurilor (Case selection rules), n
cazul n care se genereaz un singur stadiu la un moment dat i
se dorete salvarea regulilor de selecie a cazurilor ntr-un fii-
er separat. Opiunea este util la construirea sub-stadiilor.
n situaia noastr, am ales salvarea eantionului n aceeai baz de
date, pentru a putea urmri mai uor procesul de selecie. Apsarea butonului
Next permite trecerea la ultima etap a crerii eantionului.

298
Cristian Opariuc-Dan

Ultima fereastr ne ntreab dac dorim s salvm designul realizat n


planul de eantionare i s crem efectiv eantionul (opiunea Save the de-
sign to a plan and draw the sample) sau dorim s copiem ntr-un fiier de
sintax comenzile SPSS generate n urma prelucrrilor noastre (opiunea
Paste de syntax generated by the Wizard into a syntax window).
Evident, vom alege prima opiune i vom apsa apoi butonul
Finish.

Figura 8.13 Pasul 6: Crearea eantionului

Dup cteva fraciuni de secund, SPSS procedeaz la crearea eanti-


onului i ne ofer o serie de informaii n fereastra de rezultate (Output).
Primul tabel din fereastra de rezultate se refer la informaii despre
planul de eantionare. Observm c avem un singur stadiu, metoda de selec-
ie este simplu aleatorie fr reintroducerea bilei n urn, iar eantionul coni-

299
Statistic aplicat n tiinele socio-umane

ne un numr de 930 de cazuri. n acest tabel regsim informaii despre noile


variabile create n baza de date i, de asemenea, ne este furnizat fiierul care
conine planul de eantionare.
Tabelul planului de eantionare prezint i o serie de date utile n pro-
iectarea planului de analiz a eantionului pe care-l vom discuta n urmtorul
subcapitol.
O variabil foarte important la acest nivel este variabila
SampleWeight_Final_, folosit n general la proiectarea planului de anali-
z a eantionului ca variabil caracteristic a reprezentativitii cazurilor n
eantion.

Summary

Stage 1
Sample Inf ormation Selection Method Simple random sampling
without replacement
Number of Units Sampled
930
Variables Created or Stagewise Inclusion
InclusionProbability _1_
Modif ied (Selection) Probability
Stagewise Cumulativ e SampleWeight
Sample Weight Cumulativ e_1_
Stagewise Population
PopulationSize_1_
Size
Stagewise Sample Size SampleSize_1_
Stagewise Sampling
SamplingRate_1_
Rate
Stagewise Sample
SampleWeight_1_
Weight
Analy sis Inf ormation Estimator Assumption Equal probability
sampling without
replacement
Inclusion Probability Obtained from v ariable
InclusionProbability _1_
Plan File: C:\Test.csplan
Weight Variable: SampleWeight_Final_

Figura 8.14 Planul de eantionare

Summary for Stage 1

Number of Units Proport ion of Units


Sampled Sampled
Request ed Actual Request ed Actual Urmtorul tabel generat se refer
930 930 61,3% 61,3%
Plan File: C:\Test. csplan
la sumarul stadiului. Pentru fiecare sta-
Figura 8.15 Sumarul stadiului

300
Cristian Opariuc-Dan

diu al eantionrii va fi generat un asemenea tabel, n care regsim informaii


despre unitile i proporiile selectate.
Observm din nou numele i calea fiierului de tip plan de eantiona-
re. n cazul nostru, am solicitat includerea unui numr de 930 de cazuri n
eantion (Requested), iar SPSS a reuit selectarea tuturor subiecilor (Actu-
al). Procentul solicitat a fost de 61,3%, procent atins n final de ctre SPSS.

Figura 8.16 Noile variabile incluse n baza de date

Trecnd la baza de date, observm la sfritul acesteia variabilele nou


create. Vom constata i selecia eantionului fcut de SPSS. Programul a
ales n eantion primii apte subieci, pe urmtorii ase nu i-a selectat, a se-
lectat apoi un subiect, urmtorul nefiind selectat i aa mai departe.
Lund fiecare subiect n parte, observm o probabilitate de includere
egal de 0,61, dintr-o populaie de 1517 la mrimea unui eantion de 930.
Variabila SampleWeight este generat automat i corespunde oare-
cum frecvenei cu care fiecare caz selectat n eantion este reprezentat n po-
pulaia general. Suma acestor valori se apropie foarte mult de dimensiunea
populaiei. ntr-adevr, avem 930 de cazuri, fiecare avnd valoarea 1,63 la

301
Statistic aplicat n tiinele socio-umane

aceast variabil. Prin urmare, 930 1,63 = 1515,9 valoare apropiat de m-


rimea populaiei. Aceast variabil este foarte important n procesul de ana-
liz a eantionului.
Iat c, urmnd aceti pai, ai reuit crearea unui eantion. Realizarea
acestuia nu ofer ns informaii legate de caracteristicile pe care le poate
avea. Dup selectarea subiecilor n eantion, urmeaz etapa de analiz a
eantionului n vederea identificrii proprietilor sale statistice.

VIII.4.2 Analiza eantionului


Crearea unui plan de analiz reprezint
prima etap n studiul proprietilor unui eanti-
on. Vom folosi din nou meniul Analyze, apoi
submeniul Complex Samples i n final vom
efectua click pe opiunea Prepare for Analy-
sis
Accesarea acestei comenzi determin
lansarea n execuie a unui nou asistent
(Wizard), specializat n proiectarea planului de
analiz, al doilea plan ca importan n studiul
eantionului.

Planul de analiz, similar planului de Figura 8.17 Meniul planului de


eantionare, reprezint o succesiune de pai, analiz

prin intermediul crora se creeaz premisele


studiului proprietilor unui eantion. Dup crearea unui eantion, este impor-
tant analiza acestuia n vederea determinrii caracteristicilor sale.
Primul pas este reprezentat de specificarea fiierului n care va fi sal-
vat planul de analiz. Opiunea Create a plan file ne permite alegerea lo-
cului i stabilirea numelui sub care va fi salvat planul de analiz. Putei tasta

302
Cristian Opariuc-Dan

calea complet sau putei folosi butonul Browse, prin intermediul cruia
vei alege locaia acestui fiier. Evident, va trebui s furnizai i un nume. n
cazul nostru, fiierul plan de analiz se numete Analiza.csaplan i a fost
salvat direct n directorul C:\.
Observai diferena de extensie. Dac planurile de eantionare aveau
extensia .csplan, planul de analiz are extensia .csaplan.

Figura 8.18 Pasul 1. Salvarea planului de analiz

Opiunea Edit a plan file v permite modificarea configuraiei unui


plan de analiz salvat anterior. Apsarea butonului Next determin trecerea
la urmtoarea etap.
Noua fereastr conine mai multe elemente. n primul rnd va trebui
s specificm variabila caracteristic reprezentativitii eantionului. Am
accentuat deja asupra importanei variabilei Sample Weight, tocmai n ide-
ea de a fi familiarizai cu aceasta. Dei n cazul unor eantioane complexe

303
Statistic aplicat n tiinele socio-umane

aceast variabil poate lua diferite forme, n planul de analiz vom include,
de obicei, forma final a acesteia, forma n care SPSS pondereaz de fapt
toate stadiile. V recomand introducerea n seciunea Sample Weight a
variabilei de tipul Final Sample Weight, variabil care, de obicei, caracte-
rizeaz cel mai bine eantionul. n cazul planurilor complexe, s-ar putea in-
clude i alte variabile pariale de acest tip, dac se dorete investigarea la ni-
velul stadiilor, a straturilor ori a clusterilor.

Figura 8.19 Pasul 2. Stabilirea variabilelor

Alte posibiliti cuprinse la acest nivel pot fi reprezentate de:


Variabilele de stratificare (Strata) va fi inclus variabila
de stratificare n condiiile unui eantion stratificat. Eantionul
total va fi reprezentat din ponderile pe care le au cazurile par-
ticulare din fiecare strat;
Variabilele cluster (Clusters) se include variabila care de-
finete clusterii, grupuri de uniti de observaie n cazul n ca-
re se analizeaz un eantion pe clusteri;

304
Cristian Opariuc-Dan

Stage Label permite definirea unei etichete a stadiului de


analiz, similar procesului de creare a planului de eantionare.
Apsarea butonului Next determin trecerea la alegerea metodei de
estimare.

Figura 8.20 Pasul 2. Alegerea metodei de estimare

Alegerea metodei de estimare permite specificarea doar a tipului de


selecie utilizat. n funcie de modul de proiectare a eantionului, putei opta
pentru metoda cu introducerea bilei n urn (WR), n care nu vor fi incluse
corecii pentru eantioane provenite din populaii finite la estimarea varianei.
Forarea includerii acestor corecii se realizeaz prin bifarea casetei FPC care
se activeaz la alegerea acestei opiuni.
Metoda cu includerea bilei n urn (WOR) poate fi selectat n ca-
zul eantioanelor cu probabilitate egal de selecie i fr nlocuire. Aceast
metod include coreciile pentru populaii finite i pleac de la supoziia con-
form creia unitile au fost selectate cu o probabilitate egal.

305
Statistic aplicat n tiinele socio-umane

Metoda cu includerea bilei n urn (WOR) i cu probabilitate inega-


l folosete i ea coreciile de populaie finit, dar pleac de la supoziia c
selecia unitilor din populaie s-a realizat cu o probabilitate inegal. n ge-
neral, metoda se folosete n cazul unor eantioane nealeatorii.
Eantionul nostru a fost creat fr includerea bilei n urn i cu o
probabilitate egal, prin urmare vom alege opiunea a doua.

Figura 8.21 Pasul 2. Alegerea dimensiunii

Apsarea butonului Next v permite s specificai probabilitile de


includere sau mrimea populaiei la nivelul stadiului curent. Aceste dimensi-
uni pot fi fixe sau pot varia la nivelul straturilor. Aceast etap este valabil
doar dac anterior ai ales opiunea WOR cu probabiliti egale.
Folosind caseta de derulare Units putei preciza dimensiunea exact
a populaiei sau probabilitatea cu care elementele au fost extrase. n primul
caz, putem introduce n caseta de text Value cifra 1517, valoare ce repre-

306
Cristian Opariuc-Dan

zint dimensiunea exact a populaiei sau 0,61, probabilitatea de includere.


Am preferat, n exemplul nostru, prima variant. Utilizarea acestei seciuni
presupune o singur valoare aplicat tuturor straturilor.
O alt variant o reprezint opiunea Unequal values for strata,
care se activeaz numai n situaia definirii anterioare a unei variabile de stra-
tificare. Caseta care se deschide la apsarea butonului Define permite
stabilirea valorilor pentru fiecare strat.
Ultima opiune, Read values from variable, ne permite includerea
unei variabile numerice care conine valorile pentru fiecare strat.

Figura 8.22 Pasul 2. Sumarul planului

Similar planului de eantionare, urmtoarea fereastr prezint un su-


mar al planului de analiz i ne permite construirea unor noi stadii. Nu vom
intra n detalii referitoare la aceast seciune, deoarece am tratat complet pro-
blema n cadrul capitolului referitor la planul de eantionare.

307
Statistic aplicat n tiinele socio-umane

Ultimul ecran ne invit s salvm planul de analiz creat sau s copi-


em sintaxa ntr-o fereastr de comenzi SPSS, ntr-un mod identic cu planul de
eantionare.

Figura 8.23 Pasul 3. Salvarea planului de analiz

Un plan de analiz salvat va putea fi utilizat n vederea investigrii


proprietilor eantionului. La apsarea butonului Finish, planul de analiz
va fi salvat, iar n fereastra de rezultate va fi redat structura acestuia.

VIII.4.3 Investigarea proprietilor eantionului


Odat stabilite planul de eantionare i
planul de analiz, se poate trece la etapa final
a eantionrii, i anume investigarea propriet-
ilor eantionului.
SPSS pune la dispoziie mai multe me-
tode de investigare a unui eantion. Deoarece
nu dispunem nc de toate informaiile necesa-
Figura 8.24 Analiza eantionului

308
Cristian Opariuc-Dan

re studiului exhaustiv al acestor proceduri, vom limita expunerea doar la dou


proceduri ce implic statistici univariate, dup cum urmeaz:
Meniul Frequencies determin constituirea tabelelor de
frecvene pentru variabilele selectate i afiarea statisticilor de
tip univariat. Procedura estimeaz frecvenele eantionului i
erorile standard, intervalele de ncredere, coeficienii de varia-
ie i alte statistici utile studiului unui eantion;
Meniul Descriptives produce de asemenea statistici
univariate de tipul celor menionate, existnd i posibilitatea
analizei dup subgrupuri.
Accesarea primului meniu, Frequencies, determin afiarea pri-
mului ecran necesar analizei prin care urmeaz s alegem planul de eantio-
nare dorit.

Figura 8.25 Alegerea planului de eantionare

309
Statistic aplicat n tiinele socio-umane

Toate operaiile din aceast etap impun anumite specificaii de anali-


z, specificaii coninute n planul de eantionare, dup cum am vzut n sub-
capitolul anterior. n seciunea Plan, caseta de text File, vom putea tasta
calea ctre planul de eantionare sau vom putea utiliza butonul Browse
n vederea navigrii ctre locaia ce conine acest fiier.
n cazul n care probabilitile de includere ale elementelor n eantion
nu sunt egale, situaie des ntlnit n cadrul eantionrii stratificate sau al
eantionrii pe clusteri, va trebui s specificm fiierul n care s-au precizat
aceste probabiliti, utiliznd seciunea Joint Probabilities. Astfel, putem
alege aceste probabiliti dintr-o variabil din baza de date, dintr-o alt baz
de date sau dintr-un alt tip de fiier.
Trecerea la analiza efectiv se face prin apsarea butonului Conti-
nue.

Figura 8.26 Stabilirea variabilelor de interes

Va aprea, iat, o fereastr pe care o cunoatei destul de bine. Acest


ecran permite stabilirea variabilei pe care dorim s o analizm. Se impune o

310
Cristian Opariuc-Dan

meniune la acest nivel: variabilele folosite pot fi doar variabile categoriale,


situate la un nivel de msur nominal sau ordinal. n partea stng a ferestrei
se afl seciunea Variables, o list care conine toate variabilele din baza
de date. Lista Frequency Tables permite includerea variabilelor pentru
care dorim s calculm tabele de frecven. Cu ale cuvinte, variabilele pe care
dorim s le analizm. n exemplul nostru, vom dori analiza eantionului sub
aspectul sexului (al genului biologic). Vom transfera, aadar, aceast variabi-
l n lista Frequency Tables, prin utilizarea butonului de transfer.
Lista Subpopulations permite includerea unei alte variabile catego-
riale, n condiiile n care am realizat, spre exemplu, un eantion stratificat.
Nu este cazul nostru, ns, dac am fi dorit s analizm reprezentativitatea
genului biologic n funcie de mediul de provenien (rural vs. urban), am fi
inclus aceast ultim variabil n lista Subpopulations. n aceast situaie,
SPSS ar fi analizat separat brbaii i femeile, n funcie de mediul lor de
provenien.
Un buton deosebit de important este butonul Statistics.... Apsarea
acestuia determin posibilitatea stabilirii indicatorilor statistici ce vor fi cal-
culai.

Figura 8.27 Stabilirea indicatorilor statistici

311
Statistic aplicat n tiinele socio-umane

Exist destul de multe opiuni n cadrul acestei noi ferestre, unele din-
tre ele fiindu-v necunoscute, deoarece nu avei nc informaiile necesare
referitoare la anumite teste statistice. Noi le vom prezenta pe toate, studiind
aici, n detaliu, doar cteva, celelalte urmnd s le analizm n volumele ulte-
rioare.
Seciunea Cells permite afiarea informaiilor legate de populaia
int din care a fost extras eantionul. Vor fi afiate date referitoare la dimen-
siunea populaiei sub form de frecvene absolute, prin bifarea casetei Pop-
ulation size i sub form de frecvene relative (procente), bifnd caseta
Table percent.
Seciunea Statistics permite configurarea indicatorilor statistici
asociai dimensiunii populaiei sau a procentului din populaie, astfel:
Prin bifarea casetei Standard error, vom calcula eroarea
standard a estimrii;
Caseta Confidence interval permite stabilirea intervalului
de ncredere a estimrii n baza nivelului specificat. n mod
normal, intervalul de ncredere l vom stabili la 95%, dup
cum observai c am procedat i n exemplul nostru (caseta de
text Level%);
Caseta Coefficient of variation comunic programului cal-
culul coeficientului de variaie a estimrii, sub form de pro-
porii;
Caseta Unweighted count permite afiarea numrului de
elemente folosit n realizarea estimrii. Cu alte cuvinte, di-
mensiunea eantionului extras;
Caseta Design effect permite calculul varianei estimrii.
Indicatorul exprim proporia de varian a eantionului com-
parat cu variana unui eantion simplu randomizat. Coeficien-

312
Cristian Opariuc-Dan

tul nu este folosit n cazul eantioanelor simplu randomizate


n acest caz fiind ntotdeauna 1 , ci doar n cazul eantioane-
lor mai complexe. Cu ct valoarea este mai deprtat de unu,
cu att efectul este mai mare i deci variana este mai mare;
Caseta Square root of design effect reprezint rdcina p-
trat din variana estimrii (un fel de abatere standard dac v
mai aducei aminte), fiind o msur standard a efectului i
avnd acelai mod de interpretare;
Caseta Cumulative values calculeaz frecvena cumulat a
populaiei int, avnd aceeai semnificaie ca orice frecven
cumulat.
Caseta Test of equal cell proportions permite calculul a
dou teste statistice pe care nu le-am studiat: testul 2 i testul
de probabilitate a proporiilor. Fr a intra n amnunte, men-
ionm c ambele teste pornesc de la ipoteza nul c toate ca-
tegoriile unei variabile au frecvene egale. Testele ne permit s
verificm dac exist diferene semnificative ntre frecvenele
categoriilor variabilei (n cazul nostru, dac frecvena brbai-
lor este semnificativ mai mare sau semnificativ mai mic n
comparaie cu frecvena femeilor).
Pentru exerciiul nostru am comunicat programului SPSS s afieze
frecvena absolut i relativ a populaiei int (casetele Population size i
Table percent), s calculeze eroarea standard a estimrii, intervalul de
ncredere i doar demonstrativ mrimea efectului i s afieze mrimea
eantionului (casetele Standard error, Confidence interval la un nivel
de 95%, Unweighted count i Design effect). Apsnd butonul Con-
tinue, revenim la fereastra iniial.

313
Statistic aplicat n tiinele socio-umane

Un alt buton prezent este butonul Missing Values, prin apsarea


cruia vom putea stabili modul de tratare a cazurilor lips.

Figura 8.28 Tratarea cazurilor lips

n seciunea Tables, putem stabili ce cazuri vor fi incluse n anali-


z. Opiunea implicit este Use all variable data n care vor fi analizate
doar valorile valide la nivelul fiecrei variabile. Spre exemplu, dac analizm
variabila gen biologic, SPSS va urmri s existe valori valide doar la nive-
lul acestei variabile, fr a fi preocupat dac exist valori valide la alte varia-
bile.
Opiunea Use consistent case base este ns mult mai restrictiv.
Va trebui s existe valori la nivelul tuturor variabilelor analizate pentru ca
subiectul respectiv s fie luat n considerare. De exemplu, dac analizm va-
riabilele gen biologic i mediu de provenien, un subiect va trebui s
aib scoruri valide la ambele variabile, chiar dac este analizat doar variabi-
la gen biologic. Un subiect care are un scor valid la gen biologic, dar nu
are date la mediul de provenien, va fi exclus din analiz.

314
Cristian Opariuc-Dan

Seciunea Categorical design variables determin, n cazul varia-


bilelor categoriale, dac valorile lips vor fi tratate ca fiind sau ca nefiind
valide.
Practic, nu este nevoie s intervenim n aceast fereastr dect extrem
de rar i n cazul unor planuri de eantionare complexe. Apsarea butonului
Continue va determina, i n acest caz, ntoarcerea la fereastra iniial.
Lansarea efectiv a analizei datelor se face prin apsarea butonului
OK. n cteva fraciuni de secund, va fi afiat un tabel n fereastra de re-
zultate, tabel care va conine exact datele solicitate.

Respondent's Sex

95% Confidence
Standard Interv al Unweighted
Estimate Error Lower Upper Design Eff ect Count
Population Size Male 662,260 15,355 632,126 692,395 1,000 406
Female 854,740 15,355 824,605 884,874 1,000 524
Total 1517,000 ,000 1517,000 1517,000 . 930
% of Total Male 43,7% 1,0% 41,7% 45,7% 1,000 406
Female 56,3% 1,0% 54,3% 58,3% 1,000 524
Total 100,0% ,0% 100,0% 100,0% . 930

Figura 8.29 Rezultatele analizei eantionului

Capul de tabel conine numele variabilei de interes i denumirea indi-


catorilor calculai. Primul rnd se refer la frecvenele absolute ale populaiei
int, iar al doilea rnd - la frecvenele relative. Observm c datele noastre
au fost mprite pe cele dou categorii ale variabilei de interes brbai i
femei.
A doua coloan (Estimate) exprim frecvenele absolute i relative
ale populaiei int, estimat n baza eantionului. Aceste elemente nu repre-
zint date reale, ci date estimate din eantion. Nu putem avea un numr de
662,26 brbai i 854,74 femei. Un brbat sau o femeie este un ntreg, nu are
zecimale. Observm ns c dimensiunea total a populaiei int estimate
(1517 subieci) este egal cu populaia int real. Exprimat procentual, ean-

315
Statistic aplicat n tiinele socio-umane

tionul nostru estimeaz o populaie compus din 43,7% brbai i 56,3% fe-
mei.
Urmtoarea coloan (Standard Error) se refer la eroarea standard a
estimrii, exprimat att n form brut, ct i n form procentual. Eantio-
nul nostru estimeaz populaia int cu o eroare standard de 15,35 brbai i
15,35 femei (aproximativ 15 subieci pentru fiecare categorie, cifrele repre-
zentnd din nou o abstraciune). Acest indicator devine mai clar dac urm-
rim forma procentual. Iat c eroarea estimrii este de 1% att n cazul br-
bailor, ct i n cazul femeilor, care, la un nivel de ncredere de 95%, ne poa-
te determina s afirmm c avem un eantion reprezentativ sub aspectul sexu-
lui.
Urmeaz dou coloane ale intervalului de ncredere. n baza erorii
standard, eantionul estimeaz practic o populaie int format dintr-un nu-
mr de 632,12 pn la 692,39 brbai i de la 824,60 pn la 884,87 femei.
Cu alte cuvinte, compoziia populaiei int estimat de eantion este format
din 41,7% pn la 45,7% brbai i 54,3% pn la 58,3% femei. Undeva ntre
aceste limite putem gsi populaia int real estimat de eantion.
Coloana Design Effect are evident valoarea 1, deoarece am lucrat cu
un eantion simplu randomizat, fapt tratat mai sus.
Ultima coloan indic dimensiunea i compoziia eantionului (Un-
weighted Count). Dup cum tiam deja, eantionul are un numr de 930 de
cazuri, iar din punctul de vedere al sexului avem 406 brbai i 524 femei.
Iat c acest eantion estimeaz reprezentativ populaia int la o eroare de
doar 1% i la un nivel de ncredere de 95%. Suntem n faa unui eantion re-
prezentativ, acest lucru fiind demonstrat prin analiza efectuat.
Am analizat o variabil de interes situat la nivel nominal (sexul).
Cum procedm ns, dac avem o variabil de interes la un nivel scalar, de
exemplu vrsta? Analiza frecvenelor nu ne ajut prea mult. Este timpul s

316
Cristian Opariuc-Dan

abordm cea de-a doua metod propus i anume analiza descriptiv. Paii
sunt identici, astfel nct nu vom insista asupra lor. Exist ns o serie de me-
tode statistice uor diferite, pe care vom ncerca s le lmurim.

Figura 8.30 Analiza variabilei de interes de


tip scalar

Dup lansarea procedeului de analiz i alegerea planului de eantio-


nare prin apelarea meniului Descriptives, va trebui s includem, similar
procesului anterior, variabila de interes. n cazul nostru, am ales o variabil
scalar, vrsta subiecilor. Apsarea butonului Statistics determin apariia
unui ecran uor diferit n comparaie cu analiza frecvenelor.

Figura 8.31 Stabilirea indicatorilor statistici 317


Statistic aplicat n tiinele socio-umane

Diferena rezid n seciunea Summaries prin intermediul creia


putem estima mediile i sumele variabilelor int. n cazul n care media po-
pulaiei este cunoscut (uneori se folosete media teoretic), putem folosi
testele t Student de comparaie ntre media populaiei i media unui eanti-
on pentru verificarea existenei unei diferene semnificative ntre medii. Des-
pre aceste teste vom discuta ns n volumul urmtor.
Celelalte opiuni ale acestei ferestre au fost discutate i nu este cazul
s le relum. Executarea procedurii de analiz determin afiarea n fereastra
de rezultate a unui alt tabel:
Univariate Statistics

95% Conf idence


Standard Interv al Coef f icient Population Unweighted
Estimate Error Lower Upper of Variation Size Count
Mean Age of Respondent 46,33 ,369 45,60 47,05 ,008 1517,000 930

Figura 8.32 Rezultatele analizei eantionului

n acest caz, nu mai avem de a face cu estimri ale frecvenelor, ci cu


estimri ale mediilor, variabila analizat fiind o variabil continu. Iat c
eantionul nostru estimeaz o medie a populaiei de 46,33 de ani cu o eroare
standard de 0,36 ani. Media real a populaiei se gsete undeva ntre 45,60 i
47,05 ani. Eantionul este foarte omogen sub aspectul vrstei, dup cum re-
zult din coeficientul de variaie de 0,008, eterogenitatea fiind n jurul valorii
de 0,8%. ntr-adevr, eantionul de 930 de persoane estimeaz populaia int
de 1517 persoane, ns. cu o eroare standard mare. nsui intervalul de n-
credere de 1,45 ani (47,05 45,60) este edificator n acest sens. Este greu s
vorbim despre o reprezentativitate a acestui eantion sub aspectul vrstei su-
biecilor.

318
Cristian Opariuc-Dan

n concluzie:
Populaia reprezint o colecie natural, geografic sau politic de persoane, ani-
male, plante sau obiecte;
Proprietile unei populaii poart numele de parametri. Din parametri pot deriva
variabilele de interes ale cercetrii;
Recensmntul reprezint o metod exhaustiv de investigare a populaiei. O for-
m particular a recensmntului este referendumul;
Sursele de date utilizate n cercetare pot fi:
o Surse principale de date;
o Surse secundare de date;
Eantionul este un subset de elemente din populaie care pstreaz caracteristicile
populaiei din care a fost extras;
Cercetrile bazate pe eantion se numesc cercetri selective, spre deosebire de cele
bazate pe populaie care poart numele de cercetri exhaustive;
Reprezentativitatea este caracteristica principal a unui eantion i reprezint ca-
pacitatea eantionului de a reproduce ct mai fidel structurile i caracteristicile
populaiei din care a fost extras;
Valorile proprietilor la nivelul unui eantion poart numele de indicatori sau sta-
tistici;
Eroarea statistic se refer la diferena dintre valoarea unui parametru i valoarea
unui indicator;
Reprezentativitatea unui eantion depinde de caracteristicile populaiei, de mri-
mea eantionului i de procedura de eantionare folosit i, n general, nu depinde
de mrimea populaiei dect n anumite condiii specifice;
Procedeele de eantionare se pot mpri n procedee de eantionare aleatoare i
procedee de eantionare nealeatoare;
Dintre procedeele de eantionare, putem meniona:
o Eantionarea prin convenie;
o Eantionarea prin analiz;
o Bulgrele de zpad;
o Eantionarea simpl aleatoare;
o Eantionarea stratificat;
o Eantionarea multistadial;
o Eantionarea pe clusteri;
o Eantionarea sistematic;
o Eantionarea pe cote;
o Eantionarea cu probabilitate proporional cu mrimea;
Mrimea unui eantion se determin n funcie de:
o Eroarea statistic;
o Variabilitatea populaiei;
o Nivelul de ncredere;

319
Statistic aplicat n tiinele socio-umane

o n unele cazuri i n funcie de mrimea populaiei i proporia din popula-


ie;
Calculul mrimii eantionului se face n funcie de tipul variabilei de interes: dac
se msoar un atribut sau o variabil continu.

320
Cristian Opariuc-Dan

Bibliografie
1. Clocotici, Vasile i Stan, Aurel. (2000). Statistic aplicat n
psihologie. Iai : Polirom.
2. Curwin, Jon i Slater, Roger. (1996). Quantitative methods for
Business Decisions. Fourth Edition. London : International Thomson
Business Press.
3. Dancey, Christine i Reidy, John. (2002). Statistics without math for
psychology. Second Edition. Harlow : Prentice Hall.
4. Dowdy, Shirley, Weardon, Stanley i Chilko, Daniel. 2004.
Statistics for research. Third Edition. New Jersey : John Wiley and
Sons, 2004.
5. Field, A. 2000. Discovering statistics using SPSS for Windows.
London : Sage, 2000.
6. Field, Andy. 2005. Discovering Statistics using SPSS, Second
Edition. London : Sage Publications Ltd., 2005. 100-7619-4451-6.
7. Jaisingh, Lloyd. 2000. Statistics for the Utterly Confused. New
York : McGraw Hill, 2000.
8. Leech, Nancy L, Barrett, Karen C i Morgan, George A. 2005.
SPSS for intermediate statistics. Use and interpretation. Second
Edition. New Jersey : Lawrence Erlbaum Associates, 2005.
9. Lungu, Ovidiu. 2001. Ghid introductiv pentru SPSS 10.0. Iai :
Erota, 2001.
10. Marques de Sa, Joaquim P. 2007. Applied Statistics using SPSS,
Statistica, Mathlab and R. New York : Springer, 2007.
11. Pitariu, Horia Dumitru. 2003. Psihodiagnostic - note de curs.
Bucureti : s.n., 2003.
12. Popa, Marian. 2003. Statistic - note de curs. Bucureti : s.n., 2003.
13. Radu, Ioan, i alii. 1993. Metodologie psihologic i analiza
datelor. Cluj-Napoca : Sincron, 1993.
14. Rotariu, T, i alii. 2006. Metode statistice aplicate n tiinele
sociale. Iai : Polirom, 2006.
15. Sava, Florin Alin. 2004. Analiza datelor n cercetarea psihologic.
Metode statistice complementare. Cluj-Napoca : ASCR, 2004.
16. . 2000. Pagina de statistic social. Pagina de statistic social.
[Interactiv] 2000. http://statisticasociala.tripod.com.

321
Statistic aplicat n tiinele socio-umane

17. Sntion, Filaret. 2005. Metodologia cercetrii i statistic aplicat n


psihologie. Constana : Muntenia, 2005.
18. SPSS, Inc. 2001. SPSS Base 11.0 User's Guide. Chicago : SPSS Inc,
2001.
19. . 2006. SPSS Complex Samples 15.0. Chicago : SPSS Inc, 2006.
20. System, The Survey. The Survey System: Sample Size Calculator.
The Survey System. [Interactiv]
http://www.surveysystem.com/sscalc.htm.
21. Vasilescu, Ilie Puiu. 1992. Statistic informatizat pentru tiinele
despre om. Bucureti : Militar, 1992.

322
Cristian Opariuc-Dan

n loc de ncheiere
Sper c acest domeniu a ajus s v intereseze. Dup parcurgerea cr-
ii, ai observat c statistica poate fi chiar plcut, iar concluziile pe care le
putem desprinde din analiza datelor ne conduc ctre idei pe care, n absena
acestei tiine, nu le-am putea avea i, mai ales, nu le-am putea verifica. Bine-
neles, statistica este nti de toate o disciplin matematic. Nimeni ns nu
v cere s fii un matematician pentru a o putea folosi. Aa cum mi spunea
odat colegul i prietenul meu, Ticu Constantin, nu e nevoie s tiu s con-
struiesc o main pentru a o putea conduce i cu care, la momentul respec-
tiv, nu am fost de acord; acum trebuie s recunosc c a avut dreptate. Rolul
matematicienilor este acela de a construi maina; rolul nostru este de a o
conduce. Acum, dac unii oferi sunt mai buni dect alii asta e. Nu la fel
se ntlnim i n viaa real, pe osele? Nu este ntmpltor faptul c pionierii
psihologiei tiinifice care au folosit metode statistice (Cattell, Spearman,
Thorndike s.a.) au fost iniial formai n tiine reale, precum matematica,
fizica, chimia.
n acest volum, m-am oprit la studiul eantioanelor. Din raiuni con-
crete, nu am dorit s merg mai departe, deoarece a fi fost nevoit s scot o
lucrare de 600 pn la 1000 de pagini, care cu siguran v-ar fi speriat. Nu
intenionez ns s m opresc aici. n volumul al doilea, care va aprea dup
ce voi obine impresiile dumneavoastr, a vrea s abordez problematica stu-
diilor corelaionale i a prediciei n tiinele socio-umane prin metode statis-
tice i nu clarvizioniste, adic metode de regresie liniar i logistic, analiza
factorial sau modaliti de a vedea dac datele noastre au ceva n comun,
analiza de fidelitate sau ct de stabile pot fi scorurile n timp ori cum putem
s facem s nu mai ateptm un timp pentru a vedea acest lucru, precum i
metode prin care putem sesiza dac exist diferene ntre grupuri, cu alte cu-
vinte statistici infereniale prin teste parametrice i neparametrice. De aseme-
nea, mi-a dori s abordez un capitol extrem de interesant, i anume acela al

323
Statistic aplicat n tiinele socio-umane

analizei de varian sub diferitele sale aspecte, n care s putem vedea cum
una sau mai multe dimensiuni exercit efecte asupra altor dimensiuni.
n al treilea volum, a vrea s abordez problematica scalrii multidi-
mensionale, problematica analizei de cluster, analiza Q Sort, metaanaliza,
analizele de itemi, analize calitative i analizele folosind reelele neuronale.
Demersul este, dup cum ai observat, de la simplu la complex. A fi
foarte bucuros dac a vedea c ridicai probleme, propunei soluii, oferii
sugestii sau, de ce nu, criticai anumite aspecte pe care le prezint. Asta ar fi
dovada c munca mea nu a fost n zadar. Nu am pretenia unui expert absolut.
Ceea ce doresc este s mprtesc din experiena mea i s cunosc experien-
ele altora, astfel s avem cu toii de ctigat,. Pentru a realiza acest obiectiv,
va trebui s ne detam de orgolii i de impresii personale, s contientizm
c toi avem nc de nvat, s avem o minte deschis i s dm ceea ce este
mai bun n noi. Este foarte posibil ca uneori, n ceea ce expun, s nu am drep-
tate. Este posibil s m nel n anumite afirmaii pe care le fac pe parcursul
acestor pagini. Singura modalitate pe care o avem de a ne da seama de acest
lucru este s comunicm. Atept, prin urmare, reacia dumneavoastr, ca
unici judectori ai cuvintelor mele.
V mulumesc pentru rbdarea pe care ai avut-o studiind acest vo-
lum. Informaiile prezentate aici nu sunt originale i nici nu ar avea cum s
fie. Ele se bazeaz pe afirmaiile unor autoriti n domeniu care au avut in-
spiraia s le descopere, iar eu nu am fcut dect s le prezint. Original este,
ns, cred, modalitatea de prezentare. Am ncercat s mbin umorul cu infor-
maia tiinific, astfel nct cele prezentate aici s fie uor digerabile. Am
folosit unele exemple proprii sau preluate din alte lecturi. n general, am citat
sursele pe care le-am folosit. C anumite elemente ntlnite aici vi se par fa-
miliare, c le-ai gsit i n alt parte, este foarte posibil. Statistica nu e att de
variat precum o creaie literar sau muzical, iar punctele de vedere pot s
coincid pn la un anumit nivel. De asemenea, am urmrit s folosesc ct

324
Cristian Opariuc-Dan

mai multe exemple practice pentru a iei puin din lumea abstract a formule-
lor matematice. Totul a fost gndit n ideea c nu m adresez unor matemati-
cieni sau unor persoane familiarizate cu tiinele reale. Cei care doresc s
aprofundeze aceste elemente, pot gsi excelente informaii n bibliografia
propus. Totui, i poezia i muzica au o matematic proprie. Dorina mea
a fost s elimin angoasa statistic, angoas pe care cei mai muli dintre stu-
denii sau absolvenii de tiine socio-umane o prezint. Dac am reuit sau
nu acest lucru, dumneavoastr s-mi spunei. V-a rmne recunosctor pen-
tru sugestiile dumneavoastr. E posibil ca uneori s fi fost mai abstract, alte-
ori s fac exces de didacticism. Este de asemenea posibil s fi fcut erori de
prezentare sau s fi folosit o exprimare pe care nu o agreai. Ceea ce am ur-
mrit a fost s redactez o carte special, prin intermediul creia s nvai
lecturnd-o. Uneori devine necesar s folosii hrtia i creionul pentru a relua
exemplele i calculele, pentru a sistematiza informaiile.
Sper, n final, c cel puin nu vi se mai face ru dup primul fum
tras din statistic. Dac sperana mea s-a adeverit, atunci suntei pe calea de-
pendenei i v invit s parcurgei urmtorul volum.

325

S-ar putea să vă placă și