Documente Academic
Documente Profesional
Documente Cultură
Statistica Aplicata in Stiintele Sociu-Umane
Statistica Aplicata in Stiintele Sociu-Umane
TIINELE SOCIO-UMANE
Noiuni de baz - Statistici univariate
Cristian Opariuc-Dan
Cristian Opariuc-Dan
Cuprins
Cuprins ......................................................................................................... 3
Prefa .......................................................................................................... 7
Cuvntul autorului ...................................................................................... 11
Natura msurrii n tiinele socio-umane ............................................ 15
I.
I.1
Variabile....................................................................................... 18
I.1.1
Variabile discrete................................................................... 20
I.1.2
I.2
I.2.1
I.2.2
I.3
I.3.1
II.
II.2
III.
III.1
III.2.3 Modul.................................................................................... 87
III.2.4 Precizia indicatorilor tendinei centrale .................................. 88
III.2.5 Obinerea indicatorilor tendinei centrale n SPSS .................. 92
Media populaiei. Reprezentri grafice ale tendinei centrale .......... 100
IV.
IV.1
IV.2
V.
V.1
V.1.1
V.1.2
V.2
V.2.1
V.2.2
V.2.3
V.2.4
V.2.5
V.2.6
V.2.7
V.3
VI.
VI.1
VI.2
Cristian Opariuc-Dan
VI.2.2 Coeficientul de asimetrie Fisher........................................... 153
VI.3
VI.4
VI.6
VII.1
VII.1.1
VII.1.2
VII.1.3
VII.1.4
VII.2
VII.3
VII.3.1
VII.3.2
VII.3.3
VII.3.4
VII.3.5
VII.3.6
VIII.
VIII.1
VIII.2
VIII.2.1
VIII.2.2
VIII.3
VIII.3.1
VIII.3.2
VIII.3.3
VIII.3.4
VIII.3.5
VIII.4
VIII.4.1
VIII.4.2
VIII.4.3
Cristian Opariuc-Dan
Prefa
Apariia unei noi cri de statistic n domeniul tiinelor sociale este
un fapt tiinific remarcabil n zona intelectual de resort din Romnia. Denumirea alternativ pentru aceast preocupare academic este Metode cantitative n domeniul tiinelor sociale, avnd n vedere faptul c statistica este
un vast ansamblu de metode folosite pentru culegerea, gruparea, prelucrarea,
interpretarea i prezentarea datelor culese din sectorul cercetrii sau al practicii profesionale. Din acest ansamblu de metode, psihologii i ali specialiti
n domeniul socio-uman nu ntrebuineaz dect o parte. Statistica este o preocupare teoretic i practic, ale crei acumulri a dat roade care se revars
ntr-un vast ansamblu de domenii tiinifice i preocupri empirice, domeniul
economic fiind cel mai cunoscut marelui public. Oamenii sunt din ce n ce
mai bombardai pe canalele media cu informaii statistice, care se constituie,
n frecvente cazuri, n surse de manipulare. Orice persoan care dorete s
decodeze corect noianul de date statistice cotidiene trebuie s cunoasc sensul i corecta folosire a unor noiuni i a unor raportri din acest areal de preocupri. Dup cum spune un statistician englez, m refer la Milton Smith,
nenorocirea nu const n faptul c statisticile mint, ci n faptul c mincinoii
se folosesc de statistici. Referinele domnului Cristian Opariuc se fac mai ales
la domeniul psihologiei, domeniu n care autorul a avut o rodnic activitate
profesional, n calitate de psiholog practician. Se poate spune c expozeul
domniei sale din lucrarea de fa reprezint o statistic trit, adic aplicat
prin experien profesional ntr-o mulime de situaii de cercetare tiinific
i aplicaii empirice.
Contribuia domniei sale la rspndirea teoriei i a aplicaiei statistice
n domeniul socio-uman, n general, i n cel psihologic, n special, este notabil, avnd n vedere precizrile anterioare referitoare la contactul nemijlocit
cu situaii care cereau competen i pertinen n interpretare. Pentru cei tineri i neexperimentai, amintesc faptul c domeniul interpretrii cantitative
i calitative a datelor rezultate din practica profesional i cercetarea tiinific a fost n grea suferin n Romnia. Introducerea consistent in Romnia a
spiritului experimental n psihologie i a curentului aplicativ n diverse sectoare de activitate cunoate o dezvoltare promitoare n perioada interbelic,
mai ales prin activitatea colii experimentale de la Cluj, al crei iniiator este
profesorul tefnescu Goang. Vrful de valoare academic a fost reprezentat
de profesorul Nicolae Mrgineanu, prima personalitate romneasc de talie
mondial din domeniul psihologiei. Format la instituii academice reputate
din Statele Unite, cunosctor al personalitilor tiinifice de prim rang de
nivel mondial, citat n lucrri tiinifice de anvergur, Nicolae Mrgineanu a
lansat n circuitul tiinific romnesc dou lucrri, intitulate Analiza factorilor psihici i Probleme de psihometrie, care anunau o frumoas perspectiv de dezvoltare a domeniului analizelor cantitative n psihologie. Din pcate, Leviatanul s-a dovedit a fi din nou foarte imprevizibil i a adus n loc de
dezvoltare cultural tiinific un pustiitor i secetos vnt asiatic peste destinele oamenilor de valoare din domeniul cultural i tiinific. Vreme de mai bine
de cinci decenii, Romnia a cunoscut dictatura celor care proveneau din zona
lumpen-proletar, fapt care a afectat foarte serios progresul cercetrilor psihosociale. n aceast perioad, preocuprile statistico-experimentale s-au redus puternic, fiind aproape anihilate de o concepie ngust-pragmatic de organizare a nvmntului i a cercetrii. O tiin care se ocupa cu diagnoza
psihic nu putea trezi dect suspiciune n rndul unei nomenclaturi cldite pe
principiul contra-seleciei valorice. n aceast perioad, lucrrile de specialitate au lipsit aproape cu desvrire, consecina resimindu-se n rndul puinilor practicieni care activau n domeniul colar, al transporturilor, industrial
i militar. ntre 1948 i 1990 au existat profesioniti i cercettori din domeniul psihologiei cu interes i iniiativ, dar mediul n care evoluau era puternic srcit de informaie i via tiinific. Majoritatea celor ce activau n
laboratoare au avut un inventar redus de procedee de prelucrare a datelor. n
lipsa unor instituii universitare de profil consolidate, care s creeze specia-
Cristian Opariuc-Dan
liti, au primit titulatura de psihologi absolveni de filosofie, filologie, pedagogie, sociologie. Pentru acetia, chiar construirea etaloanelor prea o tain
de neptruns.
Dup 1990, revirimentul s-a realizat intens, progresiv. Schimburile
culturale i tiinifice s-au intensificat, accesul la informaie s-a democratizat
i ne gsim aproape de limita normalitii. Fac aceast afirmaie, deoarece
folosirea procedurilor avansate de prelucrare statistic este nc deficitar n
Romnia i rafinamentul interpretativ este nc insuficient dezvoltat.
Cartea lui Cristian Opariuc este o contribuie notabil pentru intrarea
n normalitate. Autorul nu realizeaz un inventar sec de noiuni i procedee
statistice, ci se concentreaz prioritar pe explicaii amnunite i pe prezentarea consecinelor aplicrii de procedee statistice. n lipsa unei astfel de atenii, interveniile statistice n cercetare i n practica profesional se pot transforma n capodopere din antologia umorului. Se poate ntocmi o list apreciabil de folosiri inadecvate ale procedurilor cantitative; de exemplu, calcularea mediei pentru frecvenele absolute ale modalitilor scalei nominale, introducerea de date lipsite de consisten scalar adecvat n analiza factorial,
folosirea procedurilor parametrice n locul celor neparametrice, interpretarea
ngust tehnicist a rezultatelor cercetrilor. Este apreciabil modul n care se
concentreaz autorul spre evitarea situaiilor de artefact, spre adecvarea reprezentrilor grafice, spre explicarea particularitilor situaiilor experimentale. De mare importan este acea parte a crii care se refer la domeniul inferenial i la testele statistice adecvate situaiei de cercetare, fiind cunoscut
situaia c n acest domeniu se fac cele mai frecvente confuzii. Interesant este
faptul c aceste rezultate confuze se constituie n baz de pornire pentru alte
demersuri metodologice, de unde o diluare a consistenei faptului tiinific
i, drept urmare, a concluziilor care se pot trage din efectuarea unui studiu.
Un merit al autorului este atenia acordat unei corecte introduceri a datelor
n programul computerizat de prelucrri statistice din domeniul tiinelor sociale, autorul fiind lovit din greu de patima informaticii. Realizrile din
9
10
Cristian Opariuc-Dan
Cuvntul autorului
Bun venit la cursul de statistic aplicat n tiinele socio-umane. Dac ai cumprat aceast carte, probabil c suntei student sau absolvent al unei
faculti pe care ai urmat-o tocmai din dorina de a scpa de matematic, de
calcule, probabil c v plac mai mult cuvintele, v place s vorbii cu oamenii, s-i nelegei i s-i ajutai, s ptrundei fenomenele i evenimentele
sociale. mi imaginez surprinderea i ngrijorarea dumneavoastr n momentul n care, abia pind pe bncile facultii, ai aflat cu stupoare c trebuia s
studiai statistic. Mai mult, c statistica v-a urmat n toi anii de facultate,
inclusiv la licen. tiu! i eu, la rndul meu, am trit aceleai sentimente i
nu m pot luda c am obinut, de la nceput, performane deosebite n acest
domeniu. Asta pentru c statistica nu se las uor dezvluit. Totui, statistica
reprezint fundamentul tiinific al unor discipline precum psihologia, sociologia, antropologia i multe altele. Fr sprijinul su, nu am reui s vorbim
astzi de inteligen, trsturi de personalitate, tipuri de memorie, nu am avea
teste care s le msoare la nivelul la care reuesc acum s le msoare.
Statistica nu este att de grea. Nu este nevoie s tim concepte avansate de matematic superioar pentru a nelege i aplica principii statistice.
Dac tii s adunai, s scdei, s nmulii i s mprii, sunt sigur c vei
putea nva foarte bine i statistica. Nu trebuie s v sperie formulele complexe i neinteligibile. De cele mai multe ori, aceste formule nu sunt altceva
dect algoritmi, pai simpli, proceduri de calcul elementar, care v introduc
n lumea fascinant a probabilitilor. Chiar dac uneori apar termeni precum
logaritmi, integrale, derivate i limite, stai linitii. Nimeni nu v pune s le
calculai. Unele calcule pot presupune utilizarea unui calculator tiinific i
cam att.
Am ncercat s fac din acest volum un material special i am evitat de
fiecare dat s utilizez concepte matematice laborioase. Fiecare formul pe
care o prezint aici va fi explicat, descompus. Uneori abundena de exemple
11
i repetiiile sunt destinate fixrii unor concepte mai dificile sau mai importante. Sigur c statistica presupune nc de la nceput stpnirea unor concepte noi. Nu putem avansa dac nu nelegem sensul termenului a msura sau
dac nu tim ceea ce este o variabil, un nivel de msur sau un indicator
statistic. Muli dintre dumneavoastr abia acum iau contact cu aceti termeni
i, desigur, lucrul acesta i sperie. Fii fr grij. O mare parte din terminologia statistic o folosii deja i ai folosit-o de mii de ori. Doar c nu tiai c se
numete aa i nici de unde provine. mpreun vom face lumin.
Acest volum este unul practic. Fiecare capitol i propune obiective
precise i abund de exemple i exerciii concrete. n definitiv, m intereseaz s stpnii practica statisticii, s o utilizai n activitatea dumneavoastr de
zi cu zi i nu s facem speculaii teoretice pe aceast tem. Majoritatea capitolelor sunt formate din dou pri: un fundament teoretic i conceptual nsoit de algoritmii (paii) clasici ai unui procedeu statistic i o aplicaie folosind
un pachet de programe de prelucrri statistice, SPSS for Windows. n aceast
carte am utilizat mai multe versiuni SPSS, ultima fiind versiunea 15. Sunt
sigur c principiile prezentate aici vor putea fi aplicate i n versiunile urmtoare. La momentul scrierii acestei cri, ultima versiune de SPSS este versiunea 16. n general, fiecare capitol se finalizeaz cu un set de ntrebri i
exerciii pe care v invit s le parcurgei singuri, deoarece sunt menite s stabilizeze cunotinele dobndite.
Totui, de ce este important s studiem statistica? Desigur, argumentele sunt nenumrate, ns m voi rezuma doar la cteva. Cel ce nu cunoate
statistic nu poate nelege articolele de specialitate. Toate cercetrile care se
fac n acest domeniu folosesc metode statistice mai mult sau mai puin elaborate. Un specialist n domeniu care nu cunoate statistic, nu poate citi i nelege n profunzime coninutul unui material de specialitate, corectitudinea sau
incorectitudinea datelor expuse. n alt ordine de idei, necunoscnd statistic,
nu se poate face cercetare experimental, nu pot fi nelese principiile constructive ale unui instrument sau ale unei metode de msurare a unor caliti
12
Cristian Opariuc-Dan
psihologice sau a unor fapte sociale i, prin urmare, un asemenea instrument
nu va putea fi utilizat corect.
Materialele pe care le-am folosit pentru a scrie aceast carte sunt, n
marea lor majoritate, prezentate n bibliografia final. De asemenea, am utilizat multiple surse de pe Internet, precum i experiena mea ca practician i
dascl n ale statisticii. Nu pot s nu-i menionez pe cei care mi-au fost primii
ndrumtori n aceast aventur i de la care am avut i nc mai am de nvat foarte mult. Astfel, i sunt recunosctor profesorului doctor Cornel
Havrneanu, mentorul i prietenul meu, care mi-a ghidat formarea i m-a
susinut permanent, prietenului meu asistent doctor Ovidiu Lungu, un statistician nnscut, care m-a determinat s neleg c acesta ar fi domeniul ce mi sar potrivi cel mai bine i care mi-a sprijinit nceputurile, lector doctor Loredana Ruxandra Gherasim, cu care de nenumrate ori am nvat s aplic practic ceea ce tiam teoretic sau s mi fundamentez teoria plecnd de la practic, profesor universitar doctor Aurel Stan, care a avut bunvoina i rbdarea,
alturi de cei menionai mai sus, s mi citeasc lucrarea i s mi fac observaii pertinente pe seama ei, prin intermediul cruia am luat cunotin de
statistic prima dat, n anii studeniei, i care, ulterior, mi-a furnizat informaii valoroase ce mi-au permis s m perfecionez. Fr contribuia lor, n mod
sigur nu a fi ajuns niciodat s scriu aceste rnduri i lor le datorez recunotina mea.
Nu pot, de asemenea, s nu mulumesc unei situaii, situaia care ma determinat s vin din Iai la Constana. Am nvat c, statistic, un eec
personal creeaz premisele unei relansri. Dac aceast situaie, dac propriile mele eecuri nu ar fi existat, probabil c aceast carte nu ar fi existat nici
ea. ntotdeauna, chiar atunci cnd ceva pare sigur imposibil, s tii c soluia
e chiar la ndemna dumneavoastr. Referitor la acest fapt, nu pot s nu mulumesc fiicei mele, Luana-tefana, care mi-a fost sprijin i speran n toate
momentele dificile i care, n ciuda vrstei, nu a ncetat s m sprijine i s
m ncurajeze. i mulumesc i i dedic prima mea lucrare.
13
Aceast carte nu ar fi vzut tiparul fr susinerea profesorului universitar doctor Mircea Miclea, care m-a ncurajat, m-a neles i a sprijinit apariia acestui volum. i mulumesc i mi exprim recunotina i pe aceast cale.
Nu pot, de asemenea, s nu i amintesc pe prinii mei i pe toi prietenii mei,
mai mult sau mai puin apropiai, datorit crora am avut energia s ncep
aceast lucrare i crora le mulumesc pentru c m-au ajutat s trec peste
momentele dificile din ultimii ani i fa de care nu pot s nu mi exprim recunotina.
Orict a ncerca, nu reuesc s mi scot din minte vorbele i imaginea
primului meu profesor adevrat de matematic, domnul Crezant Ghenghea,
din cadrul liceului industrial (pe atunci), actualmente Colegiu Naional Nicu
Gane din Flticeni, care a reuit s-mi induc, cum nu a fcut nimeni, dragostea fa de aceast disciplin. Chiar dac nu l nelegeam n acel moment
al adolescenei mele, el a fost primul (i singurul) care m-a vzut cu aptitudini n acest domeniu, aptitudini pe care eu nsumi mi le repudiam. A trebuit
s treac muli ani ca s ajung la vorbele sale: Eti pentru tiine exacte. Nu
poi scpa de ceea ce eti. Ai s-mi dai dreptate mai trziu. i i-am dat
dreptate. Mi-a dori s fie acum mndru de ceea ce-am realizat i voi folosi
aceast ocazie pentru a-i mulumi.
Nu n ultimul rnd, v mulumesc dumneavoastr, care ai cumprat
aceast carte, i v invit s m urmai n cltoria din lumea statisticii, s v
convingei c lucrurile sunt mai simple dect credei. Eu nu pot dect s v
garantez c v voi scoate la liman. Observaiile dumneavoastr sunt foarte
importante pentru mine i m vor putea orienta n viitoarele lucrri sau reeditri ale acestui volum. Dac unele informaii nu vi se par clare, dac dorii i
altceva, nu v rmne dect s-mi scriei pe adresa copariuc@gmail.com i
s-mi comunicai opinia dumneavoastr. V mulumesc i v doresc succes!
Constana, miercuri, 2 decembrie 2009
14
Cristian Opariuc-Dan
15
neparametrice provin din sociologie. Unii statisticieni ncercau chiar s demonstreze existena lui Dumnezeu cu ajutorul numerelor, iar astzi, statistica
joac un rol important n viaa noastr, indiferent dac ne referim la psihologie, sociologie, tiine economice sau alte discipline.
n viziunea lui T. Rotariu, statistica se axeaz n principal pe tratarea
informaiilor numerice obinute la nivelul unor mulimi de entiti, informaii
prelevate de la fiecare entitate n parte (sau de la o submulime) i care conduc la rezultate cu referin la ansamblu, i nu la entitile componente luate
individual. (Rotariu, i alii, 2006)
Operaiile statistice presupun, prin urmare, un proces de msurare. La
o analiz atent, sintagma a msura un obiect nu nseamn altceva dect a
msura proprietile unui obiect. Noi nu putem msura obiectele, ci, pentru a
le cunoate, msurm anumii indicatori ai proprietilor acestora. Este adevrat c, n anumite tiine (fizica, chimia etc.), msurarea dobndete un
caracter mai concret, deoarece obiectele i proprietile acestora sunt mai
accesibile observrii directe. Putem msura cu uurin lungimea i limea
unei mese (deci indicatori ai proprietilor lungime i lime ale obiectului
mas), deoarece aceste dou proprieti sunt direct accesibile observaiei
noastre. ns, n momentul n care discutm de anxietate, depresie, inteligen, atenie, responsabilitate, nivel de trai etc. constatm c aceste proprieti
nu pot fi direct observate. Prin urmare, va trebui s deducem aceste caracteristici din observarea unor indicatori presupui ai proprietilor. Aadar, msurarea n tiinele socio-umane are un caracter subtil, care scap observrii directe. (Vasilescu, 1992)
n tiinele socio-umane, noi nu cunoatem i uneori nu putem cunoate n mod precis semnificaia mrimilor pe care le determinm, iar cifrele
pe care le obinem sunt aproximri mai mult sau mai puin exacte ale realitii. Acest lucru se ntmpl din cauza apariiei erorilor de msurare i a faptului c realitatea social nu are un caracter fix, ci unul fluctuant, variabil.
16
Cristian Opariuc-Dan
Cantitatea n care un obiect este saturat ntr-o caracteristic nu este reprezentat printr-un punct, ci printr-un nor de puncte, care oscileaz ntr-un anumit
interval, n jurul unei valori. (Vasilescu, 1992)
Discutnd despre sensul termenului de a msura, acceptm definiia
dat de S. S. Stevens (1959) prin care, n sensul su larg, msurarea nseamn atribuirea de numere obiectelor sau evenimentelor, potrivit unor
reguli. Msurarea este, deci, o funcie prin care unui obiect i corespunde un
numr i numai unul, la o anumit msurare. Aceast funcie de atribuire va
trebui s fie suficient de clar, pentru a permite ca unui obiect s i se atribuie
un numr i numai unul i pentru a ne permite s decidem concret i corect ce
numr va fi atribuit fiecrui obiect, dar i suficient de simpl pentru a putea
fi aplicat. (Vasilescu, 1992)
Spre exemplu, codificarea genului biologic al subiecilor este o msurare; dac persoana este brbat, i se acord valoarea 1, iar dac persoana este
femeie, i se acord valoarea 2. Observm c regula de atribuire nu permite
confuzii brbatul este notat cu 1, iar femeia cu 2 , ofer o selecie exhaustiv de categorizare a oricrui element care apare n mulimea gen biologic
i este suficient de simpl pentru a fi utilizat. Acesta este un proces de msurare conform definiiei lui Stevens, dei putem constata cu uurin lipsa posibilitii de ierarhizare. Nu putem construi, la acest nivel, o ierarhie a subiecilor, deoarece nivelul de msurare este unul categorial. Despre nivelurile i
scalele de msurare, vom discuta ns mai trziu.
Un alt exemplu de msurare l reprezint codificarea gradelor didactice: notm cu 0 preparatorul, cu 1 asistentul, 2 lectorul, 3 confereniarul, 4
profesorul. Observm, din nou, univocitatea i simplitatea regulii; ntr-o
universitate, fiecare cadru didactic poate s fac parte dintr-o categorie i
numai una, iar fiecare persoan se afl, la un moment dat, ntr-o asemenea
categorie. n plus, observm existena unei ierarhii; confereniarul este inferior n grad profesorului i superior n grad lectorului, fr ns a se putea pre-
17
ciza nici cu ct, nici de cte ori. Aceasta este ns, din nou, o problem a nivelului de msurare, pe care o vom aborda ulterior.
I.1 Variabile
Am stabilit deja faptul c obiectele pot fi cunoscute prin msurarea
indicatorilor proprietilor sale. Aadar, obiectele devin msurabile prin stabilirea caracteristicilor lor. Caracteristica este, prin urmare, o particularitate, o nsuire a unui obiect sau fenomen, care constituie obiectul msurrii. De exemplu, o mas poate fi caracterizat prin lungime, lime, nlime,
greutate, form, culoare etc. Toate acestea constituie caracteristici prin care
ncercm s descriem ct mai exact obiectul msurat. Cu ct avem mai multe
asemenea caracteristici, cu att obiectul se contureaz mai precis.
Caracteristicile prin care obiectul este descris, poart numele de variabile. O variabil reprezint un concept-cheie n statistic i nu este altceva
dect un nume pentru un element a crui principal proprietate este aceea c variaz, i modific valorile. Prin aceast proprietate principal, variabilele se disting de constante, elemente care au valori fixe. De exemplu,
ntr-un studiu efectuat pe o populaie general, genul biologic poate fi o variabil dac lotul de cercetare cuprinde att brbai, ct i femei. Dac, ns,
intenionm s desfurm o cercetare numai pe femei, atunci genul biologic
devine o constant, deoarece nu prezint proprietatea principal a variabilelor, aceea de a-i modifica valorile.
Modalitatea de realizare a unei variabile (modul n care i sunt atribuite valorile) constituie un eveniment ntmpltor (probabilistic), de aceea variabila se mai numete i variabil aleatoare sau variabil stocastic. De
exemplu, nlimea unor elevi dintr-o clas este o variabil care poate lua
aleatoriu diferite valori pe care le pot avea elevii la aceast caracteristic.
Desigur, valorile pe care le poate lua variabila se grupeaz ntr-un anumit
interval de valori. Nu putem vorbi de elevi de 5 centimetri, dup cum nu putem gsi elevi de 5 metri. De aceea, putem considera c nlimea elevilor din
18
Cristian Opariuc-Dan
clasa a X-a este o variabil stocastic ce poate lua aleatoriu valori din domeniul de definiie 150 190 centimetri.
Aadar, elementele de baz care compun domeniul de definiie al unei
variabile aleatorii poart numele de valori sau scoruri. n momentul n care
aceste elemente sunt numere, variabila se mai numete i variabil aleanumeric.
O variabil aleatorie exprim, aadar, variaia unei caracteristici.
Dup cum am spus, nlimea elevilor este o variabil alea-numeric; la fel
greutatea acestora, capacitatea toracic, temperatura corpului sau numrul de
la pantofi. Nu toate variabilele sunt ns alea-numerice. Culoarea ochilor,
culoarea prului, genul biologic, tipul temperamental etc. sunt variabile ale
cror valori nu pot fi exprimate prin numere, dei sunt i ele variabile aleatorii. Asemenea variabile nu sunt considerate variabile alea-numerice.
Toate aceste caracteristici pot fi msurate, nregistrate i catalogate i,
de asemenea, difer de la o persoan la alta sau de la o situaie la alta. De
aceea, toate aceste concepte le vom include sub denumirea generic de variabile.
De ce suntem ns att de interesai de aceste variabile, de ce sunt importante i la ce ne folosesc? Rspunsul este acela c nu putem fi mulumii
doar cu ideea c variabilele variaz. Ne intereseaz, n principiu, s nelegem de ce variaz, cnd i n ce condiii variaz, care este efectul acestor variaii ale lor. Pentru aceasta, variabilele vor trebui mai nti definite, apoi nregistrate i, n final, supuse analizei, crend premisele extragerii unor concluzii i, implicit, ale generalizrii.
Realizarea unei variabile prin intermediul scorurilor creeaz posibilitatea abordrii conceptului statistic de frecven. Frecvena reprezint rspunsul la ntrebarea ci indivizi, cte cazuri populeaz fiecare categorie a
19
Exist mai multe clasificri ale variabilelor. Le vom aborda atunci cnd situaia o va impune, pentru a nu complica inutil, la acest nivel, expunerea noastr.
20
Cristian Opariuc-Dan
Un asemenea exemplu de variabil este o variabil discret nominal sau variabil discret categorial, deoarece permite doar clasificri, fr
a putea vorbi de o relaie de ordine sau ierarhie ntre valorile pe care le poate
lua respectiva variabil.
Un alt exemplu de variabil discret este variabila grad didactic. Ea
poate lua valorile: preparator, asistent, lector, confereniar, profesor. Sigur c,
i n acest caz, putem clasifica subiecii n funcie de gradul lor didactic. Nu
putem ns vorbi, nici acum, de o nou categorie intermediar, de exemplu
asistent-lector i apoi asistent-lector-lector i aa mai departe, lucru care i
confer caracterul discret. De data aceasta ns, putem pune o relaie de ordine ntre valorile variabilei. Putem vorbi de faptul c asistentul este inferior n
grad lectorului sau profesorul este superior n grad confereniarului. O asemenea variabil se numete variabil discret ordinal sau variabil discret de rang.
21
Raport
Parametric
Cuantificare
Interval
Ordinal
Neparametric
Nominal
Nivelul nominal de
msurare (clasificare) i nivelul ordinal (de rang sau ierarhic) se grupeaz n scala neparametric (nonmetric) de
msurare.
Nivelul de interval (intervale egale) i nivelul de
raport (proporii) formeaz
scala parametric (metric)
de msurare.
22
Cristian Opariuc-Dan
23
Operaii statistice permise n principal, operaiile de baz, derivate din numrare, astfel:
o Frecvena absolut i relativ (procentul), cte observaii
au fost incuse n fiecare categorie (de exemplu 25 de brbai i 40 de femei sau 30% brbai i 78% femei);
o Valoarea modal (modul), categoria cu frecvena cea mai
mare (de exemplu, din 200 de subieci, 150 au ochi albatri, aceasta fiind categoria cu frecvena cea mai mare
modul);
o Verificarea statistic prin 2 procedeu de comparare a
frecvenelor i de verificare, dac diferenele dintre ele
sunt ntmpltoare sau, din contra, semnificative, nentmpltoare;
o Coeficieni de corelaie ntre dou variabile cu dou valori
fiecare, coeficientul , coeficientul tetragoric, coeficientul
de contingen, toate bazndu-se pe lucrul cu frecvene absolute sau relative.
24
Cristian Opariuc-Dan
Strict vorbind, acesta este nivelul la care ne situm n tiinele socioumane, n general, i n psihologie, n particular. Din perspectiva statisticii,
ca disciplin matematic, nu putem vorbi de medie, abatere standard sau ali
indicatori care presupun un nivel de msur cel puin de interval, deoarece o
asemenea scal nu exist n domeniul socio-uman la o rigoare (nc) demonstrabil matematic. Scorurile testelor de inteligen, aptitudini, personalitate
sunt variabile, avnd valori simplu ordonate la un nivel ordinal de msur.
Un test de inteligen nu ne arat, de fapt, cantitatea de inteligen a subiecilor, ci ierarhizarea acestora, poziia, rangul pe care l ocup fiecare ntr-o populaie.
Lansarea, n 1905, a scalei metrice a inteligenei de ctre Alfred Binet,
se fcea cu urmtoarea meniune din partea autorului: calitile intelectuale
nu se msoar precum lungimile, nu satisfac cerina aditivitii; scala permite un clasament ierarhic ntre inteligene diferite i, din raiuni practice,
acest clasament echivaleaz cu o msurare. (Radu, i alii, 1993). Autorul a
sesizat foarte bine limitele msurrii n tiinele socio-umane nc din acea
perioad, limite pe care muli psihologi actuali astzi le ignor. Nu ne mir
faptul c matematicienii consider aplicarea statisticii n psihologie ca fiind
defectuoas.
Datorit faptului c, dac ne-am limita doar la o msurare pe scala ordinal, metodologia psihologic i psihosociologic ar fi srcit de aportul
statisticilor parametrice (tari), pentru anumite msurtori se accept utilizarea scalei de interval prima care permite calculul mediei i a abaterii standard ns, acest lucru se face printr-un important compromis statisticomatematic (Clocotici, i alii, 2000).
Variabile precum gradul didactic, gradul militar, nivelul de educaie
se gsesc la acest nivel de msurare, deoarece pe lng posibilitatea clasificrii, a includerii unui individ ntr-o categorie, avem i posibilitatea ordonrii
categoriilor, putnd afirma c o categorie este superioar sau inferioar alteia.
25
Dac lum, de exemplu, gradele militare, putem spune c ntr-o unitate se afl 30 de locoteneni, 10 maiori i 60 de cpitani sau 15% locoteneni,
5% maiori i 30% cpitani (ne aflm la un nivel nominal de msur), dar i c
maiorii sunt superiori n grad cpitanilor sau locotenenii sunt inferiori n
grad cpitanilor (nivelul ordinal de msur). Nu putem preciza ns cu ct i
nici de cte ori o categorie este superioar sau inferioar alteia. Nu putem
afirma c doi locoteneni fac ct un cpitan. De asemenea, este absurd s
vorbim despre medie. Care este media dintre un locotenent i un cpitan??!!!
Proprieti ale scalei:
Aa cum am admis anterior, proprietile specifice scalei ordinale le
includ pe cele ale scalei nominale, astfel nct la cele ale scalei anterioare se
adaug (Vasilescu, 1992):
26
Cristian Opariuc-Dan
media, abaterea standard sau ali indicatori care fac parte din statisticile numite i statistici tari.
27
Transformrile permise la acest nivel sunt cele de tip liniar, caracteristice ecuaiei y=ax+b unde a>0 iar y este valoarea transformat, x valoarea care urmeaz a fi transformat, a constanta de
extindere i b constanta de deplasare (Vasilescu, 1992).
o Deplasri prin mrirea punctului zero relativ la o alt
valoare (modificarea constantei b);
o Extinderi amplificarea sau diminuarea intervalelor scalei
cu acelai factor (modificarea constantei a), fr s deteriorm rezultatul msurtorilor (de exemplu, transformarea
din note z n stanine sau sten).
Cristian Opariuc-Dan
o Toate tipurile de corelaii: r Pearson, raport de corelaie
(R), coeficientul de regresie (b).
Anumite operaii statistice, dei presupun scala de interval, necesit i
ndeplinirea altor condiii, i anume respectarea unei legi de distribuie, n
general legea distribuiei normale (gaussiene). Prin urmare, n analiza datelor,
pe lng cerina nivelului de interval se impune i analiza distribuiei datelor
nregistrate. Transformrile permise la nivelul acestei scale au o importan
practic deosebit atunci cnd procedm la normalizarea unei distribuii statistice de date.
Transformrile permise la acest nivel sunt cele de tip multiplicativ, caracteristice ecuaiei y=ax unde a>0, iar y este valoarea
transformat, x valoarea ce va fi transformat, iar a constanta
de extindere. Observm dispariia constantei b, constanta de de29
Pe parcursul acestei prezentri, unele imagini sunt din SPSS 12.0 for Windows. Acest lucru
nu incomodeaz n utilizarea altor versiuni. Toate imaginile utilizate reprezint marc nregistrat SPSS Inc.
30
Cristian Opariuc-Dan
min eficientizarea aciunilor utilizate n mod frecvent sau efectuarea unor
aciuni complexe, indisponibile n interfaa grafic (SPSS, 2001).
Programul SPSS, la fel ca orice alt aplicaie sub sistemul de operare
Windows, indiferent de versiunea acestuia, la instalare i creeaz un grup de
pictograme (iconuri) n seciunea Programs a meniului Start din sistemul de
operare Windows. Pentru a putea lansa n execuie aplicaia, va trebui ca mai
nti s efectuai clic cu maus-ul pe butonul start al desktop-ului Windows,
buton situat de obicei n partea din stnga jos a ecranului. Apoi mergei la
seciunea Programs i se va deschide o nou list
care conine toate programele instalate n calculatorul dumneavoastr (ei bine, cel puin programele la
care avei acces dumneavoastr). n aceast list,
cutai grupul de programe SPSS for Windows,
grup n care vei gsi pictogramele de lansare ale
aplicaiei SPSS. Probabil c ai identificat deja n
acest grup de programe pictograma numit SPSS
for Windows. Aceasta este imaginea pe care va
trebui s facei clic pentru a porni aplicaia. 3
SPSS este un program extrem de complex.
Lansarea acestuia debuteaz cu prezentarea unei
ferestre introductive, denumit i fereastr logo. Ea cuprinde informaii
despre versiunea programului (n cazul nostru, SPSS 12.0 Standard), deoarece exist i versiuni server, mai complexe, versiuni demonstrative (ca aceea
pe care o putei descrca gratuit de la http://www.spss.com) sau student
pentru nvare etc., precum i despre posesorul licenei de utilizare a acestui
produs informatic. Se cunoate faptul c, n conformitate cu legea dreptului
Figura 1.4 Fereastra introductiv
Desigur, n situaia n care SPSS for Windows este deja instalat pe calculatorul dumneavoastr. Dac nu avei instalat SPSS for Windows, putei descrca o versiune demonstrativ
de 30 de zile de pe site-ul http://www.spss.com Asigurai-v c avei o conexiune suficient
de rapid i de stabil la Internet, deoarece fiierul este destul de mare (aproximativ 160 MB)
31
32
Cristian Opariuc-Dan
s lanseze fereastra principal SPSS n modul de lucru configurat pentru o
nou baz de date.
n acest moment, nu ne intereseaz niciuna dintre opiunile predefinite, astfel nct vom apsa butonul Cancel. Iat c formularul prezentat mai
sus a disprut, fcnd loc ferestrei principale SPSS. S privim cu atenie
aceast nou interfa cu utilizatorul.
Ca orice alt aplicaie Windows, SPSS posed o bar de titlu bara
albastr din partea de sus a ferestrei , n partea stng a acesteia afindu-se
mesajul Untitled SPSS Data Editor. Acest mesaj ne informeaz c ne
aflm n fereastra de date (editare a datelor) din SPSS i c baza de date nu a
fost nc salvat (n momentul salvrii, textul Untitled este nlocuit cu numele fiierului salvat pe disc). n partea dreapt a barei de titlu, avem cele trei
butoane clasice ale oricrei ferestre Windows: butonul de minimizare sau de
transfer al aplicaiei n bara de sarcini, butonul de maximizare extindere a
aplicaiei pe ntregul ecran sau de restaurare a aplicaiei la dimensiunile iniiale i butonul de nchidere a aplicaiei, acel buton n form de X. Sub bara
de titlu, se afl meniurile, serii de etichete purtnd fiecare un nume (n limba
englez), prin intermediul crora putem comanda SPSS i putem efectua operaiile i prelucrrile de care acesta este capabil. Nu vom insista acum asupra
explicrii tuturor meniurilor, acest lucru l vom face pe parcursul prezentului
curs. Bara de meniuri este urmat de bara de instrumente mici butoane cu
aspectul unor pictograme care, n general, dubleaz anumite funcii din meniuri, funcii mai des folosite. SPSS prezint o bar de instrumente dinamic,
adic aspectul butoanelor i, desigur, funcionalitatea acestora se modific
relaionat contextului n care ne aflm. De exemplu, vom avea anumite butoane n modul de introducere a datelor i
alte butoane n modul de definire a variabilelor ori n modul de afiare a rezultateFigura 1.6 Seciunea de
editare a datelor
lor analizelor de date.
33
Dup bara de instrumente, apare seciunea de editare a datelor. Aceasta este format dintr-o parte needitabil, informativ, partea din stnga, n
care se afieaz n permanen poziia celulei active (celul pe care am selectat-o). Formatul acestui identificator este un numr urmat de dou puncte i
apoi numele variabilei (spre exemplu, 8:time nseamn c suntem poziionai
pe rndul 8 a opta nregistrare a variabilei timp). Partea editabil arat
ntotdeauna valoarea acestei variabile n poziia specificat (n cazul nostru,
la rndul 8 al variabilei timp se afl valoarea 34).
Cea mai mare parte a ferestrei principale SPSS este dedicat seciunii
de date. Observm c datele, n SPSS, sunt organizate tabelar, pe linii i coloane, analog altor aplicaii mai cunoscute, cum ar fi foile de calcul tabelar
(Excel) sau bazele de date (FoxPro sau Access). Liniile (nregistrrile) sunt
identificate prin numere, iar coloanele reprezint variabilele. ntr-o baz de
date goal, toate variabilele sunt denumite implicit var, iar aceast denumire este scris cu culoarea gri, reprezentnd faptul c acestea nu au fost
nc definite. Navigarea prin baza de date se poate face cu cele dou casete de
derulare (numite i lifturi sau controale de derulare), situate n partea dreapt,
respectiv n partea de jos a ferestrei de date, la fel ca n orice program Windows.
Seciunea de date conine, n partea din stngajos, doi marcatori de seciune foarte importani: Data
View i Variable View. Aceste elemente permit coFigura 1.7 Marcatomutarea ntre modul de vizualizare a datelor dintr-o
rii de seciune
baz de date (seciunea Data View) i modul de definire a variabilelor (seciunea Variable View).
n partea de jos a programului SPSS, se afl bara de status cu dou
seciuni: seciunea de informaii, n partea stng, unde se afieaz scurte
instruciuni despre diferitele funcii ale meniurilor sau ale barei de instrumente, i seciunea de stare a procesorului SPSS unde se afieaz informaii refe-
34
Cristian Opariuc-Dan
ritoare la rularea unor sarcini mari consumatoare de timp. n general, nceperea unei prelucrri statistice se poate face doar n condiiile n care vedei
mesajul SPSS Processor is ready n aceast seciune.
Prsirea programului SPSS se poate face fie apsnd butonul de nchidere al aplicaiei X din colul din dreapta sus al ferestrei principale, fie
folosind meniul File i apoi Exit. Dac ai fcut prelucrri de date sau modificri n baza de date, programul v va solicita mai nti salvarea documentului, ca msur de protecie mpotriva pierderii de informaie. Despre salvare,
ns, discutm n subcapitolul urmtor.
35
36
Cristian Opariuc-Dan
Indiferent de metoda folosit, efectul va fi acelai: deschiderea unei
casete de dialog, din care putei alege baza de date pe care o vei ncrca (v
mai amintii nota referitoare la punctele de suspensie?).
S analizm puin aceast nou fereastr. n partea de sus avem o list derulant intitulat Look in: Apsnd sgeata
orientat n jos din partea dreapt a acestei
casete, vom putea alege directorul n care
este localizat baza noastr de date. Observm c directorul curent este directorul
aplicaiei (SPSS), iar n seciunea de sub
Figura 1.9 Fereastra de selectare a
fiierului n vederea deschiderii
aceast caset este afiat coninutul acestui
dosar. Putei astfel selecta orice director n
care avei fiiere recunoscute de SPSS, pentru a le putea afia i/sau deschide.
Alturi de caseta Look in, se afl o serie de butoane care controleaz navigarea prin structura de directoare de pe discul dumneavoastr. Primul buton, cel
de forma unei sgei orientate n partea stng, permite navigarea la ultima
aciune efectuat. Dac, de exemplu, din directorul SPSS v-ai poziionat pe
directorul Windows, apsnd acest buton vei reveni din nou n directorul
SPSS. La prima deschidere a acestei casete de dialog, butonul este inactiv,
deoarece nu ai efectuat nc nici o aciune care s fie nregistrat. Al doilea
buton, de forma unui dosar cu o sgeat orientat n sus, permite navigarea
ascendent prin arborele de directoare. La o prim apsare, v vei deplasa n
directorul Program Files, la urmtoarea v vei situa n directorul rdcin C
i aa mai departe. Cel de-al treilea buton permite crearea unui nou director
n directorul curent. Apsnd pe el, vei putea crea un nou director, numit
New Folder, denumire pe care o vei putea modifica dup dorin. n sfrit,
ultimul buton controleaz modul n care se afieaz pictogramele n caseta
central. Putei alege vizualizarea pictogramelor n format mare, mic, sub
form de list sau list detaliat.
37
Fereastra central afieaz, dup cum am menionat, structura de subdirectoare i fiiere a directorului curent. Putei efectua dublu clic pe numele
unui director pentru a afia coninutul acestuia sau pe numele unui fiier pentru a-l deschide n mod direct (fr a mai apsa butonul Open). Dac efectuai
doar un simplu clic, numele fiierului selectat va fi afiat n caseta File name
i va trebui s folosii apoi butonul Open pentru a-l deschide. Caseta derulant Files of type reprezint un filtru pentru fiierele afiate. Dac o vom deschide, efectund clic pe sgeata orientat n jos din partea dreapt a acesteia,
vom putea alege ce anume tip de fiiere s se afieze n seciunea central.
Observm c, dei directorul SPSS conine mai multe fiiere, sunt afiate
doar fiierele cu extensia .sav, adic fiierele care conin baze de date SPSS,
deoarece n aceast caset de filtrare s-a ales extensia .sav. Putem alege alte
extensii de fiiere care sunt afiate, de exemplu formatul Excel (.xls) sau
dBase (.dbf), iar SPSS va afia doar fiierele ce au aceast extensie.
Deschiderea propriu-zis a unui fiier se face fie efectund clic pe
acesta i apsnd butonul Open, fie efectund dublu clic pe numele fiierului.
Spre exemplu, vom ncrca baza de date Cars din directorul implicit SPSS,
baz de date ce reprezint un inventar al diferitelor tipuri de maini i al caracteristicilor acestora.
Dup deschidere, observm c s-a modificat aspectul ferestrei principale SPSS. n primul rnd, n bara de titlu a aprut mesajul Cars SPSS Data Editor, mesaj ce ne informeaz c am deschis baza de date Cars i c
ea este pregtit pentru analiz. De asemenea, constatm c structura acesteia
este compus din opt variabile, fiecare dintre ele reprezentnd o anumit caracteristic a mainilor. Ultima variabil, variabila Filter_$ este o variabil
intern folosit de programul SPSS pentru o filtrare anterioar a datelor, variabil pe care ne propunem s o tergem. Cum? Efectund clic pe numele
acesteia. Observm c ntregul coninut al coloanei Filter_$ s-a selectat. n
continuare, apsm tasta Delete, situat pe tastatur, n partea dreapt a grupului principal de taste, iar variabila a fost eliminat mpreun cu toate datele
38
Cristian Opariuc-Dan
acesteia. Felicitri. Iat i prima dumneavoastr intervenie real n SPSS.
Dup cum bine tim, orice prim intervenie ntr-un program nseamn o
tergere a ceva. Nici noi nu puteam face excepie!
Baza de date deschis de ctre dumneavoastr a fost afiat n seciunea Data view, fapt care ne atrage atenia c n acest mod putem afia i urmri coninutul datelor din baza de date. Dac vom efectua clic pe seciunea
Variable view, vom intra n modul de definire a datelor. Dup cum ne spune
i numele seciunii, aici putem vizualiza i edita denumirea, tipul i alte informaii referitoare la variabile. Ca s folosim un limbaj mai tehnic, dac n
Data view ne aflm n seciunea datelor propriu-zise, n Variable view ne
aflm n seciunea meta-datelor, adic n seciunea informaiilor despre date,
unde putem interveni asupra structurii lor interne. Vom clarifica imediat, prin
cteva exemple, aceste aspecte.
Astfel, prima variabil, denumit mpg este o variabil numeric, ce
accept maximum 4 caractere (adic cifre ntre 0 i 9999) i fr zecimale.
Numele mpg nu este ns un nume intuitiv i nu ne putem da seama cu precizie la ce se refer aceast variabil. Din pcate, doar versiunile de SPSS de
la 13.0 n sus accept nume de variabile cu mai mult de 8 caractere, ns nu
se permite includerea spaiilor sau a altor semne de punctuaie n denumirea
acestora i de aceea va trebui s fim foarte restrictivi n momentul n care le
crem. Pentru a nelege mai uor la ce anume se refer o anumit variabil,
39
avem posibilitatea de a o eticheta, adic de a include un text descriptiv asociat numelui ei. n cazul nostru, eticheta variabilei ne informeaz c mpg se
refer la Miles per Gallon, adic la consumul automobilului exprimat n
distana pe care acesta o poate parcurge cu un galon de combustibil.
Urmtoarea seciune prezint valorile pe care le putem defini pentru
respectiva variabil. Iat, n cazul variabilei origin, care se refer la ara de
producie a mainilor, observm c s-a asociat valoarea 1 pentru mainile de
producie american, valoarea 2 pentru cele de producie european i valoarea 3 pentru cele japoneze.
n spaiul destinat definirii variabilelor, avem, de asemenea, posibilitatea de a controla modul de tratare a cazurilor lips, alinierea datelor n cadrul celulelor i definirea tipului de variabil nominal, ordinal i scalar.
Efectund clic pe aceste seciuni, ai observat c, uneori, apare n partea dreapt a acestora fie un buton cu punctele de suspensie care va deschide
o caset de dialog unde se pot controla parametrii valorilor acceptate, fie un
buton de incrementare/decrementare cu ajutorul cruia putei mri, respectiv
micora o anumit valoare, fie o caset de selecie sgeata orientat n jos
prin care putei deschide o list, de unde s selectai anumite valori.
Exerciiu practic:
n exerciiul care urmeaz vom traduce pur i simplu n romnete
structura acestei baze de date i vom salva baza de date sub un nou nume,
Masini (atenie, nu folosii diacriticele romneti n scrierea literelor, prin
urmare, n acest caz, nu folosii litera , ci s. Deci nu vom salva cu Maini,
ci Masini), ntr-un director nou creat avnd calea C:\Exercitii SPSS
(aceeai meniune referitoare la diacritice).
n cazul primei variabile, numele va rmne acelai, iar noi vom modifica doar descrierea. Vom da clic n seciunea Label, acolo unde se afl
afiat textul Miles per Gallon i vom scrie textul Mile per galon.
40
Cristian Opariuc-Dan
A doua variabil se numete engine. Vom schimba numele acesteia
n cilindree (ne-am ncadrat n 8 caractere), fcnd clic n coloana Name i
scriind noul nume. Eticheta va deveni, pentru a doua variabil, Capacitate
cilindric, pe care o vei modifica dup exemplul primei variabile.
Procedm la fel n cazul variabilelor 2, 3, 4, 5 i 6, lsnd traducerea
din englez n romn la latitudinea dumneavoastr. Atenie, ns, la acel
maximum de 8 caractere cnd redenumii o variabil.
Variabila numrul 7 se refer la
ara de origine a mainilor. O vom redenumi origine i vom modifica, desigur,
eticheta. Exist ns, la acest nivel, un
element n plus, i anume coloana Values. V mai amintii probabil de mainile americane, europene i japoneze. Dac
Figura 1.11 Etichetarea variabilelor de
nivel nominal i ordinal
vom da clic pe celula corespunztoare
coloanei Values pentru aceast variabil,
constatm apariia unui mic buton cu puncte de suspensie n partea dreapt a
celulei. Apsnd acest buton se deschide o nou fereastr, fereastra de configurare a valorilor asociate. Vorbeam anterior despre maini de producie
american, european i japonez. n aceast caset vedem lista acestor asocieri n partea de jos. n stnga listei, exist 3 butoane: Add cu ajutorul cruia
putem crea o nou asociere, Change prin care putem modifica o asociere
selectat i Remove care terge, elimin asocierea selectat. Noi ne-am propus s traducem aceast structur de date n limba romn. Vom efectua clic
pe prima asociere 1 = American. Constatm c, automat, n caseta Value a
aprut cifra 1, iar n caseta Value Label textul American. Putem deduce cu
uurin c valorii 1 i s-a asociat textul American(apropo, la ce nivel de
msurare ne aflm aici i ce fel de variabil este aceasta?). De asemenea, s-a
activat butonul Remove, SPSS presupunnd c dorim s eliminm aceast
asociere din moment ce am selectat-o. Pentru a modifica textul, efectum clic
41
42
Cristian Opariuc-Dan
denumirea de Masini. Directorul folosit va fi C:\Exercitii SPSS (atenie
la diacritice!).
Putei alege meniul File i opiunea Save sau Save as, putei apsa
combinaia de taste Ctrl+S sau Alt+F, Alt+S sau putei apsa butonul de
salvare de pe bara de instrumente (acela care are o dischet drept pictogram). Dar atenie! Diferena dintre opiunea Save i Save as este aceea c,
folosind Save, se vor salva modificrile efectuate tot n baza de date iniial,
n cazul nostru baza de date Cars. Noi ne-am propus s salvm baza de date
sub un alt nume i ntr-un alt loc, deci nu vom putea folosi dect opiunea
Save as (Salveaz ca). Se va deschide
caseta de salvare a unei baze de date
care are acelai aspect ca i caseta de
deschidere a unei baze de date, cu excepia butonului Open, n acest caz
denumirea acestuia fiind Save. Folosind
cunotinele dobndite anterior, va trebui s v poziionai cu ajutorul casetei
Figura 1.12 Fereastra de salvare a
Save in (echivalenta casetei Look in
unei baze de date
din fereastra de deschidere a bazei de
date) n directorul rdcin C:\, s creai un nou director folosind butonul de
creare a unui director din acest formular pe care s-l denumii Exerciii
SPSS, s efectuai dublu clic pe acesta pentru a-l deschide i s introducei
numele bazei de date Masini n caseta File name. Apsai apoi butonul Save
pentru a salva efectiv fiierul pe disc. Ai reuit, nu-i aa?
n urma acestor operaiuni, n bara de titlu SPSS va aprea mesajul
Masini SPSS Data Editor, care ne informeaz c programul a salvat cu
succes baza de date pe disc i a activat-o.
Reamintim faptul c, la crearea unei noi baze de date, folosirea oricror opiuni de salvare (meniul File, butonul de pe bara de instrumente sau
43
tastele rapide) duce la apariia ferestrei Save as, deoarece fiind o baz de date
nou, acesteia nu i-a fost atribuit nc un nume printr-o operaie de salvare.
Putei cu uurin identifica dac o baz de date are un nume (a fost salvat)
sau nu, urmrind bara de titlu. Bazele de date noi sunt identificate prin mesajul Untitled SPSS Data Editor, n timp ce bazele de date salvate au afiat
numele acestora n bara de titlu. Ai observat c, la lansarea programului
SPSS, acesta creeaz automat o baz de date nou i nedefinit i ateapt din
partea noastr definirea variabilelor i salvarea acesteia. Odat salvat baza
de date, orice modificri efectum n ea, la salvare ele vor fi scrise automat n
fiierul al crui nume este afiat n bara de titlu, fr a mai aprea fereastra de
salvare de mai sus. Singura modalitate prin care putem da un alt nume bazei
de date sau prin care o putem salva ntr-un alt loc este folosirea opiunii Save
as.
Crearea unei noi baze de date se poate face folosind meniul File,
submeniul New i opiunea Data, combinaiile de taste Ctrl+N sau Alt+F,
Alt+N, Alt+A. n oricare dintre aceste situaii, SPSS va crea o baz de date
goal i nedefinit, la fel ca n cazul lansrii programului.
Ca exerciiu, folosind cunotinele dobndite, v propunem crearea
unei noi baze de date avnd urmtoarea structur i salvarea acesteia sub
numele de IQ n directorul C:\Exercitii SPSS:
Variabila nume va fi de tip ir de caractere (string) i va stoca numele subiecilor, toate celelalte variabile fiind numerice. Exist dou definiii
de asocieri, i anume variabila sexul (1-Masculin 2-Feminin) i scoala
(1-Primare 2-Gimnaziu 3-Liceul 4-Postliceala 5-Facultate)
44
Cristian Opariuc-Dan
Dup construirea structurii de date, procedai la salvarea fiierului n
locul precizat.
Folosind cunotinele teoretice acumulate, precizai tipul fiecrei variabile create n acest exerciiu.
Ne propunem n continuare aprofundarea definirii variabilelor n
SPSS. Pentru aceasta, ne vom folosi de baza de date IQ creat i salvat n
exerciiul anterior. n seciunea Data View, am remarcat deja prezena a zece
caracteristici prin care se poate defini o variabil n SPSS. Prima dintre acestea se refer la numele variabilei (Name), caracteristic ce nu presupune prea
multe explicaii. Numele variabilei reprezint modul n care aceasta va fi apelat n toate prelucrrile efectuate folosind baza de date. Nu putem ns s nu
precizm c SPSS impune o serie de restricii n denumirea variabilelor (versiunile mai mici de versiunea 13): n primul rnd, numele acestora s nu depeasc 8 caractere, variabilele cu nume mai lungi de 8 caractere nefiind
acceptate. Apoi, nu pot fi folosite spaii sau semne de punctuaie n denumirea variabilelor, putnd fi ns folosit linia de subliniere pentru cazurile n
care dorim s abreviem o variabil format din dou cuvinte. De exemplu,
dac avem o variabil care se refer la anul naterii, o vom putea abrevia denumind-o an_naste. Astfel, lungimea ei este de 8 caractere, fiind acceptat de
SPSS, iar cele dou cuvinte componente le-am separat printr-o linie de subliniere, fapt de asemenea acceptat de SPSS. Nu conteaz dac scriem numele
variabilelor cu litere mari sau cu litere mici, deoarece, n final, SPSS le convertete automat n litere mici. Din punctul de vedere al primei caracteristici,
baza noastr de date IQ nu creeaz probleme, fiind definite cinci nume de
variabile: numele, varsta, sexul, scoala i iq.
A doua caracteristic se refer la tipul de date ce va fi stocat n aceste
variabile (Type), caracteristic pe care nu am abordat-o n detaliu n timpul
prezentrii noastre de pn acum. Aceast seciune conine un buton cu trei
puncte de suspensie, pe care l putem apsa pentru a deschide fereastra de
45
46
Cristian Opariuc-Dan
de configurare a dimensiunii variabilei este acelai, iar un exemplu de numr
folosind aceast reprezentare poate fi 1.23E2 ceea ce semnific de fapt
123.00.
Tipul de date Date se refer
la date calendaristice. Alegnd aceast
opiune, va trebui s configurai, selectnd din lista ce se va deschide, modul de
afiare a datei calendaristice dintr-o mulime de formate care vi se ofer.
Figura 1.14 Tipul de date
calendaristice
Tipul de date Dollar se refer la valori monetare, avndu-se n vedere moneda american. Putei alege i particulariza valoarea maxim pe care o
poate accepta variabila din lista ce se afieaz sau putei particulariza aceast
valoare, la fel ca n cazul valorilor numerice.
47
48
Cristian Opariuc-Dan
mai uor datele i pentru a putea efectua prelucrri statistice la nivel de variabile nominale.
Caracteristica Missing permite definirea modului n care vor fi tratate valorile
lips din cadrul unei variabile. Uneori, este
important s cunoatem de ce lipsesc valori
dintr-o variabil. Datele lips se pot datora,
spre exemplu, faptului c subiectul refuz
s rspund la o anumit ntrebare sau fapFigura 1.15 Tratarea valorilor lips
tului c ntrebarea nu este adresat acelui
subiect. Iat dou situaii care ar necesita un
tratament separat al valorilor lips. Datele pe care le vei trata n mod explicit
ca date lips pot fi supuse apoi unei analize statistice separate, fiind iniial
excluse din cele mai multe calcule. Un alt exemplu, frecvent ntlnit n chestionarele sociologice, se refer la codificarea rspunsurilor de tip Nu tiu/Nu
rspund. Majoritatea cercettorilor codeaz aceste variante cu 9 sau 99. Evident, variantele incerte nu vor face obiectul prelucrrii iniiale a datelor. Folosind aceast seciune se pot include aceste valori (9 sau 99) ca valori lips,
SPSS eliminndu-le din analiz. Definirea valorilor lips poate accepta trei
situaii. Situaia No missing values, cnd comunicm programului c nu
dorim un tratament special pentru valorile lips, acestea fiind tratate ca atare
n cursul fiecrei prelucrri de date pe care o realizm, situaia Discrete
missing values, cnd putem defini pn la trei valori care vor fi tratate ca
valori lips n cursul prelucrrilor statistice ulterioare (de exemplu, la un
chestionar cu 3 variante de rspuns, dorim ca doar rspunsurile 1 i 3 s fie
luate n calcul, rspunsul 2 fiind tratat ca non-rspuns. Pentru aceasta, vom
include cifra 2 n prima dintre cele trei casete ale acestei seciuni.) i situaia
Range plus one optional discrete missing value, n care putem stabili un
interval pentru care valorile vor fi tratate ca valori lips (spre exemplu, coeficienii de inteligen cuprini ntre 10 i 75), n plus existnd posibilitatea de
49
50
Cristian Opariuc-Dan
ponibile doar nivelurile nominal i ordinal de msurare. Stocarea numelui i a
prenumelui are o valoare pur informativ i nu permite nici mcar o clasificare a acestora. Nivelul de msur va fi deci nivelul nominal. Variabila varsta
este variabila numeric prin care se stocheaz vrsta subiecilor. Aceast variabil are intervale egale, zero absolut i permite rapoarte n cadrul scalei,
deci poate fi considerat la un nivel de msurare scalar 4. Variabila sexul nu
este altceva dect tot o variabil nominal, care nu permite dect o clasificare
a persoanelor n funcie de genul lor biologic. Variabila scoala poate fi privit ca o variabil nominal, dac intenionm doar s clasificm subiecii n
funcie de studiile absolvite, sau se poate accepta un nivel ordinal de msurare la nivelul acesteia, dac ierarhizm subiecii n funcie de gradul lor de
colarizare. Vom lua n considerare a doua situaie i o vom accepta ca variabil ordinal. n sfrit, variabila iq este fr discuie o variabil de tip ordinal.
Iat c, parcurgnd aceste etape, am reuit n cele din urm s construim structura unei baze de date simple n acord cu principiile i domeniile de
definiie ale variabilelor i cu nivelul lor de msurare.
Un aspect important pe care merit s-l menionm se refer la procesul de codare al variabilelor (proces pe care l-am ntlnit la codarea variabilelor sex i nivel de colarizare). n general, cercettorii cu experien cunosc
intuitiv modalitatea de codare optim a unei variabile. Pentru a veni n sprijinul debutanilor, Newton i Rudestam (1999) propun, n lucrarea Your statistical consultant, un set de reguli folosite n acest proces (Field, 2005).
51
Toate codurile pentru o variabil trebuie s fie mutual exclusive. Cu alte cuvinte, nu trebuie s existe dect un singur numr ce
poate fi stocat ntr-o variabil. n anumite chestionare pot exista
52
Cristian Opariuc-Dan
itemi care permit alegeri multiple (de exemplu, la solicitarea: Bifai din urmtoarea list partidele cu care n mod sigur nu vei vota la urmtoarele alegeri: pot fi variantele de rspuns PSD,
PD, UDMR, PNG etc. n acest caz, subiectul poate alege un
singur partid, dou partide sau le poate alege pe toate). O asemenea situaie impune crearea unui numr de variabile egal cu variantele de rspuns (de exemplu nu_PSD, nu_PD, nu_UDMR,
nu_PNG) cu categorii dihotomice de genul 0 Neselectat, 1 Selectat care vor fi analizate ulterior. De obicei, asemenea itemi au
i o categorie de genul Altul. Care_______ prin intermediul creia
subiectul poate s-i exprime liber opiunea. n mod normal,
aceast categorie se analizeaz prin alte metode i nu folosind
SPSS, deoarece variabilitatea rspunsurilor confer o valoare statistic foarte redus.
Fiecare variabil trebuie codat astfel nct s se obin maximum de informaii. Categoriile sau valorile variabilei nu trebuie sintetizate n prima variant, ci trebuie incluse exact aa cum
apar pe formularele de colectare a datelor. Sintetizarea valorilor i
cumularea categoriilor poate fi fcut mai trziu, utiliznd funciile specifice SPSS. De exemplu, se prefer introducerea exact a
valorii pentru vrsta subiectului, n ani, i nu ncadrarea subiectului n categorii de vrst (sub 14 ani, ntre 14 i 20 de ani, peste 20
de ani etc.). Iniial, se va proiecta o variabil, varsta, care va stoca
vrsta exact a subiecilor. Ulterior, dac se va dori transformarea
acestei variabile scalare ntr-o variabil discret, ordinal, numit
grup_varsta, se pot folosi tehnici specifice de conversie. Ca idee
general, ntotdeauna cnd este posibil, se vor folosi variabile continui la un nivel de msur ct mai aproape de scala de raport. Este
uor s transformm o variabil continu ntr-una discret, ns
imposibil s trecem de la o variabil discret la una continu. Du-
53
Fiecare subiect trebuie s aib o valoare pentru fiecare variabil. Uneori nu este posibil s includem valori n fiecare coloan,
fie deoarece subiectul nu a rspuns, fie pentru c itemul respectiv
nu i se adreseaz. n acest caz, se recomand s lsai acea celul
liber, deoarece SPSS este astfel proiectat nct s trateze celulele
goale drept cazuri lips. Introducerea altor valori pentru cazurile
lips poate crea confuzii. Respectai ntotdeauna regula ceea ce e
cel mai simplu este i cel mai bun.
Folosii coduri n concordan cu sensul scalei. Unele chestionare presupun tipuri de scale ordinale (de exemplu 1 niciodat, 2
rareori, 3 uneori, 4 deseori, 5 ntotdeauna). Dei scalele pot
fi codate i invers (1 ntotdeauna, 2 deseori, 3 uneori, 4 rareori, 5 niciodat), se recomand pstrarea sensului natural al
scalei pentru evitarea problemelor ulterioare referitoare la interpretare. Mai uor asociem niciodat cu 1 dect niciodat cu 5.
Oricum, chiar dac ulterior exist suficiente posibiliti de recodare a valorilor astfel nct analiza s fie consistent, proiectarea
adecvat a cercetrii i codrii v poate scuti de bti de cap i
munc inutil.
54
Cristian Opariuc-Dan
Dup proiectarea bazei de date, se recomand listarea structurii acesteia (a meta-informaiilor)
n vederea consultrii ulterioare. Dac nu vei lucra
cteva luni cu baza de date, probabil c nu vei reine
la ce se refer mem_ini sau mpg i nici de ce tip
este. SPSS prezint o modalitate uoar de a afia
structura bazei de date cu informaii complete. Nu
trebuie dect s accesai meniul File i apoi opiunea
Display Data File Information. Se va deschide o
nou seciune care v invit s alegei ntre a afia
Figura 1.16 Afiarea informaiilor despre baza de date
informaiile bazei de date curente (Working File)
sau cele ale unei alte baze de date de pe disc (External File). Noi suntem interesai de afiarea structurii bazei noastre de
date (IQ.sav) i vom alege, aadar, prima opiune.
n fereastra de rezultate (Output), vor aprea o serie de tabele corespunztoare definiiilor variabilelor din baza de date, astfel:
Tabelul 1.1 Tabelul de structur a bazei de date
Variable Informati on
Variable
nume
v arst a
Position
1
2
sexul
3
iq
4
Label
Numele
subiectului
Varst a
subiectilor
Genul
biologic al
subiectilor
Coef icientu
l de
inteligenta
Measurement
Lev el
Print Format
Writ e Format
14
Lef t
A20
A20
Scale
Right
F2
F2
Scale
Right
F1
F1
Scale
Right
F3
F3
Nominal
Column Width
Alignment
55
Variable Values
Value
sexul
Label
1
2
Masculin
Feminin
56
Cristian Opariuc-Dan
O variabil discret nu permite existena unor valori intermediare ntre
valorile pe care le poate lua variabila. Ea este definit pe o mulime numrabil de valori n baza unei funcii de probabilitate;
o O variabil continu permite existena unor valori intermediare ntre dou
valori ale acesteia, iar acest lucru poate continua la infinit. Ea este definit pe un interval de valori, mulimea fiind infinit, iar legea de distribuie
este o densitate de probabilitate;
Scalele de msurare se grupeaz n scale neparametrice (nominal i ordinal) i
scale parametrice (de interval i de raport);
Termenul de cuantificare are sens ncepnd cu scala ordinal;
Scala nominal prezint doar posibilitatea unor clasificri, a unor grupri ale datelor n categorii;
Scala ordinal permite, n plus, ierarhizarea datelor n funcie de apartenena lor la
o categorie. Strict, aceasta este scala utilizat n psihologie;
Scala de interval este o scal ordinal n care intervalele sunt egale. Ea permite s
rspundem cu ct o cantitate este mai mare dect o alta, ns nu i de cte
ori;
Scala de raport este o scal de interval la care exist un zero absolut. Ea permite s
rspundem la ntrebarea de cte ori o cantitate este mai mare dect cealalt.
o
57
58
Cristian Opariuc-Dan
te). Studiind rspunsurile la aceste ntrebri, putem avea o imagine general
asupra nivelului de trai. Aceti indicatori nu reprezint altceva dect variabile
rezultate n urma operaionalizrii conceptului general de nivel de trai i care
pot fi populate cu datele rezultate din rspunsurile subiecilor la ntrebrile
stabilite.
n urma procesului de operaionalizare a conceptelor, rezult una sau
mai multe variabile, reprezentative pentru studiul propus, variabile ce vor
trebui populate cu date n vederea verificrii ipotezelor i a gsirii rspunsului la ntrebarea formulat iniial. Datele cu care urmeaz a fi populat
respectiva variabil pot proveni din (Radu, i alii, 1993):
59
60
Cristian Opariuc-Dan
centimetri, Xmax = 193 centimetri, iar amplitudinea de variaie devine A = 193
171 = 22 centimetri.
Dac amplitudinea de variaie este mic
n comparaie cu numrul de valori din irul de
date, atunci irul de date poate fi uor reprezentat fr necesitatea gruprii valorilor. n cazul
nostru, putem sistematiza datele scriind ntr-o
coloan valorile n ordine cresctoare i notnd
n dreptul fiecreia, prin linii verticale, de cte
ori se repet n irul iniial. Dac reconsiderm
exemplul anterior, obinem datele grupate n
tabelul alturat:
De data aceasta, obinem un protocol
sistematizat numit diagrama n linii. Putem
acum observa c toi cei 30 de subieci (n=30)
au fost repartizai cresctor, n funcie de nlimea lor, i putem afirma c cei mai scunzi
subieci au 171 cm, iar cel mai nalt 193 cm. De
asemenea, cei mai muli subieci au 172 cm i
177 cm. Iat, aadar, c aceast diagram ne
aduce un plus de informaie n raport cu irul
nesistematizat prezentat anterior.
Valoare
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
Diagrama
n linii
||
||||
|
||
|
||||
|||
||
|
|
||
|
||
|
Efectiv
2
4
1
2
1
0
4
0
3
2
0
1
1
2
1
0
0
2
1
0
0
2
1
||
Aceast sistematizare a unui protocol
|
reprezint o procedur statistic liminar,
deoarece se afl la limita analizei statistice, pregtind aplicarea tehnicilor
ulterioare de prelucrare a datelor.
61
sau
171 174
sau
175 178
sau
179 182
sau
183 186
sau
187 190
sau
191 193
62
Cristian Opariuc-Dan
Tabel 2.2 Diagrama n linii i efectivul
La acest nivel va trebui s facem o
pentru date grupate n clase
serie de precizri, deoarece au aprut doDiagrama
Clasa
Efectiv
u concepte noi: conceptul de clas i
n linii
171 174 |||||||||
9
conceptul de interval de grupare. n cazul
175 178 |||||
5
nostru, numrul de clase a fost stabilit la
179 182 ||||||
6
183
186
||||
4
ase. Intervalul de grupare (i) se refer
187 190 |||
3
la numrul de valori pe care le poate con191 -193
|||
3
ine o clas, cu alte cuvinte lrgimea unei
clase. Practic, intervalul de grupare se exprim ca raport dintre amplitudinea
de variaie i numrul claselor. Dac notm intervalul de grupare cu i i
numrul de clase cu k, avem formula:
(formula 2.1)
193171
6
22
6
= 3,67 4
174,68 178,35
178,36 182,03
182,04 185,71
185,72 189,39
189,40 193,07
(formula 2.2)
25-40
6
41-60
7
61-99
8
100
10
101-160
11
161-250
12
251-400
13
401-630
14
631-1000
15
> 1000
16-20
= +,()
(formula 2.3)
193 171
22
=
= 3,74 4
1 + 3,322 1,47 5,88
64
Cristian Opariuc-Dan
Observm c valoarea obinut aici se apropie foarte mult de valoarea
stabilit prin formula anterioar. Aceast formul poate fi folosit pentru valori destul de mari ale lui n, respectnd ns limita de 20 de clase.
Referitor la numrul claselor i la intervalele de grupare, se impun
urmtoarele observaii:
1.
Dac alegem intervale de grupare prea mici, gruparea datelor scoate n eviden lucruri de amnunt care estompeaz
tendina de ansamblu a datelor i deci a procesului pe care l
studiem;
2.
3.
171 174
175 178
i nu
171 174
174 178
i nu
171,00 174,67
174,67 178,35
65
primul caz, evident, n prima clas. n al doilea caz ns, poate fi inclus i n
prima i n a doua clas. De aceea, niciodat precizia claselor nu va depi
precizia msurtorilor efectuate.
Gruparea n
clase fiind ncheiat,
Clasa
obinem aa-numita 171 174
distribuie statistic 175 178
179 182
ce formeaz baza 183 186
prelucrrilor de date 187 190
ulterioare. n exem- 191 -193
plul nostru vom avea
urmtoarea distribuie statistic:
Distribuia n linii
|||||||||
|||||
||||||
||||
|||
|||
fa
fc
fc
9
5
6
4
3
3
9
14
20
24
27
30
30
21
16
10
6
3
30,00
16,66
20,00
13,33
10,00
10,00
300,00
166,66
200,00
133,33
100,00
100,00
30
nsumnd efectivele (frecvenele) tuturor intervalelor, va rezulta, evident, numrul total de msurtori (n). Este, de asemenea, posibil s calculm
frecvenele cumulate, fie ascendent, fie descendent, ca expresie a adunrii
frecvenei intervalului curent la frecvena cumulat a intervalului anterior.
Astfel, pentru primul interval, att frecvena, ct i frecvena cumulat ascendent au valoarea 9. Pentru al doilea interval, frecvena absolut este 5, iar
frecvena cumulat ascendent devine 9+5=14. Al treilea interval are frecvena absolut 6, iar frecvena cumulat ascendent 14+6=20 i aa mai departe.
Procedura de calcul este analoag i n cazul frecvenelor cumulate descendent, cu singura deosebire c adunarea se face ncepnd de la ultimul interval.
Rolul frecvenelor cumulate este acela de a ordona cresctor sau
descresctor datele grupate n intervale i de a indica numrul de cazuri, ci
subieci se afl pn la o anumit valoare (frecvenele cumulate ascendente)
sau ci subieci au depit o anumit valoare (frecvenele cumulate descendente). Dac discutm de ordonare, este evident c variabila trebuie s se afle
cel puin la un nivel ordinal de msur, calculul frecvenelor cumulate n cazul variabilelor nominale fiind un nonsens.
66
Cristian Opariuc-Dan
Putem exprima, de asemenea, frecvenele relative, ca proporie a scorurilor dintr-o clas. Cele mai utilizate frecvene relative sunt procentele (%)
i promilele (). Ca modalitate de calcul al procentelor sau al promilelor
vom folosi regula de trei simpl, astfel:
Pentru prima clas vom avea urmtoarea valoare:
dac
30
atunci 9
reprezint
100%
reprezint
9 100 900
=
= 30%
30
30
67
rea prin grafice cu bare a nlimii subiecilor sub form de valori. Un tip particular de reprezentare a graficelor cu bare este histograma. O histogram se
deosebete de un grafic cu bare prin aceea c, n locul liniilor, sunt ridicate
dreptunghiuri cu baza egal cu intervalul
folosit. Pentru a putea folosi histogramele,
datele trebuie s fie grupate, aadar, pe
intervale egale.
Dac unim prin linii vrfurile graficelor cu bare sau mijlocul bazei de sus a
histogramelor obinem un alt tip de grafic,
i anume poligonul frecvenelor absolute
68
Cristian Opariuc-Dan
Uneori este mai convenabil s reprezentm, mai ales atunci cnd lucrm cu procente, compoziia msurtorilor printr-o structur radial. Un
asemenea grafic se numete plcint (pie) i este util atunci cnd ne intereseaz s urmrim proporia cu care fiecare clas particip la construcia ntregului.
n concluzie:
69
Statistica descriptiv se refer la totalitatea metodelor care permit descrierea i gruparea n diferite moduri a datelor rezultate din cercetri. Orice procedeu de analiz a datelor presupune efectuarea unor operaiuni preliminare de statistic descriptiv. Statisticile descriptive nu au ca
scop efectuarea unor predicii, ci doar sumarizarea i prezentarea datelor.
Procedeele utilizate n statisticile descriptive se refer la gruparea i prezentarea datelor n tabele i grafice, calculul indicatorilor tendinei centrale i ai
variabilitii, indicatori ai asocierii i ai legturii dintre variabile (studii corelaionale simple).
nc de la nceput s-a stabilit c, prin statistic, putem descrie, compara i relaiona variabile. Totodat, modul de realizare a unei variabile se face
prin atribuirea de valori rezultate din diferite surse de date. Totui, cum culegem aceste date? Cum facem ca, pornind de la un numr relativ redus de su-
70
Cristian Opariuc-Dan
bieci, s extindem cunotinele noastre la nivelul ntregii populaii? i, n
definitiv, ce nseamn populaie i ce nseamn eantion?
71
lecie a indivizilor dintr-o populaie. Cercettorii utilizeaz eantioane, deoarece lucrul cu acestea este mai ieftin, mai rapid i mai uor n comparaie cu
cercetarea ntregii populaii, iar rezultatele pot fi extinse la nivelul ntregii
populaii.
Eantionul reprezint unitile de informaie selecionate pentru a fi
efectiv studiate. Ideea pe care se bazeaz cercetrile orientate pe eantioane
este aceea c se pot face aprecieri asupra unei ntregi populaii, n anumite
condiii, doar pe baza caracteristicilor msurate pe o parte a acesteia.
Totui, pentru ca rezultatele obinute prin studiul eantionului s poat
fi extinse la nivelul ntregii populaii, acel eantion trebuie s fie reprezentativ, adic s ntruneasc caracteristicile de baz ale populaiei din care a fost
extras.
S presupunem, de exemplu, c dispunem de o urn foarte. Cum verificm dac boabele de fasole au fost fierte? n primul rnd, amestecm boabele n oal. Dac nu le-am amesteca, am putea risca s le lum pe cele de la
suprafa (care sunt mai puin fierte), nu i pe cele de la fund (care probabil
sunt mai fierte). Dup aceea, lum o lingur de fasole i gustm. n funcie de
rezultat, decidem dac aceasta este sau nu este fiart. Nu trebuie se mncm
toat oala de fasole ca s decidem dac boabele sunt sau nu fierte. Este suficient s verificm un eantion de boabe de fasole, pentru ca mai apoi s extindem cunoaterea la nivelul ntregii oale. Iat c exact acesta este i principiul eantionrii. Prin amestecarea n oala cu fasole, am creat posibilitatea ca
fiecare boab de fasole s aib ansa de a fi aleas. Apoi, am extras aleatoriu
un eantion de boabe de fasole pe care l-am verificat. Dac am decis c sunt
fierte, nu voi mai continua cercetarea. ansele s m nel sunt prea mici 5.
Afirmam anterior c un eantion trebuie s fie reprezentativ, adic s
ndeplineasc caracteristicile populaiei din care face parte. Evident, n mo5
Exemplul a fost preluat i adaptat dup Lungu Ovidiu Ghid introductiv pentru SPSS 10.0
pentru Windows
72
Cristian Opariuc-Dan
mentul n care voi dori s tiu dac sunt fierte boabele, voi extrage un eantion de boabe de fasole i nu unul de boabe de mazre din oala alturat. Posibilitatea de a generaliza la nivelul ntregii populaii a cunotinelor dobndite
la nivelul eantionului este vital n cercetarea experimental. De aceea, asigurarea reprezentativitii unui eantion este de maxim importan.
Metoda prin care selectm un eantion dintr-o populaie are implicaii
asupra validitii i generalizrii concluziilor dobndite n urma studiului
eantionului. Metodele de eantionare se mpart n dou mari categorii: metode prin care eantionul este extras aleatoriu dintr-o populaie i metode prin
care eantionul nu este extras aleatoriu.
ntr-un eantion care nu este extras aleatoriu, probabilitatea ca un subiect s fac parte din eantion nu poate fi calculat. Este exemplul clasic n
care subiecii sunt selectai pe baz de voluntariat sau dintre cei care returneaz chestionarele completate prin pot.
ntr-un eantion extras aleatoriu, fiecare individ are o probabilitate
calculabil de a fi inclus n eantion, iar aceast probabilitate va urmri s fie
egal pentru fiecare subiect. Este cazul extragerii unui eantion dintr-o baz
de date care conine, aleatoriu, ntreaga populaie.
Orice eantion se stabilete n baza unei scheme de eantionare. O
schem de eantionare reprezint un set de tehnici i reguli, n baza crora din
populaie se extrage eantionul necesar, iar compoziia acestuia este aleatoriu
derivat n funcie de definiiile probabilistice ale schemei de eantionare.
73
re individ din acea list are asociat un numr. Se folosesc apoi tabelele de
numere aleatoare sau numerele aleatoare se genereaz de un computer. Practic, numrul aleatoriu generat reprezint numrul de ordine al individului de
pe list. Procedura continu pn cnd s-a extras ntregul eantion. Metoda
randomizrii este o metod foarte simpl, ns dificultatea const n posibilitatea obinerii unei liste exhaustive pe criteriile dorite.
Cristian Opariuc-Dan
sta cuprins ntre 31 i 50 de ani, avnd libertatea de a alege singur persoanele, atta timp ct respect aceste dou criterii.
O problem apare, ns, n momentul n care unul dintre criterii are o
pondere extrem de mic n populaie (de exemplu, cnd studiul se refer la
persoane cu un IQ sub 70). n acest caz, numrul persoanelor selectate n
eantion s-ar putea s fie prea mic pentru a permite generalizarea. ntr-o asemenea situaie, se procedeaz la supra-eantionare, adic la mrirea acestui
numr. Se consider c, pentru anumite caracteristici foarte rare, acest fapt nu
afecteaz reprezentativitatea eantionului.
75
76
Cristian Opariuc-Dan
aplicaie practic a fost acela c, n realitate, n momentul n care lansm o
procedur de analiz de date, SPSS face automat aceast organizare. Indiferent ct de sofisticate ar fi analizele de date pe care le efectum, nu putem
obine la ieire dect ceea ce am introdus la intrare. n statistic este perfect valabil principiul GIGO (Garbage In, Garbage Out Gunoi la intrare,
gunoi la ieire). Iat c, nainte de a intra n procedee statistice mai elaborate,
am discutat cteva elemente referitoare la eantionare. Ceea ce trebuie s
reinei, este faptul c o cercetare greit proiectat duce n mod sigur la rezultate eronate.
n cele mai multe cazuri, organizarea i sistematizarea datelor i reprezentarea grafic a acestora nu sunt suficiente. Avem nevoie de mai mult
dect de desene i grafice frumoase pentru a da un sens acelor date i pentru a
extrage concluzii utile. Uneori, avem nevoie s stabilim relaiile dintre dou
sau mai multe variabile sau s vedem cum scorul la o anumit variabil este
influenat de scorurile altor variabile. Alteori, trebuie s comparm variabilele, s vedem dac sunt diferene ntre ele i care este sensul acestor diferene.
Toate aceste aspecte sunt reunite sub denumirea generic de analiz a datelor.
n al doilea capitol, am vzut deja cum datele se concentreaz n jurul
unor valori i am constatat c, n raport cu dimensiunea eantionului, subiecii pot fi considerai mai degrab scunzi dect nali. Iat c prin acest procedeu putem intui c datele noastre tind spre anumite valori considerate ca fiind
centrale. Aadar, putem vorbi despre o tendin central a rezultatelor.
Prima i cea mai comun form de descriere a datelor o reprezint
analiza tendinei centrale. Msura tendinei centrale ne d o indicaie asupra
scorurilor tipice din colecia de date. Cu alte cuvinte, ne indic modul n care
se grupeaz datele n jurul unei valori. Cei mai importani indicatori ai tendinei centrale sunt media, mediana i modul.
77
III.2.1 Media
Considerm c termenul de medie mai precis media aritmetic este conceptul cel mai uor de neles din ntreaga statistic. Au fost nenumrate situaiile n care ai ntlnit media: media la matematic pe trimestru sau
semestru prin care putei ti dac ai rmas corigent sau ai luat premiu, media
de la bacalaureat care v ridic sau v coboar ansele de admitere la facultate, la fel i media anilor de studiu, media de vrst din familia dumneavoastr
sau media cheltuielilor zilnice care v ajut s v planificai mai bine bugetul.
Deci ce este media? Media nu este altceva dect suma valorilor unei
variabile, raportat la numrul msurtorilor, fiind, poate, cel mai simplu
model statistic. Aceasta este media aritmetic, deoarece n statistic mai
discutm i despre media geometric, media caracteristicilor alternative, media ptratic, media rangurilor etc. Aceste concepte le ntlnim ns mai rar n
domeniul tiinelor socio-umane i, prin urmare, nu vom face dect s le
amintim.
Probabil c vi se va prea ciudat afirmaia anterioar. Cum adic
media este un model statistic? Ei bine, aa este, deoarece nu reprezint altceva dect o valoare ipotetic ce poate fi obinut din orice set de date msurate la un nivel parametric. Dac, de exemplu, am nregistra numrul de frai
pe care-i au cinci dintre prietenii mei, am obine urmtoarele valori: primul
78
Cristian Opariuc-Dan
prieten are un frate, al doilea 2 frai, al treilea i al patrulea 3 frai i al cincilea 4 frai. Ci frai au n medie cei cinci prieteni ai mei? Dac adunm cele
cinci valori i mprim la cinci, obinem o medie de 2,6 frai. Ci frai???
Repet, ci frai? Media spune clar: 2,6 frai. Ce nseamn 2,6 frai? Probabil
doi frai ntregi i unul cruia i lipsete o mn sau un picior. Iat de ce media nu este altceva dect un model ipotetic, un model statistic care reprezint
tendina, direcia spre care converg datele.
Cnd vorbim de medie, trebuie s nelegem i condiiile n care o putem folosi, deoarece utilizarea ei n condiii inadecvate este inutil i primejdioas, putnd duce la multe confuzii i erori de interpretare. Am spus deja c
putem folosi media doar n cazul n care datele se afl cel puin la un nivel de
msurare de interval, altminteri nu are sens s discutm despre medie. Nu
putem face, v amintii, media ntre un colonel i un cpitan. Ce-ar rezulta??!! n nici un caz un maior. De asemenea, media poate fi folosit doar n
cazurile n care valorile individuale se grupeaz n jurul acesteia, iar valorile
care se abat de la medie se anuleaz reciproc. Cu alte cuvinte, suma valorilor
individuale mai mari dect media i suma valorilor mai mici dect media tind
s se anuleze. Vom vedea, n acest capitol, care sunt limitele mediei i cum le
putem evita i atunci vei nelege mai bine aceste concepte.
=
=1
(formula 3.1)
79
tate, atunci cnd vorbim de o populaie vom nota media cu (miu), iar cnd
de referim la un eantion o vom nota cu m sau .
Iat, avem un numr de 10 msurtori ale unor scoruri brute la un
chestionar de anxietate, dup cum urmeaz: 10, 22, 31, 9, 24, 27, 29, 9, 23,
12. Media aritmetic va fi suma acestora mprit la numrul lor, n cazul
nostru 10. Prin urmare, efectund calculele, obinem media de 19,6. Este
greu, nu?
=
10 + 22 + 31 + 9 + 24 + 27 + 29 + 9 + 23 + 12 196
=
= 19,6
10
10
Vom reconsidera acum exemplul din capitolul al doilea i vom ncerca s-l utilizm pentru a efectua calculele n vederea stabilirii celor trei indicatori ai tendinei centrale. Vi-l reamintesc:
Exemplu: Presupunem c msurm nlimea unor subieci n centimetri i obinem urmtoarele rezultate: 182, 175, 174, 189, 177, 177, 180,
173, 188, 171, 184, 192, 180, 172, 177, 193, 184, 192, 172, 177, 174, 171,
172, 179, 185, 179, 183, 172, 179, 188.
Pentru a calcula media, va trebui s adunm toate aceste 30 de valori
i s mprim suma rezultat la 30 care reprezint numrul msurtorilor.
ncepei s adunai.. Suma tuturor acestor valori este 5391. Dac mprim
aceast sum la 30, vom obine valoarea 179,7, care nu reprezint altceva
dect media nlimii celor 30 de subieci.
Ai observat probabil c v-a luat destul de mult timp s calculai
aceast medie folosind adunarea valorilor. Nu ai avut dect 30 de valori de
adunat. Acum imaginai-v c avei 3000 sau 5000 de valori. V putei da cu
uurin seama c, n asemenea condiii, calculul mediei devine extrem de
dificil i foarte susceptibil la erorile ce pot s apar. Cnd volumul datelor
este destul de mic, putem calcula media prin nsumarea valorilor i prin raportarea acestei sume la numrul de msurtori. Dac volumul de date este
80
Cristian Opariuc-Dan
ns mare, iar datele sunt grupate, vom prefera o alt metod de calcul, folosind aceste date grupate. Iat o prim aplicaie a datelor grupate. V mai aducei aminte de distribuia statistic folosit n capitolul doi? O vom reproduce
i apoi vom modifica acest tabel astfel nct s ne permit calculul mediei.
tim c intervalul de grupare este i=4, iar acest interval a fost stabilit prin
aproximare.
Urmeaz s stabilim valoarea central xk
Clasa
f
fc
%
%c
,care nu reprezint altceva
171 174
9
9 30,00 30,00
175 178
5
14 16,66 46,66
dect mijlocul intervalului
179 182
6
20 20,00 66,66
curent. Astfel, pentru pri183 186
4
24 13,33 80,00
mul interval avem valorile
187 190
3
27 10,00 90,00
191 -193
3
30 10,00 100,0
171, 172, 173, 174. Valoan=30
100%
rea central a intervalului
va fi, aadar, ntre 172 i 173, mai precis 172,5. Pentru al doilea interval,
avem 175, 176, 177, 178 i, deci, valoarea central devine n acest caz 176,5
i aa mai departe. Ultimul interval conine ns doar trei elemente i anume
191, 192, 193. Aici valoarea central va fi, deci, 192.
Tabelul 3.3 Distribuia statistic
Distribuia
n linii
|||||||||
|||||
||||||
||||
|||
|||
81
rea exact obinut prin nsumarea tuturor valorilor (5391). Acum, dac mprim totalul 5397,5 la numrul de msurtori n vom obine valoarea mediei
179,91. Aceast nou valoare difer foarte puin de media real obinut prin
nsumarea valorilor. Acest lucru se ntmpl, deoarece media pune n eviden tendina central a rezultatelor constatate ntr-o cercetare, iar gruparea datelor introduce o eroare n calculul mediei pentru c se face ipoteza c elementele fiecrei clase sunt concentrate la mijlocul intervalului, ceea ce nu
este aa. Cei zece subieci din primul interval, tim bine, nu au nlimi concentrate n jurul valorii de 172,5 i cu att mai puin subiecii din celelalte
intervale. Cu ct intervalul de grupare este mai mare, cu att aceast eroare de
grupare va avea o valoare mai mare. Statisticienii consider ns c, la volume mari de date, eroarea este neglijabil comparativ cu timpul alocat nsumrii valorilor.
Iat c, din cele expuse mai sus, putem deduce o nou formul pentru
medie, valabil n cazul datelor grupate:
=
=1
(formula 3.2)
unde fk reprezint frecvena absolut a unei clase k, xk reprezint mijlocul clasei k, iar n reprezint numrul total de subieci.
Calculnd media, se obine o msur a nivelului mediu relativ la un
eantion studiat, fapt ce permite apoi comparaii ntre grupe.
Media aritmetic prezint o serie de proprieti importante, foarte
utile nelegerii condiiilor de utilizare a acestui indicator statistic.
Adugnd sau scznd o constant la fiecare valoare (scor) individual, media se mrete sau se micoreaz cu valoarea
acelei constante;
82
Cristian Opariuc-Dan
5 6 + 1 8 + 2 9 + (3 7) 30 + 8 + 18 + 21 77
=
=
=7
11
11
11
=1
=1
(formula 3.3)
irul de date va avea valori mai mici dect mediana, n timp ce cealalt
jumtate va avea valori mai mari dect mediana. S considerm urmtorul ir de date:
Scoruri: 12, 14, 10, 11, 15, 14, 12, 20, 19, 20, 13, 11, 14, 8
Pentru a calcula mediana, primul pas este acela de a ordona cresctor
sau descresctor aceste date. Ordonnd cresctor irul de mai sus, obinem:
Scoruri: 8, 10, 11, 11, 12, 12, 13, 14, 14, 14, 15, 19, 20, 20
Dup definiia medianei, n cazul nostru avem 14 valori. Prin urmare,
mediana va fi valoarea care mparte acest ir ordonat n dou pri egale. Fiind 14 valori, mediana este situat la limita primelor apte valori. Deoarece
irul este un ir par, mediana se situeaz, n cazul nostru, ntre valoarea 13 i
valoarea 14, mai precis la valoarea 13,5. n cazul unui ir impar, mediana
este valoarea de la mijlocul unui ir. Dac relum exemplul anterior, i mai
adugm un scor, obinem:
Scoruri: 12, 14, 10, 11, 15, 14, 12, 20, 19, 20, 13, 11, 14, 8, 9
irul are acum 15 valori. Ordonnd irul, obinem:
Scoruri: 8, 9, 10, 11, 11, 12, 12, 13, 14, 14, 14, 15, 19, 20, 20
De data aceasta, la mijlocul acestui ir, gsim valoarea 13, valoarea
medianei.
Ordonnd un ir, putem preciza poziia fiecrui element n cadrul acelui ir. Astfel, dac lum irul ordonat de 15 valori din exemplul de mai sus,
obinem:
Scoruri:
8, 9, 10, 11, 11, 12, 12, 13, 14, 14, 14, 15, 19, 20, 20
Poziia:
84
Cristian Opariuc-Dan
Altfel spus, mediana nu este altceva dect poziia rangului din mijloc
n irul ordonat de date. ntr-o serie de la 1 la 15, poziia din mijlocul irului
este evident, poziia 8. Acesta este de altfel i locul n care gsim mediana.
Am accentuat asupra poziiei n ir i nu am discutat despre rang. n cazul n
care avem dou sau mai multe scoruri identice (n exemplul nostru fiind vorba despre 11, 12, 14 i 20), poziia n cadrul irului exprim poziia fizic a
acelui element. Observm c scorul 12 ocup poziia 6 i 7 n cadrul irului,
elementul 14 poziia 9, 10 i 11 i aa mai departe. Cnd vorbim de rangul
unui scor i avem mai multe scoruri care se repet, rangul acestora va fi
media aritmetic a poziiilor pe care scorurile le ocup n cadrul irului.
Astfel, dac relum exemplul nostru, l putem completa i cu rangul scorurilor, astfel:
Scoruri:8,
9, 10, 11, 11, 12, 12, 13, 14, 14, 14, 15, 19, 20,
20
Poziia:1,
2, 3,
4,
15
Rang: 1,
2, 3,
4.5, 4.5, 6.5, 6.5, 8, 10, 10, 10, 12, 13, 14.5, 14.5
5,
6,
7,
Iat, deci, c scorul 11 apare pe poziia 4 i 5 de dou ori. Prin urmare, rangul acestor scoruri este media dintre 4 i 5, adic 4,5. La fel, scorul 12
apare pe poziiile 6 i 7, rangul acestora fiind 6,5. Scorul 14 apare pe poziiile
9, 10 i 11, rangul acestora fiind 10 i aa mai departe.
Mediana poate fi calculat i atunci cnd avem datele grupate 6. n
acest sens, am reluat exemplul anterior de calcul al mediei. Ceea ce trebuie s
tim sunt frecvenele cumulate i numrul total de cazuri. n exemplul nostru,
numrul total de cazuri este 30. Mediana fiind valoarea care mparte grupul
de subieci n dou pri egale, ea poate fi calculat dup formula alturat,
unde l este limita inferioar a intervalului care conine mediana, i este intervalul de clas care conine mediana, PozMe poziia medianei, fc reprezint
6
Asemenea mediei, calculul medianei prin acest procedeu reprezint o aproximare a acesteia i nu valoarea ei exact.
85
frecvena cumulat a intervalului pre-median (totalul frecvenelor situate nainte de median, iar f reprezint frecvena absolut a intervalului medianei.
= +
(formula 3.4)
+1
2
30+1
2
175 178
179 182
183 186
187 190
191 -193
|||||
||||||
||||
|||
|||
5
6
4
3
3
n=30
14
20
24
27
30
sus, la frecvene cumulate, observm c aceast poziie corespunde intervalului 179-182, intervalul imediat superior celei de a 14-a msurtori. Limita
inferioar a acestui interval (l) este 179, intervalul de clas (i) este 4 (179,
180, 181, 182), frecvena cumulat a intervalului pre-median (fc) este 14, iar
frecvena absolut (f) este 6. Avem acum toate datele necesare pentru a le
nlocui n formul i obinem valoarea 180. Iat i valoarea medianei, pe care
o putem obine n cazul n care valorile sunt grupate n clase.
= 179 + 4
30 +1
14
2
= 179 + 4
15,514
6
= 179 + 4
1,5
6
= 180
86
Cristian Opariuc-Dan
III.2.3 Modul
Doamnele, domnioarele ne pot spune cel mai bine ce este mdul, cruia i se mai spune mod, mod sau valoare modal, n niciun caz modl cum
am auzit deseori. Un modul poate fi ataat unei staii cosmice eventual, ns
nu poate identifica indicatorul tendinei centrale despre care vrem s discutm. Deci, doamnelor, ce este n definitiv moda? Ce nelegem cnd spunem
c ceva este la mod? Desigur, ceva este la mod atunci cnd o mare parte
dintre oameni poart, utilizeaz acel lucru. Spunem c cizmele roz sunt la
mod, adic foarte multe fete poart cizme roz. Iat un alt cuvnt din limbajul
uzual, provenind din acelai cmp etimologic al statisticii. Prin urmare,
modul nu este altceva dect categoria cu frecvena cea mai mare. Foarte
complicat, ntr-adevr Dac avem irul de date:
2, 15, 16, 18, 18, 21, 21, 21, 21, 25, 26
n acest caz, observm c exist un singur 2, un singur 15, un singur
16, doi de 18, patru de 21, un 25 i un 26. Care e categoria cu frecvena cea
mai mare? Evident 21. Deci, modul este 21.
Modul poate fi calculat i n cazul n care datele sunt grupate n clase 7.
n acest caz, este prezentat mai jos formula de calcul, n care l reprezint
limita inferioar a intervalului modal (intervalul cu frecvena absolut cea
mai mare), fm reprezint frecvena absolut a intervalului modal, fm-1 frecvena absolut a intervalului pre-modal (intervalul aflat naintea intervalului modal), fm+1 frecvena absolut a intervalului post-modal (intervalul aflat dup
intervalul modal), iar i este intervalul de clas al clasei modale.
= + 2
1 +1
(formula 3.5)
Asemenea mediei i a medianei, calculul modului prin acest procedeu reprezint o aproximare a acestuia i nu valoarea sa exact.
87
Clasa
171 174
175 178
179 182
183 186
187 190
191 -193
Distribuia n
linii
||||||||||
|||||
||||||
||||
|||
|||
f
9
5
6
4
3
3
n=30
n acest caz, media este 5,5, iar mediana tot 5,5. S modificm puin
ultima cifr din setul nostru de date:
1, 2, 3, 4, 5, 6, 7, 8, 9, 20
Iat c, media devine acum 6,5, n timp ce mediana rmne 5,5. Haidei s modificm mai mult ultima cifr:
88
Cristian Opariuc-Dan
1, 2, 3, 4, 5, 6, 7, 8, 9, 100
Acum media va fi 14,5, n timp ce mediana rmne tot 5,5. Putei intui care indicator caracterizeaz cel mai bine tendina central n ultimul set
de date? Mediana, vei spune i avei dreptate. Iat c, atunci cnd avem
scoruri extreme, foarte mari sau foarte mici n comparaie cu setul de
date, mediana este un indicator mai bun dect media. Despre modul n
care depistm scorurile extreme, vom discuta ntr-un alt capitol. Pentru a nelege mai bine, lum ca exemplu veniturile zilnice ale unor persoane, dup
cum urmeaz, n RON:
100, 105, 110, 115, 120, 125, 130, 135, 140
n cazul nostru, media este 120, iar mediana este tot 120. Putem concluziona ca aceti oameni sunt relativ sraci, ctig doar 120 de RON pe zi.
Dar haidei s modificm ultima valoare, n loc de 140 vom stabili 1400. irul devine:
100, 105, 110, 115, 120, 125, 130, 135, 1400
n acest caz, media devine 260, n timp ce mediana rmne tot 120.
Putem, oare, afirma c aceti nou oameni ctig n medie 260 RON zilnic?
Categoric nu; observm c, n afar de ultima persoan, eventual un mare
latifundiar i implicat n tranzacii sportive, niciuna dintre cele opt persoane
rmase nu ctig nici mcar 150 RON, darmite 260. Dac ne-am lua dup
medie, am putea spune c oamenii acetia sunt relativ bogai, ceea ce este
complet fals. Prin urmare, acest scor extrem face media nereprezentativ pentru setul de date. Cel mai bun indicator rmne tot mediana. Desigur, mediana nu este un indicator att de sensibil ca i media, ns n momentul n care
nu putem folosi media datorit valorilor extreme, folosim mediana ca indicator al tendinei centrale.
89
90
Cristian Opariuc-Dan
n situaia n care frecvena unei categorii este mult mai mare n
comparaie cu frecvena celorlalte categorii, cel mai bun indicator al
tendinei centrale este modul.
Cel mai sensibil indicator este media, deoarece se bazeaz pe scoruri,
ns media induce erori dac avem scoruri extreme, mult mai mari sau mult
mai mici n comparaie cu celelalte scoruri. Mediana se bazeaz pe ranguri i,
de aceea, este mai puin
precis dect media, ns
i insensibil la aceste
scoruri extreme. Modul
se bazeaz pe frecvena
de apariie i este cel mai
imprecis indicator al tendinei centrale, dar i cel
mai flexibil. l putem
folosi n cazul datelor
categoriale sau n cazul
n care o categorie are o
frecven mult mai mare
n comparaie cu celelalte
categorii. De asemenea,
pentru date categoriale
(neparametrice la nivel
nominal de msurare),
putem folosi doar modul
ca indicator al tendinei
Figura 3.1 Baza de date populat cu date afiarea asociacentrale. Pentru date oriilor sub form de coduri
dinale, unde putem stabili ierarhii, putem folosi modul sau mediana, iar pentru date parametrice
(scalare) putem folosi modul, mediana sau media n funcie de tipul datelor.
91
92
Cristian Opariuc-Dan
Dup ce am introdus cele 30 de date, vom salva baza de date i vom
iniia procedura de extragere a indicatorilor tendinei centrale. Indicatorii
tendinei centrale ne sunt furnizai prin intermediul numeroaselor proceduri statistice. Cele mai
simple comenzi, pentru a nu complica inutil expunerea, le gsim n meniul Analyze i apoi n
meniul Descriptive Statistics. n traducere,
Figura 3.3 Lansarea proceanalize statistici descriptive. Primele trei codurilor de analiz descriptiv
pe frecvene
menzi din acest submeniu pot extrage indicatorii
tendinei centrale. Vom analiza doar prima comand, comanda
Frequencies, urmnd ca celelalte dou s le discutm cu alte ocazii,
deoarece presupun i alte informaii.
Comanda Frequencies sau
frecvene prezint cele trei puncte, fapt
care va duce la deschiderea unei noi casete de dialog. Dai clic pe aceast comand
i vei obine o caset ca cea din imaginea
de mai jos.
Figura 3.4 Caseta de analize descripn partea stng se afl o list cu
tive utilizndu-se frecvenele
toate variabilele din baza dumneavoastr
de date. Alturi de aceast list, se afl un buton de transfer (acel buton cu o
sgeat pe el). Urmeaz apoi lista Variable(s), care nseamn variabilele pe
care le introducem spre analiz. Pentru
a introduce o variabil spre analiz,
trebuie s o selectm, printr-un clic
simplu pe numele acesteia, din lista de
variabile din partea stng. O variabil
Figura 3.5 Includerea variabilelor spre
selectat are fundalul albastru (sau o
analiz
93
94
Cristian Opariuc-Dan
Butonul Help este butonul cu ajutorul cruia obinem asisten i informaii (n limba englez) referitoare la funcionarea acestei proceduri. Dac tii englez, nu ezitai s-l utilizai. SPSS are un tutorial excelent pe care l putei parcurge i
nelege cu succes.
95
trei puncte de suspensie deschid acum o nou fereastr. Fereastra are mult
mai multe opiuni. Pentru moment, ne vom rezuma la cele care ne intereseaz. Observm c, n partea dreapt a acestei noi ferestre, gsim seciunea
Central Tendency, adic exact ceea ce urmrim s punem n eviden. n
aceast seciune, observm casetele de bifare Mean (media), Median
(mediana) i Mode (modul). Acestea sunt elementele pe care dorim s le
calculm. Vom bifa deci, una cte una, aceste casete, prin efectuarea unui clic
simplu pe ele, astfel nct formularul s arate ca n figura de mai sus. Mai
exist i caseta de bifare Sum (suma), prin bifarea creia obinem suma
valorilor din variabila respectiv. Variabila noastr este vrsta subiecilor i
nu ne intereseaz s nsumm vrstele celor 30 de subieci. Ar fi un indicator
fr nici o relevan pentru noi.
Dup ce am bifat cele trei casete, apsm butonul Continue (continuare), pentru a prsi aceast fereastr i a ne ntoarce n cea iniial. Acum
am comunicat programului SPSS ce indicatori statistici s extrag.
Butonul Chart i Format permite afiarea unor grafice,
respectiv configurarea modalitii n care vor fi afiate rezultatele. Despre aceste butoane vom discuta cu alt ocazie.
96
Cristian Opariuc-Dan
vedem ce se ntmpl.
Iat c a aprut fereastra de rezultate sau fereastra Output. Nu vom
intra acum n detalii explicative ale acestei ferestre, pentru c s-ar putea s v
speriai de prea multe informaii i s trecei la Solitaire. Ne vom concentra
asupra celor dou tabele pe care le-a generat SPSS n partea din dreapta a
ferestrei de rezultate (partea cea mare), care nu reprezint altceva dect cele
dou tabele pe care le-am solicitat. Primul tabel conine indicatorii tendinei
centrale pe care i-am configurat n etapa anterioar.
Tabelul se numete Statistics i conine n partea de sus numele variabilei, Varsta subiectilor, pentru a putea identifica variabila cu care operm. Apoi ne d numrul de cazuri, N, i ne spune c sunt 30 de date valide (Valid) i zero date lips (Missing). Cu alte cuvinte, toi cei 30 de
subieci au nregistrat vrsta lor. Nu exist nici un subiect la care s fi uitat
s introducem aceast valoare. n continuare, ne spune c media de vrst
este 29,33 (Mean), mediana este 29 (Median), iar modul. avem o
problem. SPSS ne inforTabel 3.7 Indicatorii tendinei centrale
Statistics
meaz n josul tabelului c
Varst a subiectilor
sunt mai multe valori cu
N
Valid
30
frecvena cea mai mare i
Missing
0
Mean
29,33
c o va afia pe cea mai
Median
29,00
mic, 24 (Multiple modMode
24a
es exist. The smallest
a. Mult iple modes exist. The smallest v alue is shown
value is shown). Acesta
este, deci, un singur mod real, cel inferior, i urmeaz s vedem care este i
cealalt valoare modal, deoarece avem o distribuie cu mai multe moduri
(multimodal).
97
98
Cristian Opariuc-Dan
o Eantionarea pe cote;
o Eantionarea pe straturi;
o Eantionarea pe clusteri.
Indicatorii tendinei centrale sunt media, mediana i modul;
Media este cel mai precis indicator, urmat fiind de median i de mod;
Pentru date categoriale, singurul indicator ce poate fi utilizat este modul;
Pentru date ordinale, se poate utiliza modul sau mediana;
Pentru date parametrice se folosete modul, mediana sau media;
Media nu se folosete atunci cnd avem scoruri extreme, foarte mici sau foarte mari
n distribuia noastr;
Modul se folosete la date parametrice atunci cnd frecvena unei valori este foarte
mare n comparaie cu frecvena celorlalte valori;
Media nu poate fi folosit la date neparametrice.
99
100
Cristian Opariuc-Dan
niciuna. Vom putea ns face media acestor dou eantioane. Adunm 178 cu
165 i mprim la doi. Obinem 171,5 centimetri, un indicator mai precis
pentru media populaiei. Iat c media eantioanelor este un indicator care
aproximeaz mai bine media unei populaii. Cu ct avem mai multe eantioane, cu att putem stabili mai precis media populaiei. Aceast caracteristic a
mediei eantioanelor de a tinde ctre media populaiei poart n statistic numele de teorema limitei centrale. Asupra acestui aspect vom reveni i
vom avea ocazia s-l tratm amnunit ntr-un alt capitol.
Am studiat n primul capitol o serie de reprezentri grafice uzuale. Vom vedea cum putem reprezenta grafic datele folosind SPSS i ce semnificaie
au aceste reprezentri. Aadar, vom deschide baza de
date creat anterior, baza de date IQ, i ne propunem
s reprezentm datele noastre printr-un grafic cu bare.
n SPSS versiunea 15, modalitatea de construcie a graficelor difer radical, fiind mult mai
simpl i mai inteligent. Vom aborda aspectele grafice ale aplicaiei SPSS 15, la sfritul
acestui volum i n volumele viitoare
101
102
Cristian Opariuc-Dan
transfer pentru a o include n caseta Bars Represent ca n figura de mai jos.
Pentru moment, att avem de fcut n vederea trasrii graficului cu bare.
Exist i alte opiuni pe care le putem folosi. Seciunea Category Labels
ne permite s alegem dac pe axa
categoriilor (axa O X) va fi afiat
numrul fiecrui caz (opiunea
Case number) sau valorile unei
alte variabile categoriale pe care le
vom
specifica
(opiunea
Variable:). Seciunea Panel
by permite gruparea barelor n
funcie de o alt variabil categorial. Gruparea poate fi efectuat fie
pe linii, fie pe coloane, cazuri n
Figura 4.4 Reprezentarea prin grafic cu bare
care va trebui s specificm i varia QI pe nivele se colarizare i n funcie de sex
abilele categoriale n funcie de
care se va face gruparea, introducndu-le n listele Rows: sau
Columns:. Dac avem vreun ablon de grafic preferat, descrcat de pe
Internet sau construit de noi, l putem folosi pentru a desena graficul nostru,
bifnd caseta Use chart specification from: i apoi apsnd butonul File care se activeaz i ne invit s
ncrcm acel fiier. Putem, de asemenea, da un titlu graficului nostru apsnd butonul Titles. Utilizarea
acestui buton v-o lsm dumneavoastr ca exerciiu. Dup ce am terminat
de stabilit variabila pentru care dorim
s trasm graficul, apsm butonul
OK, care devine activ. SPSS va
Figura 4.5 Graficul cu bare simplu al
genera graficul n fereastra de rezultate
Value Coeficient de inteligenta
125
120
115
110
105
100
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Case Number
coeficientului de inteligen
103
(Output), rezultnd un desen ca n figura de mai sus. Iat, aadar, reprezentarea cu bare care ne intereseaz.
125
120
Feminin
110
105
100
125
120
Masculin
115
Sexul subiectilor
115
110
105
100
Li Li Li Gi Li Li Po Po Fa Fa Fa Fa Fa Pr Pr Gi Li Li Li Li Po Po
ce ce ce m ce ce stl stl cu cu cu cu cu im im m ce ce ce ce stl stl
u u u na u u ic ic lta lta lta lta lta ar ar na u u u u ic ic
zi
ea ea te te te te te e e zi
ea ea
u
la la
u
la la
Po
stl
ic
ea
la
Po Li Li Li Po Fa Fa
stl ce ce ce stl cu cu
ic u u u ic lta lta
ea
ea te te
la
la
Nivelul de scolarizare
104
Cristian Opariuc-Dan
graficul cu bare, se afieaz o nou fereastr care ne invit s alegem tipul
graficului pe care-l dorim. Avem de ales ntre un grafic simplu (Simple),
care ne intereseaz i pe noi, un grafic cu linii multiple (Multiple), ce
permite trasarea a dou sau mai multe variabile pe acelai grafic i un grafic de tip pivot (Drop-line), cu
ajutorul cruia putem reprezenta dou sau mai multe
categorii de date. Pentru exemplul nostru, vom alege
graficul de tip simplu. La fel ca n cazul graficului cu
bare, i aici avem cele trei opiuni cu exact aceeai
semnificaie. Vom alege, ca i n exemplul anterior,
opiunea Values of individual cases, deoarece dorim
Figura 4.7 Meniul
s reprezentm un poligon al
pentru graficul cu linii
frecvenelor individuale. Pentru
a putea lansa procedeul de definire a graficului, putem
apsa butonul Define.
Observm apariia unei ferestre identice cu fereastra pe care am ntlnit-o la graficul cu bare i care
are exact aceeai funcionalitate. Nu vom intra din
nou n detalii
Figura 4.8 Selectaasupra elemen- rea tipului de grafic cu
linii
telor pe care le
gsim aici, deoarece ele au fost discutate la graficul cu bare. Vom transfera
doar variabila Coeficient de inteligen, din lista variabilelor n lista
Line Represents, pentru a indica
programului SPSS variabila pe care
urmeaz s o reprezinte prin linii. De
Figura 4.9 Definirea graficului simplu cu
fapt, aceasta este singura diferen
linii
ntre cele dou ferestre. n fereastra
105
125
120
115
110
105
100
10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Case Number
106
Cristian Opariuc-Dan
reprezentm o singur linie i nu un grup de linii sau categorii de linii. Lansm apoi procedura de definire a graficului, prin apsarea butonului
Define.
n momentul n care am schimbat opiunea cu care vom defini datele
n zona grafic, evident, va aprea o alt fereastr de definiie a datelor, ca n
figura alturat.
Exist multe elemente comune cu fereastra anterioar, ns i seciuni
specifice pe care vom ncerca s le descriem pe scurt. Cea mai important
seciune este Line Represents, n care nu mai introducem pur i simplu
variabila, ci definim modul n care vor fi cumulate datele. Putem opta pentru
N of cases, prin care SPSS va numra apariiile fiecrei valori n irul de
date, obinnd un poligon al frecvenelor absolute pe date grupate, Cum.
N, adic apariiile fiecrei valori n irul de date (frecvenele), dar prezentate
cumulat i exprimarea procentual a acestora (sau frecvenele relative i relative cumulate) % of cases i Cum. %. Exist i posibilitatea s reprezentm grafic anumite statistici, folosind opiunea Other statistics, situaie
n care va trebui s includem variabila pentru care vom extrage anumii
indicatori statistici i, de asemenea,
s precizm ce indicatori se vor folosi prin activarea butonului
Change Statistic. Nu intrm
acum n detalii legate de aceast
opiune. n cazul nostru, am ales
opiunea Cum. N, deoarece dorim
s reprezentm frecvenele cumulate
Figura 4.13 Poligonul frecvenelor
absolute. Avem de stabilit i variabicumulate
la pentru care vom desena poligonul
frecvenelor cumulate absolute, pe care trebuie s o introducem n cmpul
Category Axis:, folosind butonul de transfer din faa acestui cmp. Acum,
30
Cumulative Frequency
25
20
15
10
100
101
103
104
105
107
108
109
110
111
120
121
124
Coeficient de inteligenta
107
submeniul Pie....
De aceast dat, nu mai avem ce tip de
grafic plcint s selectm, iar urmtoarea Figura 4.15 Alegerea tipului de
grafic
fereastr prezint doar cele trei opiuni pe care
le-am discutat. Vom selecta acum prima
opiune, Summaries for groups of
cases, deoarece ne intereseaz s reprezentm grafic frecvenele cu care
apar subiecii cu studii primare, cei cu
gimnaziu, cu liceu etc. i, n plus, aceast reprezentare s aib un caracter procentual. Deci, alegnd aceast opiune,
SPSS va aduna cazurile care au o aceeai valoare.
Figura 4.16 Configurarea reprezentrii
prin diagram de structur
108
Cristian Opariuc-Dan
Pentru a defini graficul, procedm ca i n exemplul anterior, apsnd
butonul Define. Se va deschide fereastra de definire a graficului, o fereastr pe care o cunoatem deja de la reprezentarea poligonului frecvenelor cumulate. Singura deosebire const n seciunea Slices Represents sau, tradus, ce reprezint feliile plcintei. Evident, n aceast seciune am selectat
opiunea % of cases, adic am comunicat programului SPSS s-mi reprezinte grafic procentul n care se gsete fiecare nivel al acestei variabile n
eantionul total.
Desigur, trebuie s precizm i variabila pentru care vor fi reprezentate grafic procentele. Acest lucru l putem face prin transferarea variabilei
Nivelul de colarizare din lista variabilelor din baza de date n caseta Define Slices by: Selectai, aadar, variabila n lista variabilelor din baza de
date i apsai butonul de transfer din
faa acestui element pentru a obine o
imagine ca n figura alturat. n acest
moment, se activeaz i butonul OK
pe care va trebui s apsm pentru a
lansa n execuie procedura de desenare a graficului. Dup cteva momente,
Figura 4.17 Diagrama de structur pentru
obinem n fereastra de rezultate urmnivelul de studii
torul grafic plcint:
Nivelul de scolarizare
Primare
Gimnaziu
Liceu
Postliceala
Facultate
Observm c acest grafic prezint i o legend prin care suntem informai asupra categoriilor variabilei analizate. Putem cu uurin constata c
majoritatea subiecilor sunt absolveni de liceu, apoi, n proporii relativ egale, absolveni de postliceal i facultate. Cei mai puini sunt cei cu studii primare i gimnaziale.
Iat, aadar, cteva metode extrem de simple prin care putem desena
grafice intuitive utiliznd aplicaia SPSS. Toate aceste statistici pe care le-am
109
prezentat i pe care le vom mai prezenta fac parte din analiza de date exploratorie, deoarece scopul acesteia este acela de a explora, de a cunoate structura datelor analizate.
V mai amintii, desigur,
fereastra studiat n capitolul anterior, prin care am calculat indicatorii tendinei centrale. Iat-o, v-o
reamintesc, iar dumneavoastr va
trebui s gsii comenzile prin
care s ajungei la ea, deoarece
reprezentarea grafic a datelor se
Figura 4.18 Selectarea variabilei ce urpoate face i n acest mod. S inmeaz s fie reprezentat
troducem, la fel ca n capitolul
anterior, variabila Coeficient de inteligen, pentru a extrage indicatorii
tendinei centrale. Sper c v amintii cum se face. Dac nu, v dau un indiciu: folosii butonul Statistics. Iat c, lng acest buton, se afl un alt
buton, butonul Charts pe care vom
apsa. Se deschide o nou fereastr, n
care putem stabili ce grafic s desenm
pentru variabila introdus n analiz.
Opiunea None nu deseneaz niciun
fel de grafic i ignor setrile grafice.
Opiunea Bar charts deseneaz un
grafic cu bare, opiunea Pie charts
deseneaz grafice plcint i, iat, opiunea Histograms: ne permite desenaFigura 4.19 Modul de reprezentare
rea unei histograme. Aceast opiune o
grafic din analiza frecvenelor
ntlnim aici, alturi de caseta de bifare
With normal curve ce permite desenarea curbei normale care caracterizeaz datele din variabila noastr. Nu vom
110
Cristian Opariuc-Dan
bifa acum aceast caset, deoarece despre curba normal vom discuta ntr-un
alt capitol. Ne rezumm s alegem doar graficul sub form de histogram.
Anumite grafice pot fi reprezentate sub form de frecvene absolute
(opiunea Frequencies) sau sub form de frecvene relative (opiunea
Percentages), prin selectarea uneia dintre cele dou opiuni din seciunea
Chart Values. Folosind
aceast fereastr, avem de
Histogram
configurat mult mai puine
elemente. Deoarece am introdus anterior variabila pe
care dorim s o analizm,
SPSS va lua singur decizia
modului n care va desena
graficul. Apsm butonul
Continue pentru a confirma aciunea noastr i
Coeficient de inteligenta
apoi butonul OK pentru a
Figura 4.20 Histograma pentru coeficientul
lansa analiza.
5
Frequency
Mean =111,33
Std. Dev. =8,511
N =30
100
105
110
115
120
125
de inteligen
Dup cteva momente, SPSS va extrage indicatorii tendinei centrale sub forma celor dou tabele
discutate n capitolul anterior, ns ne va oferi i histograma variabilei Coeficient de inteligen, alturi de o serie de date din inventarul statistic de
baz, pe care le vom discuta ntr-un alt capitol.
rile de date de mai sus, ne putem face o imagine intuitiv asupra acestor scoruri extreme. Exist oare o metod mai precis de a le depista? Rspunsul
este pozitiv i vom prezenta n continuare dou tipuri de grafice deosebite,
dar care pot caracteriza mai precis scorurile extreme.
Frunzele
2
2299
0005
Cristian Opariuc-Dan
Pentru a nelege mai bine, s considerm un set mai voluminos de date: 1, 1,
2 ,2 ,2 , 5, 5, 5, 12, 12, 12, 12, 14, 14, 14, 14, 15, 15, 15, 18, 18, 24, 24, 24,
24, 24, 24, 25, 25, 25, 25, 25, 25, 25, 28, 28, 28, 28, 28, 28, 28, 32, 32, 33,
33, 33, 33, 34, 34, 34, 34, 34, 35, 35, 35, 35, 35, 42, 42, 42, 43, 43, 44. Pentru
acest set de date, avem urmtorul grafic tulpin i frunze:
0
1
2
3
4
11222555
2222444455588
44444455555558888888
22333344444455555
222334
0000022222222333333333555555555555555777777777777799999999
000000033333888
3
4
Observm c graficul ne indic faptul c majoritatea scorurilor se situeaz sub 20, ns avem i un scor extrem, scorul 64. Iat deci o situaie tipic, n care mediana va fi cel mai bun indicator al tendinei centrale. Totui,
acest grafic efectuat pe blocuri de 10 valori nu este foarte informativ. Nu
avem o reprezentare foarte clar a scorurilor sub 20, deoarece exist foarte
multe. Prin urmare ar fi mai comod pentru noi s reprezentm grafic aceste
scoruri folosind nu blocuri de 10, ci blocuri de cinci (ntre 0 i 4, apoi ntre 5
113
0000022222222333333333
555555555555555777777777777799999999
000000033333
888
3
4
Cristian Opariuc-Dan
Test 1
9999999977777777777775555555555555553333333332222222200000
888333330000000
3
0
1
2
3
4
5
6
Test 2
11222555
2222444455588
44444455555558888888
22333344444455555
222334
115
Pivot inferior
valoarea 12
Pasul 4 Stabilirea scorurilor extreme. Un scor extrem este un scor care depete o dat i jumtate
valoarea factorului h-spread raportat la cei doi pivoi. Aceste puncte de referin se numesc limite de barier. n cazul nostru, 1,5 x 8 = 12. Deci limitele
116
Cristian Opariuc-Dan
de barier sunt 12 12 = 0 i 20 + 12 = 32. Scorurile mai mici de 0 vor fi
considerate extreme, deoarece depesc limita de barier inferioar n jos, iar
scorurile mai mari de 32 vor fi considerate de asemenea extreme, deoarece
depesc n sus limita de barier superioar.
Pasul 5 Scorurile care se afl ntre pivoi i limitele de barier, mai
apropiate de limitele de barier se numesc scoruri adiacente. n cazul nostru,
scorurile adiacente sunt 2 i 25, deoarece 2 se afl ntre 0 i 12, iar 25 este
situat ntre 20 i 32.
2, 12, 12, 19, 19, 20, 20, 20, 25
Liniile cuprinse ntre pivoi i bariere (zonele scorurilor
adiacente) poart numele de
musti, iar dreptunghiul format de cei doi pivoi, care conine mediana, se numete cutie.
De aici provine i numele graficului, grafic cutie sau cutie cu
musti. Zona mustilor reprezint de fapt amplitudinea
scorurilor care prsesc zona
aa- numit normal, delimitat
de cei doi pivoi, scoruri care
ns rmn n limitele barierelor.
Orice scor care iese din limita
barierelor se numete scor extrem.
Dac reconsiderm irul
anterior de date, 0, 0, 0, 0, 0, 2,
117
2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5,
5, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 9, 9, 9, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10, 10,
10, 13, 13, 13, 13, 13, 18, 18, 18, 23, 64, atunci graficul nostru se va prezenta
ca n figura de mai jos.
Iat c observm existena a
dou scoruri extreme ns. acestea
sunt notate cu 77 i 76. Am fi nclinai s credem c aceste valori reprezint scorurile nsei. Totui, s
nu uitm c acest grafic se bazeaz
pe poziia unui scor n irul ordonat
de date. Prin urmare, 77 i 76 nu
reprezint scorurile propriu- zise, ci
poziia acestora n irul ordonat de
date. Deci poziia 77 se refer la
Figura 4.23 Graficul box-plot n SPSS. Se observ scorul extrem, al 77-lea element
ultimul scor, adic la valoarea 64,
iar poziia 76 la penultimul scor,
adic la valoarea 23. Avem, aadar, dou scoruri extreme n irul nostru de
date i anume scorul 23 i 64. Desigur, n acest caz, indicatorul care exprim
cel mai bine tendina central este mediana. Programul SPSS ofer i o modalitate de a marca scorurile extreme. Observm c alturi de poziia 77 (corespunztoare scorului 64) apare o stelu. Aceast stelu are rol de avertisment, n sensul c valoarea 64 este foarte ndeprtat de limita superioar a
irului de date. De asemenea, alturi de poziia 76 (corespunztoare scorului
23) apare un cercule. Acest cercule ne spune c, dei 23 este i el un scor
extrem, nu este, totui, att de deprtat de limita superioar a irului de date.
70,00
77
60,00
50,00
40,00
30,00
76
20,00
10,00
0,00
Exemplu
118
Cristian Opariuc-Dan
Un scor extrem duce la o distribuie de date care nu mai respect criteriul
normalitii, face media un indicator irelevant pentru acel set de date i, implicit, determin imposibilitatea utilizrii statisticilor parametrice. Totui, de
unde pot s apar aceste scoruri extreme? Ce surse pot determina prezena
unor asemenea valori? (Popa, 2003)
Erorile de eantion se refer la situaia n care eantionul estras este prea mic, iar posibilitatea de apariie a unui caz atipic
(extrem) va deveni foarte mare, dar i la cazul n care eantionul a fost extras dintr-o populaie asimetric. Putem, de exemplu, s studiem nlimea unor subieci dintr-un liceu, iar pentru aceasta extragem zece persoane din dou clase. Probabilitatea ca un elev s fie baschetbalist este destul de mare. Dac
avem ghinionul s l selectm tocmai pe acela, va aprea,
evident, i un caz extrem. De asemenea, dac una dintre clase
este reprezentat de clasa de sport, cu elevi nali, printre care
am gsit i un elev cu nlime normal, acea nlime normal
se va comporta ca un caz extrem;
119
120
Cristian Opariuc-Dan
121
122
Cristian Opariuc-Dan
Acionarea butonului Plots determin afiarea unei alte ferestre,
care va configura modul de prezentare grafic a datelor. i aici avem mai
multe informaii. Pentru nceput observm c este bifat caseta Stem-andleaf, adic va fi afiat graficul tulpin i frunze.
De asemenea, vom afia i histograma, bifnd caseta Histogram.
Seciunea Boxplots, situat n partea stng-sus, permite configurarea modului de calcul al graficului cutie cu musti discutat anterior. Putem opta
pentru combinarea nivelurilor variabilei categoriale (dac am inclus vreuna n
fereastra anterioar), alegnd Factor levels together sau putem combina
mai multe variabile incluse n lista variabilelor independente alegnd opiunea Dependents together. Desigur, putem renuna la afiarea acestui grafic,
selectnd
opiunea
Tabel 4.1 Sumarul cazurilor
Case Processing Summary
None. n cazul nostru,
Cases
Valid
Missing
Total
avnd doar o singur variaN
Percent
N
Percent
N
Percent
Varsta subiectilor
30
100,0%
0
,0%
30
100,0%
bil inclus spre analiz, pe
oricare dintre primele dou opiuni am alege-o, obinem acelai efect. Prsirea acestei casete va fi fcut tot prin apsarea butonului Continue. Nu ne
rmne acum dect s apsm butonul OK pentru a lansa procedurile de
analiz. n fereastra de rezultate avem acum mai multe tabele i grafice.
n
tabelul
Case
Processing Summary ne sunt
St at ist ic
St d. Error
Varst a subiectilor Mean
29,33
1,008
95% Conf idence
Lower Bound
27,27
prezentate numrul de cazuri.
Interv al f or Mean
Upper Bound
31,40
Aflm c avem 30 de cazuri vali5% Trimmed Mean
29,33
Median
29,00
Variance
de, adic 30 de subieci ce au date
30,506
St d. Dev iation
5,523
Minimum
20
completate pentru variabila VrMaximum
39
Range
19
sta subiecilor, ceea ce reprezint
Interquart ile Range
10
Skewness
,116
,427
un procent de 100%. Evident, nu
Kurt osis
-,878
,833
avem nici un caz lips (Missing)
i, corespunztor, un procent de 0%. n total, sunt deci 30 de cazuri ce reprezint un procent de 100%.
Tabel 4.2 Descriptives
Statistici descriptive
123
Stem &
2
2
2
2
2
3
3
3
3
3
.
.
.
.
.
.
.
.
.
.
Leaf
001
44444
666
899999
0111
2
455
77
889
10
1 case(s)
39
36
33
30
27
24
21
Varsta subiectilor
124
Cristian Opariuc-Dan
i 29 de ani i nu exist scoruri extreme. Pentru a fi siguri de acest lucru, privim urmtorul grafic, graficul cutie. Constatm lipsa scorurilor extreme,
mediana fiind situat la valoarea 29 i o distribuie destul de uniform a acestor rezultate.
Putem afirma, deocamdat, c aceste date permit utilizarea mediei ca
indicator al tendinei centrale pentru setul nostru.
n concluzie:
125
Indicatorii tendinei centrale caracterizeaz, dup cum am vzut, valoarea n jurul creia se grupeaz datele. Ei au, desigur, o mare putere informativ, ns nu ne prezint o msur a compoziiei acestor date. De exemplu,
media greutii unui numr de 2 copii este 20 Kg. Cei doi copii pot s aib 20
de Kg fiecare, unul 10 Kg i cellalt 30 Kg sau unul 15 Kg, iar cellalt 25 Kg
i aa mai departe. Iat c indicatorii tendinei centrale nu pot caracteriza singuri o distribuie. Avem nevoie, pentru aceasta, de o msur a gradului de
rspndire, de mprtiere a datelor n jurul tendinei centrale, cum se repartizeaz rezultatele n jurul acestei valori. Aceti indicatori, care msoar gradul
de mprtiere a rezultatelor n jurul tendinei centrale poart numele de indicatori ai mprtierii. Indicatorii mprtierii pot fi grupai n indicatori elementari ai mprtierii i indicatori sintetici ai mprtierii.
Modelul statistic al mediei va trebui, aadar, completat cu ali indicatori caracteristici gradului de mprtiere a rezultatelor n jurul tendinei centrale. Dac relum exemplul cu prietenii mei i numrul de frai pe care fiecare dintre ei i are, am stabilit c, primul prieten are un frate, al doilea are doi
frai, al treilea i al patrulea au cte trei frai i al cincilea are patru frai. Re126
Cristian Opariuc-Dan
zultase o medie de 2,6 frai, cu alte cuvinte doi frai ntregi i unul fr un
picior. Fiind un model statistic, media estimeaz o realitate. S vedem acum
dac aceast medie estimeaz corect sau nu realitatea frailor prietenilor mei.
+1,4
+0,4
+0,4
m=2,6
-0,6
-1,6
Figura 5.1 Diferenele dintre scorul observat i medie
scorurile mai mari dect media. Totui, cum putem obine mrimea erorii?
Cum putem estima dac modelul statistic este o imagine suficient de bun
pentru a reprezenta realitatea? Vom vedea imediat. Pentru nceput, s ne concentrm asupra unor indicatori elementari ai mprtierii.
% =
(formula 5.1)
128
Cristian Opariuc-Dan
valori, iar media acestora este 19,6. Amplitudinea relativ de variaie este, n
cazul nostru, 102%. Amplitudinea relativ de variaie o putem utiliza n condiiile n care cunoatem domeniul teoretic ntre limitele cruia se ncadreaz
distribuia. Putem astfel s comparm amplitudinea real de variaie a datelor
cu amplitudinea de variaie teoretic.
Indicatorii amplitudinii de variaie pot fi utilizai atunci cnd cunoatem plaja de variaie normal a unui fenomen, deoarece apariia unor valori
extreme duce la amplitudini de variaie aberante. n exemplul nostru, dac
introducem o singur valoare n plus, 120, atunci minimul rmne 9, iar maximul devine 120. Amplitudinea de variaie va fi 120 9 = 111, desigur o
valoare suspect pentru irul nostru de date.
Analiznd figura alturat, observm c cele dou distribuii au aceeai amplitudine de variaie. Totui, forma lor difer foarte mult. n timp ce distribuia A
este puternic eterogen, distribuia B este
mult mai omogen.
mici dect al doilea cuartil (Q2 iat c, de fapt, Q2 nu este altceva dect mediana), iar trei sferturi din valori (75%) sunt mai mici dect al treilea cuartil
(Q3). Abaterea cuartil nu este altceva dect diferena dintre cuartilul 3
i cuartilul 1.
Prin urmare, RQ=Q3 Q1. (formula 5.2)
Abaterea cuartil poate fi absolut cazul prezentat sau relativ, raportat la median (abaterea intercuartil relativ).
% =
3 1
2
(formula 5.3)
Dac mprim abaterea cuartil la valoarea 2, adic dac facem media diferenei dintre Q3 i Q1, obinem abaterea semi-intercuartil.
RSQ= RQ:2 =
3 1
2
(formula 5.4)
+1
4
11
4
date n patru pri egale. Urmrind irul ordonat de date, poziia 2,75 se afl
ntre 9 i 10, adic la 9,5. Al doilea cuartil, mediana (Q2), se va afla la de dou ori poziia primului cuartil, adic 2x2,75 = 5,5. S-a observat probabil c ai
obinut exact poziia medianei. n cazul nostru, poziia 5,5 este cuprins ntre
22 i 23, adic 22,5. Similar, al treilea cuartil (Q3) este de trei ori poziia primului cuartil, adic 3x2,75=8,25. Iat c, valoarea lui Q3 se afl ntre 27 i
29, adic 28. Abaterea cuartil devine, aadar, RQ=Q3Q1=289,5=18,5. Cu
alte cuvinte, ntre valoarea obinut de 75% din populaie i valoarea obinut
130
Cristian Opariuc-Dan
de 25% din populaie pot exista cel mult 18,5 valori diferite. Iat c doar 18,5
puncte fac diferena dintre persoanele considerate slabe sau cu scoruri inferioare i persoanele considerate bune, cu scoruri superioare. Observai c
acest indicator este mai precis n comparaie cu amplitudinea. Dac vei include acum acel scor de 120, vei constata c nu influeneaz deloc valoarea
abaterii cuartile. Abaterea semi-intercuartil va fi, prin urmare,
RSQ=RQ:2=18,5:2=9,25. Acest lucru nseamn c, teoretic, 9,25 valori ar trebui s fie mai mici dect mediana i tot attea valori mai mari dect mediana.
Din grupul oamenilor medii, 9,25 valori i difereniaz pe cei mediu-slabi
i 9,25 valori pe cei mediu-buni.
Similar medianei, cuartilele pot fi calculate folosind i date grupate.
Dac vom considera distribuia statistic din tabelul alturat:
Tabelul 5.1 Calculul cuartilelor
Cuartilul inferior (Q1) va fi situat n poziia
+1
4
45
4
= 11,25, iar
Clasa
<= 4
59
10 14
15 19
20 29
30 39
>= 40
Distribuia
n linii
||
||||||
||||||||
||||||||||||
||||||||||
||||
||
fc
2
6
8
12
10
4
2
n=44
2
8
16
28
38
42
44
131
+1
2
diana nu era altceva dect Q2, valoarea preciza, de fapt, poziia cuartilului al
doilea. Deci, singura modificare n formul ar fi nlocuirea poziiei medianei
cu poziia cuartilului care ne intereseaz. Formula generalizat devine cea
alturat, unde PQn nseamn poziia cuartilului n (1, 2 sau 3), iar fcQn-1 frecvena cumulat a intervalului pre-cuartil de ordin n.
= +
(formula 5.5)
+1
4
+1
4
+1
4
, poziia lui Q2
. Aplicnd n formu-
1 11
3 31
= 10 + 5
= 20 + 10
11,258
8
33,7528
10
= 10 + 5
3,25
8
= 20 + 10
= 12,03
5,75
10
= 25,75
132
Cristian Opariuc-Dan
iile n care setul de date este unul ordonat. Mediana este valoarea la care se
situeaz 50% din eantion, cuartilele sunt valorile la care se situeaz 25%,
50%, 75% din eantion i aa mai departe. n termeni generali, putem afla
orice valoare la care se situeaz un anumit procent din eantion. Astfel, dac
vom dori s aflm valorile la care se afl procente de 20% din eantion, vom
avea cinci categorii cvintile. Procentele de 33,33% reprezint valorile
trecile i aa mai departe. Generic, valoarea la care se afl un anumit procent
din populaie poart numele de percentil. nelegerea conceptului de
percentile are o importan deosebit n problematica realizrii etaloanelor, a
normelor, prin metoda cuantilrii, metod folosit de obicei ntr-o distribuie
care nu este normal. Despre aceste lucruri vom discuta, ns, atunci cnd
vom aborda sistemele de etalonare.
133
Dac avem, spre exemplu, urmtoarele 4 msurtori: 25, 23, 21, 27,
atunci, cu aceste valori putem forma un numr de 42 ,adic 16 perechi de diferene dup cum urmeaz:
2525; 2523; 2521; 2527; 2325; 2323; 2321; 2327; 2125;
2123; 2121; 2127; 2725; 2723; 2721; 2727.
Fcnd apoi diferenele, obinem:
0; 2; 4; -2; -2; 0; 2; -4; -4; -2; 0; -6; 2; 4; 6; 0
Analiznd aceste diferene, observm c nu reprezint altceva dect
modul n care se abat valorile unele fa de altele. Fcnd apoi suma acestor
valori, luate fr semn, obinem:
0+2+4+2+2+0+2+4+4+2+0+6+2+4+6+0 = 40
Indicatorul diferenelor medii al lui Gini nu este altceva dect media
diferenelor luate n valori absolute. Aceast sum va fi, aadar, mprit la
numrul de perechi rezultate (16). Obinem, aadar, 40:16 = 2,5, care reprezint valoarea acestui indicator. Mai condensat, am putea scrie acest lucru
astfel:
=
=1
=1
(formula 5.6)
V.2.2 Oscilaia
Calculul oscilaiei reprezint tot o medie a diferenelor dintre perechi,
ns, de aceast dat, ordinea de efectuare a msurtorilor conteaz. n mod
134
Cristian Opariuc-Dan
normal, sunt rare situaiile n care ne intereseaz ordinea de efectuare a msurtorilor. Vizm acest fapt ndeosebi n experimente, atunci cnd ntre msurtori intervenim prin manipularea unor variabile. Dac avem, de exemplu,
urmtoarele 4 msurtori ale ritmului cardiac al unui subiect la prezentarea
unor imagini 80, 85, 91, 96, constatm c, de la o msurtoare la alta, ritmul
cardiac s-a accelerat i putem concluziona c imaginile au avut ca efect creterea constant a tensiunii psihice manifestate prin astfel de reacii. Dac ns
ordinea msurtorilor ar fi fost 80, 96, 91, 85, atunci am observa c avem de
a face cu o cretere rapid a tensiunii psihice urmat de o diminuare progresiv a acesteia. Este cu totul altceva. Iat c, uneori, ordinea msurtorilor
poate avea o semnificaie important. n asemenea situaii, se calculeaz oscilaia ca indicator sensibil la aceste diferene.
Oscilaia nu este altceva dect media diferenelor dintre o valoare i
cea anterioar i se poate calcula n valori absolute sau relative, iar numrul
acestor diferene este n-1.
Oscilaia absolut reprezint un indicator care furnizeaz volumul
oscilaiilor aprute de la o msurtoare la alta i se calculeaz utilizndu-se
valorile absolute ale diferenelor dup formula urmtoare:
=
=2
1
1
(formula 5.7)
Relund cele dou exemple anterioare, obinem pentru oscilaia absolut a primului set de date, valoarea:
=
85 80 + 91 85 + 96 91
= 5,33
3
Pentru al doilea set de date, obinem, dup efectuarea calculelor, urmtoarea valoare:
=
96 80 + 91 96 + 85 91
=9
3
135
=2
1
1
(formula 5.8)
136
Cristian Opariuc-Dan
=1
(formula 5.9)
137
Dac avem urmtoarele date 10, 22, 31, 9, 24, 27, 29, 9, 23, 12, pentru
care media este 19,6, iar numrul de msurtori este 10, avem:
Tabel 5.2 Calculul
abaterii medii
xi
10
22
31
9
24
27
29
9
23
12
xi-m
-9,6
2,4
11,4
-10,6
4,4
7,4
9,4
-10,6
3,4
-7,6
| xi-m|
9,6
2,4
11,4
10,6
4,4
7,4
9,4
10,6
3,4
7,6
76,8
=1
(formula 5.10)
S lum urmtorul
exemplu de distribuie n
clase. tim dintr-un capitol
anterior c media calculat a
acestei distribuii este 179,9.
Similar exemplului anterior
va trebui s calculm diferena dintre mijlocul fiecrui interval i medie, diferen pe care o vom considera n valori absolute. Cu alte cuvinte, dorim s aflm n ce msur se abaTabel 5.3 Calculul abaterii medii (clase)
Clasa
171 174
175 178
179 182
183 186
187 190
191 -193
xi
172,5
176,5
180,5
184,5
188,5
192
f
9
5
6
4
3
3
n=30
|xi-m|
7,4
3,4
0,6
4,6
8,6
12,1
|xi-m|*f
66,6
17
3,6
18,4
25,8
36,3
=167,7
138
Cristian Opariuc-Dan
te fiecare interval de la media general a eantionului. Urmeaz apoi s nmulim aceste abateri cu frecvena absolut a fiecrui interval i s realizm
suma acestor rezultate. n cazul nostru, suma abaterilor intervalelor de la media general este 167,7. mprind aceast valoare la numrul de msurtori,
obinem 5,59, care nu reprezint altceva dect abaterea medie (d) calculat pe
intervale de clase.
V.2.5 Dispersia
Atunci cnd putem utiliza media, un indicator frecvent este indicatorul dispersiei sau indicatorul varianei (atenie, nu variaie, ci varian) notat
cu 2 pentru populaie sau s2 n cazul unui eantion. Variana reprezint media ptratic a diferenelor valorilor individuale fa de media aritmetic i
are o relaie direct cu cel mai important indicator al gradului de mprtiere
a rezultatelor, abaterea standard.
n loc s folosim valorile absolute (n modul) pentru a realiza suma diferenelor, preferm s ridicm la ptrat aceste diferene. tim foarte bine c
139
dac ridicm un numr la ptrat, indiferent de semn, rezultatul este ntotdeauna pozitiv. Iat o alt modalitate prin care evitm anulrile reciproce
determinate de semn.
Pentru fraii prietenilor mei, vom avea:
(-1,6)2+(-0,6)2+(0,4)2+(0,4)2+(1,4)2
2,56+0,36+0,16+0,16+1.96 = 5,20
Aceast valoare, 5,20, poart numele de suma abaterilor ptratice i
reprezint un indicator mai bun dect suma abaterilor simple luate n modul.
La fel, aceast sum depinde de numrul de cazuri i de aceea, pentru a compensa acest lucru, se mparte suma abaterilor ptratice la numrul de cazuri.
n situaia noastr, 5,20:5=1,04, exact valoarea varianei.
Ajuni aici, se impune, totui, o precizare. mprirea la numrul cazurilor (n) se realizeaz atunci cnd vorbim de o populaie. Dac ne referim la
eantion, atunci nu mprim la numrul de cazuri, ci la numrul de cazuri
minus unu (n-1). Aceasta este o ajustare statistic, iar motivele care o susin
vor fi explicate mai trziu. Iat c, 5,20:4 = 1,30 este adevrata msur a varianei.
Formula de calcul a dispersiei este urmtoarea, n care xi reprezint
valoarea msurat, x barat media, iar n numrul de msurtori.
2 =
=1
(formula 5.11)
n activitatea curent, deoarece lucrm cu eantioane i nu cu populaii, se nlocuiete n cu n-1, astfel nct formula dispersiei pentru eantioane
devine:
2 =
=1
(formula 5.12)
140
Cristian Opariuc-Dan
i dispersia se poate calcula pe date discrete sau pe date grupate n
intervale.
Relund exemplul anterior, ne amintim c avem urmtoarele date: 10,
22, 31, 9, 24, 27, 29, 9, 23, 12, pentru care media este 19,6, iar numrul de
msurtori este 10. Vom utiliza un tabel similar cu
Tabel 5.4 Calculul
cel prezentat n exemplul de mai sus i vom analiza
dispersiei
xi
xi-m
(xi-m)2
formula.
10
22
31
9
24
27
29
9
23
12
-9,6
2,4
11,4
-10,6
4,4
7,4
9,4
-10,6
3,4
-7,6
92,16
5,76
129,96
112,36
19,36
54,76
88,36
112,36
11,56
57,76
684,4
Privind cu atenie, observm c trebuie s facem, prima dat, diferena dintre scorul brut i medie (xi-m), la fel ca n procedura de calcul a abaterii
medii. Deoarece obinem valori negative i valori
pozitive, dac le-am nsuma n aceast etap, valorile contrare s-ar anula reciproc i nu am obine nici o
informaie sintetic util. Pentru a preveni acest lu
cru, vom ridica la ptrat fiecare diferen. n acest
fel, compensm anularea reciproc ce poate s apar la nsumarea valorilor,
toate valorile rezultate fiind pozitive. Dup ridicarea la ptrat, putem face,
fr s ne preocupe anularea valorilor, suma rezultatelor (suma abaterilor
ptratice). n cazul nostru, suma abaterilor ptratice este 684,4. mprind
acum suma ptratelor la numrul de msurtori (10), obinem valoarea 68,44,
ca valoare a indicatorului varianei sau dispersiei. Deoarece lucram cu un
eantion i nu la nivelul populaiei, mprirea o vom face la n-1 (10-1=9),
rezultnd valoarea corectat a dispersiei. Deci, pentru setul nostru de date,
variana s2=70,04.
Pentru date grupate n intervale de clas, formula de calcul a varianei
se modific puin, unde fi reprezint frecvena absolut a intervalului de clas,
xi reprezint mijlocul acestui interval, restul elementelor fiind cunoscute.
2 =
=1
(figura 5.13)
141
2 =
=1
(figura 5.14)
Cristian Opariuc-Dan
v este foarte util o expresie de genul n medie, numrul de frai ridicat la
ptrat, cu care se abat fraii prietenilor mei de la media de 2,6 frai, este de
1,3 frai. Cred c, mai degrab, v poate crea confuzie. Acest lucru se ntmpl deoarece, pentru a evita problemele legate de semn, am ridicat la ptrat diferenele. Cum scpm acum de aceast ridicare la ptrat? V mai
amintii probabil c inversul ridicrii la ptrat este extragerea rdcinii ptrate
(a radicalului). Exact acest lucru l vom face i noi. Extrgnd radical din 1,3
vom obine valoarea 1,14, expresia abaterii standard. Putem acum afirma c,
n medie, numrul de frai ai prietenilor mei se abate de la valoarea de 2,6 cu
1,14.
Abaterea standard se calculeaz dup formula urmtoare, unde toate
datele ne sunt deja cunoscute. Dac privim cu atenie aceast formul, constatm c expresia de sub radical nu este altceva dect variana. Prin urmare,
dup ce calculm variana, putem afla uor abaterea standard, extrgnd radicalul de ordin doi din varian.
=
=
=1
=1
= 2 (formula 5.15)
= 2
(formula 5.16)
n primul exemplu, cel n care am folosit date discrete, variana obinut a fost s2=70,07. Deci, abaterea standard va fi egal cu rdcina ptrat
din 70,07, adic 8,37. Similar, pentru datele grupate n intervale, variana a
fost 44,77, iar abaterea standard devine 6,69.
Abaterea standard msoar modul n care rezultatele se mprtie n
jurul mediei, valorile mari indicnd un grad mare de mprtiere. Este, dac
dorii, un indicator ce arat n ce msur media este reprezentativ pentru
observaii, n ce msur modelul statistic se potrivete cu modelul real. Abaterile standard mici arat c valorile sunt puin distanate fa de medie, acest
143
144
Cristian Opariuc-Dan
= 100,
=
100,
(formula 5.17)
(formula 5.18)
145
Un coeficient de variaie cuprins ntre 15% i 30% arat o mprtiere moderat, caz n care reprezentativitatea mediei este
satisfctoare;
Un coeficient de variaie de peste 30% arat o mprtiere mare, media nemaifiind un bun indicator pentru tendina central.
146
Cristian Opariuc-Dan
lelor supuse analizei (Variable(s)) din partea dreapt a formularului, aa
cum se poate observa n figura 5.4. Asupra modului n care se face acest
transfer nu mai insistm, deoarece procedeul a fost descris pe larg n capitolul
destinat indicatorilor tendinei centrale. Dac nu v putei aminti, revedei
capitolul 3.
Dup transfer, va trebui s comunicm aplicaiei SPSS s ne calculeze
indicatorii mprtierii. V amintii probabil c acest lucru l putem face apsnd butonul Statistics situat n partea de jos a acestui formular. Imediat, se va deschide o nou fereastr, cunoscut de la calculul indicatorilor tendinei centrale. Observm, n partea din stnga-jos a acestei ferestre, seciunea destinat calculului indicatorilor dispersiei
(seciunea Dispersion). Vom putea calcula
abaterea standard, prin bifarea casetei Std.
deviation,
variana,
bifnd
caseta
Variance sau amplitudinea de variaie cu
ajutorul casetei Range. De asemenea, este
posibil afiarea valorii minime i maxime din
Figura 5.5 Selectarea
indicatorilor mprtierii
distribuia noastr prin bifarea casetelor Minimum i Maximum. Seciunea permite i
calcularea erorii standard a mediei (caseta S.E mean), ns asupra acestui
element vom reveni ceva mai trziu.
Vom alege, dup cum putei observa n figura de mai sus, afiarea
abaterii standard, a varianei, amplitudinii
distribuiei, minimului i maximului. Apsm apoi butonul Continue pentru ca
SPSS s memoreze comenzile noastre i
ne ntoarcem n formularul anterior. Nu ne
mai rmne dect s apsm butonul
OK, pentru a lansa procedeul de analiz.
147
Dup cteva fraciuni de secund, SPSS va afia n fereastra de rezultate tabelul cu rezultatele comandate de noi. Automat, SPSS include i numrul de cazuri (N). Aflm, din analiza acestui tabel, c avem un numr de 30
de subieci (N=30) i toi subiecii au valori pentru variabila Varsta
subiectilor (Valid=30; Missing=0). Cu alte cuvinte, niciunul dintre aceti
subieci nu are necompletat valoarea pentru variabila vrst. Aflm, n continuare, c abaterea standard (Std. Deviation) este 5,523, iar variana (Variance) este 30,506. Dac vei extrage rdcina ptrat din varian (30,506),
vei obine exact valoarea abaterii standard (5,523), ceea ce confirm teoria
expus mai sus. De asemenea, amplitudinea de variaie (Range) este 19, cu
alte cuvinte, ntre Minimum 20 i Maximum 39 pot exista cel mult 19 valori
posibile. Pare mult mai simplu dect s efectum manual calculele prezentate
la nceputul acestui capitol. Iat de ce SPSS i merit cu prisosin banii pe
care i solicit productorul
n concluzie:
148
Cristian Opariuc-Dan
Frecvena de apariie
149
150
Cristian Opariuc-Dan
La nivel teoretic sau atunci cnd vorbim de populaii, folosim simbolul
pentru medie i simbolul pentru abaterea standard.
Pentru ca o distribuie s fie considerat normal, vor trebui ndeplinite simultan urmtoarele condiii:
VI.1 Modalitatea
O distribuie normal este o distribuie unimodal, adic exist doar o
singur categorie cu frecvena maxim. Prezena a dou sau mai multe valori
modale
determin
distribuii
bimodale, trimodale, n general
polimodale (multimodale), distribuii ce nu pot fi considerate ca
fiind distribuii normale.
151
iei din figura 6.2 este o distribuie bimodal, deoarece observm existena a
dou categorii cu frecvena egal i maxim.
Normalitatea distribuiei, sub aspectul modalitii, se verific prin calcularea valorii mod. Dac exist o singur valoare cu frecvena maxim,
atunci distribuia poate fi considerat normal sub acest aspect. n condiiile
n care sunt dou sau mai multe valori cu frecvena maxim i, evident, egal,
distribuia este polimodal (multimodal) i nu poate fi considerat ca fiind
normal.
VI.2 Simetria
O distribuie este simetric, dac valorile sunt egal (simetric) rspndite n jurul tendinei centrale. Atunci cnd rezultatele tind ctre valori mici,
sunt aglomerate n partea stng a
distribuiei, avem de a face cu o
distribuie asimetric spre dreapta
(sau distribuie skewness pozitiv).
Cnd rezultatele tind ctre valori
mari, se aglomereaz n partea
dreapt a distribuiei, vorbim despre o distribuie asimetric la
stnga (skewness negativ). Iat c
Figura 6.3 Distribuie simetric (B), asimetric
asimetria este dat de panta distrila dreapta (A) i asimetric la stnga (C)
buiei i nu de vrful acesteia, aa
cum trateaz i consider unii.
n figura 6.3, distribuia B este o distribuie simetric. Distribuia
A este o distribuie asimetric la dreapta (skewness pozitiv), unde predomin scorurile sczute, n timp ce distribuia C este o distribuie asimetric
la stnga (skewness negativ), n care predomin scorurile mari.
152
Cristian Opariuc-Dan
Nu ne putem limita la o apreciere pur vizual a simetriei; acest lucru
necesit demonstrarea statistic a simetriei sau a asimetriei distribuiei. n
acest scop exist mai muli coeficieni care pot fi calculai.
3 2 2 1
3 2 + 2 1
(formula 6.1)
Coeficientul poate lua, n general, valori de la -1 la +1 i indic mrimea asimetriei negative sau pozitive. Cu ct valorile sunt mai apropiate de 0,
cu att distribuia este mai simetric. Cu ct se apropie de -1 sau de +1, ea
devine tot mai asimetric spre stnga sau spre dreapta.
Acest coeficient este foarte uor de calculat, ns ine cont doar de cteva valori valorile cuartile i nu de toate valorile din distribuie, fapt care
i limiteaz precizia i se consider c este doar un coeficient elementar al
simetriei.
S ne reamintim exemplul de calcul al cuartilelor, din capitolul anterior. Am stabilit atunci i nu vom mai intra acum n detalii, c primul cuartil
(Q1) are valoarea 12,03, al doilea cuartil (Q2) este 16,16, iar al treilea cuartil
(Q3) avea valoarea 25,75. nlocuind n formula noastr, obinem valoarea
negativ -1,35, indicnd o asimetrie spre stnga, adic o tendin ctre scoruri
mari, fapt ce se poate observa cu uurin din distribuia statistic.
culeaz folosindu-se momentele centrate. Variana, de exemplu, este momentul centrat de ordin doi, deoarece am ridicat la ptrat fiecare diferen dintre o
valoare particular i medie. Dac ridicm aceste diferene la cub, obinem
momentul centrat de ordin 3, iar dac ridicm la puterea a patra, momentul
centrat de ordin patru. tim, de la abaterea standard, c ridicarea la ptrat
amplific ponderea pe care o au variabilele distanate puternic de la medie.
Aceast pondere este amplificat i mai mult prin ridicare la cub, ns, de
aceast dat, va fi luat n considerare i semnul cubului diferenelor.
1 = 33 =
=1
(formula 6.2)
Dac raportm momentul de ordin trei la cubul abaterii standard, obinem exact expresia coeficientului de asimetrie a lui Fisher.
Iat o prim formul care, probabil, v va determina s aruncai cartea
din mn. Dac ai ajuns la aceast fraz, dac acum continuai s citii, nseamn c dumneavoastr chiar dorii s nvai serios aceste noiuni Ideea este c, dei pare complex, formula nu face altceva dect s calculeze un
fel de varian, doar c nu mai ridiTabel 6.1 Calculul coeficientului de
cm numai la ptrat fiecare diferen
asimetrie
x
x
-m
(xi-m)2
(xi-m)3
i
i
ntre scorul obinut, ci i la cub. Proce10
-9,6
92,16
-884,736
deul nu este deloc mai complicat dect
22
2,4
5,76
13,824
31
11,4
129,96
1481,544
calculul varianei, dup cum vom vedea
9
-10,6
112,36
-1191,02
n urmtoarele exemple.
Relund exemplul cu date discrete, ne amintim c avem urmtoarele
date 10, 22, 31, 9, 24, 27, 29, 9, 23, 12,
pentru care media este 19,6, iar numrul
de msurtori este 10.
24
27
29
9
23
12
4,4
7,4
9,4
-10,6
3,4
-7,6
19,36
54,76
88,36
112,36
11,56
57,76
684,4
85,184
405,224
830,584
-1191,02
39,304
-438,976
-850,08
154
Cristian Opariuc-Dan
De asemenea, am aranjat aceste date ntr-un tabel pentru a ne uura
procedeul de calcul. Tot la calculul dispersiei, v amintii, am fcut ptratul
diferenelor (xi-m)2, dup care suma ptratelor.
n formul trebuie s mai calculm cubul acestor diferene (pentru
momentul centrat de ordin trei). Vom mai aduga o coloan pe care o vom
denumi (xi-m)3 i vom ridica la puterea a treia fiecare diferen xi-m. La final,
vom face suma ptratelor i suma cuburilor. Suma cuburilor poate fi un numr pozitiv sau negativ, n funcie de ponderea pe care o au abaterile scorurilor nspre partea dreapt sau nspre partea stng fa de medie. n acest moment, nu ne rmne dect s nlocuim n formul. Suma ptratelor este 684,4,
suma cuburilor este -850,08, iar numrul de msurtori este 10. nlocuind,
obinem urmtoarele momente de ordin trei i doi, prezentate n figura alturat. Dup efectuarea calculelor, obinem un coeficient de asimetrie de - 0,15,
coeficient care indic o distribuie simetric.
1 =
3
=
3
850,08
10
684,4
10
850,08
= 0,15
5661,93
Similar se realizeaz calculele i n cazul datelor grupate n clase, derivnd din formula de calcul a dispersiei pentru date grupate. Acest exemplu
l lsm ca exerciiu.
Acest coeficient are valoarea zero pentru distribuii perfect simetrice.
Valorile negative sunt considerate asimetrii la stnga, iar valorile pozitive
indic asimetrii la dreapta. O valoare zero este ns o valoare pe care o vom
ntlni foarte rar n practic. n mod normal, valorile sunt diferite de zero.
ns nu orice valoare diferit de zero poate indica o asimetrie care s devieze
semnificativ de la distribuia normal. Vom vedea, puin mai trziu, care sunt
limitele ntre care, totui, putem considera normal o distribuie asimetric.
Exerciiu:
155
Calculai coeficientul de asimetrie, folosind distribuia n clase prezentat la capitolul de calcul a dispersiei.
Atunci cnd discutm despre asimetrie, trebuie s precizm o serie de
relaii care apar ntre indicatorii tendinei centrale, medie, median i mod.
ntr-o distribuie perfect simetric, media, mediana i modul au exact aceleai valori. Caracteristica acestei distribuii o
reprezint coincidena absolut a celor trei indicatori ai
tendinei centrale. Dup
cum putei observa n figura
alturat, att media, ct i
mediana i modul, se afl n
acelai punct, la mijlocul
distribuiei. Grupa subieci- Figura 6.4 O distribuie perfect simetric
lor cu scoruri mai mici dect media este perfect simetric cu grupa subiecilor cu scoruri
mai mari dect media. Acest aspect este menionat din raiuni
teoretice. n practic, nu vom ntlni o distribuie perfect normal, ci o distribuie care poate fi acceptat ca fiind o distribuie normal.
156
Cristian Opariuc-Dan
donat de date n dou pri egale, iar dac n distribuie predomin scorurile mici, atunci scorurile mari sunt considerate
ca scoruri extreme. tim, de la analiza preciziei indicatorilor
tendinei centrale, c, ntr-o serie de date n care ntlnim scoruri extreme mari, media tinde s le pun n valoare. Iat c
acest fapt este ilustrat grafic n figura de mai sus. Observai relaia existent ntr-o asemenea distribuie: Mo<Me<m. Aceast relaie este relaia caracteristic a unei distribuii asimetrice
pozitiv.
157
158
Cristian Opariuc-Dan
Ai observat deja c boltirea nu este altceva dect simetria pe axa vertical (OY), spre deosebire de simetria propriu zis, deplasarea valorilor pe
axa orizontal (O X). Dac la simetrie vorbeam de frecvene (Care sunt cele
mai frecvente scoruri obinute, unde se concentreaz acestea? n eantionul
nostru avem mai degrab subieci mici sau subieci nali? Ori, poate, exist
un echilibru ntre subiecii scunzi i cei nali?), la boltire discutm de valori,
de modul n care aceste valori se grupeaz n jurul tendinei centrale (dac
sunt mai grupate valorile n jurul mediei sau, din contra, foarte mprtiate).
La fel ca simetria, boltirea nu poate fi apreciat pur ochiometric, ci
avem nevoie i aici de anumii coeficieni rezultai din formule de calcul specifice. Pearson a discutat despre boltire n termeni de momente, la fel ca simetria, rezultnd astfel coeficientul de boltire sau coeficientul kurtosis.
2 = 42 =
2
=1
(formula 6.3)
159
2 =
4
22
=1
(formula 6.4)
4
=
22
65316,59
10
684,4
10
65316,59
= 1,39
46840,30
Cristian Opariuc-Dan
medii anuale ntre 7,9 i 8,1. Iat c, doar dou zecimi difereniaz ntre elevii aproape a ntregului efectiv al clasei. Nu
avem nicio problem cu repartizarea celorlali trei elevi. Pe
aceia i vom considera ori foarte buni, ori foarte slabi, n funcie de media obinut sub 7,9 sau peste 8,1. Ce ne facem ns
cu cei 27 de subieci? Suntem, iat, n imposibilitatea de a-i ierarhiza n vreun fel. Dac presupunem c cei trei subieci au
note mai mari de 8,1, atunci cine va lua, dintre cei 27 de elevi,
premiul I, cine va lua premiul II i cine va lua premiul III. Decizia ar fi, dup cum se poate vedea, extrem de dificil, dac
nu chiar imposibil. Singura variant n acest caz, ar putea fi
creterea preciziei. Nu calculm media cu o singur zecimal,
ci cu 2, 3 sau 4 zecimale. Totui, sunt situaii n care un asemenea nivel de precizie este ridicol. O evaluare n care distribuia rezultatelor este leptocurtic va fi o evaluare ce nu poate
diferenia ntre subiecii de nivel mediu, iar o curb
leptocurtic nu este o distribuie normal.
O distribuie platicurtic, plat este o distribuie n care rezultatele sunt foarte mprtiate fa de medie i care indic un
grad ridicat de eterogenitate a scorurilor. Problema general a
acestei distribuii, n opoziie cu distribuia leptocurtic, este
aceea c difereniaz greu la extreme i destul de bine n zona
mediei. Va fi greu, utiliznd o asemenea distribuie, s facem
diferenieri ntre elevii slabi i elevii buni, dei putem diferenia relativ uor elevii medii. Datorit acestui fapt, o distribuie
platicurtic nu este nici ea o distribuie normal.
161
Cristian Opariuc-Dan
la dreapta). Aceasta este zona normal, zona n care rezultatele pot fi considerate tipice. Dac lum, ca exemplu, coeficientul de inteligen, n aceast zon se afl persoanele considerate normale sub aspect intelectual.
ntre trei abateri standard la stnga mediei i trei abateri standard la dreapta mediei, ntlnim aproximativ 99% din populaie (mai precis 99,74% cu 49,87 % ntre medie i trei abateri
standard la stnga i 49,87% ntre medie i trei abateri standard la dreapta). Aceast zon este zona rezultatelor atipice.
Zona ntre dou abateri standard la stnga i trei abateri standard la stnga, este zona deficienilor mintali, cu un intelect
extrem de redus. n aceast zon, ntlnim 2,15% din populaie, acelai procent ca i n zona situat ntre dou i trei abateri standard la dreapta, zona celor cu o inteligen deosebit, a
persoanelor supradotate. Iat c, ntre deficienii mintali i supradotai ntlnim aproape ntreaga populaie, peste 99%.
163
164
Cristian Opariuc-Dan
poate fi uor de ndeplinit atunci cnd avem n vedere conceptul de note standardizate. La baza acestui concept stau notele z. Notele z reprezint
diferena dintre scorul observat i medie, n termeni de abatere standard. Cu alte cuvinte, notele z nu sunt altceva dect distanele la care se
situeaz scorurile particulare n raport cu media grupului, iar aceast distan este
exprimat standardizat.
Teoretic, notele z
sunt note obinute pe o
curb cu media 0 i abaterea standard 1. n acest caz,
o distribuie normal are
practic notele z cuprinse
ntre -3 i +3, ntre aceste
note regsindu-se peste 99%
din populaie, dup cum
observai n figura de alturi.
Transformarea notelor obinute de ctre un subiect n note z este foarte simpl i se face dup
formula:
=
(formula 6.5)
165
De exemplu, ntr-o coal, media elevilor unei clase la matematic este de 6,25 cu o abatere standard de 3,94. Georgel a obinut, la matematic,
media 7,15. Ne intereseaz s tim dac Georgel este un elev mediu la matematic, un elev bun sau un elev slab. Intuitiv, am putea spune c este un elev
bun, deoarece media lui este mai mare dect media clasei. Nu putem ti ns
cu precizie acest lucru, deoarece nu cunoatem cum se distribuie notele celorlali elevi n jurul mediei. Acest lucru ni-l spune abaterea standard. Cu alte
cuvinte, va trebui s precizm poziia pe care o ocup Georgel n cadrul grupului de referin din care face parte, adic raportat la elevii din clasa sa.
Acest lucru devine posibil prin calculul notei z a lui Georgel, not care ne
spune la cte abateri standard se
afl scorul su n raport cu clasa. Aplicnd formula de mai
sus, observm c nota z a lui
Georgel la matematic este de
7,156,25
3,94
0,9
3,94
= 0,22.
Deci
Performana sa la matematic este, prin urmare, o performan medie, situndu-se ntre medie i o
abatere standard la dreapta, deci n zona scorurilor medii.
Spre deosebire de Georgel, Costel are media la matematic de 4,08.
Este oare Costel un elev slab, un elev mediu sau un elev foarte slab? Nota z
a lui Costel este 0,55. i aceast not se situeaz ntre medie i o abatere
standard la stnga de aceast dat. Iat c, n ciuda aparenelor, raportat la
166
Cristian Opariuc-Dan
performana elevilor din clas, dei are media sub cinci, Costel este un elev
mediu la aceast disciplin.
Cred c intuii deja ce se ntmpl. n domeniul socio-uman, noi nu
putem niciodat s msurm ceva cu exactitate. Putem doar s comparm
rezultatul unui subiect cu rezultatul unui grup de referin. Comparaia aceasta se poate realiza numai dac cunoatem media i abaterea standard a grupului de referin, n cazul n care, distribuia caracteristicii msurate n cadrul
grupului de referin este o distribuie normal.
Pentru a v clarifica mai bine acest concept, s lum un nou exemplu.
Avem un test de inteligen cu 20 de probleme. Dac subiectul rezolv corect
o problem, primete un punct. Dac nu o rezolv corect, primete zero puncte. Deci, scorul unui subiect poate varia de la zero puncte, atunci cnd nu
rezolv corect nici o problem, i pn la 20 de puncte, atunci cnd le rezolv
corect pe toate.
Avem dou persoane: Vasile, obine un scor la acest test de 10 puncte,
iar Viorel, un scor de 12 puncte. ntrebare: putei spune care dintre cei doi
subieci este mai bun? Care are un nivel intelectual mai ridicat?
Cei mai muli dintre dumneavoastr vor zmbi acum complice i mi
vor spune: Evident c Viorel, deoarece a rezolvat mai multe probleme.
Poate avei dreptate. ns, iat c v mai dau un amnunt. Vasile este cioban,
iar ciobanii rezolv corect, n medie, 7 probleme. Lucrurile se schimb acum.
Vasile poate obine linitit funcia de baci, deoarece nivelul su intelectual
este mai ridicat n comparaie cu nivelul ciobanilor. Viorel este profesor, iar
profesorii rezolv corect, n medie, 18 probleme. Fa de grupul profesorilor,
Viorel este cioban.
Dei exagerat, scopul acestui exemplu este acela de a v convinge c
notele brute, scorurile, nu ne spun nimic prin ele nsele. Notele brute dobndesc semnificaie numai n urma comparrii cu o populaie de referin. Pu-
167
tem afirma despre cineva c este bun sau slab numai n raport cu un reper, cu
un grup de referin. Probabil c eu sunt bun la statistic n comparaie cu
studenii crora le predau aceast disciplin i slab n raport cu unii profesori
de ai mei sau cu Spearman ori Pearson. Termenul de bun sau slab dobndete
semnificaie numai raportat la un reper.
Toate aceste informaii servesc drept suport procesului de etalonare.
Un etalon nu este altceva dect un sistem de norme, la care se raporteaz performana unui individ, la o anumit sarcin. Evident, un etalon este fcut pe o
anumit populaie, iar raportnd un rezultat al unui subiect la un etalon, nu
facem altceva dect s comparm performanele acelui subiect cu performanele grupului pe care a fost construit etalonul. Despre etaloane vom discuta
ns imediat.
Notele z au i ele o serie de proprieti cu aplicabilitate practic deosebit, dintre care menionm (Popa, 2006):
168
Cristian Opariuc-Dan
principalul dezavantaj al notelor z este acela c sunt puin intuitive. Trebuie
s tim bine ce nseamn distribuia normal, pentru a nelege corect semnificaia acestor note. n plus, au valori pozitive i negative, ceea ce le face,
iari, greu de utilizat.
Ar fi mai uor pentru noi dac, n loc s folosim o scal de la 3 la 3
pentru ncadra aproximativ 99% din populaie, am folosi o alt scal, de
exemplu de la 1 la 10, mult mai intuitiv, deoarece se asociaz rapid sistemului colar de evaluare sau o scal de la 1 la 5, de la 1 la 9 i aa mai departe.
Este oare posibil acest lucru? Dac ne amintim de proprietile scalei de interval, prezentate la nceputul acestei lucrri, vom constata c una dintre aceste proprieti se referea la deplasare, prin modificarea constantei de deplasare.
Notele z au o constant de deplasare zero. Dac mrim aceast constant de
deplasare, vom putea s deplasm distribuia, astfel nct s nu ne mai situm n zona scorurilor standardizate negative. Obinem astfel un alt sistem de
note standardizate, mai intuitiv i mai practic. Asemenea scale standardizate,
derivate din notele z, sunt staninele (numele provine din englezescul standard nine), un sistem n nou clase normalizate, sten (din englezescul standard ten), n zece clase normalizate, notele T sistem raportat la o distribuie cu media 50 i abaterea standard 10, abateri IQ media 100 i abaterea standard 15 etc.
Relund exemplele anterioare, ne propunem s convertim scorurile
z ale lui Georgel i Costel n stanine, sten, note T i abateri IQ. V reamintesc c media elevilor clasei la matematic este de 6,25 cu o abatere standard
de 3,94, iar Georgel a obinut, la matematic, media 7,15 i Costel 4,08.
Pentru a calcula scorurile sten, vom deplasa distribuia cu media scalei sten care este, evident, 5,5, iar formula de calcul va deveni:
= 5,5 +
169
Aadar, scorul sten al lui Georgel este de 5,5+0,22, adic 5,72. Observm c poziia acestui scor nu modific punctul n care se afl Georgel pe
distribuia normal, ns scorul devine mult mai intuitiv. Media 5,75 la matematic ne spune mult mai multe dect 0,22. Scorul n stanine al lui Georgel
se calculeaz similar. Pe o scal de la 1 la 9, media este evident 5. Prin urmare, deplasm scala cu 5 de aceast dat i obinem 5 + 0,22 = 5,22. Obinem,
de fapt, exact acelai lucru, ns pe o scal de la 1 la 9 i nu de la 1 la 10 ca n
exemplul anterior.
Pentru notele T, avem de a face att cu o deplasare, ct i cu o extindere a intervalelor. Afirmam c scala T este o scal cu media 50 i abaterea standard 10, iar n acest caz, formula de calcul a notelor T va deveni:
= 50 + 10
n cazul nostru, rezultatul devine 100 + 15x0,22, adic 100 + 3,3, ceea
ce nseamn 103,3. Remarcm c, nici n acest caz, nu se modific poziia
subiectului pe curba de distribuie.
Iat ct de uor putem raporta att performanele subiectului la performanele grupului din care acesta face parte, ct i care sunt semnificaiile
acestei raportri, indiferent de sistemul de scale standard utilizat. Calculul
notelor standardizate derivate ale lui Costel vi-l lsm dumneavoastr ca
exerciiu.
170
Cristian Opariuc-Dan
O alt caracteristic extrem de important a scorurilor standardizate
este aceea c putem efectua comparaii ntre rezultatele obinute de ctre subieci la probe diferite care folosesc ele nsele scale diferite. De exemplu,
dac comparm performanele unui subiect la un test de inteligen, care are
60 de probleme cu performanele obinute de acelai subiect la o prob de
comprehensiune semantic, ce are 30 de probleme, iar subiectul obine o not
brut la testul de inteligen de 40, iar la cel de comprehensiune semantic de
28, atunci putem oare afirma c subiectul are o inteligen mai bun n comparaie cu capacitatea sa de comprehensiune semantic? Categoric nu! Chiar
i la prima vedere, n condiiile n care ambele teste au acelai sistem de
scorare, constatm c primul are mai multe ntrebri dect al doilea. Sunt 20
de probleme nerezolvate de subiect la testul de inteligen n comparaie cu 2
nerezolvate la cel de comprehensiune semantic. Este imposibil s comparm
direct aceste dou rezultate, mai nti trebuie s le aducem la un numitor comun. Acest numitor comun l reprezint notele standardizate.
Prin urmare, va trebui s calculm notele z (sau orice alte note standardizate) ale acestui subiect la cele dou teste i apoi vom putea s comparm rezultatele obinute utilizndu-se aceste note standardizate. De nenumrate ori mi-a fost dat s vd lucrri ale studenilor prin care acetia comparau
rezultatele subiecilor la dou teste diferite att sub aspectul numrului de
itemi, ct i sub aspectul sistemului de cotare. E ca i cum a compara dou
kilograme de mere cu 2 metri de sfoar. O asemenea abordare este complet
eronat i nu duce la niciun fel de rezultat. Trebuie gsit un numitor comun,
pe care l regsim sub forma acestor note standardizate.
171
172
Cristian Opariuc-Dan
transformarea ntr-o distribuie unimodal. Desigur, nu vom mai avea 50 de
cazuri, ci 49, ns este mai bine s tai un deget dect s pierzi mna.
O distribuie asimetric sau excesiv presupune utilizarea unor tehnici diferite, dintre care menionm:
Dup aceste prelucrri de date este necesar, n mod obligatoriu, o reverificare a distribuiei pentru a vedea modul n care se respect criteriile
normalitii distribuiei pe date astfel normalizate. Toate aceste operaii sunt
permise fr a afecta semnificaia iniial a datelor, dac lum n considerare
proprietile scalei de interval discutate n primul capitol.
Pentru a clarifica aceste situaii, vom considera o serie de exemple intuitive propuse de F. Sava (Sava, 2004) i pe care am apreciat c ar fi util s
le reproducem aici.
173
Cele dou figuri de mai sus indic o asimetrie pozitiv, respectiv negativ moderat. n primul caz, extragerea rdcinii ptrate din fiecare scor
individual va conduce la normalizarea acestei distribuii. n al doilea caz,
radicalul se extrage din reflexia scorurilor. Prin operaia de reflectare, transformm o asimetrie negativ ntr-o asimetrie pozitiv, dup care putem extrage rdcina ptrat.
Operaia de reflectare este una extrem de uoar i presupune practic
inversarea valorilor. Dac, de exemplu, avem urmtorul ir de date:
irul normal: 5, 9, 13, 8, 7, 19
primul pas pe care trebuie s l facem este acela de a identifica valoarea maxim din irul de date. n cazul nostru, valoarea cea mai mare din ir este 19.
Adugm apoi 1 la valoarea maxim i obinem valoarea 20.
La al doilea pas, vom scdea din valoarea obinut (20) fiecare scor i
vom obine irul reflectat. Constatm c aceast operaiune este similar unei
reflexii n oglind, n care stnga devine dreapta i dreapta stnga. Procedura
este necesar n cazul distribuiilor asimetric negative n vederea extragerii
radicalului, n vederea logaritmrii sau pentru inversare.
irul reflectat: 15, 11, 7, 12, 13, 1
174
Cristian Opariuc-Dan
175
Cristian Opariuc-Dan
folosindu-se notele z, mult mai precise i mai utile n comparaie cu etaloanele bazate pe percentile.
nainte de a intra n detalii tehnice referitoare la construcia unui etalon, s menionm cteva criterii care indic un etalon bun, precum i aspectele pe care le urmrim atunci cnd ntr-o prob psihologic ni se ofer un
asemenea sistem de norme.
177
Un etalon bun este un etalon adaptat specificului probei psihologice i condiiilor de evaluare. Un etalon pe populaie general
are o valoare limitat ntr-un scop specific, spre exemplu ntr-o
uzin. De aceea, se recomand efectuarea de etaloane specifice
atunci cnd situaia o impune.
178
Cristian Opariuc-Dan
Structura eantionului pe care s-a realizat etalonul, sub aspectul variabilelor de eantionare. Etalonul este realizat pe populaie general sau pe subieci care fac parte dintr-o anumit
categorie? Un etalon realizat pe studeni sau pe elevi de liceu
va avea o valoare mai mult dect discutabil ntr-o uzin chimic. Care este vrsta i genul biologic al subiecilor? Care este distribuia acestor variabile n structura eantionului? Dac
avem un etalon realizat pe copii ntre 10 i 14 ani, cum oare l
vom putea folosi n studiile asupra btrnilor? Nu exist o regul asupra variabilelor de eantionare utilizate la construcia
unui etalon. n general, se folosete vrsta, sexul, nivelul de
colarizare. Indiferent de variabilele folosite de ctre realizatorul etalonului, acesta trebuie s le prezinte. Nu ne putem mulumi doar cu sintagma etalonul a fost realizat pe populaie
general. Trebuie precizat i structura acestei populaii.
Numrul subiecilor din eantion va trebui, de asemenea, bine
precizat. Un etalon realizat pe 100 de subieci nseamn cu totul altceva n comparaie cu un etalon realizat pe 1000 de subieci.
179
Metoda de etalonare folosit se stabilete n funcie de distribuia rezultatelor. La o distribuie normal, vor fi folosite, n
general, unitile sigma sau clasele normalizate. n cazul unei
distribuii care se abate de la normalitate, se utilizeaz sistemul
de etaloane bazat pe valorile percentile.
Cristian Opariuc-Dan
S lum, spre exemplu, urmtorul ir de date, care reprezint nlimea unor subieci exprimat n centimetri: 182, 175, 174, 189, 177, 177, 180,
173, 188, 171, 184, 192, 180, 172, 177, 193, 184, 192, 172, 177, 174, 171,
172, 179, 185, 179, 173, 172, 179, 188.
n acest exemplu, minimul este 171, iar maximul este 193. Acum,
vom ordona cresctor toate valorile situate ntre
Tabel 6.3 Realizarea unui etalon
n cuantile
minim i maxim i vom stabili frecvenele abDiagrama
solute i cumulate.
Valoare
f
fc
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
n linii
||
||||
|
||
|
||||
|||
||
|
|
||
|
||
|
||
|
2
4
1
2
1
0
4
0
3
2
0
1
1
2
1
0
0
2
1
0
0
2
1
2
6
7
9
10
10
14
14
17
19
19
20
21
23
24
24
24
26
27
27
27
29
30
Cutm acum n tabel, n coloana frecvenelor cumulate, valoarea cea mai aproape de
6, valoare corespunztoare primilor 20% dintre subieci, cu nlimea cea mai
mic. Observm c valoarea 6 corespunde chiar cotei 172. n prima clas
181
La distribuirea acestui etalon, nu vom uita s includem structura eantionului normativ, distribuia scorurilor la variabila nlime cu precizarea
mediei, a medianei, a modului i a abaterii standard, precum i informaii
despre sistemul de etalonare folosit, n cazul nostru n cvintile.
182
Cristian Opariuc-Dan
Dac ai fost ateni, ai observat deja o serie de limitri ale acestui etalon. n primul rnd, intervalele inegale. Dac, teoretic, nlimea minim a
unui om poate fi, s spunem, 150 de centimetri, iar nlimea maxim 220 de
centimetri, atunci remarcm numrul diferit de valori din fiecare clas. n
prima clas, putem include subiecii de la 150 de centimetri pn la 173 de
centimetri, deci 23 de valori diferite. n a doua clas, includem subiecii cu
nlimea cuprins ntre 173 i 175, deci doar 3 valori. n clasa a treia, gsim
5 valori posibile, n clasa a patra, 7 valori, iar n ultima clas, 33 de valori.
Iat c un asemenea etalon difereniaz inegal subiecii, aceasta fiind i principala sa limit.
n al doilea rnd, dac avem o distribuie foarte omogen, nu mai putem diferenia aproape deloc utiliznd un asemenea etalon, deoarece intervalele de clase vor avea valori apropiate. Iat doar dou motive pentru care preferm utilizarea claselor normalizate, deoarece, la nivelul acestora, intervalele
sunt aparent egale.
Exerciiu:
Realizai, folosind acelai sistem de etalonare, un etalon n decile (10
clase) i precizai problemele ntmpinate. Explicai situaia aprut.
183
184
Cristian Opariuc-Dan
doua clase. Prin urmare, 29,33 5,52 = 23,81 ani, rotunjit 24 de ani. A doua
clas va include subiecii cu vrsta cuprins ntre 19 i 24 de ani, subiecii
tineri. Clasa a treia, clasa medie, cuprinde 2x34,13% din populaie, adic
68,26% din populaie i are ca limite o abatere standard n stnga mediei i o
abatere standard n dreapta mediei. Prin urmare, a treia clas va avea ca limite
de interval 25 de ani i 29,33 + 5,52 = 34,85, rotunjit 35 de ani. Clasa a patra,
care cuprinde 13,59% din populaie, are ca limit inferioar 36 de ani i ca
limit superioar dou abateri standard n dreapta mediei, 29,33 + 11,04, adic 40,37, rotunjit 40 de ani. Constatm c deja am ieit din amplitudinea distribuiei noastre, ceea ce ne face s suspectm o uoar asimetrie. n realitate,
numrul redus de subieci a determinat aceast situaie. n sfrit, clasa a
cincia cuprinde subiecii peste 40 de ani i conine 2,14% din populaie.
Etalonul poate fi scris n acelai
Tabel 6.5 Etalon n 5 clase
Scoruri
Clasa Semnificaia
mod ca i etalonul n cvintile i are aceeai
< 19
I
Foarte tineri
semnificaie. Evident c la distribuia
19 24
II
Tineri
acestui etalon va trebui s furnizm date 25 35
III
Medie
36
40
IV
Maturi
legate de structura eantionului normativ,
> 40
V
Foarte maturi
distribuia variabilei i sistemul de etalonare folosit, n cazul nostru n cinci clase n uniti sigma.
Exerciiu:
Realizai un etalon n trei clase normalizate n uniti sigma. Pentru
trei clase normalizate se folosete o abatere standard n dreapta i n stnga
mediei.
Etaloanele n clase normalizate nu sunt altceva dect derivaii ale
etaloanelor n uniti sigma i se bazeaz pe transformarea notelor z n alte
categorii de note. Algoritmul de calcul este oarecum similar celui utilizat n
realizarea etaloanelor n uniti sigma i se bazeaz pe fraciuni de uniti
sigma.
185
Min
-3z/2
-z / 2
z
/2
3z
/2
-3z/2
-z / 2
z
/2
3z
/2
Max.
I
II
III
IV
V
VI
VII
Min
-5z/3
-3z/3
-z / 3
z
/3
3z
/3
5z
/4
-5z/3
-3z/3
-z / 3
z
/3
3z
/3
5z
/3
Max.
Min
-7z/4
-5z/4
-3z/4
-z / 4
z
/4
3z
/4
5z
/4
7z
/4
-7z/4
-5z/4
-3z/4
-z / 4
z
/4
3z
/4
5z
/4
7z
/4
Max.
Sten (standard ten), distribuie cu media 2 i abaterea standard 5,5 rezultnd clase de la 1 la 10;
186
Cristian Opariuc-Dan
Valoare
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
Diagrama
n linii
||
||||
|
||
|
||||
|||
||
|
|
||
|
||
|
fc
2
4
1
2
1
0
4
0
3
2
0
1
1
2
1
0
0
2
1
0
0
2
1
2
6
7
9
10
10
14
14
17
19
19
20
21
23
24
24
24
26
27
27
27
29
30
187
Foarte nali
188
Cristian Opariuc-Dan
Etalonul se scrie la fel ca un etalon n cuantile i are aceeai semnificaie. Nu uitai s inei cont de regulile elaborrii unui etalon, n momentul
n care intenionai s-l folosii sau s-l distribuii.
189
190
Cristian Opariuc-Dan
reprezentm grafic prin plcint vrsta unor subieci, variabil continu, cu o
infinitate de valori. Un asemenea grafic nu ne spune nimic, ci, din contra,
induce distorsiuni care ne creeaz o imagine fals asupra datelor.
Foarte muli psihologi experimentaliti, care au rutin n analiza datelor, reprezint o variabil continu prin histogram, deoarece, folosind acest
procedeu, SPSS ofer o metod de estimare grafic a curbei de distribuie.
Unii chiar se rezum la a interpreta distribuia datelor dup aspectul grafic al
acestei curbe s fim serioi, statistica este totui o disciplin matematic, iar
demonstraiile se fac cu cifre, nu cu imagini i aprecieri subiective pe baza
acestora. Nu este att de grav n comparaie cu reprezentarea prin diagrame
de structur, ns probabil v amintii de faptul c histograma reprezint datele grupate n intervale. Este adevrat c SPSS efectueaz automat o grupare a
acestor date n intervale pe care le alege singur. Acesta nu este ns un motiv
n condiiile n care dorim s avem o viziune analitic a scorurilor.
Prin urmare, pentru a reprezenta grafic o
variabil continu, atunci cnd discutm despre
distribuie, vom prefera graficul cu bare, care ne
ofer o viziune fin asupra modului n care datele
se distribuie sau graficul tip histogram, care
prezint datele ntr-un mod mai grosier, ns are
avantajul estimrii vizuale a curbei de distribuie.
n nici un caz nu vom utiliza diagrame de structur sau alte tipuri de diagrame, chiar dac acestea
arat frumos.
191
Valid
Missing
Mean
Median
Mode
St d. Dev iation
Skewness
St d. Error of Skewness
Kurtosis
St d. Error of Kurtosis
Range
Minimum
Maximum
30
0
29,33
29,00
24a
5,523
,116
,427
-,878
,833
19
20
39
192
Cristian Opariuc-Dan
ne comunic faptul c programul a identificat mai multe valori mod i c o
afieaz pe cea mai mic.
n inventarul statistic alturat, unde am analizat distribuia acelorai
30 de subieci n funcie de variabila vrst, avem un exemplu de distribuie
multimodal. Nu putem ti, deocamdat, dac distribuia este bimodal,
trimodal sau prezint mai multe valori ale modului. Tot ceea ce tim este c
cea mai mic valoare mod, n cazul nostru, reprezint 24 de ani.
Tabel 6.10 Identificarea valorilor mod
Totui, distribuia scorurilor subiecilor la variabila coeficient de inteligen este o distribuie unimodal. n acest caz, vom trece la urmtoarea
etap i anume analiza simetriei.
Simetria sau oblicitatea este dat de valoarea indicatorului
Skewness. La modul teoretic, acest indicator are valoarea zero pentru o dis-
193
194
Cristian Opariuc-Dan
Skewness i poate fi utilizat indiferent de mrimea eantionului. Eroarea
standard Skewness ne ofer limitele ntre care trebuie s se regseasc coeficientul de oblicitate, astfel nct s putem considera, la un nivel de precizie
suficient de mare, distribuia ca fiind simetric. La acest nivel, exist dou
tipuri de intervale:
195
196
Cristian Opariuc-Dan
intr ntr-al doilea interval (cu precizie mai mic) ns nu i n primul interval
(de mare precizie). Deci, n situaia n care eterogenitatea sau omogenitatea
scorurilor n jurul mediei este un element important, vom considera distribuia noastr ca fiind o distribuie platicurtic, deoarece nu intr n intervalul cu
precizie mare. n situaia n care excesul nu este un element att de important,
putem considera distribuia ca fiind mezocurtic.
Oricum, n tiinele sociale nivelul de precizie acceptat este de peste
95%, astfel nct distribuia noastr poate fi considerat o distribuie
mezocurtic.
Valorile coeficientului de boltire Kurtosis negative i care ies din intervalul de ncredere sunt reprezentative pentru o distribuie platicurtic. Dac avem de a face cu valori pozitive care ies din intervalul de ncredere, distribuia este leptocurtic.
Demonstrnd faptul c distribuia scorurilor celor 30 de subieci la variabila coeficient de inteligen este o distribuie unimodal, simetric i
mezocurtic am demonstrat de fapt c distribuia respect toate caracteristicile unei distribuii gaussiene i poate fi considerat o distribuie normal.
Analiza distribuiei trebuie s precead orice analiz ulterioar
de date, deoarece, n funcie de normalitatea distribuiei, pot fi alese statisticile parametrice sau nonparametrice utilizabile pe parcursul demersului de cercetare, dup asumpiile teoretice ale fiecrei metode n parte.
Pentru a concluziona, v voi oferi un model complet de analiz a distribuiei scorurilor n funcie de variabila coeficient de inteligen. ntotdeauna furnizai, n analiz, ct mai multe informaii legate de variabila dumneavoastr. V rog s avei n vedere ataarea exact a inventarului statistic de
baz din SPSS i a eventualelor grafice care v pot susine demonstraia.
ntr-o analiz de date, va trebui s precizai: denumirea variabilei analizate, numrul de cazuri, indicatorii tendinei centrale i ai mprtierii, indi-
197
30
0
111,33
108,50
124
8,511
,413
,427
-1,384
,833
24
100
124
Cristian Opariuc-Dan
amnunte le tii sau le putei afla i singuri. Nici cartea de fa nu le respect, ns prefer s am un stil propriu i a fi ncntat dac ai nva din aceste
rnduri cum s facei efectiv analize de date mai mult dect cum s v conformai unor norme.
Deschiznd o parantez, tiu, desigur, c pot s fiu acuzat c am copiat i lipit n document tabele i grafice din SPSS fr s le traduc n romnete. Departe de mine aceast intenie. n primul rnd, pentru c SPSS ofer
tabelele i graficele n englez, iar eu doresc s introduc coninutul lor original. n al doilea rnd, conform acelorai norme APA, utilizarea elementelor
furnizate de programe informatice n lucrri tiinifice se face prin includerea
coninutului original i nemodificat. n al treilea rnd, pentru c vreau s v
nv, imediat, cum s editai coninutul elementelor din fereastra de rezultate.
Orice element din fereastra de rezultate SPSS este un element editabil.
Putei s facei aproape orice cu tabelele i graficele pe care SPSS le furnizeaz. Nu avei dect s dai un dublu clic pe elementul pe care dorii s-l
editai i vei intra ntr-un alt mod pe care SPSS l suport, modul de editare.
Pentru nceput, s dm dublu
clic pe tabelul inventarului statistic de
baz, tabelul Statistics. Observm c
marginea care ncadreaz acest tabel a
devenit o margine haurat i, de asemenea, este posibil s se afieze o bar
de instrumente de editare, similar
celei din programul Microsoft Word.
Figura 6.18 Tabelul Statistics n mod
editare
Primul buton de pe aceast bar de formatare permite anularea aciunilor efectuate (Undo). Cel de-al doi-
199
lea buton este butonul pivot, care permite schimbarea rndurilor i a coloanelor n tabel.
Urmeaz apoi o caset derulant de aplicare a unui stil tabelului formatat, caseta derulant de alegere a fontului i caseta derulant de alegere a
dimensiunii fontului pentru textele selectate. Urmtoarele trei butoane permit
scrierea ngroat, nclinat i sublinierea, iar butonul al patrulea selecteaz
culoarea cu care s fie afiat fontul.
Cele patru butoane care se succed permit alinierea textului selectat, la
stnga, dreapta, centrat sau automat.
Ultimele dou butoane lanseaz sistemul de asisten (help) sau modul de creare a graficelor pentru variabila selectat iat o alt modalitate de
a realiza grafice, dac ai uitat s o facei n etapa de analiz. V recomand s
exersai aceste elemente, fr team c ai putea strica ceva (n definitiv avei
la dispoziie butonul de anulare - Undo). Nu vom intra n amnunte legate de
formatarea tabelelor, deoarece ar trebui s includem, inutil, mai multe pagini.
Un tabel n modul de editare permite modificarea elementelor componente. Pentru nceput,
ne propunem s traducem n romnete cuvintele Missing (Lips), Mean (Media), Media (Mediana) i Mod (Modul).
Aflndu-v n modul de
editare, efectum din nou dublu
Figura 6.20 Editarea valorilor n tabel
200
Cristian Opariuc-Dan
clic pe cuvntul Missing. Va rezulta o figur similar celei alturate. Observai c textul Missing este deja selectat acum; dac apsai orice tast, coninutul selectat va fi nlocuit cu tasta apsat. Nu v rmne dect s scriei n
loc de Missing, Lips.
Cuvntul Missing este nlocuit
cu textul introdus, Lips. Procedai la
fel cu toate celelalte cuvinte din tabel,
pentru a putea traduce tabelul n limba
romn. Putei folosi bara de formatare
pentru a ngroa, schimba culoarea sau
alinia textele selectate. Cnd ai terminat,
dai clic oriunde pe suprafaa alb a ferestrei de rezultate, pentru a iei din modul de editare.
30
0
111,33
108,50
124
8,511
,413
,427
-1,384
,833
24
100
124
zentm.
Meniul Insert permite adugarea, n cadrul tabelului
selectat, a unui nou titlu, a unei noi etichete n subsolul tabelului sau a unei noi note se subsol ntr-un mod similar operaiunii pe care SPSS o face automat n momentul n care depisteaz o distribuie multimodal.
Meniul Pivot permite marcarea tabelului curent n scopul unei regsiri rapide n fereastra de rezultate, comutarea tabelului prin inversarea liniilor sau a
coloanelor sau lansarea ferestrei speciale prin care
poate fi controlat pivotarea tabelului. Acest meniu
este un meniu important n formatarea aspectului grafic al tabelului, cu aplicaii n condiiile analizei unui volum mare de date.
Vom reveni asupra acestui meniu, n momentul n care vom discuta despre
studiile corelaionale.
Meniul Format cuprinde un set de utilitare prin intermediul crora
putem modifica aspectul celulelor din tabel, a ntregului tabel, a fonturilor
202
Cristian Opariuc-Dan
sau a notelor de subsol. SPSS conine, asemntor programului Microsoft Word, mai multe abloane grafice care pot
fi aplicate tabelelor. Alegnd un asemenea ablon grafic,
putei modifica complet aspectul tabelelor din foaia de rezultate.
Toate opiunile din acest meniu in doar de aspectul
grafic al tabelelor i nu afecteaz n niciun fel coninutul
datelor dumneavoastr. Se pot stabili, alturi de cele expuse mai sus, numrul
de zecimale pe care SPSS s le afieze, ordonarea datelor, includerea sau
excluderea capului de tabel etc. V invit s parcurgei acest meniu i s exersai facilitile pe care le ofer. Oricnd v putei ntoarce la starea iniial,
anterioar unei aciuni, folosind butonul Undo.
tives
Cunoatei deja fereastra care se deschide, deoarece am analizat-o pe parcursul acestei lucrri, drept pentru care nu vom
insista dect asupra unui singur element. Este
vorba despre caseta de bifare Save standardized values as variables. Rolul acestei casete,
pe care o vom bifa, este acela de a crea o nou
variabil care va stoca scorurile z ale fiecrui
Figura 6.24 Fereastra de
caz din baza de date. Evident, va fi lansat feconfigurare a analizei
reastra de afiare a rezultatelor care conine un
203
tabel pe care l-am discutat deja. Totui, unde sunt notele z att de cutate
de noi?
S ne amintim ce am bifat. Am bifat o opiune, dup ce am introdus variabila Coeficient
de inteligen n lista variabilelor ce trebuie analizate, prin care notele standardizate vor fi salvate
ca variabile. Trebuie, deci, s ne ntoarcem la baza
de date, unde vom regsi o nou variabil creat
automat. Este vorba despre variabila Ziq, ultima
din baza de date, care nu conine altceva dect
notele z ale fiecrui subiect.
Figura 6.25 Noua variabil
ce conine scorurile z
Cum facem totui pentru a obine note standardizate rezultate din notele z, scoruri sten spre exemplu.
V mai amintii probabil c scorurile sten se obin adunnd valoarea 5,5 la valoarea notei z. Dac avem
notele z, restul este simplu. Cum facem ns acest
lucru n SPSS?
Vom folosi serviciile unui alt meniu, i anume meniul Transform, de
unde vom selecta opiunea Compute sau Compute variable, n funcie de
versiunea SPSS pe care o posedai.
Rezultatul acestei aciuni se concretizeaz
ntr-o fereastr similar celei alturate, care conine
urmtoarele elemente:
Target variable reprezint seciunea n care
Figura 6.27 Fereastra
de calcul a variabilelor
204
Cristian Opariuc-Dan
vom introduce numele variabilei destinaie, variabil n care se vor salva noile rezultate. n cazul nostru, suntem interesai s calculm scorurile sten pentru variabila iq i vom introduce un nume, ca spre exemplu StenIQ.
Sub aceast caset de text se afl un buton intitulat Type & Label, pe care, dac apsm, vom putea configura proprietile noii variabile create.
Astfel, avem posibilitatea s adugm o etichet variabilei nou create, folosind cele dou opiuni din
seciunea Label. Putem decide dac introducem un
text ca etichet (ca n cazul figurii alturate) ori vom folosi drept etichet
formula de calcul, situaie n care va trebui s alegem opiunea Use expression as label. Seciunea Type permite alegerea tipului de variabil. Putem
decide ntre un tip numeric implicit i un ir de caractere, caz n care va trebui
s includem i dimensiunea acestui ir, numrul de caractere pe care l permite variabila.
Figura 6.28 Proprieti ale variabilei
205
ntlnim aici posibilitatea de a include toate cazurile (Include all cases) sau de a include doar cazurile care satisfac o condiie (Include if cases
satisfies condition). Dac, de exemplu, dorim s calculm scorurile sten doar
pentru brbai, vom alege aceast opiune, iar apoi vom scrie n caseta de
formule expresia sexul=1. n acest fel, SPSS va calcula scorurile sten numai pentru brbai, ignornd femeile. ntlnim i aici lista de funcii, util pentru crearea
unor expresii mai complexe. Deocamdat nu
ne intereseaz niciun calcul condiional, prin
urmare vom prsi fereastra fr a efectua
nicio modificare.
S vedem acum, concret, cum calcu- Figura 6.29 Calculul condiional
al datelor
lm scorurile sten ale variabilei iq, folosind
aceste elemente. n primul rnd, am introdus numele i descrierea noii variabile n caseta Target Variable, aa cum a fost
exemplificat mai sus. Ne amintim c nota sten se
calculeaz adunnd 5,5 la valoarea notei z. Nota
z, ns, am calculat-o anterior i o regsim n
baza de date sub denumirea Ziq (Zscore: Coeficientul de inteligen).
Restul e simplu. Nu v rmne dect s
scriei n caseta Numeric Expression formula (5,5 +
Ziq), fie tastnd-o, fie folosind calculatorul. Variabila care conine nota z
(Ziq) se poate tasta sau se poate folosi butonul de transfer pentru a include
variabila din lista variabilelor n formul.
Figura 6.30 Calculul
scorurilor sten
Nu mai trebuie dect s apsai butonului OK i s vedem ce se ntmpl. Apare, desigur, fereastra de rezultate care ne informeaz asupra faptului c operaiunea a reuit. La fel ca la calculul notelor z, ne intereseaz
baza de date.
206
Cristian Opariuc-Dan
Iat c a aprut noua variabil StenIQ care conine, exact aa cum
am specificat, scorurile sten ale subiecilor. Observm c, de aceast dat,
notele nu mai sunt cuprinse ntre -3 i +3, ci pe o scal de la 1 la 10, exact ca
n sistemul colar. Este mult mai intuitiv, nu-i aa?
Ca exerciiu, v propun calculul notelor z i a scorurilor sten pentru variabila vrsta subiecilor.
n concluzie:
207
208
Cristian Opariuc-Dan
209
adic, exprimat n termeni cifrici, =0,5. Dac avem un zar, care este probabilitatea s dm un ase? De data aceasta cte posibiliti sunt? Poate s cad
1, 2, 3, 4, 5 sau 6, deci avem 6 posibiliti. Dac dm cu zarul, exist o singur ans raportat la 6 anse de a nimeri, dintr-o singur ncercare, zarul cu
ase. Exprimat din nou cifric, avem o probabilitate de 1/6=0,166 s scpm de
mar. Dac ns, pentru a scpa de mar, ne trebuie un 6 sau un 4, care este
probabilitatea de a iei cu fa curat? De data aceasta, exist dou alternative
raportate la un total de ase, prin urmare 2/6=0,33.
Nu cred c toate aceste lucruri sunt elemente noi. n general, atunci
cnd vorbim de probabiliti, acestea se exprim sub form cifric, cu valori
de la 0 la 1, n care 0 reprezint probabilitatea nul, niciodat evenimentul nu
se va ntmpla, iar 1 reprezint probabilitatea maxim, evenimentul se ntmpl ntotdeauna. De foarte multe ori, este mai intuitiv s reprezentm procentual probabilitile prin nmulirea probabilitii cu 100. Astfel, exist 50%
anse s cad stema la aruncarea unei monede (0,5x100) sau 16,6% anse s
scap de mar, dac nimeresc un ase i 33% dac nimeresc un ase sau un
patru. Muli prefer aceast exprimare, deoarece suntem obinuii s gndim
sub form de pri ale unui ntreg. n definitiv, fie c folosim exprimarea
0,33, fie c avem n vedere o form procentual, 33%, de fapt spunem acelai lucru.
Toate aceste exemple reprezint cazuri de probabilitate necondiionat, deoarece nu exist niciun factor, niciun element care s influeneze
desfurarea lor. Dac nu exist vreun magnet n zar sau vreun grunte de
plumb care s influeneze obinerea lui ase, atunci suntem n faa unui caz de
probabilitate necondiionat.
Probabil c la ora actual exist o sut de cri de statistic care trateaz problemele pe care le-am expus aici, unele n mod cert mai complete i
mai academic scrise. Care ar fi, aadar, probabilitatea ca dumneavoastr s
citii acum cartea scris de mine? Este simplu de calculat 1/100=0,01 sau, ex-
210
Cristian Opariuc-Dan
primat procentual, 1%. Cam mici anse, nu-i aa? n mod sigur, nu cred cam s m mbogesc din vnzarea acestei cri Care ar fi probabilitatea ca
prietenul sau prietena dumneavoastr s citeasc aceast carte? Tot 1% dac
nu i-o recomandai dumneavoastr. Dac i-o recomandai, probabilitatea va
crete n funcie de numrul de recomandri efectuate i, iat cum, cu ajutorul
dumneavoastr, mi voi lua o vil pe plaj. Acest exemplu, n care probabilitatea de apariie a unui eveniment este influenat de prezena sau absena
unui alt eveniment, se numete probabilitate condiionat. Exist aadar
alte aspecte care influeneaz probabilitatea de apariie a unui eveniment.
Probabilitatea de a muri de cancer la plmni n urma fumatului este foarte
mare, n condiiile n care nu cunosc faptul c fumatul mi poate declana un
cancer. Dac tiu acest lucru, crete probabilitatea s reduc igrile i chiar s
abandonez fumatul, ceea ce va determina i reducerea probabilitii de a
muri. n prima situaie, ne aflm n faa unui exemplu de probabilitate necondiionat. n al doilea caz, avem de a face cu o probabilitate condiionat.
De ce, totui, am abordat aceste probleme pe care le tii att de bine?
Nu am fcut-o ca s va jignesc inteligena, ci pentru a ne asigura c avem
bazele nelegerii importanei probabilitilor n statistica social.
nelegerea acestor aspecte asigur, mai apoi, nelegerea conceptelor
de inferen statistic, de relaii ntre variabile, praguri de semnificaie i
semnificaie statistic.
Dup cum am afirmat, scopul unei cercetri este acela ca, pornind de
la rezultatele obinute la nivelul unui eantion de populaie, s tragem concluzii valabile pentru o ntreag populaie. Dac voi studia cantitatea de bere
consumat de studenii de la psihologie i voi face afirmaia c n general
studenii de la psihologie consum mai mult bere n comparaie cu ceilali
studeni, la ce nivel de precizie m voi situa? Care este probabilitatea ca
afirmaia mea s fie exact? Pentru a calcula aceast probabilitate, avem nevoie s nelegem foarte clar ce nseamn probabilitate de apariie a unui eve-
211
212
Cristian Opariuc-Dan
VII.1.1
Se refer exact la evenimente tip aruncarea unei monede sau la aruncarea unui zar i reprezint cea mai simpl regul de probabilitate. Pentru a
nelege mai bine acest lucru, s lum cazul unei rulete cu nou culori. Dumneavoastr va trebui s aruncai o moned de 50 de bani, n timp ce ruleta se
rotete. Dac, atunci cnd ruleta se oprete, moneda dumneavoastr se afl pe
culoarea verde, ctigai doi lei; n caz contrar, pierdei moneda.
Cunoscnd formula de mai sus, care este probabilitatea de succes?
Evident, numrul total de rezultate posibile este nou; moneda poate s cad
pe oricare dintre cele nou culori. O singur culoare este ns ctigtoare, i
anume culoarea verde, deci un singur rezultat va fi cel ctigtor. Probabilitatea de succes este, aadar, 1/9=0,111 sau 11,1%. Pn aici toate sunt clare i
limpezi. Care este ns probabilitatea de eec? Evident, toate celelalte culori
rmase, adic 8/9=0,888 sau 88,8%. Din nou anse posibile, avei, prin urmare, o singur ans s ctigai i opt anse s pierdei, adic 1/8 anse de ctig. Acum v vei uita nedumerii la mine i m vei ntreba. Parc era 1/9
probabilitatea de succes. Cum a devenit dintr-o dat 1/8? Dac ai fost ateni,
am fcut deja incursiunea ntr-un alt concept statistic, i anume cel de ans,
oarecum similar cu cel de probabilitate de succes i de eec, pe care, de altfel,
se bazeaz. ansa de succes poate fi scris ca raportul dintre probabilitatea
de succes i probabilitatea de eec (P(s)/P(e)). Pentru a nu mai folosi probabilitatea de eec, putem exprima ansa de succes doar n termeni de probabilitate
de succes, dup formula =
()
1 ()
()
()
=89=
9
formulei a doua este evident, deoarece probabilitatea de eec va fi 1 probabilitatea de succes. Dac nlocuii i efectuai calculele, rezultatul va fi acelai: o ans s ctig doi lei i opt anse s pierd 50 de bani.
De ce folosim totui termenul de ans de succes i nu cel de probabiliti de succes i de eec. Foarte simplu. Pentru a sintetiza ntr-o singur exprimare att succesul, ct i eecul. O ans s ctig doi lei i opt anse s
pierd 50 de bani se prezint mai concis i mai elegant n comparaie cu o
probabilitate de unu pe nou s ctig doi lei i o probabilitate de opt pe nou
s pierd 50 de bani. Desigur, sunt i alte motive pe care le vom discuta la
momentul potrivit.
VII.1.2
214
Cristian Opariuc-Dan
Zar 1:
Zar 2:
Total:
n acest caz, funcioneaz o alt regul, derivat din regula probabilitilor simple a evenimentelor egale, numit regula aditiv pentru evenimente mutual exclusive. Nu v speriai, c nu este cine tie ce demonstraie
matematic complex. Care este numrul total de rezultate al celor dou evenimente? Primul zar are un total de ase rezultate, iar al doilea zar un numr
total de ase rezultate. Numrul total al rezultatelor celor dou evenimente
este de 6x6=36 de rezultate. Care este numrul de rezultate de succes, adic
numrul de rezultate care, prin nsumare, duc la cifra apte? Numrai rezultatele din tabelul de mai sus. Sunt ase rezultate. Nu avem acum dect s nlocuim n formula de mai sus pentru a calcula probabilitatea de succes
() =
calculm ansa de succes. Aplicai doar formula specificat n capitolul anterior i vei afla ansa de succes. Nu mi se pare deloc complicat. M vei ntreba acum de ce vorbesc de o alt regul, cnd ,de fapt, este exact prima regul studiat. Pentru c aceast regul spune c probabilitatea de succes a
unui numr de k evenimente mutual exclusive reprezint suma probabilitilor de succes a fiecrui eveniment. Dac avem k evenimente (n cazul nostru
k are valoarea ase, deoarece sunt ase evenimente), atunci probabilitatea de
succes va fi P(s)=P(e1) + P(e2) + P(e3) + . P(ek)
Acest lucru se verific i n cazul nostru, dac ar fi s scriem formula
desfurat:
() =
1
1
1
1
1
1
6
1
+
+
+
+
+
=
=
36 36 36 36 36 36 36 6
probabilitate 0,001
probabilitate 0,010
probabilitate 0,040
probabilitate 0,359
probabilitate 0,590
216
Cristian Opariuc-Dan
VII.1.3
Evenimentele independente
Ai observat, din exemplul anterior cu jocul electronic, c probabilitatea de succes este destul de mare (0,41). Dac introducei o moned n aparat,
avei practic o probabilitate de 41% s ctigai ceva i 59% s pierdei. Totui, de ce nu ctigai? Dac suntei un mptimit al jocurilor de noroc, n
mod singur ai trecut prin situaia n care v spuneai: Am pierdut prea mult.
De acum, ar trebui s mai i ctig. n realitate ns, ai risipit toi banii fr
un ctig substanial. De ce? Rspunsul este foarte simplu. Deoarece evenimentele sunt n realitate independente. Introducerea unei noi monede n aparat nu are nici o legtur cu ceea ce ai jucat dumneavoastr anterior. Jocurile
anterioare nu influeneaz cu nimic probabilitatea de ctig pe care o avei. n
acest caz, evenimentele nu sunt mutual exclusive, ci independente. Dac vei
introduce n aparat 100 de monede, probabil c vei ctiga de 41 de ori i
vei pierde de 59 de ori.
Atunci cnd discutm despre evenimente independente, trebuie s
avem n vedere probabilitatea comun ca dou sau mai multe evenimente s
se ntmple simultan. S considerm un alt exemplu, n care presupunem c
avem la dispoziie un pachet de cri de joc. tii foarte bine c un pachet de
cri de joc conine un numr de 52 de cri aranjate pe dou culori: negru i
rou. De asemenea, exist, pentru fiecare culoare, un numr de 8 cri speciale: asul, popa, dama i valetul. Dac am sistematiza distribuia crilor de joc,
am obine o imagine similar tabelului de mai jos (Dowdy, i alii, 2004):
Carte special
Da
Nu
Total
Negru
8
18
26
Rou
8
18
26
Total
16
36
52
n continuare, vom amesteca foarte bine crile din pachet i vom ncerca s gsim probabilitatea cu care putem extrage o carte special de culoare neagr, dintr-o singur extragere. Cred c intuii deja rspunsul. Putem
217
extrage oricare dintre cele 52 de cri din pachet. Deci totalitatea rezultatelor
este de 52. Totui, dintre aceste 52 de cri, doar 8 cri sunt speciale i negre.
Prin urmare, probabilitatea de a extrage o carte special i de culoare neagr
8
26
52
16
52
13
4
26
2
13
VII.1.4
Probabilitatea condiionat
218
Cristian Opariuc-Dan
Nefumtor
5
60
65
Cancer
Pulmonar
Alt tip de cancer
Total
Fumtor
20
15
35
Total
25
75
100
primul eveniment.
n cazul nostru, care sunt evenimentele? Lotul nostru conine 100 de
persoane, toate bolnave de cancer. Primul eveniment l reprezint probabilitatea ca, dintre toi bolnavii de cancer, unii s fie bolnavi de cancer la plmni.
Avem un numr de 25 de bolnavi de cancer la plmni dintr-un numr de 100
de bolnavi de cancer. Probabilitatea va fi aadar 25/100. Al doilea eveniment
este reprezentat de bolnavii de cancer la plmni, fumtori. Avem un numr
de 20 de bolnavi de cancer la plmni care fumeaz. Probabilitatea pentru al
doilea eveniment va fi aadar 20/100. Dac aplicm formula de mai sus, obinem | =
20
100
25
100
20
rezultat.
219
220
Cristian Opariuc-Dan
distribuie normal la nivelul populaiei, ca n figura alturat.
Pentru a afla parametrii reali ai populaiei (media i abaterea standard ) ar trebui s nregistrm notele la matematic i rezultatele unui test
de inteligen pentru toi elevii de gimnaziu din Romnia. Un asemenea studiu va fi extrem de greu de realizat i foarte costisitor. Dac, n loc s analizm toat populaia, vom studia doar 90% din populaie, media obinut se va
apropia foarte mult de aceea a populaiei generale. Acest lucru devine posibil,
deoarece probabilitatea de a selecta subieci care vor obine scoruri egal rspndite n jurul mediei populaiei este foarte mare.
ns resursele nu sunt suficiente n vederea realizrii unui studiu de o
asemenea amploare i se va lucra cu un numr mai redus de subieci. Ce se va
ntmpla dac, n loc de a studia un eantion suficient de mare, vom folosi
doar trei elevi? n
Putem selecta 3
acest caz exist o
elevi cu rezultate
Putem selecta 3
foarte bune
probabilitate foarte
elevi cu rezultate
foarte slabe
mare s selectm
trei elevi cu rezultate foarte slabe sau
cu rezultate foarte
Figura 7.3 Distribuia coeficientului de
inteligen i a notelor la matematic
bune. n aceast
pentru un eantion de 3 elevi
situaie, concluziile
pe care le tragem sunt eronate, deoarece eantionul ales nu este reprezentativ
pentru populaia investigat.
Pe msur ce cretem dimensiunea eantionului, crete i probabilitatea de a selecta subieci cu scoruri deasupra i sub media populaiei, fapt ce
determin reducerea erorilor de eantionare, indicatorii obinui la nivelul
eantionului apropiindu-se din ce n ce mai mult de parametrii populaiei.
ntr-un capitol anterior, am discutat despre teorema limitei centrale.
Acest concept afirm c, dac extragem mai multe eantioane dintr-o popula-
221
1, 2, 1, 2, 6, 6, 4, 6, 4, 1
2, 2, 1, 2, 6, 5, 6, 3, 3, 4
4, 1, 2, 5, 6, 6, 3, 5, 5, 2
4, 2, 2, 2, 5, 3, 1, 4, 3, 4
5, 3, 4, 2, 6, 6, 1, 1, 4, 2
media = 3,6
media = 3,4
media = 3,9
media = 3,0
media = 3,4
Fiecare eantion are o medie diferit de media teoretic, se abate ntrun sens sau altul de la media populaiei 3,5. Dac aplicm principiile teoremei limitei centrale, vom realiza media acestor eantioane. Adunai toate cele
cinci medii i mprii la cinci. Obinei valoarea 3,46 care, iat, aproximeaz
cel mai bine media populaiei. n mod similar, aceste principii se aplic i n
cazul cercetrilor tiinifice.
Media de sondaj (m) obinut pe baza unui eantion reprezint un estimator consistent, deoarece tinde spre valoarea teoretic pe msura creterii
numrului de observaii, nedeplasat, eficient, fiind estimatorul cu cea mai
mic abatere de la media populaiei i suficient n sensul c nicio alt estimare nu ofer informaii suplimentare cu privire la parametrul estimat.
(Vasilescu, 1992).
222
Cristian Opariuc-Dan
Dei media de sondaj aproximeaz bine media populaiei, gravitnd n
jurul acesteia, noi nu tim ct de bine o aproximeaz. Dac vei cumpra o
pung de cafea de 100 de grame, s nu v ateptai ca punga respectiv s
cntreasc exact 100 de grame. Vei observa pe ambalaj o specificaie important: 100 de grame 5 grame. Ce nseamn acest lucru? nseamn c
punga dumneavoastr conine minimum 95 de grame i maximum 105 grame
de cafea. Cantitatea exact de cafea se gsete undeva ntre aceste limite, n
acest interval, numit i interval de ncredere. Dac vom evalua o caracteristic a populaiei prin mai multe eantioane, mediile fiecrui eantion vor reprezenta estimri punctuale ale parametrului populaiei, estimri situate, n
general, n acest interval de ncredere. De aceea, putem spune c media de
sondaj este un estimator punctual al mediei populaiei n timp ce intervalul
de ncredere reprezint un estimator de interval al mediei populaiei. Acest
indicator ne ofer un interval de valori ntre limitele cruia putem regsi media real a populaiei studiate.
Nu ntmpltor am menionat anterior o proprietate foarte important
a repartiiei mediei eantioanelor care tinde spre o distribuie normal, indiferent de modul n care se distribuie real variabila la nivelul populaiei. Cunoscnd acest lucru, ne amintim c distribuia normal este complet caracterizat
prin medie i abaterea standard, iar aceste concepte ne vor ajuta s determinm intervalul de ncredere.
n figura numrul 7.4, am reprezentat distribuia nlimii brbailor
din Romnia. Evident, media acestei
?
caracteristici la nivelul populaiei este
i va rmne necunoscut. Dac vom
extrage cteva eantioane din populaFigura 7.4 Distribuia nlimii brbailor din Romnia
ie, mediile obinute le vom putea reprezenta prin punctele de pe grafic.
Media fiecrui eantion se abate n sens pozitiv i negativ de la media real,
223
ns, dac am face media acestor eantioane, ne-am apropia cel mai bine de
valoarea exact a acestui parametru.
Dar, dup cum am
spus, media eantioanelor are
proprietatea de a se distribui
normal. Folosind acest element i proprietile distribu?
iei normale, putem calcula
cu ct se abate media unui
eantion fa de media teoretic care rmne n continuare necunoscut , stabilind astfel intervalul de ncreFigura 7.5 Distribuia normal a nlimii brbaidere. n mod practic, mediile
lor din Romnia
eantioanelor se vor abate de
la media teoretic cu un numr de abateri standard sau, mai precis, vor
dobndi, fiecare, o cot z. Indiferent de eantion, media acestui eantion se
poate situa ntre -3 i + 3 abateri standard, pentru o probabilitate de aproximativ 99,74%. Acest interval este ns prea
mare i permite mediei de sondaj s aib
aproximativ orice valoare din domeniul de
variaie al nlimii brbailor din Romnia.
n general, trebuie s ne asigurm, la un nivel
de probabilitate de 95%, c zona din curba de
distribuie a populaiei conine media de sondaj, adic intervalul de ncredere al mediei
Figura 7.6 Zona distribuiei normale corespunztoare unui interval
are o precizie de 95%, existnd mai puin
de ncredere de 95%
de 5% anse ca media populaiei s nu fie
224
Cristian Opariuc-Dan
coninut n acest interval. n termeni de abateri standard, zona corespunztoare unui interval de ncredere de 95% se afl situat ntre 1,96 i + 1,96
abateri standard.
Urmnd firul logic, dac scorul z al mediei eantionului se afl situat
ntre 1,96 i + 1,96 abateri standard, nseamn c aceast medie aproximeaz suficient de bine media teoretic sau media populaiei la un nivel de ncredere de 95%. Dac v amintii, o procedur similar am utilizat atunci cnd am
analizat simetria i boltirea unei distribuii.
Abaterile mediilor de sondaj fa de
media teoretic seamn foarte mult cu un
alt indicator studiat anterior, ca msur a
Figura 7.7 Media eantionului
mprtierii, i anume abaterea standard. De
ntr-un interval de ncredere de
fapt, abaterea standard a mediilor eantioa95%
nelor reprezint un alt concept statistic care
poart numele de eroare standard a mediei. Eroarea standard a mediei reprezint o msur n care media unui eantion deviaz de la media eantioanelor, avnd o importan deosebit n stabilirea real a intervalului de ncredere i a msurii n care media unui eantion aproximeaz media real a populaiei.
Metoda tradiional prin care am putea estima eroarea standard a mediei ar fi aceea de a extrage mai multe eantioane din populaie, de a calcula
media eantioanelor i apoi abaterea standard a acestora dup unul dintre
procedeele descrise n capitolele anterioare. Totui, acest lucru nu se ntmpl, deoarece, de cele mai multe ori, n cercetarea tiinific lucrm cu un
singur eantion. Din fericire, eroarea standard a mediei este n legtur cu
mrimea eantionului aa cum am artat anterior i poate fi calculat cunoscnd doar mrimea eantionului i abaterea standard a acestuia. Cu ct
eantionul este mai mare, cu att eroarea standard este mai mic i invers. O
225
bun aproximare a erorii standard a mediei este dat de raportul dintre abaterea standard a rezultatelor obinute de ctre subiecii din eantion i rdcina
ptrat din volumul eantionului.
Aadar, eroarea standard a mediei poate fi calculat prin intermediul
formulei:
=
(formula 7.1)
6,69
30
6,69
diei este destul de mic, media aproximnd bine media general a populaiei.
Cunoscnd eroarea standard a mediei, putem acum estima limitele ntre care gsim media populaiei () la un interval de ncredere de 95%. Dup
cum tim, n termeni de abateri standard, pe o distribuie normal, intervalul
de ncredere corespunztor nivelului de 95% este situat ntre +/- 1,96 abateri
standard. Particulariznd, intervalul de ncredere al mediei teoretice poate fi
calculat dup formula:
= 1,96
= 1,96
(formula 7.2)
226
Cristian Opariuc-Dan
n cazul nostru, media nlimii celor 30 de subieci este de 179,9
centimetri, iar eroarea standard a mediei este de 1,22 centimetri. Limita inferioar a intervalului de ncredere va fi de 179,9 1,96x1,22 = 177,51 centimetri, iar limita superioar a intervalului de ncredere va fi de 182,29 centimetri. Cu alte cuvinte, ntre 177,51 centimetri i 182,29 centimetri se va afla
media de nlime a populaiei masculine din Romnia.
227
6. Formularea concluziilor.
Dei nu intenionez abordarea n detaliu a tuturor etapelor, a dori s
menionez faptul c, n principal, metoda statistic intervine n etapa a cincia,
etapa interpretrii datelor. Deoarece o interpretare a datelor presupune, ns,
i o colectare corect a lor, cunotine de statistic sunt necesare att n etapa
a doua formularea ipotezelor , ct i n etapa proiectrii experimentului
sau n aceea a sondajului. Numai n acest mod ne putem asigura de prezena
unui set valid de date, care va face posibil interpretarea acestora i transferul
ctre etapa a asea etapa formulrii concluziilor. Iat motivul pentru care
fiecare dintre aceste ase etape vor fi analizate separat.
VII.3.1
Enunarea problemei
Enunarea problemei vi se pare, probabil, cea mai simpl etap a demersului tiinific. Trebuie s v informez, de la nceput, c acest stadiu nu
este deloc simplu i necesit un mare volum de cunotine, o bun intuiie
tiinific, un volum impresionant de observaii i, de asemenea, un potenial
creativ. Pot, spre exemplu, s enun problema cltoriei n timp. Demersul
tiinific va eua din start, deoarece, la ora actual, problema este insolvabil.
O problem apare n urma unui mare numr de observaii. Pot constata, de
exemplu, c un element major al ineficienei instituionale l reprezint incapacitatea de comunicare la diferitele structuri ierarhice din cadrul instituiei.
Aceast problem, pe care mi-o propun spre soluionare, rezult n urma unui
numr semnificativ de observaii referitoare la analiza dinamicii i a climatului organizaional la nivelul multiplelor instituii. n acelai timp, trebuie s
ne asigurm de faptul c problema nu are nc o soluie pertinent. Degeaba
observ c, stnd la umbra unui mr, mi cade un fruct n cap. Poate voi fi capabil s m ntreb de ce cade, s mi pun problema i apoi s gsesc explicaia. ns aceast problem a fost rezolvat acum mult timp de ctre Newton.
Referitor la acest aspect, investigarea soluiilor pertinente este de domeniul
228
Cristian Opariuc-Dan
metaanalizei, demers ce ar trebui s precead etapa enunrii problemei i pe
care l vom aborda n al treilea volum al prezentei lucrri.
Legturile omului de tiin cu domeniul investigat sunt, din nou, de
mare importan. Am depit epoca renascentist n care un om putea fi foarte bun n chimie, fizic, anatomie, arte, matematici i aa mai departe. Volumul de cunotine acumulat de omenire este att de mare, nct, chiar i ntrun subdomeniu limitat, fiina uman este depit. Vorbind de psihologie
ca s nu lum n discuie domeniul supraordonat al tiinelor socio-umane
numai un diletant poate pretinde c e psiholog. Este ca i cum a spune c
un medic este pur i simplu medic. Evident c e medic, ns n ce? n ortopedie, pediatrie, neurologie, oftalmologie i aa mai departe. La fel, un psiholog
poate fi psihoterapeut, experimentalist, consilier colar, specialist n organizaii, n psihologia social etc. Mie, de exemplu, mi place psihologia experimental i, n special, metoda statistic. Totui, la momentul n care scriu
aceste rnduri, consider c tiu cel mult 15-20% din metoda statistic i m
ntreb dac mi va ajunge viaa s dein un procent de 50-60%, dei studiul
acestei metode face parte din activitatea mea zilnic. n aceste condiii, cum
a putea, oare, s formulez o problem din domeniul psihoterapiei, ca s nu
mai vorbim de domeniul chimiei sau al astronomiei. Poate pare deplasat, ns
sunt adeptul strictei specializri i al lucrului n echipe multidisciplinare. Dac sunt psihoterapeut, desigur, am anumite cunotine de statistic psihologic, ns nu m pot considera un expert n aceast problem. Este de preferat
lucrul ntr-o echip cu un specialist n psihologie experimental, care stpnete la un nivel perfect satisfctor metoda statistic, n momentul n care
apare necesitatea unui studiu tiinific care presupune analiza datelor, n locul
unui efort pe termen scurt de abordare pe cont propriu a unui domeniu n care
competenele sunt mediocre.
Dincolo de aceste meniuni, enunarea problemei presupune formularea acesteia n scris, n termeni clari i explicii. n urma formulrii proble-
229
mei, rezult obiectivele cercetrii, obiective exprimate n termeni de obiective generale i specifice.
Obiectivele generale ghideaz cercetarea n ansamblul ei. Un studiu
tiinific are unul, maxim dou obiective generale. Nu ne putem concentra
eforturile pe mai multe planuri; or, planurile sunt ghidate exact de modul de
formulare al obiectivelor generale.
Obiectivele generale ale unei cercetri sunt formulate n urma unui
cumul de observaii i, eventual, n urma unui studiu metaanalitic. n ultima
situaie, este necesar prezentarea rezultatelor studiului metaanalitic care a
ghidat formularea obiectivului general i prin care se demonstreaz lipsa de
abordare sau abordarea nepertinet a problemei studiate. Spre exemplu, constatm c, pe msur ce crete numrul de kilometri parcuri cu un automobil, crete i riscul de apariie al unui accident i ne propunem s studiem
tiinific aceast problem. n mod normal, ar trebui s ncepem prin a analiza
cercetrile existente n acest domeniu i s desfurm un studiu metaanalitic.
n urma acestui studiu, putem preciza obiectivul general al cercetrii, de forma: Obiectivul general al cercetrii l reprezint stabilirea relaiei existente
ntre numrul de kilometri parcuri i probabilitatea de apariie a unui accident rutier. Observm c enunarea problemei ce urmeaz a fi studiat s-a
fcut extrem de clar i explicit, astfel nct se pot defini termenii i condiiile
proiectrii unui studiu experimental sau a unei cercetri bazate pe sondaj.
Obiectivele specifice reprezint aspecte detaliate ale investigaiei tiinifice, deriv din obiectivul general i creeaz baza formulrii ipotezelor de
cercetare (alternative). n funcie de dimensiunile cercetrii i de resursele pe
care le are la dispoziie cercettorul, se pot formula unul, dou, trei douzeci de obiective specifice, aflate n legtur cu obiectivul general.
Concluzionnd, enunarea problemei reprezint prima etap a demersului tiinific. Ea este nsoit de un studiu al cercetrilor n domeniu i de
230
Cristian Opariuc-Dan
prezentarea clar i precis, n termeni cuantificabili, a obiectivelor generale
i specifice.
VII.3.2
Formularea ipotezelor
231
Ipotezele bilaterale nu impun direcia de evoluie a variabilelor. Dei mai puin precise n comparaie cu cele unilaterale,
ipotezele bilaterale ofer o mai mare libertate cercettorului. O
formulare de genul exist o legtur ntre nivelul de anxietate i predominana simptomelor depresive poate fi susinut
att n cazul n care corelaia este pozitiv, ct i n situaia
unei corelaii negative. Ipoteza nu este susinut doar n condiiile n care, cu o mare probabilitate, se demonstreaz inexistena unei asemenea relaii.
VII.3.2.1
Cristian Opariuc-Dan
Relund exemplul de mai sus, ipoteza alternativ se noteaz, de obicei, cu H1 i poate fi enunat astfel:
H1: Presupunem c exist o legtur ntre nivelul de anxietate i nivelul de depresie.
Din punct de vedere statistic, nu putem verifica direct aceast ipotez.
Singura modalitate prin care putem sprijini ipoteza alternativ este s enunm i apoi s testm ipoteza nul. De obicei, ipoteza nul notat cu H0
este o negare logic a ipotezei alternative i poate fi formulat astfel:
H0: Nu exist nici o legtur ntre nivelul de anxietate i nivelul de
depresie.
ntr-o cercetare, exist o singur ipotez nul i una sau mai multe
ipoteze alternative. Ipoteza nul este cea care orienteaz planul (designul)
cercetrii. Dac n urma analizei datelor, respingem ipoteza nul, nseamn c
datele noastre susin una dintre ipotezele alternative. Dac ipoteza nul nu
este respins, datele nu sprijin ipoteza alternativ.
Acesta este singura modalitate prin care se poate testa o ipotez. Reinei c nu putem confirma sau infirma ipoteza alternativ i nici ipoteza nul.
Singurul lucru pe care l putem face este s respingem sau s nu respingem
ipoteza de nul. Nu v revoltai. Acesta este adevrul, chiar dac nu v place.
Pentru ca acest lucru s v devin clar, vom explica puin, prin exemplu, logica testrii ipotezei de mai sus. Cum ai proceda pentru a studia legtura
dintre anxietate i depresie? Vom lua cazul cel mai simplu, n care dispunem
de dou chestionare, unul care msoar anxietatea i un al doilea care msoar depresia. Administrm apoi cele dou chestionare unui eantion de, s zicem, 30 de subieci. Dup colectarea datelor, plecm de la ideea c nu exist
nici o legtur ntre nivelul de anxietate i nivelul depresiei.
Nu trebuie s uitm faptul c scopul acestei cercetri l reprezint extragerea unei concluzii valabile la nivelul ntregii populaii, pe baza studiului
233
unui eantion. Chiar dac observm o relaie ntre cele dou variabile, ntotdeauna exist o probabilitate mai mare sau mai mic ca rezultatul s fie
obinut pe baza unei erori de eantionare. Ipoteza nul ne indic, de fapt, probabilitatea de a obine aceste date n condiiile n care ar fi adevrat, adic n
condiiile n care datele se obin n urma unei erori de eantionare. Practic, n
momentul n care calculm relaia dintre cele dou variabile, calculm probabilitatea de obinere a acestei relaii ca rezultat al unei erori de eantionare.
Oricnd exist posibilitatea ca relaia constatat la nivelul eantionului s nu
se regseasc ntr-adevr la nivelul populaiei, deoarece datele colectate la
nivelul eantionului sunt rezultate n urma unei erori de eantionare.
n exemplul nostru, s presupunem c gsim o relaie ntre anxietate i
depresie, n sensul c persoanele anxioase prezint i simptome depresive.
Am lucrat, totui, pe un eantion i nu cu ntreaga populaie. nainte de a face
aceast afirmaie valabil pentru ntreaga populaie, ne putem pune problema
care ar fi probabilitatea ca relaia pe care am descoperit-o s nu existe de fapt
(ipoteza nul), adic relaia s fie rezultatul unor erori de eantionare este,
evident, o probabilitate condiionat. Dac aceast probabilitate este suficient
de mic, s spunem 5%, atunci putem concluziona c relaia descoperit nu
este rodul unor erori de eantionare, ci o putem regsi la nivelul populaiei.
Acest procent de 5% nu nseamn altceva dect c, la doar 5 subieci dintr-o
sut de subieci, relaia s-ar putea s nu se verifice. n acest caz, probabilitatea ca ipoteza nul s fie adevrat este foarte mic i o putem respinge. Respingnd ipoteza nul, putem sprijini ipoteza alternativ. Nu am spus c o confirmm sau c o acceptm. n realitate, ipoteza alternativ nu poate fi confirmat sau acceptat, deoarece n permanen apare excepia (cele 5 persoane
dintr-o sut) pentru care ipoteza alternativ nu este adevrat.
Sperm c, n baza exemplului de mai sus, ai reuit clarificarea modului n care are loc testarea ipotezelor ntr-o cercetare tiinific. Dac ar fi
s concluzionm, am putea spune c logica testrii ipotezelor cuprinde patru
etape (Dancey, i alii, 2002):
234
Cristian Opariuc-Dan
Formularea ipotezei;
Calcularea probabilitii de obinere a acestor relaii n condiiile n care relaiile de fapt nu exist la nivelul populaiei;
VII.3.2.2
235
236
Cristian Opariuc-Dan
evaluare exact a probabilitii de respingere a ipotezei de nul.
Unele programe statistice, printre care i SPSS, raporteaz
uneori pragul de semnificaie de forma .000, adic 0,000. Este
o greeal s precizai un p=0,000, acest lucru nsemnnd o
probabilitate nul de obinere a relaiei prin eroarea de eantionare, ceea ce nu poate fi posibil. Deoarece SPSS rotunjete la
trei zecimale, probabil c pragul real de semnificaie este o valoare de genul 0,0000001457. n acest caz, se prefer prima
modalitate de raportare, de genul p<0,01.
Atunci cnd discutm de semnificaie, trebuie s avem n vedere faptul c ne referim la o semnificaie statistic i nu la semnificaia psihologic,
social sau economic. Afirmaia, conform creia exist o corelaie semnificativ ntre nivelul de anxietate i nivelul depresiei la un prag de semnificaie
mai mic de 0,05, nu nseamn altceva dect c, la nivelul populaiei, exist o
probabilitate mai mic de 5% ca s nu fie nicio relaie ntre anxietate i depresie. Att. Semnificaia statistic nu implic o interpretare psihologic a
acestei legturi.
Valoarea pragului de semnificaie reprezint o probabilitate condiionat, probabilitatea de apariie a unui eveniment, n condiiile n care ipoteza
nul este adevrat. Aceast valoare nu indic probabilitatea de apariie a
evenimentului la nivelul populaiei. Un prag de semnificaie mai mic de 0,05
ne spune doar c sunt mai puin de 5% anse ca relaia dintre anxietate i depresie s fie rezultatul unei erori de eantionare. Acest lucru ns nu nseamn
c avem peste 95% anse s regsim relaia la nivelul populaiei. Dup cum
am mai afirmat, testarea ipotezelor presupune doar testarea ipotezei nule, nu
i inferene referitoare la ipoteza alternativ.
Chiar dac pragul de semnificaie creeaz condiiile respingerii ipotezei nule, totui nu vom putea niciodat afirma cu certitudine c susinem ipoteza alternativ. n cercetarea tiinific, dei condiiile de semnificaie statis-
237
tic pot fi ndeplinite, este posibil apariia a dou tipuri de erori: putem respinge ipoteza nul, iar n realitate ea s nu ndeplineasc condiiile de respingere la nivelul populaiei, sau putem s nu respingem ipoteza nul, n situaia
n care ar trebui respins.
Cnd credeai i dumneavoastr c ai scpat de lucrurile astea care
presupun logica probabilitilor, iat un nou concept care are darul s v ameeasc. Personal, m mir c nu ai trecut nc la lectura unui volum de poveti. i dac tot veni vorba de poveti, s v relatez o poveste pe care mi-a
spus-o pe vremuri Ovidiu Lungu i care v va lmuri cu privire la natura
acestor erori.
A fost odat un mprat care avea obiceiul s poarte multe rzboaie.
nainte de a merge la rzboi, mpratul nostru l chema pe vrjitorul curii i l
punea s-i prezic soarta btliei. De fiecare dat, bietul vrjitor era n mare
impas, deoarece, dac greea previziunea, risca s-i piard capul, cum o piser muli alii naintea lui. Totui, vrjitorul avea muli ani de cnd i pstra capul pe umeri, iar prediciile acestuia, uneori, se dovedeau a fi adevrate.
ntrebarea mea este cum proceda? n primul rnd, vrjitor fiind, el citise
aceast carte i celelalte dou care urmeaz s apar. n al doilea rnd, avea
ceva noiuni legate de probabiliti i de verificarea ipotezelor i, naintea
btliei, i formula ipotezele, apoi construia un tabel similar tabelului de mai
jos:
H1: Prevd c mria sa va ctiga btlia
H0: Prevd c mria sa nu va ctiga btlia
Ctig
Ce a prevzut
c se ntmpl
Pierde
238
Cristian Opariuc-Dan
239
240
Cristian Opariuc-Dan
Cunoscnd aceste tipuri de erori, cum le putem totui evita? Modalitatea cea mai bun de evitare a erorilor este replicarea cercetrii prin proiectarea unui alt studiu. Dac, n urma unui alt studiu, rezultatele se pstreaz,
nivelul de ncredere n concluziile extrase va crete. Dac observm o singur
dat un fenomen, exist un mare risc ca aceast observaie s se datoreze ntmplrii. Dac l observm de dou, trei, patru ori, putem afirma cu mai mare certitudine c el reprezint un fenomen real, reproductibil i generalizabil.
VII.3.2.3
Importana acestei clasificri a ipotezelor de cercetare implic precizri suplimentare, n afara celor menionate n seciunea anterioar. Am stabilit deja c putem formula unidirecional o ipotez, atunci cnd precizm direcia exact a relaiilor dintre dou variabile (Exist o corelaie pozitiv
puternic ntre anxietate i depresie) sau bidirecional, atunci cnd nu putem anticipa exact natura relaiilor dintre variabile (Exist o corelaie ntre
anxietate i depresie). n literatura de specialitate prima situaie poart numele de one-tailed hypothesis, iar a doua situaie two-tailed
241
hypothesis sau, ntr-o variant romneasc aproximativ ipoteze la un capt al distribuiei - unilaterale i ipoteze la ambele capete ale distribuiei bilaterale. Aceast denumire o ntlnim i n cadrul programului SPSS i nu
ar fi ru s aflm logica ce st n spatele
Probabilitate foarte mare de a
obine scoruri n zona central
acestor nume.
tim deja c
distribuia
normal
prezint dou capete, Probabilitate foarte mic de a obine
Probabilitate foarte mic de a obine
scoruri
n
zona
extremelor
scoruri n zona extremelor
dou extreme care se
apropie de frecvena
zero, pe care nu o
ating ns niciodat i
Figura 7.8 Probabilitatea de a obine
scoruri n zona central a distribuiei n
am studiat deja procomparaie cu extremele
babilitatea de a obine
scoruri la capetele distribuiei n comparaie cu probabilitatea de a obine scoruri n zona central. Care ar fi probabilitatea de a ntlni o persoan cu nlimea de 178 de centimetri? Ne aducem aminte c aceast valoare reprezint
o nlime comun, cu probabilitate de apariie mare, o persoan cu aceast
nlime regsindu-se undeva n zona din mijloc a distribuiei. O persoan cu
nlimea de 250 de centimetri are o probabilitate de apariie foarte mic, situat undeva la captul din dreapta al distribuiei, n timp ce o persoan cu
nlimea de 120 de centimetri are, de asemenea, o probabilitate mic de apariie, undeva la captul din stnga al distribuiei. La fel procedm i n cazul
n care discutm de o alt variabil, s spunem coeficientul de inteligen. Un
IQ de 110 este unul comun, pe care l putem ntlni n zona de probabilitate
mare. Un IQ de 180 este unul foarte mare, cu o probabilitate de apariie mic,
similar nlimii de 250 de centimetri. La fel, un IQ de 60 are o probabilitate
mic de apariie i se situeaz spre extrema stng a distribuiei.
242
Cristian Opariuc-Dan
Haidei s ne punem acum problema relaiei dintre cele dou variabile. Ce se poate ntmpla cu coeficientul de inteligen pe msura variaiei
nlimii subiecilor? Pot exista mai multe variante posibile:
Pe msur ce crete nlimea, crete i coeficientul de inteligen. Persoanele cu nlime mare vor avea un coeficient de
inteligen ridicat, n timp ce persoanele cu nlime mic vor
avea un coeficient de inteligen sczut. Spunem n acest caz
c creterea scorurilor la o variabil determin creterea scorurilor la cea de-a doua variabil;
Pe msur ce crete nlimea, scade coeficientul de inteligen. Persoanele cu nlime mare au un coeficient de inteligen
sczut, n timp ce persoanele scunde au un coeficient de inteligen ridicat. Spunem n acest caz c creterea scorurilor la o
variabil determin micorarea scorurilor la a doua variabil.
Nu exist nicio relaie ntre cele dou variabile. ntlnim persoane nalte cu coeficieni de inteligen mari i mici, la fel i
n cazul persoanelor scunde sau cu o nlime medie. n acest
caz, spunem c cele dou variabile nu sunt relaionate, sunt independente.
243
tim c exist un sistem de note standardizate, numit note z, care are proprietatea de a aduce la un numitor comun cele dou variabile. Mai mult, notele
z sunt note aditive i multiplicative. Dac am transforma att nlimea, ct
i coeficientul de inteligen n note z, am putea calcula un scor total i am
putea sa-l reprezentm pe o distribuie normal. Acest lucru l putem observa
cu uurin n figura 7.9, prezentat mai sus.
tim, de asemenea, de la semnificaia statistic, faptul c testele de
semnificaie explic probabilitatea de obinere a unor diferene sau a unor
relaii dintre dou variabile, ca rezultat al unei erori de eantionare, indicnd
probabilitatea ca aceast relaie sau diferen s nu existe de fapt la nivelul
populaiei (Dancey, i alii, 2002). Un prag de semnificaie de 0,05 nseamn
c, pentru a fi respins ipoteza nul, trebuie s existe mai puin de 5% anse
ca scorurile de mai sus s fie obinute printr-o eroare de eantionare. S considerm acum o ipotez formulat n urmtorii termeni:
Exist o legtur semnificativ ntre nlimea subiecilor i coeficientul lor de inteligen.
Am formulat o ipotez bilateral, fr a preciza sensul acestei legturi.
Ipoteza nul (Nu exist nici o legtur semnificativ ntre nlimea subiecilor i coeficientul lor de inteligen)
poate fi respins la un prag de semnificaie de 0,05 att pentru situaia n care
2,5%
2,5%
creterea nlimii subiecilor determin
creterea coeficientul lor de inteligen,
ct i n situaia n care creterea nlimii duce la scderea coeficientului de
Figura 7.10 Reprezentarea zonelor de
respingere a ipotezei nule pentru ipotezele
inteligen. Acest prag de 5% va fi,
bidirecionale
aadar, egal distribuit la captul din
stnga i la captul din dreapta al distribuiei. Observm c aceste praguri
corespund la aproximativ dou abateri standard la stnga i la dreapta mediei.
244
Cristian Opariuc-Dan
Dac scorurile z ale subiecilor investigai vor fi situate n aceste zone, putem stabili legtura ntre nlimea i coeficientul de inteligen ca fiind o
legtur semnificativ, la un nivel mai mic de 5% ca datele s fie obinute
printr-o eroare de eantionare.
S considerm acum cel de-al doilea caz, n care formulm ipoteza
astfel:
Exist o legtur semnificativ pozitiv ntre nlimea subiecilor i
coeficientul lor de inteligen.
Iat o ipotez unidirecional care ne spune foarte clar c la creterea
nlimii apare creterea coeficientului de inteligen i, similar, scderea
nlimii determin scderea coeficientului de inteligen. Ipoteza nul poate
fi respins n acest caz numai la un prag
de semnificaie mai mic de 0,05 situat n
zona dreapt a distribuiei, la aproxima5%
tiv 1,5 abateri standard la dreapta mediei, aa cum putei observa n figura alturat.
Figura 7.11 Reprezentarea zonelor de
Nu suntem interesai ce se nrespingere a ipotezei nule pentru ipotezele
tmpl dac creterea nlimii implic
unidirecionale
scderea coeficientului de inteligen.
Putem respinge ipoteza nul numai n cazul unei legturi pozitive ntre cele
dou variabile. n mod analog, se poate arta zona de respingere a ipotezei
nule pentru legturile negative (creterea unei variabile implic micorarea
celeilalte), aceasta fiind situat aproximativ la 1,5 abateri standard n stnga
mediei.
245
Proiectarea cercetrii
VII.3.3
Orice cercetare necesit un plan de cercetare numit i design de cercetare. n urma acestui plan, se stabilesc variabilele care vor fi analizate i numrul de subieci necesar. Problematica planurilor de cercetare va fi tratat n
246
Cristian Opariuc-Dan
detaliu n volumul al doilea al lucrrii, n timp ce proiectarea eantionului sau
a lotului de subieci va face subiectul urmtorului capitol.
VII.3.4
Efectuarea observaiilor
VII.3.5
Interpretarea datelor
Axioma normalitii distribuiei. Distribuia scorurilor obinute de ctre subieci la variabilele analizate trebuie s fie o
distribuie normal. n absena unei distribuii normale, nu pot
fi utilizate teste parametrice. Reamintim c, utiliznd testele
parametrice, facem asumpia c media i abaterea standard reprezint indicatori reprezentativi ai tendinei centrale, respectiv ai mprtierii. Dac aceast asumpie este fals, ntreaga
logic a aplicrii testelor statistice va fi i ea fals. Nu intrm
acum n detalii, deoarece au fost prezentate anterior, ci ne rezumm s amintim c, dac distribuia nu este normal, vor fi
aplicate tehnici de normalizare a acesteia. Dac nici n acest
caz nu reuim obinerea unei distribuii normale, vor fi utilizate teste nonparametrice.
248
Cristian Opariuc-Dan
VII.3.6
Formularea concluziilor
Formularea concluziilor reprezint etapa final a oricrei cercetri tiinifice i rezum ntregul demers tiinific prezentat mai sus. Decizia luat va
fi o decizie probabilistic i consistent cu datele experimentale. Dac pragul de semnificaie este mai mare dect pragul acceptat, atunci probabil ipoteza nul este adevrat i va trebui acceptat. n caz contrar, putem respinge
ipoteza nul. Ipoteza experimental nu poate fi respins sau acceptat. Singura decizie pe care o putem lua se refer la ipoteza de nul.
249
n concluzie:
250
Cristian Opariuc-Dan
251
VIII.1 Populaia
Definiia din capitolul al treilea afirma c populaia reprezint totalitatea obiectelor, de un anumit tip, existente ntr-un spaiu sau teritoriu, la un
moment dat. O definiie mai larg susine c o populaie reprezint o colecie natural, geografic sau politic de persoane, animale, plante sau obiecte (Dowdy, i alii, 2004). Definiia subliniaz c o populaie reprezint, de
fapt, o colecie fizic. Fiind o colecie fizic, orice populaie se caracterizeaz
prin anumite proprieti pe care le denumim generic parametri. Termenul de
populaie este, de fapt, o abstraciune. Nu putem concepe populaia fr s
facem apel la aceste proprieti prin care se definete. Dac ne referim la populaia brbailor, implicit am definit un parametru al acesteia i anume sexul. Dac vorbim de populaia nlimii brbailor, avem n vedere doi parametri i anume nlimea i sexul. Similar, nlimea brbailor din Romnia
presupune trei parametri: locaia, sexul i nlimea. Toi aceti parametri se
numesc variabile de interes ale cercetrii i permit nregistrarea unor valori
la nivelul acestora.
ntr-o cercetare, odat stabilite variabilele (parametrii) de interes, trebuie s acordm mult atenie n momentul n care dorim s extindem concluziile la nivelul populaiei. Vom reine faptul c o populaie se caracterizeaz prin aceste variabilele de interes. Nu putem face o afirmaie de genul
nlimea brbailor este de 178 de centimetri, n condiiile n care am efectuat un studiu pe populaia din Romnia. Nu am desfurat o cercetare prin
care s investigm nlimea brbailor din lume. O formul adecvat ar fi
nlimea brbailor din Romnia este de 178 de centimetri.
Populaia odat definit, apare necesitatea nregistrrii valorilor pentru
variabilele de interes. O metod exhaustiv care-i propune investigarea
tuturor elementelor dintr-o populaie este recensmntul.
Recensmntul este o metod de observare total, cu caracter periodic, care surprinde un fenomen n mod static. Este una dintre cele mai vechi
252
Cristian Opariuc-Dan
metode de observare i asigur o fotografiere, o surprindere a unui fenomen
ntr-un anumit moment de timp. n mod particular, recensmntul populaiei
este un proces de culegere, prelucrare i publicare a datelor demografice,
economice i sociale, la un timp specificat, i valabile pentru toate persoanele
din ara respectiv sau de pe un teritoriu delimitat. O form particular a recensmntului o reprezint referendumul, ca demers similar de investigare a
opiniilor populaiei.
O asemenea metod de colectare a informaiilor este extrem de costisitoare. De multe ori, nu este practic (uneori chiar imposibil) s observm
toate valorile pe care le poate lua o variabil la nivelul populaiei.
VIII.2.1
Reprezint surse care permit colectarea direct de observaii noi. Metodele prin care putem efectua un asemenea demers includ observaia, discuiile individuale sau de grup, experimentele, chestionarele, testele, utilizarea
unor aparate specifice etc. Colectarea datelor la acest nivel poate fi costisitoare att din punct de vedere financiar, ct i sub aspectul duratei, ns avem
certitudinea unor date reale i valide. La nivelul elementelor de populaie,
cercetarea poate presupune o explorare exhaustiv, ca n cazul recensmntului, sau poate implica utilizarea eantioanelor. n mod curent, cercetrile folosesc, de cele mai multe ori, surse principale de date.
253
VIII.2.2
Reprezint date provenite din cercetri deja efectuate. Costurile necesare procurrii acestor date sunt semnificativ mai reduse, uneori informaiile
sunt de o nalt valoare tiinific, ns dezavantajul principal este acela c nu
putem avea controlul asupra veridicitii i validitii acestora. Astfel, datele
pot proveni din anuarele statistice ale unor ri sau teritorii, din rapoartele
unor organizaii sau instituii, din cercetri existente sau din baze de date publice ori private. Metaanaliza, ca metod tiinific, utilizeaz predominant
asemenea surse de date.
VIII.3 Eantionul
Exceptnd recensmntul, toate celelalte metode implic utilizarea
unei mici pri dintr-o populaie n vederea colectrii datelor. O asemenea
colectivitate statistic poart numele de eantion i reprezint un subset de
elemente din populaie, care, ns, pstreaz caracteristicile populaiei
din care provine. O cercetare efectuat pe un eantion induce, dup cum am
artat, o serie de erori care afecteaz rezultatele finale. Aceste erori apar ca
urmare a faptului c nu culegem informaii de la ntreaga populaie statistic,
ci doar de la elementele cuprinse n eantion. O cercetare efectuat pe un
eantion poart numele de cercetare selectiv, spre deosebire de recensmnt care se refer la cercetri exhaustive.
V mai amintii exemplul cu oala de fasole? Atunci am extras o lingur de boabe de fasole i am decis c boabele sunt fierte. Exact acesta este
principul eantionrii. Dac am fi luat o singur boab de fasole am fi putut
face aceast afirmaie? Eu cred c nu, deoarece ar fi existat prea multe anse
s aruncm apoi oala. Dar dac am fi mncat ntreaga oal? Atunci am fi tiut
sigur, ns nu am mai fi avut cu ce s facem mncarea. n plus, gndii-v ce
costuri ai fi suportat cu sistemul digestiv Dac n oal ai fi amestecat fasole de 10 ani i fasole de 1 an? Probabil c decizia ar fi fost corect, ns ai
254
Cristian Opariuc-Dan
avea multe anse s v rupei uneori dinii. Dac ai fi gustat din oala de mazre? Desigur c nu, pentru c v-ai fi referit la cu totul alt populaie.
Iat c un eantion trebuie s respecte caracteristicile populaiei din
care face parte. Aceasta este calitatea esenial a unui eantion i poart numele de reprezentativitate. Reprezentativitatea este, aadar, capacitatea
eantionului de a reproduce ct mai fidel structurile i caracteristicile
populaiei din care a fost extras (Rotariu, i alii, 2006). Dac valorile proprietilor la nivelul populaiei poart numele de parametri, la nivelul eantioanelor, ele se numesc indicatori sau statistici. n mod normal, noi nu cunoatem valorile parametrilor, valoarea exact pe care o are caracteristica
respectiv la nivelul populaiei, ci ncercm s-o estimm prin intermediul
valorii obinute la nivelul eantionului. Legat de acest aspect, trebuie ns s
reinei dou lucruri importante:
256
Cristian Opariuc-Dan
VIII.3.1
Mrimea eantionului
257
Un fapt importat pe care dorim s-l abordm este acela c, reprezentativitatea eantionului nu depinde de mrimea populaiei. Fie c desfurm un studiu n Romnia, fie n India sau n Statele Unite, un eantion de
500 de persoane va avea aceeai reprezentativitate.
VIII.3.2
Caracteristicile populaiei
VIII.3.3
Procedee de eantionare
258
Cristian Opariuc-Dan
onare. Cnd discutm despre reprezentativitate, vom aborda strict procedeele
de eantionare aleatorii. O procedur de eantionare este aleatoare n
momentul n care fiecare individ din populaie are o ans calculabil de
a fi ales n eantion.
Precizie
mare?
Nu
Da
Exist subpopulaii?
Exist subpopulaii?
Nu
Eantion sub
50 elemente
Da
Eantion peste
50 elemente
Nu
Da
Eantion peste
50 elemente
Eantion peste
50 elemente
- Stratificat;
- Proporional cu mrimea;
- Randomizare simpl;
- Sistematic;
- Cote;
- Proporional cu mrimea
- Multistadiu;
- Cluster;
- Stratificat
Eantion peste
50 elemente
- Analiz;
- Convenie;
- Bulgre de
zpad
- Randomizare simpl;
- Sistematic;
- Cluster;
- Randomizare simpl;
- Sistematic;
- Cluster;
259
care-i trateaz ori cazul cercetrilor efectuate pe studenii din cadrul unei universiti. Nu putem vorbi aici de reprezentativitate, iar rezultatele obinute nu
pot fi extrapolate la nivelul ntregii populaii. Un asemenea studiu, datorit
voluntariatului, este puternic biasat, iar rezultatele vor fi privite cu mare scepticism. Avantajul l reprezint posibilitatea de colectare facil i rapid a datelor, iar cu ct grupul este mai mare, cu att rezultatele vor fi mai importante. ntr-o cercetare n care se folosesc asemenea subieci, n general, elementele se raporteaz ca lot de cercetare sau lot de studiu i nu ca eantion, tocmai pentru a specifica lipsa oricror tehnici de eantionare.
VIII.3.4
260
Cristian Opariuc-Dan
la care se pot primi rspunsurile subiecilor. n mod cert, metoda de alegere a
subiecilor nu este una aleatorie i prezint limitrile prezentate mai sus.
Avantajul este acela al costurilor reduse i al creterii exponeniale a volumului de date. ntr-un timp scurt, se pot colecta foarte multe date, ns cercetrile nu prezint relevan, datorit caracterului nealeatoriu i a faptului c nu
exist un control al rspunsurilor. Fiecare respondent poate s-i exprime
punctul su real de vedere sau un punct de vedere fals.
261
262
Cristian Opariuc-Dan
ordine al celui de-al doilea subiect i se continu astfel pn la
completarea efectivului (1000 de subieci) eantionului.
Dei extrem de simpl, metoda prezint o serie de limitri serioase.
Principala problem o constituie obinerea bazei de eantionare. Cum gsim
lista cu numele, prenumele i adresa tuturor brbailor din Romnia? Unii
cercettori folosesc crile de telefon i genereaz aleatoriu volumul eantionului n baza numerelor de telefon. Se pune ns problema dac toat populaia are telefon. Cei care nu au telefon sau nu figureaz n cartea de telefon
sunt automat exclui din baza de eantionare, ceea ce duce la eliminarea caracterului aleatoriu.
Pe de alt parte, presupunnd c am obinut baza de eantionare, toate
persoanele din eantion sunt accesibile? Dac unii sunt plecai n strintate,
au murit, s-au mutat ori nu pot fi contactai, ce se ntmpl? Se mai respect
reprezentativitatea eantionului? V las pe dumneavoastr s decidei acest
lucru. n general, cu ct volumul populaiei int este mai mare, cu att aceast metod este mai dificil de implementat.
multe variabile (stratificare multipl). Spre exemplu, ne intereseaz consumul mediu zilnic de igri pentru populaia din
Romnia. Care ar fi variabilele de stratificare? Femeile consum, oare, mai multe igri n comparaie cu brbaii? Grupa
de vrst influeneaz consumul de igri? Cei din mediul rural
fumeaz mai mult sau mai puin n comparaie cu cei din mediul urban? Nu exist o regul de stabilire a variabilelor de
stratificare, acestea fiind alese n funcie de scopul cercetrii i
de rolul pe care l au n legtur cu tema cercetat. ntotdeauna
ns, suma cazurilor din fiecare strat trebuie s redea totalul
populaiei. Dac ne intereseaz numai straturile determinate de
sex, efectum o stratificare simpl. Dac, ns, lum n considerare sexul i mediul de provenien, avem o stratificare
multipl.
S lum un exemplu, prin care dorim s studiem consumul mediu de
igri din judeul X, cu o populaie total de 450.380 de persoane. Ne intereseaz o stratificare n funcie de variabilele sex i mediu de provenien. Putem obine, n aceast etap, urmtoarea structur a populaiei, prezentat n
tabelul de mai jos:
Tabel 8.1 Structura populaiei pentru cele dou variabile de stratificare n judeul X
Brbai
Femei
Rural
Urban
Rural
Urban
120.215
80.360
113.456
136.394
(26,69%)
(17,84%)
(25,19%)
(30,28%)
200575 (44,53%)
249805 (55,47%)
450.380 (100%)
264
Cristian Opariuc-Dan
Problema pe care ne-o punem se refer la proporia (procentul) din
populaia int reprezentat de fiecare strat. Pentru a afla acest lucru, nu ne
rmne dect s aplicm regula de trei simpl:
Dac 450.380
Atunci 120.215
=
nseamn
nseamn
100%
X%
n mod similar vom efectua calculele pentru toate cele patru seciuni.
Remarcm c totalul subiecilor din fiecare variabil de stratificare reprezint
ntreaga populaie int.
Stabilirea bazei de eantionare. Se realizeaz la fel ca n cazul eantionrii aleatorii simple. Avem nevoie de lista complet a tuturor persoanelor din judeul X, prelucrat dup modalitatea prezentat n subcapitolul anterior. Singura diferen este
c baza de eantionare va fi organizat pe seciuni diferite, n
funcie de variabilele de stratificare. n cazul nostru, vom avea
patru seciuni ale bazei de eantionare i anume: brbai din
mediul urban, femei din mediul urban, brbai din mediul rural
i femei din mediul rural. (N=450.380);
Stabilirea mrimii eantionului. Se face n urma unor calcule specifice, adecvate acestui tip de eantionare, calcule pe care le vom prezenta ntr-un capitol ulterior. n cazul nostru, am
ales un eantion de 300 de persoane (n=300);
Stabilirea compoziiei eantionului. Reprezint etapa prin intermediul creia ne asigurm c proporia din populaie o regsim i n eantion. Vom folosi, de asemenea, regula de trei
simpl.
265
Dac 300
Atunci X
=
nseamn
nseamn
100%
26,69%
Femei
Rural
Urban
Rural
Urban
80 (26,69%)
54 (17,84%)
76 (25,19%)
91 (30,28%)
134 (44,53%)
167 (55,47%)
301 (100%)
Observm c structura eantionului selectat reproduce fidel structura
populaiei din care a fost extras, pentru fiecare dintre cele dou variabile de
stratificare. Desigur, n loc de 300 de subieci au rezultat 301 subieci, datorit rotunjirilor aprute prin calcul. Vom pstra, n cele din urm, aceast valoare obinut.
Generarea numerelor aleatoare. Se realizeaz similar eantionrii aleatorii simple pentru fiecare baz de eantionare. Se
vor genera 80 de numere aleatoare pentru brbaii din mediul
rural, 54 de numere aleatoare pentru brbaii din mediul urban,
76 de numere aleatoare pentru femeile din mediul rural i 91
de numere aleatoare pentru femeile din mediul urban;
Extragerea eantionului. Numerele aleatoare generate n etapa anterioar reprezint numerele de ordine pentru subiecii
din cele patru baze de eantionare. Eantionul final va fi compus din 301 persoane, aparinnd tuturor celor patru categorii.
266
Cristian Opariuc-Dan
Dei mai laborioas dect eantionarea aleatorie simpl, eantionarea
stratificat are avantajul unei mai bune reprezentativiti.
Exerciiu:
Calculai cte boabe de fasole de 10 ani i cte boabe de fasole de 1
an trebuie s avei n lingur, cunoscnd c n oal se afl 854 de boabe de
fasole de 1 an i 362 de boabe de fasole de 10 ani.
Dei, aparent, caracterul aleatoriu nu se pstreaz datorit crerii ponderilor pe straturi, aceast alegere a subeantioanelor asigur tuturor indivizilor o probabilitate egal de a intra n eantion. O problem poate s apar n
situaia n care ponderea unui strat este foarte mic n populaie. Dac vom
considera variabila de eantionare nivelul de inteligen, exist posibilitatea
ca grupa geniilor sau a idioilor s aib foarte puine cazuri n populaie (s
spunem 10). n aceast situaie, n eantion ar trebui s includem 0,003 (un
exemplu, cifra nu a rezultat din calcul) persoane, ceea ce este imposibil.
Asemenea situaii impun o supra-reprezentare (adic includerea mai multor
cazuri n eantion dect proporia din populaie) urmat apoi, n decursul analizei indicatorilor statistici, fie de ponderarea valorilor pariale la nivelul stratului respectiv, fie de includerea acelui strat ntr-un alt strat supraordonat sau
subordonat (de exemplu, includerea geniilor n categoria celor cu un intelect
superior i redenumirea stratului inteligen superioar-genialitate).
267
Principiul de baz al acestei eantionri este acela al proximitii spaiale i al faptului c persoanele pot fi privite ca indivizi aparinnd unor grupuri. Eantionarea multistadial presupune parcurgerea urmtoarelor etape:
268
Cristian Opariuc-Dan
liti, din care calculm un eantion de 17 localiti pe care le
extragem prin procedee aleatorii. Vor rezulta 3 localiti din
Bacu (Ciui, Drmneti i Sascut), 5 localiti din Constana (Ostrov, Dobromir, Saraiu, Medgidia i Techirghiol), 2 localiti din Satu Mare (Vama i Carei), 4 localiti din Cluj
(Mihai Viteazu, Ciucea, Scuieu i Vad) i 3 localiti din Timi (Tometi, Cenad i Pichia). Aceste localiti vor reprezenta baza de eantionare pentru urmtorul stadiu.
270
Cristian Opariuc-Dan
despre populaie. Se preteaz mai degrab la analize de tip calitativ, cum ar fi
interviurile sau focus-grupurile.
Un cluster reprezint o structur care se comport ca un individ
ntr-o populaie. Dac considerm populaia municipiilor din Romnia,
atunci un cluster este reprezentat de Municipiul Constana, un alt cluster de
Municipiul Iai i aa mai departe. Modalitatea de realizare a unui eantion
pe clusteri este urmtoarea:
Stabilirea bazei de eantionare. n acest caz, baza de eantionare este reprezentat de totalitatea populaiei de clustere.
Dac suntem interesai de o cercetare pe nvmntul liceal,
baza de eantionare va conine lista exhaustiv a liceelor din
Romnia. S presupunem c avem 5423 de licee n Romnia
(N=5423);
271
Stabilirea bazei de eantionare. Baza de eantionare se stabilete prin acelai procedeu ca i n cazul eantionrii aleatorii
simple. Avem din nou nevoie de lista exhaustiv a brbailor
din Romnia, spre exemplu;
Se stabilete pasul de eantionare. Pasul de eantionare reprezint expresia raportului dintre volumul populaiei i volumul eantionului: = . n cazul nostru, pasul de eantionare va fi 8000000 1000 = 8000.
Stabilirea punctului de start. Punctul de start reprezint locul de ncepere a eantionului. Se genereaz un numr aleatoriu ntre 1 i 8000, numr care va reprezenta punctul de start.
272
Cristian Opariuc-Dan
S presupunem c acest numr este 5421. Subiectul cu acest
numr de ordine va fi prima persoan inclus n eantion.
Stabilirea cotelor (variabilelor de stratificare) i a structurii populaiei. Se face identic ca i n cazul eantionrii stratificate. Vor rezulta cele patru grupe, cu procentele din populaie asociate (vezi tabelul 8.1);
Stabilirea mrimii eantionului. Se face n urma unor calcule specifice, adecvate acestui tip de eantionare.
273
274
Cristian Opariuc-Dan
tion mai muli bucureteni este mult mai mare. Folosind aceast tehnic, probabilitile se egaleaz. Eantioanele cu probabilitate proporional cu mrimea sunt utilizate, n special, n domeniul organizaional, n cercetri la nivelul crora se intenioneaz investigarea personalului. Deoarece cadrele de
conducere sunt mai puin numeroase n comparaie cu cadrele de execuie,
metoda permite egalarea anselor celor dou categorii de a fi incluse n eantion.
Relund exemplul anterior, ne propunem s desfurm o cercetare
oarecare n judeul Y, care are un numr de 29 de localiti. Dup cum observai n tabelul 8.3, localitile sunt difereniate sub aspectul populaiei. n
timp ce localitatea 26 are un numr de 197 de locuitori, localitatea 21 are un
numr de 1590 de locuitori. Evident c ansele de a extrage mai muli locuitori din localitatea 21 sunt mai mari n comparaie cu localitatea 26, de unde,
cel mai probabil, nu va participa nimeni la cercetare. Prin acest procedeu de
eantionare putem egala situaia, astfel nct subiecii din fiecare localitate s
aib o ans calculabil de a fi inclui n eantion.
Etapele de realizare a unui asemenea eantion sunt urmtoarele:
275
Populaie
542
245
1032
867
256
352
835
645
427
312
1342
390
604
465
897
476
365
967
533
215
1590
423
645
867
423
197
586
365
756
Populaie cumulat
542
787
1819
2686
2942
3294
4129
4774
5201
5513
6855
7245
7849
8314
9211
9687
10052
11019
11552
11767
13357
13780
14425
15292
15715
15912
16498
16863
17619
Locaie selectat
423
1891
3359
4827
6295
7763
9231
10699
12167
13635
15103
16571
276
Cristian Opariuc-Dan
Stabilirea eantionului. La punctul de start 423 se adaug valoarea pasului 1468 i se obine noua locaie
277
VIII.3.5
278
Cristian Opariuc-Dan
Niciodat nu obinem valoarea sa exact. n funcie de modul
n care proiectm cercetarea i de nivelul de precizie dorit, putem reduce eroarea statistic, ns n condiiile unui eantion
de dimensiuni mai mari;
Variabilitatea populaiei estimat de obicei prin intermediul abaterii standard. Se refer la amplitudinea pe care o au
opiniile populaiei, element care afecteaz, de asemenea, dimensiunea eantionului. Cu ct variabilitatea este mai mare, cu
att acurateea estimrii este mai mic i va fi nevoie de un
eantion de dimensiuni mai mari;
Nivelul de ncredere indic gradul de precizie cu care rezultatele obinute prin studiul eantionului se vor regsi la nivelul
populaiei. Cu ct nivelul de ncredere este mai mare, cu att
pretenia c rezultatele obinute nu sunt atipice crete, fiind
nevoie de eantioane de dimensiuni mai mari. Majoritatea cercetrilor utilizeaz un nivel de ncredere de 95%;
2 1
2
(formula 8.1)
unde: n reprezint mrimea eantionului, z scorul z asociat nivelului de ncredere dorit, e este precizia dorit (numit i marj de eroare)
i p reprezint ponderea rspunsurilor la nivelul populaiei.
Dup cum v-ai dat seama, valorile notei z sunt de fapt nite constante, alocate n funcie de nivelul de ncredere, astfel:
280
Cristian Opariuc-Dan
281
zie este mai mare, cu att crete i volumul eantionului. Marja de eroare de
2% se scrie n form zecimal 0,02.
Cunoscnd acum toate aceste elemente, s ne imaginm c desfurm un studiu utiliznd un chestionar, la care subiecii rspund prin Da sau
Nu, nu avem idee care ar fi proporia rspunsurilor Da sau care ar fi proporia rspunsurilor Nu, dorim un nivel de ncredere de 95% i un nivel de
precizie de 2%. Ce volum trebuie s aib eantionul?
=
2 1
2
3,840,50,5
0,0004
0,96
0,0004
= 2400
Vom avea un eantion de 2400 de persoane, pentru a obine reprezentativitatea la acest nivel. Suntem cam pretenioi, nu-i aa? Bine c nu am
ales nivelul de ncredere de 99%, c cine tie ce obineam Dac dorii s
aflai, nlocuii n formula de mai sus 1,96 cu 2,58 i vedei.
Exerciiu:
Folosind acelai tip de studiu, calculai volumul unui eantion la un
nivel de ncredere de 95% i cu o precizie de 3%, estimnd c subiecii vor
rspunde 75% Da i 25% Nu.
n practic, se folosete o formul derivat din formula 8.1 n vederea
calculrii preciziei sau a marjei de eroare:
=
2 1
(formula 8.2)
Cristian Opariuc-Dan
dintr-un numr de 180 de persoane, cum aflai precizia? Eu a fi de prere s
aplicm formula 8.2
=
2 1
3,840,650,35
180
0,87
180
0,004 = 0,06 = 6%
O precizie de 6% mi se pare extrem de mic pentru un asemenea
sondaj. Cu alte cuvinte, preferinele pentru Icsulescu variaz ntre 59% i
71%. Cam mare marja de eroare, nu credei?
Atunci cnd variabila msurat are un caracter continuu (cum ar fi, de
exemplu, nlimea), se utilizeaz o alt formul pentru determinarea mrimii
eantionului, formul ce ine cont de variana caracteristicii msurate la nivelul populaiei. Deoarece aceast varian de multe ori nu poate fi anticipat,
existnd prea puine anse s cunoatem n mod real variana parametrului la
nivelul populaiei, majoritatea studiilor de acest tip prefer transformarea
variabilelor continui sau polihotomice n variabile dihotomice pentru aplicarea calculului de proporii. Acest lucru se poate efectua prin combinarea rspunsurilor n dou categorii (de exemplu, subieci nali i subieci scunzi) i
apoi aplicarea metodei de estimare prin proporii, aceast tehnic fiind acceptat cvasi-universal.
Dac nu dorim totui s facem acest lucru, o alt metod prin care putem determina volumul unui eantion n cazul variabilelor continui este aceea
prin care nlocuim variana populaiei cu variana eantionului. Deoarece abaterea standard la nivelul unui eantion aproximeaz bine abaterea standard a
populaiei, ne putem permite s realizm un studiu pilot pe un numr de 3040 de subieci, calculm apoi abaterea standard pe care o folosim la determinarea mrimii eantionului dup formula:
=
2
2
(formula 8.3)
283
1,962 4,46
= 428
0,22
Formulele de mai sus sunt aplicabile numai n condiia n care volumul eantionului nu depete 5% din volumul populaiei. n situaia n care
volumul eantionului trece de acest prag, se aplic o corecie care-i reduce
uor dimensiunea, dup formula:
=
1+
(formula 8.4)
Dac ntr-o cercetare am stabilit volumul unui eantion la 398 de cazuri, iar volumul populaiei (N) este de 2000 de cazuri, atunci, aplicnd formula, vom obine:
=
398
398
=
=
= 334
1
398 1 1,19
1+
1 + 2000
284
Cristian Opariuc-Dan
=
1+ 2
(formula 8.5)
1+
2000
2000
=
= 333
2
1 + 2000 0,05
6
Eantioane multistadiale;
285
include structura eantionului, metodele de estimare pentru fiecare stadiu, referinele la variabilele de interes.
Debutul procedurii de creare a unui eantion se face prin deschiderea
bazei de eantionare. Vom folosi, n acest scop, o baz de date pus la dispoziie de SPSS Inc., situat n directorul n care s-a instalat aplicaia. Baza de
date se numete 1991 U.S. General Social Survey.sav i conine un numr
de 1517 nregistrri, reprezentnd rezultatele unui sondaj efectuat n Statele
Unite. Deoarece volumul de date este destul de mare, avnd i o serie de variabile factuale i demografice, putem folosi acest fiier ca exemplu pentru
baza noastr de eantionare.
VIII.4.1
Figura 8.5 Primul pas al crerii unui eantion. Salvarea fiierului plan
Cristian Opariuc-Dan
putea apsa butonul Browse pentru a alege locul pe hard-disc unde va fi
salvat planul de eantionare. Evident, va trebui s furnizm i un nume pentru
acest fiier. n cazul nostru, am denumit fiierul Test.csplan i a fost salvat
direct pe discul C:\. Observai c extensia fiierelor de tip plan de eantionare
este .csplan.
Pentru a modifica un plan de eantionare existent, avei la dispoziie
opiunea Edit a sample design. Cu ajutorul acesteia, vei putea reconfigura sau elimina stadii din cadrul unui plan de eantionare multistadial creat
anterior. Evident, acest plan de eantionare va trebui iniial deschis prin tastarea cii ctre fiierul de tip .csplan sau folosind butonul Browse.
Dac avei deja un plan de eantionare fcut i dorii s creai un eantion n baza acestuia, putei folosi opiunea Draw a sample, dup care alegei fiierul plan dorit, la fel ca mai sus. Trecerea la urmtoarea etap se face
prin intermediul butonului Next. Putei oricnd abandona operaia apsnd
pe butonul Cancel sau putei parcurge sistemul de asisten contextual
prin accesarea butonului Help.
A doua fereastr presupune definirea planului de eantionare. n partea stng, avnd o structur arborescent, sunt afiate opiunile acestui stadiu. Prima opiune implic precizarea variabilelor de eantionare n cazul
unor eantioane care presupun acest lucru (opiunea Design variables).
Avem prezentate, n seciunea central, toate variabilele din baza de eantionare. Folosind butoanele de transfer (butoanele sgeat), vom putea include
aceste variabile n seciunea Stratify By, dac dorim un eantion stratificat
dup acea variabil. Se vor putea preciza astfel straturile sau subpopulaiile
(amintii-v de boabele de fasole de 1 an i de 10 ani). n urma acestei selecii
se obin eantioane separate pentru fiecare strat. Pentru a se putea mbunti
precizia estimrilor, unitile din fiecare strat vor fi ct mai omogene din
punctul de vedere al caracteristicii estimate.
287
288
Cristian Opariuc-Dan
n acest exemplu, vom dori s construim un eantion simplu randomizat. Deocamdat nu ne intereseaz n mod deosebit opiunile prezentate.
Urmtoarea seciune, Method, permite stabilirea tehnicii de eantionare pe care o folosim.
289
Simple Random Sampling eantion aleatoriu simplu, n care unitile sunt selectate cu o probabilitate egal. Metoda poate fi folosit cu sau fr reintroducerea bilei n urn;
Simple Sequential unitile sunt extrase secvenial cu probabilitate egal i fr introducerea bilei n urn;
290
Cristian Opariuc-Dan
PPS Sampford eantion proporional cu mrimea care selecteaz mai mult de doi clusteri din fiecare strat cu o probabilitate proporional cu mrimea clusterului i fr introducerea
bilei n urn. Necesit, de asemenea, specificarea unui variabile pentru cluster.
291
Caseta de selecie Units permite alegerea ntre un numr fix de uniti selectate alegnd opiunea Counts i o proporie de uniti n eantion alegnd opiunea Proportions.
Opiunea Value permite aplicarea unei valori unice pentru toate
straturile. n modul numrului fix, va trebui s introducei valoarea dimensiunii eantionului (n cazul nostru, 930). Dac optm pentru proporii, vom include proporia din populaie pe care o regsim n eantion (de exemplu 0,10
pentru 10% din populaie).
Opiunea Unequal values for strata permite introducerea valorilor
eantionului pentru fiecare strat definit, n condiiile n care dimensiunile
straturilor nu sunt egale.
292
Cristian Opariuc-Dan
Read values from variable permite selectarea unei variabile numerice, n care sunt stocate dimensiunile fiecrui strat.
La alegerea eantionului bazat pe proporii, putem, de asemenea, specifica limitele inferioare i superioare ale numrului de uniti care vor fi selectate (de exemplu, nu mai puin de 50 Minimul i nu mai mult de 200
Maximum).
Apsarea butonului Next determin afiarea ferestrei variabilelor
care urmeaz a fi calculate.
294
Cristian Opariuc-Dan
probabilitatea de includere a unei uniti n eantion, pentru primul stadiu, va
aprea n baza de date sub forma InclusionProbability_1_.
n exemplul nostru, am bifat salvarea tuturor variabilelor n baza de
date n vederea comentrii ulterioare a ctorva cazuri. Apsarea butonului
Next permite trecerea la urmtorul pas al crerii eantionului. Am observat
c, la un moment dat, s-a activat i butonul Finish. Acest lucru nseamn
c SPSS are deja suficiente informaii pentru a crea eantionul i putem sri
peste paii rmai. Noi vom parcurge, totui, ntregul proces pentru a putea
analiza etapele acestui instrument.
Noua etap afieaz sumarul stadiului curent. Obinem scurte informaii despre numrul stadiului, eticheta acestuia n cazul n care am definit
una , variabila de stratificare, variabila de cluster, dimensiunea eantionului
i metoda de eantionare folosit. La acest nivel, avem posibilitatea crerii
unui nou stadiu, selectnd opiunea Yes, add stage 2 now, n cazul n care
295
296
Cristian Opariuc-Dan
le pot fi generate doar n ordine. Prin urmare, nu putem crea stadiul 3 n condiiile n care nu au fost executate stadiile 1 i 2.
Seciunea What type of seed value do you want to use? permite
stabilirea valorii de iniializare pentru generatorul de numere aleatoare. Putem alege ntre un numr oarecare, generat automat de computer (selectnd
A randomly-chosen number) sau putem include o valoare n caseta de
text Custom value, n situaia n care se dorete reproducerea caracteristicilor eantionului.
Cele dou casete de bifare permit tratarea cazurilor n care lipsesc informaii la nivelul unor elemente i accelerarea procesului de generare a eantionului. Bifarea primei casete are ca efect includerea ntr-o categorie separat a unitilor cu date lips, iar debifarea acesteia ignor unitile care au date
lips.
Bifarea celei de-a doua casete are ca efect accelerarea procesului de
generare a eantionului, n condiiile n care datele sunt deja sortate dup valorile unei variabile de stratificare. Altminteri, SPSS va proceda la o nou
resortare, operaiune consumatoare de timp.
Urmtoarea etap permite precizarea locului n care va fi salvat eantionul i variabilele pe care acesta le genereaz. Putem opta ntre baza de date
curent (Active dataset), caz n care SPSS va selecta din baza de eantionare unitile incluse n eantion i va calcula variabilele necesare doar pentru
acestea, putem alege o nou baz de date (New dataset), caz n care SPSS
va crea o nou baz de date, nesalvat, n care va include doar unitile selectate n eantion sau putem crea o nou baz de date cu salvare (External
file), caz similar celui anterior, singura deosebire fiind aceea c SPSS va
crea un nou fiier pe disc i va salva eantionul. n cele dou situaii, va trebui s precizm numele bazei de date, respectiv numele i calea ctre fiierul
de date.
297
298
Cristian Opariuc-Dan
Ultima fereastr ne ntreab dac dorim s salvm designul realizat n
planul de eantionare i s crem efectiv eantionul (opiunea Save the design to a plan and draw the sample) sau dorim s copiem ntr-un fiier de
sintax comenzile SPSS generate n urma prelucrrilor noastre (opiunea
Paste de syntax generated by the Wizard into a syntax window).
Evident, vom alege prima opiune i vom apsa apoi butonul
Finish.
Dup cteva fraciuni de secund, SPSS procedeaz la crearea eantionului i ne ofer o serie de informaii n fereastra de rezultate (Output).
Primul tabel din fereastra de rezultate se refer la informaii despre
planul de eantionare. Observm c avem un singur stadiu, metoda de selecie este simplu aleatorie fr reintroducerea bilei n urn, iar eantionul coni-
299
Stage 1
Simple random sampling
without replacement
Selection Method
Number of Units Sampled
Variables Created or
Modif ied
Estimator Assumption
Inclusion Probability
Stagewise Inclusion
(Selection) Probability
Stagewise Cumulativ e
Sample Weight
Stagewise Population
Size
Stagewise Sample Size
Stagewise Sampling
Rate
Stagewise Sample
Weight
930
InclusionProbability _1_
SampleWeight
Cumulativ e_1_
PopulationSize_1_
SampleSize_1_
SamplingRate_1_
SampleWeight_1_
Equal probability
sampling without
replacement
Obtained from v ariable
InclusionProbability _1_
300
Cristian Opariuc-Dan
diu al eantionrii va fi generat un asemenea tabel, n care regsim informaii
despre unitile i proporiile selectate.
Observm din nou numele i calea fiierului de tip plan de eantionare. n cazul nostru, am solicitat includerea unui numr de 930 de cazuri n
eantion (Requested), iar SPSS a reuit selectarea tuturor subiecilor (Actual). Procentul solicitat a fost de 61,3%, procent atins n final de ctre SPSS.
301
aceast variabil. Prin urmare, 930 1,63 = 1515,9 valoare apropiat de mrimea populaiei. Aceast variabil este foarte important n procesul de analiz a eantionului.
Iat c, urmnd aceti pai, ai reuit crearea unui eantion. Realizarea
acestuia nu ofer ns informaii legate de caracteristicile pe care le poate
avea. Dup selectarea subiecilor n eantion, urmeaz etapa de analiz a
eantionului n vederea identificrii proprietilor sale statistice.
VIII.4.2
Analiza eantionului
302
Cristian Opariuc-Dan
calea complet sau putei folosi butonul Browse, prin intermediul cruia
vei alege locaia acestui fiier. Evident, va trebui s furnizai i un nume. n
cazul nostru, fiierul plan de analiz se numete Analiza.csaplan i a fost
salvat direct n directorul C:\.
Observai diferena de extensie. Dac planurile de eantionare aveau
extensia .csplan, planul de analiz are extensia .csaplan.
303
aceast variabil poate lua diferite forme, n planul de analiz vom include,
de obicei, forma final a acesteia, forma n care SPSS pondereaz de fapt
toate stadiile. V recomand introducerea n seciunea Sample Weight a
variabilei de tipul Final Sample Weight, variabil care, de obicei, caracterizeaz cel mai bine eantionul. n cazul planurilor complexe, s-ar putea include i alte variabile pariale de acest tip, dac se dorete investigarea la nivelul stadiilor, a straturilor ori a clusterilor.
Variabilele cluster (Clusters) se include variabila care definete clusterii, grupuri de uniti de observaie n cazul n care se analizeaz un eantion pe clusteri;
304
Cristian Opariuc-Dan
305
Metoda cu includerea bilei n urn (WOR) i cu probabilitate inegal folosete i ea coreciile de populaie finit, dar pleac de la supoziia c
selecia unitilor din populaie s-a realizat cu o probabilitate inegal. n general, metoda se folosete n cazul unor eantioane nealeatorii.
Eantionul nostru a fost creat fr includerea bilei n urn i cu o
probabilitate egal, prin urmare vom alege opiunea a doua.
306
Cristian Opariuc-Dan
zint dimensiunea exact a populaiei sau 0,61, probabilitatea de includere.
Am preferat, n exemplul nostru, prima variant. Utilizarea acestei seciuni
presupune o singur valoare aplicat tuturor straturilor.
O alt variant o reprezint opiunea Unequal values for strata,
care se activeaz numai n situaia definirii anterioare a unei variabile de stratificare. Caseta care se deschide la apsarea butonului Define permite
stabilirea valorilor pentru fiecare strat.
Ultima opiune, Read values from variable, ne permite includerea
unei variabile numerice care conine valorile pentru fiecare strat.
Similar planului de eantionare, urmtoarea fereastr prezint un sumar al planului de analiz i ne permite construirea unor noi stadii. Nu vom
intra n detalii referitoare la aceast seciune, deoarece am tratat complet problema n cadrul capitolului referitor la planul de eantionare.
307
Ultimul ecran ne invit s salvm planul de analiz creat sau s copiem sintaxa ntr-o fereastr de comenzi SPSS, ntr-un mod identic cu planul de
eantionare.
VIII.4.3
308
Cristian Opariuc-Dan
re studiului exhaustiv al acestor proceduri, vom limita expunerea doar la dou
proceduri ce implic statistici univariate, dup cum urmeaz:
Accesarea primului meniu, Frequencies, determin afiarea primului ecran necesar analizei prin care urmeaz s alegem planul de eantionare dorit.
309
Toate operaiile din aceast etap impun anumite specificaii de analiz, specificaii coninute n planul de eantionare, dup cum am vzut n subcapitolul anterior. n seciunea Plan, caseta de text File, vom putea tasta
calea ctre planul de eantionare sau vom putea utiliza butonul Browse
n vederea navigrii ctre locaia ce conine acest fiier.
n cazul n care probabilitile de includere ale elementelor n eantion
nu sunt egale, situaie des ntlnit n cadrul eantionrii stratificate sau al
eantionrii pe clusteri, va trebui s specificm fiierul n care s-au precizat
aceste probabiliti, utiliznd seciunea Joint Probabilities. Astfel, putem
alege aceste probabiliti dintr-o variabil din baza de date, dintr-o alt baz
de date sau dintr-un alt tip de fiier.
Trecerea la analiza efectiv se face prin apsarea butonului Continue.
310
Cristian Opariuc-Dan
meniune la acest nivel: variabilele folosite pot fi doar variabile categoriale,
situate la un nivel de msur nominal sau ordinal. n partea stng a ferestrei
se afl seciunea Variables, o list care conine toate variabilele din baza
de date. Lista Frequency Tables permite includerea variabilelor pentru
care dorim s calculm tabele de frecven. Cu ale cuvinte, variabilele pe care
dorim s le analizm. n exemplul nostru, vom dori analiza eantionului sub
aspectul sexului (al genului biologic). Vom transfera, aadar, aceast variabil n lista Frequency Tables, prin utilizarea butonului de transfer.
Lista Subpopulations permite includerea unei alte variabile categoriale, n condiiile n care am realizat, spre exemplu, un eantion stratificat.
Nu este cazul nostru, ns, dac am fi dorit s analizm reprezentativitatea
genului biologic n funcie de mediul de provenien (rural vs. urban), am fi
inclus aceast ultim variabil n lista Subpopulations. n aceast situaie,
SPSS ar fi analizat separat brbaii i femeile, n funcie de mediul lor de
provenien.
Un buton deosebit de important este butonul Statistics.... Apsarea
acestuia determin posibilitatea stabilirii indicatorilor statistici ce vor fi calculai.
311
Exist destul de multe opiuni n cadrul acestei noi ferestre, unele dintre ele fiindu-v necunoscute, deoarece nu avei nc informaiile necesare
referitoare la anumite teste statistice. Noi le vom prezenta pe toate, studiind
aici, n detaliu, doar cteva, celelalte urmnd s le analizm n volumele ulterioare.
Seciunea Cells permite afiarea informaiilor legate de populaia
int din care a fost extras eantionul. Vor fi afiate date referitoare la dimensiunea populaiei sub form de frecvene absolute, prin bifarea casetei Population size i sub form de frecvene relative (procente), bifnd caseta
Table percent.
Seciunea Statistics permite configurarea indicatorilor statistici
asociai dimensiunii populaiei sau a procentului din populaie, astfel:
Caseta Coefficient of variation comunic programului calculul coeficientului de variaie a estimrii, sub form de proporii;
Cristian Opariuc-Dan
tul nu este folosit n cazul eantioanelor simplu randomizate
n acest caz fiind ntotdeauna 1 , ci doar n cazul eantioanelor mai complexe. Cu ct valoarea este mai deprtat de unu,
cu att efectul este mai mare i deci variana este mai mare;
Caseta Square root of design effect reprezint rdcina ptrat din variana estimrii (un fel de abatere standard dac v
mai aducei aminte), fiind o msur standard a efectului i
avnd acelai mod de interpretare;
313
n seciunea Tables, putem stabili ce cazuri vor fi incluse n analiz. Opiunea implicit este Use all variable data n care vor fi analizate
doar valorile valide la nivelul fiecrei variabile. Spre exemplu, dac analizm
variabila gen biologic, SPSS va urmri s existe valori valide doar la nivelul acestei variabile, fr a fi preocupat dac exist valori valide la alte variabile.
Opiunea Use consistent case base este ns mult mai restrictiv.
Va trebui s existe valori la nivelul tuturor variabilelor analizate pentru ca
subiectul respectiv s fie luat n considerare. De exemplu, dac analizm variabilele gen biologic i mediu de provenien, un subiect va trebui s
aib scoruri valide la ambele variabile, chiar dac este analizat doar variabila gen biologic. Un subiect care are un scor valid la gen biologic, dar nu
are date la mediul de provenien, va fi exclus din analiz.
314
Cristian Opariuc-Dan
Seciunea Categorical design variables determin, n cazul variabilelor categoriale, dac valorile lips vor fi tratate ca fiind sau ca nefiind
valide.
Practic, nu este nevoie s intervenim n aceast fereastr dect extrem
de rar i n cazul unor planuri de eantionare complexe. Apsarea butonului
Continue va determina, i n acest caz, ntoarcerea la fereastra iniial.
Lansarea efectiv a analizei datelor se face prin apsarea butonului
OK. n cteva fraciuni de secund, va fi afiat un tabel n fereastra de rezultate, tabel care va conine exact datele solicitate.
Respondent's Sex
Population Size
% of Total
Male
Female
Total
Male
Female
Total
Estimate
662,260
854,740
1517,000
43,7%
56,3%
100,0%
Standard
Error
15,355
15,355
,000
1,0%
1,0%
,0%
95% Confidence
Interv al
Lower
Upper
632,126
692,395
824,605
884,874
1517,000
1517,000
41,7%
45,7%
54,3%
58,3%
100,0%
100,0%
Unweighted
Count
406
524
930
406
524
930
Capul de tabel conine numele variabilei de interes i denumirea indicatorilor calculai. Primul rnd se refer la frecvenele absolute ale populaiei
int, iar al doilea rnd - la frecvenele relative. Observm c datele noastre
au fost mprite pe cele dou categorii ale variabilei de interes brbai i
femei.
A doua coloan (Estimate) exprim frecvenele absolute i relative
ale populaiei int, estimat n baza eantionului. Aceste elemente nu reprezint date reale, ci date estimate din eantion. Nu putem avea un numr de
662,26 brbai i 854,74 femei. Un brbat sau o femeie este un ntreg, nu are
zecimale. Observm ns c dimensiunea total a populaiei int estimate
(1517 subieci) este egal cu populaia int real. Exprimat procentual, ean315
tionul nostru estimeaz o populaie compus din 43,7% brbai i 56,3% femei.
Urmtoarea coloan (Standard Error) se refer la eroarea standard a
estimrii, exprimat att n form brut, ct i n form procentual. Eantionul nostru estimeaz populaia int cu o eroare standard de 15,35 brbai i
15,35 femei (aproximativ 15 subieci pentru fiecare categorie, cifrele reprezentnd din nou o abstraciune). Acest indicator devine mai clar dac urmrim forma procentual. Iat c eroarea estimrii este de 1% att n cazul brbailor, ct i n cazul femeilor, care, la un nivel de ncredere de 95%, ne poate determina s afirmm c avem un eantion reprezentativ sub aspectul sexului.
Urmeaz dou coloane ale intervalului de ncredere. n baza erorii
standard, eantionul estimeaz practic o populaie int format dintr-un numr de 632,12 pn la 692,39 brbai i de la 824,60 pn la 884,87 femei.
Cu alte cuvinte, compoziia populaiei int estimat de eantion este format
din 41,7% pn la 45,7% brbai i 54,3% pn la 58,3% femei. Undeva ntre
aceste limite putem gsi populaia int real estimat de eantion.
Coloana Design Effect are evident valoarea 1, deoarece am lucrat cu
un eantion simplu randomizat, fapt tratat mai sus.
Ultima coloan indic dimensiunea i compoziia eantionului (Unweighted Count). Dup cum tiam deja, eantionul are un numr de 930 de
cazuri, iar din punctul de vedere al sexului avem 406 brbai i 524 femei.
Iat c acest eantion estimeaz reprezentativ populaia int la o eroare de
doar 1% i la un nivel de ncredere de 95%. Suntem n faa unui eantion reprezentativ, acest lucru fiind demonstrat prin analiza efectuat.
Am analizat o variabil de interes situat la nivel nominal (sexul).
Cum procedm ns, dac avem o variabil de interes la un nivel scalar, de
exemplu vrsta? Analiza frecvenelor nu ne ajut prea mult. Este timpul s
316
Cristian Opariuc-Dan
abordm cea de-a doua metod propus i anume analiza descriptiv. Paii
sunt identici, astfel nct nu vom insista asupra lor. Exist ns o serie de metode statistice uor diferite, pe care vom ncerca s le lmurim.
Dup lansarea procedeului de analiz i alegerea planului de eantionare prin apelarea meniului Descriptives, va trebui s includem, similar
procesului anterior, variabila de interes. n cazul nostru, am ales o variabil
scalar, vrsta subiecilor. Apsarea butonului Statistics determin apariia
unui ecran uor diferit n comparaie cu analiza frecvenelor.
317
Mean
Age of Respondent
Estimate
46,33
Standard
Error
,369
Coef f icient
of Variation
,008
Population
Size
1517,000
Unweighted
Count
930
318
Cristian Opariuc-Dan
n concluzie:
Populaia reprezint o colecie natural, geografic sau politic de persoane, animale, plante sau obiecte;
Proprietile unei populaii poart numele de parametri. Din parametri pot deriva
variabilele de interes ale cercetrii;
Recensmntul reprezint o metod exhaustiv de investigare a populaiei. O form particular a recensmntului este referendumul;
Sursele de date utilizate n cercetare pot fi:
o Surse principale de date;
o Surse secundare de date;
Eantionul este un subset de elemente din populaie care pstreaz caracteristicile
populaiei din care a fost extras;
Cercetrile bazate pe eantion se numesc cercetri selective, spre deosebire de cele
bazate pe populaie care poart numele de cercetri exhaustive;
Reprezentativitatea este caracteristica principal a unui eantion i reprezint capacitatea eantionului de a reproduce ct mai fidel structurile i caracteristicile
populaiei din care a fost extras;
Valorile proprietilor la nivelul unui eantion poart numele de indicatori sau statistici;
Eroarea statistic se refer la diferena dintre valoarea unui parametru i valoarea
unui indicator;
Reprezentativitatea unui eantion depinde de caracteristicile populaiei, de mrimea eantionului i de procedura de eantionare folosit i, n general, nu depinde
de mrimea populaiei dect n anumite condiii specifice;
Procedeele de eantionare se pot mpri n procedee de eantionare aleatoare i
procedee de eantionare nealeatoare;
Dintre procedeele de eantionare, putem meniona:
o Eantionarea prin convenie;
o Eantionarea prin analiz;
o Bulgrele de zpad;
o Eantionarea simpl aleatoare;
o Eantionarea stratificat;
o Eantionarea multistadial;
o Eantionarea pe clusteri;
o Eantionarea sistematic;
o Eantionarea pe cote;
o Eantionarea cu probabilitate proporional cu mrimea;
Mrimea unui eantion se determin n funcie de:
o Eroarea statistic;
o Variabilitatea populaiei;
o Nivelul de ncredere;
319
320
Cristian Opariuc-Dan
Bibliografie
1. Clocotici, Vasile i Stan, Aurel. (2000). Statistic aplicat n
psihologie. Iai : Polirom.
2. Curwin, Jon i Slater, Roger. (1996). Quantitative methods for
Business Decisions. Fourth Edition. London : International Thomson
Business Press.
3. Dancey, Christine i Reidy, John. (2002). Statistics without math for
psychology. Second Edition. Harlow : Prentice Hall.
4. Dowdy, Shirley, Weardon, Stanley i Chilko, Daniel. 2004.
Statistics for research. Third Edition. New Jersey : John Wiley and
Sons, 2004.
5. Field, A. 2000. Discovering statistics using SPSS for Windows.
London : Sage, 2000.
6. Field, Andy. 2005. Discovering Statistics using SPSS, Second
Edition. London : Sage Publications Ltd., 2005. 100-7619-4451-6.
7. Jaisingh, Lloyd. 2000. Statistics for the Utterly Confused. New
York : McGraw Hill, 2000.
8. Leech, Nancy L, Barrett, Karen C i Morgan, George A. 2005.
SPSS for intermediate statistics. Use and interpretation. Second
Edition. New Jersey : Lawrence Erlbaum Associates, 2005.
9. Lungu, Ovidiu. 2001. Ghid introductiv pentru SPSS 10.0. Iai :
Erota, 2001.
10. Marques de Sa, Joaquim P. 2007. Applied Statistics using SPSS,
Statistica, Mathlab and R. New York : Springer, 2007.
11. Pitariu, Horia Dumitru. 2003. Psihodiagnostic - note de curs.
Bucureti : s.n., 2003.
12. Popa, Marian. 2003. Statistic - note de curs. Bucureti : s.n., 2003.
13. Radu, Ioan, i alii. 1993. Metodologie psihologic i analiza
datelor. Cluj-Napoca : Sincron, 1993.
14. Rotariu, T, i alii. 2006. Metode statistice aplicate n tiinele
sociale. Iai : Polirom, 2006.
15. Sava, Florin Alin. 2004. Analiza datelor n cercetarea psihologic.
Metode statistice complementare. Cluj-Napoca : ASCR, 2004.
16. . 2000. Pagina de statistic social. Pagina de statistic social.
[Interactiv] 2000. http://statisticasociala.tripod.com.
321
322
Cristian Opariuc-Dan
n loc de ncheiere
Sper c acest domeniu a ajus s v intereseze. Dup parcurgerea crii, ai observat c statistica poate fi chiar plcut, iar concluziile pe care le
putem desprinde din analiza datelor ne conduc ctre idei pe care, n absena
acestei tiine, nu le-am putea avea i, mai ales, nu le-am putea verifica. Bineneles, statistica este nti de toate o disciplin matematic. Nimeni ns nu
v cere s fii un matematician pentru a o putea folosi. Aa cum mi spunea
odat colegul i prietenul meu, Ticu Constantin, nu e nevoie s tiu s construiesc o main pentru a o putea conduce i cu care, la momentul respectiv, nu am fost de acord; acum trebuie s recunosc c a avut dreptate. Rolul
matematicienilor este acela de a construi maina; rolul nostru este de a o
conduce. Acum, dac unii oferi sunt mai buni dect alii asta e. Nu la fel
se ntlnim i n viaa real, pe osele? Nu este ntmpltor faptul c pionierii
psihologiei tiinifice care au folosit metode statistice (Cattell, Spearman,
Thorndike s.a.) au fost iniial formai n tiine reale, precum matematica,
fizica, chimia.
n acest volum, m-am oprit la studiul eantioanelor. Din raiuni concrete, nu am dorit s merg mai departe, deoarece a fi fost nevoit s scot o
lucrare de 600 pn la 1000 de pagini, care cu siguran v-ar fi speriat. Nu
intenionez ns s m opresc aici. n volumul al doilea, care va aprea dup
ce voi obine impresiile dumneavoastr, a vrea s abordez problematica studiilor corelaionale i a prediciei n tiinele socio-umane prin metode statistice i nu clarvizioniste, adic metode de regresie liniar i logistic, analiza
factorial sau modaliti de a vedea dac datele noastre au ceva n comun,
analiza de fidelitate sau ct de stabile pot fi scorurile n timp ori cum putem
s facem s nu mai ateptm un timp pentru a vedea acest lucru, precum i
metode prin care putem sesiza dac exist diferene ntre grupuri, cu alte cuvinte statistici infereniale prin teste parametrice i neparametrice. De asemenea, mi-a dori s abordez un capitol extrem de interesant, i anume acela al
323
analizei de varian sub diferitele sale aspecte, n care s putem vedea cum
una sau mai multe dimensiuni exercit efecte asupra altor dimensiuni.
n al treilea volum, a vrea s abordez problematica scalrii multidimensionale, problematica analizei de cluster, analiza Q Sort, metaanaliza,
analizele de itemi, analize calitative i analizele folosind reelele neuronale.
Demersul este, dup cum ai observat, de la simplu la complex. A fi
foarte bucuros dac a vedea c ridicai probleme, propunei soluii, oferii
sugestii sau, de ce nu, criticai anumite aspecte pe care le prezint. Asta ar fi
dovada c munca mea nu a fost n zadar. Nu am pretenia unui expert absolut.
Ceea ce doresc este s mprtesc din experiena mea i s cunosc experienele altora, astfel s avem cu toii de ctigat,. Pentru a realiza acest obiectiv,
va trebui s ne detam de orgolii i de impresii personale, s contientizm
c toi avem nc de nvat, s avem o minte deschis i s dm ceea ce este
mai bun n noi. Este foarte posibil ca uneori, n ceea ce expun, s nu am dreptate. Este posibil s m nel n anumite afirmaii pe care le fac pe parcursul
acestor pagini. Singura modalitate pe care o avem de a ne da seama de acest
lucru este s comunicm. Atept, prin urmare, reacia dumneavoastr, ca
unici judectori ai cuvintelor mele.
V mulumesc pentru rbdarea pe care ai avut-o studiind acest volum. Informaiile prezentate aici nu sunt originale i nici nu ar avea cum s
fie. Ele se bazeaz pe afirmaiile unor autoriti n domeniu care au avut inspiraia s le descopere, iar eu nu am fcut dect s le prezint. Original este,
ns, cred, modalitatea de prezentare. Am ncercat s mbin umorul cu informaia tiinific, astfel nct cele prezentate aici s fie uor digerabile. Am
folosit unele exemple proprii sau preluate din alte lecturi. n general, am citat
sursele pe care le-am folosit. C anumite elemente ntlnite aici vi se par familiare, c le-ai gsit i n alt parte, este foarte posibil. Statistica nu e att de
variat precum o creaie literar sau muzical, iar punctele de vedere pot s
coincid pn la un anumit nivel. De asemenea, am urmrit s folosesc ct
324
Cristian Opariuc-Dan
mai multe exemple practice pentru a iei puin din lumea abstract a formulelor matematice. Totul a fost gndit n ideea c nu m adresez unor matematicieni sau unor persoane familiarizate cu tiinele reale. Cei care doresc s
aprofundeze aceste elemente, pot gsi excelente informaii n bibliografia
propus. Totui, i poezia i muzica au o matematic proprie. Dorina mea
a fost s elimin angoasa statistic, angoas pe care cei mai muli dintre studenii sau absolvenii de tiine socio-umane o prezint. Dac am reuit sau
nu acest lucru, dumneavoastr s-mi spunei. V-a rmne recunosctor pentru sugestiile dumneavoastr. E posibil ca uneori s fi fost mai abstract, alteori s fac exces de didacticism. Este de asemenea posibil s fi fcut erori de
prezentare sau s fi folosit o exprimare pe care nu o agreai. Ceea ce am urmrit a fost s redactez o carte special, prin intermediul creia s nvai
lecturnd-o. Uneori devine necesar s folosii hrtia i creionul pentru a relua
exemplele i calculele, pentru a sistematiza informaiile.
Sper, n final, c cel puin nu vi se mai face ru dup primul fum
tras din statistic. Dac sperana mea s-a adeverit, atunci suntei pe calea dependenei i v invit s parcurgei urmtorul volum.
325