Sunteți pe pagina 1din 154

I.

3 Prezentare general SPSS for Windows2


SPSS sub Windows reprezint un pachet de programe interactiv, de utilitate general , destinat analizelor de date #i include multiple facilit &i #i tehnici de natur statistic . Pachetul de programe SPSS sub Windows reprezint o aplica&ie care folose#te ntreaga func&ionalitate a sistemului

Figura 1.2 Lansarea programului SPSS for Windows

Figura 1.3 Fereastra logo SPSS for Windows

de operare Windows, reg sind n structura sa utilizarea mausului, ferestrele redimensionabile #i scalabile, meniuri derulante, casete de dialog etc. De#i majoritatea utilizatorilor vor fi complet satisf cu&i utiliznd doar interfa&a grafic pe care SPSS o pune la dispozi&ie, totu#i pachetul de programe dispune #i de un puternic limbaj de comenzi prin care se pot realiza activit &i automate (scripturi) ce deter-

Pe parcursul acestei prezent ri, unele imagini sunt din SPSS 12.0 for Windows. Acest lucru nu incomodeaz n utilizarea altor versiuni. Toate imaginile utilizate reprezint marc nregistrat SPSS Inc.

Cristian Opariuc-Dan min eficientizarea ac&iunilor utilizate n mod frecvent sau efectuarea unor ac&iuni complexe, indisponibile n interfa&a grafic (SPSS, 2001). Programul SPSS, la fel ca orice alt aplica&ie sub sistemul de operare Windows, indiferent de versiunea acestuia, la instalare #i creeaz un grup de pictograme (iconuri) n sec&iunea Programs a meniului Start din sistemul de operare Windows. Pentru a putea lansa n execu&ie aplica&ia, va trebui ca mai nti s efectua&i clic cu maus-ul pe butonul start al desktop-ului Windows, buton situat de obicei n partea din stnga jos a ecranului. Apoi merge&i la sec&iunea Programs #i se va deschide o nou list care con&ine toate programele instalate n calculatorul dumneavoastr (ei bine, cel pu&in programele la care ave&i acces dumneavoastr ). n aceast list , c uta&i grupul de programe SPSS for Windows, grup n care ve&i g si pictogramele de lansare ale aplica&iei SPSS. Probabil c a&i identificat deja n acest grup de programe pictograma numit SPSS for Windows. Aceasta este imaginea pe care va trebui s face&i clic pentru a porni aplica&ia.3 SPSS este un program extrem de complex. Lansarea acestuia debuteaz cu prezentarea unei ferestre introductive, denumit #i fereastr logo. Ea cuprinde informa&ii despre versiunea programului (n cazul nostru, SPSS 12.0 Standard), deoarece exist #i versiuni server, mai complexe, versiuni demonstrative (ca aceea pe care o pute&i desc rca gratuit de la http://www.spss.com) sau student pentru nv &are etc., precum #i despre posesorul licen&ei de utilizare a acestui produs informatic. Se cunoa#te faptul c , n conformitate cu legea dreptului
Figura 1.4 Fereastra introductiv

Desigur, n situa&ia n care SPSS for Windows este deja instalat pe calculatorul dumneavoastr . Dac nu ave&i instalat SPSS for Windows, pute&i desc rca o versiune demonstrativ de 30 de zile de pe site-ul http://www.spss.com Asigura&i-v c ave&i o conexiune suficient de rapid #i de stabil la Internet, deoarece fi#ierul este destul de mare (aproximativ 160 MB)

31

Statistic aplicat n #tiin&ele socio-umane

de autor #i protec&ia crea&iilor intelectuale, un produs software poate fi utilizat doar n cazul n care se posed o licen& de utilizare pentru acesta, altfel riscndu-se pedepse severe, contraven&ionale sau de natur penal . Dup cteva secunde, fereastra de prezentare se dezactiveaz , iar aplica&ia prezint o interfa& prietenoas prin care ne invit s trecem la treab . Putem n aceast etap s lans m n execu&ie un program tutorial care ne va forma abilit &ile de baz n vederea utiliz rii acestui pachet informatic complex; de asemenea, putem trece direct la introducerea datelor sau putem rula o cerere predefinit , se poate crea o nou cerere de date sau se poate deschide o baz de date existent , situa&ie n care va trebui s preciz m loca&ia acesteia. Nu n ultimul rnd, putem deschide o baz de date ntr-un alt format, de exemplu Excel, Statistica sau SAS, iar SPSS va #ti s converteasc aceste date pentru a le face disponibile. Exist , de asemenea, n Figura 1.5 Fereastra principal SPSS partea de jos a acestui formular introductiv, o caset denumit Dont show this dialog in the future. Dac o ve&i bifa, ave&i posibilitatea ca, la viitoarea lansare a produsului, s nu se mai afi#eze formularul, caz n care programul va trece direct n fereastra principal SPSS. Desigur, selectarea unei op&iuni dintre cele prezentate mai sus nu nseamn #i executarea acesteia de c tre SPSS. Pentru a lansa n execu&ie op&iunea aleas , va trebui ap sat, obligatoriu, butonul OK. Ap sarea butonului Cancel indic programului c trebuie s p r seasc formularul introductiv #i

32

Cristian Opariuc-Dan s lanseze fereastra principal SPSS n modul de lucru configurat pentru o nou baz de date. n acest moment, nu ne intereseaz niciuna dintre op&iunile predefinite, astfel nct vom ap sa butonul Cancel. Iat c formularul prezentat mai sus a disp rut, f cnd loc ferestrei principale SPSS. S privim cu aten&ie aceast nou interfa& cu utilizatorul. Ca orice alt aplica&ie Windows, SPSS posed o bar de titlu bara albastr din partea de sus a ferestrei , n partea stng a acesteia afi#ndu-se mesajul Untitled SPSS Data Editor. Acest mesaj ne informeaz c ne afl m n fereastra de date (editare a datelor) din SPSS #i c baza de date nu a fost nc salvat (n momentul salv rii, textul Untitled este nlocuit cu numele fi#ierului salvat pe disc). n partea dreapt a barei de titlu, avem cele trei butoane clasice ale oric rei ferestre Windows: butonul de minimizare sau de transfer al aplica&iei n bara de sarcini, butonul de maximizare extindere a aplica&iei pe ntregul ecran sau de restaurare a aplica&iei la dimensiunile ini&iale #i butonul de nchidere a aplica&iei, acel buton n form de X. Sub bara de titlu, se afl meniurile, serii de etichete purtnd fiecare un nume (n limba englez ), prin intermediul c rora putem comanda SPSS #i putem efectua opera&iile #i prelucr rile de care acesta este capabil. Nu vom insista acum asupra explic rii tuturor meniurilor, acest lucru l vom face pe parcursul prezentului curs. Bara de meniuri este urmat de bara de instrumente mici butoane cu aspectul unor pictograme care, n general, dubleaz anumite func&ii din meniuri, func&ii mai des folosite. SPSS prezint o bar de instrumente dinamic , adic aspectul butoanelor #i, desigur, func&ionalitatea acestora se modific rela&ionat contextului n care ne afl m. De exemplu, vom avea anumite butoane n modul de introducere a datelor #i alte butoane n modul de definire a variabilelor ori n modul de afi#are a rezultateFigura 1.6 Sec&iunea de editare a datelor lor analizelor de date.

33

Statistic aplicat n #tiin&ele socio-umane

Dup bara de instrumente, apare sec&iunea de editare a datelor. Aceasta este format dintr-o parte needitabil , informativ , partea din stnga, n care se afi#eaz n permanen& pozi&ia celulei active (celul pe care am selectat-o). Formatul acestui identificator este un num r urmat de dou puncte #i apoi numele variabilei (spre exemplu, 8:time nseamn c suntem pozi&iona&i pe rndul 8 a opta nregistrare a variabilei timp). Partea editabil arat ntotdeauna valoarea acestei variabile n pozi&ia specificat (n cazul nostru, la rndul 8 al variabilei timp se afl valoarea 34). Cea mai mare parte a ferestrei principale SPSS este dedicat sec&iunii de date. Observ m c datele, n SPSS, sunt organizate tabelar, pe linii #i coloane, analog altor aplica&ii mai cunoscute, cum ar fi foile de calcul tabelar (Excel) sau bazele de date (FoxPro sau Access). Liniile (nregistr rile) sunt identificate prin numere, iar coloanele reprezint variabilele. ntr-o baz de date goal , toate variabilele sunt denumite implicit var, iar aceast denumire este scris cu culoarea gri, reprezentnd faptul c acestea nu au fost nc definite. Navigarea prin baza de date se poate face cu cele dou casete de derulare (numite #i lifturi sau controale de derulare), situate n partea dreapt , respectiv n partea de jos a ferestrei de date, la fel ca n orice program Windows. Sec&iunea de date con&ine, n partea din stngajos, doi marcatori de sec&iune foarte importan&i: Data View #i Variable View. Aceste elemente permit coFigura 1.7 Marcatomutarea ntre modul de vizualizare a datelor dintr-o rii de sec&iune baz de date (sec&iunea Data View) #i modul de definire a variabilelor (sec&iunea Variable View). n partea de jos a programului SPSS, se afl bara de status cu dou sec&iuni: sec&iunea de informa&ii, n partea stng , unde se afi#eaz scurte instruc&iuni despre diferitele func&ii ale meniurilor sau ale barei de instrumente, #i sec&iunea de stare a procesorului SPSS unde se afi#eaz informa&ii refe-

34

Cristian Opariuc-Dan ritoare la rularea unor sarcini mari consumatoare de timp. n general, nceperea unei prelucr ri statistice se poate face doar n condi&iile n care vede&i mesajul SPSS Processor is ready n aceast sec&iune. P r sirea programului SPSS se poate face fie ap snd butonul de nchidere al aplica&iei X din col&ul din dreapta sus al ferestrei principale, fie folosind meniul File #i apoi Exit. Dac a&i f cut prelucr ri de date sau modific ri n baza de date, programul v va solicita mai nti salvarea documentului, ca m sur de protec&ie mpotriva pierderii de informa&ie. Despre salvare, ns , discut m n subcapitolul urm tor.

I.3.1 Bazele de date creare, salvare, deschidere


Dup ce ne-am familiarizat cu interfa&a programului SPSS, este momentul s vedem cum putem deschide o baz de date existent #i care sunt elementele componente ale acesteia. SPSS vine nso&it de o serie de baze de date demonstrative n scopul facilit rii procesului de nv &are. Pe parcursul acestor exerci&ii, vom folosi, din ra&iuni de compatibilitate, aceste exemple de baze de date oferite de c tre produc torii programului SPSS. Deschiderea unei baze de date n scoFigura 1.8 Deschiderea pul efectu rii prelucr rilor statistice se poate unei baze de date face prin mai multe metode, r mnnd la latitudinea dumneavoastr #i potrivit experien&ei pe care o ave&i s alege&i metoda care v convine mai mult. Prima metod este aceea prin care apel m la meniul File (Fi#ier) #i apoi pozi&ion m cursorul maus-ului pe submeniul Open (Deschide). Apare o list de unde putem deschide o baz de date (Data), o procedur de sintax

35

Statistic aplicat n #tiin&ele socio-umane

(Syntax) o foaie de rezultate (Output), un set de comenzi (Script) sau un alt tip de fi#ier (Other). Pentru a deschide o baz de date, va trebui selectat op&iunea Data. Observa&i c fiecare dintre aceste op&iuni este urmat de puncte de suspensie (). ntotdeauna cnd ve&i ntlni aceste puncte de suspensie al turi de o comand Windows (nu doar n SPSS, ci #i n orice program Windows), va trebui s #ti&i c acea comand v invit la dialog. Adic se va deschide o nou fereastr , de unde va trebui s alege&i ceva sau s furniza&i anumite informa&ii programului pentru a putea executa comanda respectiv . O alt metod prin care pute&i deschide o baz de date este folosirea a#a- numitelor taste rapide. De obicei, meniurile sunt nso&ite de combina&ii de taste prin care pute&i efectua direct o anumit sarcin . n loc s apel m la meniul File, apoi Open #i apoi Data, putem pur #i simplu s &inem ap sat tasta Ctrl n timp ce ap s m tasta O (de la Open). O astfel de combina&ie se noteaz prin Ctrl+O, nota&ie pe care o vom folosi pe ntreg parcursul acestui curs. Vom observa c aceast combina&ie are acela#i efect ca #i parcurgerea primei metode, avantajul fiind acela c este mult mai rapid . A treia metod apeleaz la numitele taste fierbin&i (hot-keys). O tast fierbinte este o tast folosit n combina&ie cu tasta Alt. Dac ve&i privi cu aten&ie meniurile, ve&i putea observa c unele litere sunt subliniate de exemplu, n meniul File este subliniat litera F. ,innd ap sat tasta Alt #i ap snd apoi tasta F, vom ob&ine deschiderea meniului File, ca #i cnd am efectua clic pe acesta. n mod analog, notarea acestei combina&ii se face folosind conven&ia Alt+F. Deci, pentru a deschide o baz de date, putem folosi combina&iile Alt+F deschiderea meniului File #i apoi Alt+O deschiderea submeniului Open, iar, n final, Alt+A accesarea op&iunii Data. Aceasta este, dac dori&i, o navigare prin meniuri f r maus. Ultima metod se refer la folosirea barei de instrumente pentru a deschide o baz de date. Pur #i simplu ap sa&i pe primul buton de pe bara de instrumente, acela care are aspectul unui dosar deschis.

36

Cristian Opariuc-Dan Indiferent de metoda folosit , efectul va fi acela#i: deschiderea unei casete de dialog, din care pute&i alege baza de date pe care o ve&i nc rca (v mai aminti&i nota referitoare la punctele de suspensie?). S analiz m pu&in aceast nou fereastr . n partea de sus avem o list derulant intitulat Look in: Ap snd s geata orientat n jos din partea dreapt a acestei casete, vom putea alege directorul n care este localizat baza noastr de date. Observ m c directorul curent este directorul aplica&iei (SPSS), iar n sec&iunea de sub Figura 1.9 Fereastra de selectare a fi#ierului n vederea deschiderii aceast caset este afi#at con&inutul acestui dosar. Pute&i astfel selecta orice director n care ave&i fi#iere recunoscute de SPSS, pentru a le putea afi#a #i/sau deschide. Al turi de caseta Look in, se afl o serie de butoane care controleaz navigarea prin structura de directoare de pe discul dumneavoastr . Primul buton, cel de forma unei s ge&i orientate n partea stng , permite navigarea la ultima ac&iune efectuat . Dac , de exemplu, din directorul SPSS v-a&i pozi&ionat pe directorul Windows, ap snd acest buton ve&i reveni din nou n directorul SPSS. La prima deschidere a acestei casete de dialog, butonul este inactiv, deoarece nu a&i efectuat nc nici o ac&iune care s fie nregistrat . Al doilea buton, de forma unui dosar cu o s geat orientat n sus, permite navigarea ascendent prin arborele de directoare. La o prim ap sare, v ve&i deplasa n directorul Program Files, la urm toarea v ve&i situa n directorul r d cin C #i a#a mai departe. Cel de-al treilea buton permite crearea unui nou director n directorul curent. Ap snd pe el, ve&i putea crea un nou director, numit New Folder, denumire pe care o ve&i putea modifica dup dorin& . n sfr#it, ultimul buton controleaz modul n care se afi#eaz pictogramele n caseta central . Pute&i alege vizualizarea pictogramelor n format mare, mic, sub form de list sau list detaliat .

37

Statistic aplicat n #tiin&ele socio-umane

Fereastra central afi#eaz , dup cum am men&ionat, structura de subdirectoare #i fi#iere a directorului curent. Pute&i efectua dublu clic pe numele unui director pentru a afi#a con&inutul acestuia sau pe numele unui fi#ier pentru a-l deschide n mod direct (f r a mai ap sa butonul Open). Dac efectua&i doar un simplu clic, numele fi#ierului selectat va fi afi#at n caseta File name #i va trebui s folosi&i apoi butonul Open pentru a-l deschide. Caseta derulant Files of type reprezint un filtru pentru fi#ierele afi#ate. Dac o vom deschide, efectund clic pe s geata orientat n jos din partea dreapt a acesteia, vom putea alege ce anume tip de fi#iere s se afi#eze n sec&iunea central . Observ m c , de#i directorul SPSS con&ine mai multe fi#iere, sunt afi#ate doar fi#ierele cu extensia .sav, adic fi#ierele care con&in baze de date SPSS, deoarece n aceast caset de filtrare s-a ales extensia .sav. Putem alege alte extensii de fi#iere care sunt afi#ate, de exemplu formatul Excel (.xls) sau dBase (.dbf), iar SPSS va afi#a doar fi#ierele ce au aceast extensie. Deschiderea propriu-zis a unui fi#ier se face fie efectund clic pe acesta #i ap snd butonul Open, fie efectund dublu clic pe numele fi#ierului. Spre exemplu, vom nc rca baza de date Cars din directorul implicit SPSS, baz de date ce reprezint un inventar al diferitelor tipuri de ma#ini #i al caracteristicilor acestora. Dup deschidere, observ m c s-a modificat aspectul ferestrei principale SPSS. n primul rnd, n bara de titlu a ap rut mesajul Cars SPSS Data Editor, mesaj ce ne informeaz c am deschis baza de date Cars #i c ea este preg tit pentru analiz . De asemenea, constat m c structura acesteia este compus din opt variabile, fiecare dintre ele reprezentnd o anumit caracteristic a ma#inilor. Ultima variabil , variabila Filter_$ este o variabil intern folosit de programul SPSS pentru o filtrare anterioar a datelor, variabil pe care ne propunem s o #tergem. Cum? Efectund clic pe numele acesteia. Observ m c ntregul con&inut al coloanei Filter_$ s-a selectat. n continuare, ap s m tasta Delete, situat pe tastatur , n partea dreapt a grupului principal de taste, iar variabila a fost eliminat mpreun cu toate datele 38

Cristian Opariuc-Dan acesteia. Felicit ri. Iat #i prima dumneavoastr interven&ie real n SPSS. Dup cum bine #tim, orice prim interven&ie ntr-un program nseamn o #tergere a ceva. Nici noi nu puteam face excep&ie! Baza de date deschis de c tre dumneavoastr a fost afi#at n sec&iunea Data view, fapt care ne atrage aten&ia c n acest mod putem afi#a #i urm ri con&inutul datelor din baza de date. Dac vom efectua clic pe sec&iunea Variable view, vom intra n modul de definire a datelor. Dup cum ne spune #i numele sec&iunii, aici putem vizualiza #i edita denumirea, tipul #i alte informa&ii referitoare la variabile. Ca s folosim un limbaj mai tehnic, dac n Data view ne afl m n sec&iunea datelor propriu-zise, n Variable view ne afl m n sec&iunea meta-datelor, adic n sec&iunea informa&iilor despre date, unde putem interveni asupra structurii lor interne. Vom clarifica imediat, prin cteva exemple, aceste aspecte. Astfel, prima variabil , denumit mpg este o variabil numeric , ce accept maximum 4 caractere (adic cifre ntre 0 #i 9999) #i f r zecimale.

Figura 1.10 Sec&iunea de definire a variabilelor

Numele mpg nu este ns un nume intuitiv #i nu ne putem da seama cu precizie la ce se refer aceast variabil . Din p cate, doar versiunile de SPSS de la 13.0 n sus accept nume de variabile cu mai mult de 8 caractere, ns nu se permite includerea spa&iilor sau a altor semne de punctua&ie n denumirea acestora #i de aceea va trebui s fim foarte restrictivi n momentul n care le cre m. Pentru a n&elege mai u#or la ce anume se refer o anumit variabil ,

39

Statistic aplicat n #tiin&ele socio-umane

avem posibilitatea de a o eticheta, adic de a include un text descriptiv asociat numelui ei. n cazul nostru, eticheta variabilei ne informeaz c mpg se refer la Miles per Gallon, adic la consumul automobilului exprimat n distan&a pe care acesta o poate parcurge cu un galon de combustibil. Urm toarea sec&iune prezint valorile pe care le putem defini pentru respectiva variabil . Iat , n cazul variabilei origin, care se refer la &ara de produc&ie a ma#inilor, observ m c s-a asociat valoarea 1 pentru ma#inile de produc&ie american , valoarea 2 pentru cele de produc&ie european #i valoarea 3 pentru cele japoneze. n spa&iul destinat definirii variabilelor, avem, de asemenea, posibilitatea de a controla modul de tratare a cazurilor lips , alinierea datelor n cadrul celulelor #i definirea tipului de variabil nominal , ordinal #i scalar . Efectund clic pe aceste sec&iuni, a&i observat c , uneori, apare n partea dreapt a acestora fie un buton cu punctele de suspensie care va deschide o caset de dialog unde se pot controla parametrii valorilor acceptate, fie un buton de incrementare/decrementare cu ajutorul c ruia pute&i m ri, respectiv mic#ora o anumit valoare, fie o caset de selec&ie s geata orientat n jos prin care pute&i deschide o list , de unde s selecta&i anumite valori. Exerci iu practic: n exerci&iul care urmeaz vom traduce pur #i simplu n romne#te structura acestei baze de date #i vom salva baza de date sub un nou nume, Masini (aten&ie, nu folosi&i diacriticele romne#ti n scrierea literelor, prin urmare, n acest caz, nu folosi&i litera #, ci s. Deci nu vom salva cu Ma#ini, ci Masini), ntr-un director nou creat avnd calea C:\Exercitii SPSS (aceea#i men&iune referitoare la diacritice). n cazul primei variabile, numele va r mne acela#i, iar noi vom modifica doar descrierea. Vom da clic n sec&iunea Label, acolo unde se afl afi#at textul Miles per Gallon #i vom scrie textul Mile per galon.

40

Cristian Opariuc-Dan A doua variabil se nume#te engine. Vom schimba numele acesteia n cilindree (ne-am ncadrat n 8 caractere), f cnd clic n coloana Name #i scriind noul nume. Eticheta va deveni, pentru a doua variabil , Capacitate cilindric , pe care o ve&i modifica dup exemplul primei variabile. Proced m la fel n cazul variabilelor 2, 3, 4, 5 #i 6, l snd traducerea din englez n romn la latitudinea dumneavoastr . Aten&ie, ns , la acel maximum de 8 caractere cnd redenumi&i o variabil . Variabila num rul 7 se refer la &ara de origine a ma#inilor. O vom redenumi origine #i vom modifica, desigur, eticheta. Exist ns , la acest nivel, un element n plus, #i anume coloana Values. V mai aminti&i probabil de ma#iniFigura 1.11 Etichetarea variabilelor de le americane, europene #i japoneze. Danivel nominal #i ordinal c vom da clic pe celula corespunz toare coloanei Values pentru aceast variabil , constat m apari&ia unui mic buton cu puncte de suspensie n partea dreapt a celulei. Ap snd acest buton se deschide o nou fereastr , fereastra de configurare a valorilor asociate. Vorbeam anterior despre ma#ini de produc&ie american , european #i japonez . n aceast caset vedem lista acestor asocieri n partea de jos. n stnga listei, exist 3 butoane: Add cu ajutorul c ruia putem crea o nou asociere, Change prin care putem modifica o asociere selectat #i Remove care #terge, elimin asocierea selectat . Noi ne-am propus s traducem aceast structur de date n limba romn . Vom efectua clic pe prima asociere 1 = American. Constat m c , automat, n caseta Value a ap rut cifra 1, iar n caseta Value Label textul American. Putem deduce cu u#urin& c valorii 1 i s-a asociat textul American(apropo, la ce nivel de m surare ne afl m aici #i ce fel de variabil este aceasta?). De asemenea, s-a activat butonul Remove, SPSS presupunnd c dorim s elimin m aceast asociere din moment ce am selectat-o. Pentru a modifica textul, efectu m clic 41

Statistic aplicat n #tiin&ele socio-umane

n interiorul casetei Value Label #i scriem n loc de American, America (mai bine spus, #tergem un n). De data aceasta, se activeaz #i butonul Change, SPSS depistnd modificarea efectuat #i presupunnd c vom dori s o #i aplic m efectiv. Dac ve&i ap sa acest buton (Change), ve&i constata c eticheta s-a modificat din 1 = American n 1 = America. Felicit ri. A&i realizat prima traducere. Acum proceda&i la fel pentru Europa #i Japonia. Desigur, oricnd pute&i include o nou asociere. Tasta&i cifra 4 n caseta Value (deoarece ar urma 4 n ordine logic ) #i textul Romnia n caseta Value Label, apoi ap sa&i butonul Add care a&i observat c a devenit activ. Astfel a&i asociat valoarea 4 ma#inilor de produc&ie romneasc . n momentul n care a&i terminat de efectuat toate asocierile, ap sa&i butonul OK pentru a le memora #i a p r si formularul. Re&ine&i c ap sarea butonului Cancel duce la p r sirea formularului f r memorarea asocierilor. Apare totu#i o ntrebare. De ce s folosim aceste asocieri n loc de a scrie pur #i simplu n baza de date America, Europa #i Japonia? n primul rnd, pentru c este mai u#or. Imagina&i-v c ave&i de introdus un num r de 3000 de date n baza dumneavoastr de date. n loc s scrie&i de fiecare dat un text format din 6-8 caractere, ve&i tasta pur #i simplu 1 atunci cnd v referi&i la America, 2 cnd v referi&i la Europa #i 3 cnd v referi&i la Japonia. SPSS va #ti, de fiecare dat , n urma asocierilor realizate n etapa anterioar , la ce anume se refer 1, 2 #i 3. n al doilea rnd, de#i 1, 2 #i 3 sunt doar ni#te etichete pentru America, Europa #i Japonia, se preteaz mult mai bine la prelucr rile statistice ulterioare, fiind date numerice. Proceda&i la fel #i cu ultima variabil , referitoare la num rul de cilindri ai motorului, pentru ca, n final, s ob&ine&i structura complet a bazei de date. Prin acest exerci&iu, ne-am deprins cu unele elemente ale configur rii structurii bazei de date. n continuare, vom salva baza de date modificat sub

42

Cristian Opariuc-Dan denumirea de Masini. Directorul folosit va fi C:\Exercitii SPSS (aten&ie la diacritice!). Pute&i alege meniul File #i op&iunea Save sau Save as, pute&i ap sa combina&ia de taste Ctrl+S sau Alt+F, Alt+S sau pute&i ap sa butonul de salvare de pe bara de instrumente (acela care are o dischet drept pictogram ). Dar aten&ie! Diferen&a dintre op&iunea Save #i Save as este aceea c , folosind Save, se vor salva modific rile efectuate tot n baza de date ini&ial , n cazul nostru baza de date Cars. Noi ne-am propus s salv m baza de date sub un alt nume #i ntr-un alt loc, deci nu vom putea folosi dect op&iunea Save as (Salveaz ca). Se va deschide caseta de salvare a unei baze de date care are acela#i aspect ca #i caseta de deschidere a unei baze de date, cu excep&ia butonului Open, n acest caz denumirea acestuia fiind Save. Folosind cuno#tin&ele dobndite anterior, va trebui s v pozi&iona&i cu ajutorul casetei Figura 1.12 Fereastra de salvare a Save in (echivalenta casetei Look in unei baze de date din fereastra de deschidere a bazei de date) n directorul r d cin C:\, s crea&i un nou director folosind butonul de creare a unui director din acest formular pe care s -l denumi&i Exerci&ii SPSS, s efectua&i dublu clic pe acesta pentru a-l deschide #i s introduce&i numele bazei de date Masini n caseta File name. Ap sa&i apoi butonul Save pentru a salva efectiv fi#ierul pe disc. A&i reu#it, nu-i a#a? n urma acestor opera&iuni, n bara de titlu SPSS va ap rea mesajul Masini SPSS Data Editor, care ne informeaz c programul a salvat cu succes baza de date pe disc #i a activat-o. Reamintim faptul c , la crearea unei noi baze de date, folosirea oric ror op&iuni de salvare (meniul File, butonul de pe bara de instrumente sau

43

Statistic aplicat n #tiin&ele socio-umane

tastele rapide) duce la apari&ia ferestrei Save as, deoarece fiind o baz de date nou , acesteia nu i-a fost atribuit nc un nume printr-o opera&ie de salvare. Pute&i cu u#urin& identifica dac o baz de date are un nume (a fost salvat ) sau nu, urm rind bara de titlu. Bazele de date noi sunt identificate prin mesajul Untitled SPSS Data Editor, n timp ce bazele de date salvate au afi#at numele acestora n bara de titlu. A&i observat c , la lansarea programului SPSS, acesta creeaz automat o baz de date nou #i nedefinit #i a#teapt din partea noastr definirea variabilelor #i salvarea acesteia. Odat salvat baza de date, orice modific ri efectu m n ea, la salvare ele vor fi scrise automat n fi#ierul al c rui nume este afi#at n bara de titlu, f r a mai ap rea fereastra de salvare de mai sus. Singura modalitate prin care putem da un alt nume bazei de date sau prin care o putem salva ntr-un alt loc este folosirea op&iunii Save as. Crearea unei noi baze de date se poate face folosind meniul File, submeniul New #i op&iunea Data, combina&iile de taste Ctrl+N sau Alt+F, Alt+N, Alt+A. n oricare dintre aceste situa&ii, SPSS va crea o baz de date goal #i nedefinit , la fel ca n cazul lans rii programului. Ca exerci&iu, folosind cuno#tin&ele dobndite, v propunem crearea unei noi baze de date avnd urm toarea structur #i salvarea acesteia sub numele de IQ n directorul C:\Exercitii SPSS:

Variabila nume va fi de tip #ir de caractere (string) #i va stoca numele subiec&ilor, toate celelalte variabile fiind numerice. Exist dou defini&ii de asocieri, #i anume variabila sexul (1-Masculin 2-Feminin) #i scoala (1-Primare 2-Gimnaziu 3-Liceul 4-Postliceala 5-Facultate)

44

Cristian Opariuc-Dan Dup construirea structurii de date, proceda&i la salvarea fi#ierului n locul precizat. Folosind cuno#tin&ele teoretice acumulate, preciza&i tipul fiec rei variabile create n acest exerci&iu. Ne propunem n continuare aprofundarea definirii variabilelor n SPSS. Pentru aceasta, ne vom folosi de baza de date IQ creat #i salvat n exerci&iul anterior. n sec&iunea Data View, am remarcat deja prezen&a a zece caracteristici prin care se poate defini o variabil n SPSS. Prima dintre acestea se refer la numele variabilei (Name), caracteristic ce nu presupune prea multe explica&ii. Numele variabilei reprezint modul n care aceasta va fi apelat n toate prelucr rile efectuate folosind baza de date. Nu putem ns s nu preciz m c SPSS impune o serie de restric&ii n denumirea variabilelor (versiunile mai mici de versiunea 13): n primul rnd, numele acestora s nu dep #easc 8 caractere, variabilele cu nume mai lungi de 8 caractere nefiind acceptate. Apoi, nu pot fi folosite spa&ii sau semne de punctua&ie n denumirea variabilelor, putnd fi ns folosit linia de subliniere pentru cazurile n care dorim s abreviem o variabil format din dou cuvinte. De exemplu, dac avem o variabil care se refer la anul na#terii, o vom putea abrevia denumind-o an_naste. Astfel, lungimea ei este de 8 caractere, fiind acceptat de SPSS, iar cele dou cuvinte componente le-am separat printr-o linie de subliniere, fapt de asemenea acceptat de SPSS. Nu conteaz dac scriem numele variabilelor cu litere mari sau cu litere mici, deoarece, n final, SPSS le converte#te automat n litere mici. Din punctul de vedere al primei caracteristici, baza noastr de date IQ nu creeaz probleme, fiind definite cinci nume de variabile: numele, varsta, sexul, scoala #i iq. A doua caracteristic se refer la tipul de date ce va fi stocat n aceste variabile (Type), caracteristic pe care nu am abordat-o n detaliu n timpul prezent rii noastre de pn acum. Aceast sec&iune con&ine un buton cu trei puncte de suspensie, pe care l putem ap sa pentru a deschide fereastra de

45

Statistic aplicat n #tiin&ele socio-umane

configurare a tipului de date. Aceasta con&ine o serie de butoane de op&iuni, dintre care putem selecta tipul de date pe care variabila noastr l va stoca, dup cum urmeaz : Tipul de date Numeric se refer la numere. Valorile acceptate vor fi, deci, numere, n format standard. Alegnd acest tip de date, putem stabili #i dimensiunea acestora valoarea maxim pe care SPSS o poate accepta prin Figura 1.13 Stabilirea tipului de date precizarea num rului de caractere a unei variabile n cmpul Width #i num rul de caractere dup virgul n cmpul Decimal Places. De exemplu, num rul maxim de caractere 3 #i 2 caractere zecimale nseamn c acea variabil poate stoca valori numerice de la 0 pn la 999,99. Acest tip de date va scrie valorile numerice f r nici o separa&ie ntre sute #i mii #i folosind ca separator zecimal separatorul configurat al sistemului. Un exemplu de num r scris n acest format ar fi 78457845.57 Tipul de date Comma se refer , de asemenea, la numere #i pot fi definite la fel ca tipul anterior, numai c acestea vor fi afi#ate folosindu-se virgula ca separator ntre valoarea sutelor #i valoarea miilor #i punctul ca separator al valorilor zecimale. De exemplu, o valoare numeric n acest format ar ar ta astfel: 9,999.89. Este, practic, formatul numeric clasic american. Tipul de date Dot identic cu tipul de date anterior, doar c se inverseaz rolul punctului #i al virgulei. Relund acela#i exemplu, num rul de mai sus va fi scris astfel: 9.999,89 n acest caz recunoa#tem formatul romnesc. Tipul de date Scientific notation se refer la modul #tiin&ific de afi#are a cifrelor, folosind litera E pentru a reprezenta puterile lui 10. Modul

46

Cristian Opariuc-Dan de configurare a dimensiunii variabilei este acela#i, iar un exemplu de num r folosind aceast reprezentare poate fi 1.23E2 ceea ce semnific de fapt 123.00. Tipul de date Date se refer la date calendaristice. Alegnd aceast op&iune, va trebui s configura&i, selectnd din lista ce se va deschide, modul de afi#are a datei calendaristice dintr-o mul&ime de formate care vi se ofer .
Figura 1.14 Tipul de date calendaristice Tipul de date Dollar se refer la valori monetare, avndu-se n vedere moneda american . Pute&i alege #i particulariza valoarea maxim pe care o poate accepta variabila din lista ce se afi#eaz sau pute&i particulariza aceast valoare, la fel ca n cazul valorilor numerice.

Tipul de date Custom currency permite definirea unor valori monetare particularizate, valabile pentru alte & ri n afara Statelor Unite. Se poate defini forma de prezentare a variabilei #i valoarea maxim acceptat , la fel ca la tipul anterior. Tipul de date String stocheaz doar #iruri de caractere, cu alte cuvinte texte, f r nici o posibilitate de prelucrare statistic . Poate fi definit #i aici dimensiunea maxim pe care o poate avea variabila din punctul de vedere al num rului de caractere acceptate. n cazul nostru, variabila nume este un exemplu excelent de variabil de tip string. Caracteristica a treia #i caracteristica a patra a unei variabile, respectiv Width #i Decimals se refer exact la valorile maxime pe care le pot accepta variabilele #i la num rul de zecimale, elemente pe care le-am discutat anterior, iar aceste dou caracteristici nu fac dect s creeze o alt posibilitate de definire a variabilelor sub acest aspect.

47

Statistic aplicat n #tiin&ele socio-umane

n cazul exemplului nostru, constat m c avem o singur variabil de tip string, variabila nume care poate accepta maxim 20 de caractere, toate celelalte variabile fiind de tip numeric; variabilele sexul #i #coala pot accepta doar o singur cifr f r zecimale, iar variabilele varsta #i iq pot accepta 3 cifre f r zecimale. Aceast defini&ie permite stocarea subiec&ilor cu numele format din maxim 20 de litere, vrsta poate lua valori de pn la 999, suficient, deci, pentru scopurile noastre, acela#i lucru fiind valabil #i pentru coeficientul de inteligen& . Sexul #i nivelul de #colarizare accept doar o singur cifr , deoarece am convenit s asociem valoarea 1 cu sexul masculin #i 2 cu sexul feminin, n mod analog procednd #i cu nivelul de #colarizare. Datele au fost definite ca numerice pentru a crea posibilitatea interpret rii lor ulterioare, cunoscndu-se faptul c datele de tip string nu pot fi interpretate statistic. Urm toarea caracteristic , caracteristica Label, permite includerea unei denumiri mai intuitive a variabilei, prin care s poat fi mai u#or identificat #i recunoscut . Astfel, variabilei nume i putem da eticheta Numele subiec&ilor, variabila iq o putem eticheta drept Coeficientul de inteligen& #i a#a mai departe. Putem include orice etichet descriptiv dorim pentru numele unei variabile, cu condi&ia ca lungimea acesteia s nu dep #easc 255 de caractere. Deci aten&ie la scrierea romanelor n descrierea variabilelor!!! Aceast caracteristic mai are ns o func&ie important ; SPSS include eticheta variabilelor n rapoartele finale rezultate n urma prelucr rii datelor. Dac crea&i un tabel de frecven& , SPSS nu va afi#a numai numele variabilei, de exemplu iq, ci va include #i descrierea acesteia, Coeficientul de inteligen& , f cnd astfel mult mai estetice #i mai inteligibile foile de raport. Caracteristica Values am discutat-o pe larg n sec&iunile anterioare #i nu vom mai reveni asupra ei. Men&ion m doar c ea permite clasific ri (deci variabile categoriale) #i asocieri de valori. Spre exemplu, putem asocia valoarea 1 sexului masculin #i valoarea 2 sexului feminin, pentru a putea introduce

48

Cristian Opariuc-Dan mai u#or datele #i pentru a putea efectua prelucr ri statistice la nivel de variabile nominale. Caracteristica Missing permite definirea modului n care vor fi tratate valorile lips din cadrul unei variabile. Uneori, este important s cunoa#tem de ce lipsesc valori dintr-o variabil . Datele lips se pot datora, spre exemplu, faptului c subiectul refuz s r spund la o anumit ntrebare sau fapFigura 1.15 Tratarea valorilor lips tului c ntrebarea nu este adresat acelui subiect. Iat dou situa&ii care ar necesita un tratament separat al valorilor lips . Datele pe care le ve&i trata n mod explicit ca date lips pot fi supuse apoi unei analize statistice separate, fiind ini&ial excluse din cele mai multe calcule. Un alt exemplu, frecvent ntlnit n chestionarele sociologice, se refer la codificarea r spunsurilor de tip Nu #tiu/Nu r spund. Majoritatea cercet torilor codeaz aceste variante cu 9 sau 99. Evident, variantele incerte nu vor face obiectul prelucr rii ini&iale a datelor. Folosind aceast sec&iune se pot include aceste valori (9 sau 99) ca valori lips , SPSS eliminndu-le din analiz . Definirea valorilor lips poate accepta trei situa&ii. Situa&ia No missing values, cnd comunic m programului c nu dorim un tratament special pentru valorile lips , acestea fiind tratate ca atare n cursul fiec rei prelucr ri de date pe care o realiz m, situa&ia Discrete missing values, cnd putem defini pn la trei valori care vor fi tratate ca valori lips n cursul prelucr rilor statistice ulterioare (de exemplu, la un chestionar cu 3 variante de r spuns, dorim ca doar r spunsurile 1 #i 3 s fie luate n calcul, r spunsul 2 fiind tratat ca non-r spuns. Pentru aceasta, vom include cifra 2 n prima dintre cele trei casete ale acestei sec&iuni.) #i situa&ia Range plus one optional discrete missing value, n care putem stabili un interval pentru care valorile vor fi tratate ca valori lips (spre exemplu, coeficien&ii de inteligen& cuprin#i ntre 10 #i 75), n plus existnd posibilitatea de

49

Statistic aplicat n #tiin&ele socio-umane

a include #i o valoare particular (discret ), ca #i n situa&ia anterioar . n exemplul nostru de baz de date, nu avem nici un motiv de a trata n vreun fel valorile lips , deci nu vom configura aceast caracteristic . Caracteristica Columns permite specificarea l &imii coloanei n care se vor afi#a valorile variabilelor n modul Data View. Implicit, coloanele au o l &ime egal cu 8 caractere. Putem include aici o alt valoare sau putem redimensiona l &imea coloanelor n modul Data View, prin tragerea cu ajutorul maus-ului a liniei de separa&ie dintre dou coloane. Introducerea diferitelor valori pentru aceast caracteristic permite ajustarea #i redimensionarea precis a l &imii coloanelor. n cazul nostru, pentru variabila nume, dimensiunea implicit de 8 caractere va fi insuficient pentru prezentarea unui subiect cu numele Popescu Valentin, afi#ndu-se doar primele 8 caractere #i anume Popescu . Pentru a vedea ntregul nume, fie introduce&i valoarea 16 pentru caracteristica Columns a variabilei nume, fie trage&i cu ajutorul maus-ului linia de demarca&ie dintre coloana nume #i coloana varsta, pentru a m ri l &imea coloanei de afi#are a numelui subiec&ilor. Aceast caracteristic , ca #i urm toarea, nu influen&eaz n niciun fel modul de prelucrare a datelor, ci doar aspectul tabelului de date din Data View. Caracteristica Align controleaz modul n care sunt aliniate valorile variabilelor n tabelul de date. Pute&i opta pentru o aliniere la stnga, centrare sau aliniere la dreapta a valorii variabilelor n cadrul coloanelor din Data View, f r a influen&a n vreun fel modul de prelucrare al variabilelor. Ca regul general , variabilele de tip string se aliniaz la stnga, iar variabilele de tip numeric sau dat calendaristic se aliniaz la dreapta pentru o mai bun lizibilitate n cadrul tabelelor de date. Ultima caracteristic , Measure, este n acela#i timp #i una foarte important , permi&nd alegerea nivelului de m surare al variabilei. Se poate opta pentru dou sau trei niveluri de m surare, n func&ie de tipul de variabil . Astfel, pentru variabila nume, care este o variabil de tip string, sunt dis-

50

Cristian Opariuc-Dan ponibile doar nivelurile nominal #i ordinal de m surare. Stocarea numelui #i a prenumelui are o valoare pur informativ #i nu permite nici m car o clasificare a acestora. Nivelul de m sur va fi deci nivelul nominal. Variabila varsta este variabila numeric prin care se stocheaz vrsta subiec&ilor. Aceast variabil are intervale egale, zero absolut #i permite rapoarte n cadrul scalei, deci poate fi considerat la un nivel de m surare scalar4. Variabila sexul nu este altceva dect tot o variabil nominal , care nu permite dect o clasificare a persoanelor n func&ie de genul lor biologic. Variabila scoala poate fi privit ca o variabil nominal , dac inten&ion m doar s clasific m subiec&ii n func&ie de studiile absolvite, sau se poate accepta un nivel ordinal de m surare la nivelul acesteia, dac ierarhiz m subiec&ii n func&ie de gradul lor de #colarizare. Vom lua n considerare a doua situa&ie #i o vom accepta ca variabil ordinal . n sfr#it, variabila iq este f r discu&ie o variabil de tip ordinal. Iat c , parcurgnd aceste etape, am reu#it n cele din urm s construim structura unei baze de date simple n acord cu principiile #i domeniile de defini&ie ale variabilelor #i cu nivelul lor de m surare. Un aspect important pe care merit s -l men&ion m se refer la procesul de codare al variabilelor (proces pe care l-am ntlnit la codarea variabilelor sex #i nivel de #colarizare). n general, cercet torii cu experien& cunosc intuitiv modalitatea de codare optim a unei variabile. Pentru a veni n sprijinul debutan&ilor, Newton #i Rudestam (1999) propun, n lucrarea Your statistical consultant, un set de reguli folosite n acest proces (Field, 2005). Toate datele trebuie codate numeric. Pentru a coda, de exemplu, sexul, am putea folosi #i M pentru masculin, respectiv F pentru feminin. Un asemenea proces de codare ar fi complet eronat,

Ca observa&ie, n SPSS, nivelurile de m sur de interval #i de raport au fost reunite sub denumirea generic de nivel de m sur scalar. Proiectan&ii acestei aplica&ii au renun&at la distingerea celor dou , reunindu-le sub denumirea de nivel scalar.

51

Statistic aplicat n #tiin&ele socio-umane

deoarece ar limita radical posibilit &ile de prelucrare statistic a datelor. Recomandarea este aceea c , atunci cnd suntem n astfel de situa&ii, este de preferat s folosim, de exemplu, 1 pentru Masculin #i 2 pentru Feminin. Aceste cifre nu au dect o valoare de etichet #i nu reprezint un proces de ierarhizare (nu spunem c masculinul este mai jos dect femininul deoarece are valoarea 1). La fel de bine putem s scriem 2 masculin #i 1 feminin sau 5 masculin #i 7 feminin. Acest proces de codare poart numele de codare dummy. Tot ceea ce trebuie s face&i este s re&ine&i codurile atribuite. Fiecare variabil# trebuie s# ocupe o coloan# distinct# n baza de date i fiecare subiect va ocupa o singur# nregistrare. Este foarte important ca datele unui subiect s ocupe un singur rnd n baza de date SPSS, iar fiecare coloan s se refere doar la o singur variabil . n cazul n care o variabil este m surat de mai multe ori (tipic pentru experimente de tip testare ini&ial testare final ), se vor aloca dou coloane pentru acea variabil , una care s se refere la testarea ini&ial #i una viznd testarea final . De exemplu, dac avem un experiment prin care, n urma unei tehnici oarecare, presupunem c mbun t &im memoria, va trebui s test m memoria subiec&ilor nainte de aplicarea tehnicii, s aplic m tehnica #i apoi s test m din nou memoria subiec&ilor, pentru a vedea dac au ap rut modific ri. n acest caz, putem defini cele dou variabile prin mem_ini care reprezint testul ini&ial de memorie #i mem_fin care se refer la testul final. Astfel, nu nc lc m aceast regul , iar datele vor fi consistente. Toate codurile pentru o variabil# trebuie s# fie mutual exclusive. Cu alte cuvinte, nu trebuie s existe dect un singur num r ce poate fi stocat ntr-o variabil . n anumite chestionare pot exista

52

Cristian Opariuc-Dan itemi care permit alegeri multiple (de exemplu, la solicitarea: Bifa&i din urm toarea list partidele cu care n mod sigur nu ve&i vota la urm toarele alegeri: pot fi variantele de r spuns PSD, PD, UDMR, PNG etc. n acest caz, subiectul poate alege un singur partid, dou partide sau le poate alege pe toate). O asemenea situa&ie impune crearea unui num r de variabile egal cu variantele de r spuns (de exemplu nu_PSD, nu_PD, nu_UDMR, nu_PNG) cu categorii dihotomice de genul 0 Neselectat, 1 Selectat care vor fi analizate ulterior. De obicei, asemenea itemi au #i o categorie de genul Altul. Care_______ prin intermediul c reia subiectul poate s -#i exprime liber op&iunea. n mod normal, aceast categorie se analizeaz prin alte metode #i nu folosind SPSS, deoarece variabilitatea r spunsurilor confer o valoare statistic foarte redus . Fiecare variabil# trebuie codat# astfel nct s# se ob&in# maximum de informa&ii. Categoriile sau valorile variabilei nu trebuie sintetizate n prima variant , ci trebuie incluse exact a#a cum apar pe formularele de colectare a datelor. Sintetizarea valorilor #i cumularea categoriilor poate fi f cut mai trziu, utiliznd func&iile specifice SPSS. De exemplu, se prefer introducerea exact a valorii pentru vrsta subiectului, n ani, #i nu ncadrarea subiectului n categorii de vrst (sub 14 ani, ntre 14 #i 20 de ani, peste 20 de ani etc.). Ini&ial, se va proiecta o variabil , varsta, care va stoca vrsta exact a subiec&ilor. Ulterior, dac se va dori transformarea acestei variabile scalare ntr-o variabil discret , ordinal , numit grup_varsta, se pot folosi tehnici specifice de conversie. Ca idee general , ntotdeauna cnd este posibil, se vor folosi variabile continui la un nivel de m sur ct mai aproape de scala de raport. Este u#or s transform m o variabil continu ntr-una discret , ns imposibil s trecem de la o variabil discret la una continu . Du-

53

Statistic aplicat n #tiin&ele socio-umane

p cum #ti&i deja, valoarea informativ cea mai ridicat o au totu#i variabilele continui, astfel nct profita&i de ele. Fiecare subiect trebuie s# aib# o valoare pentru fiecare variabil#. Uneori nu este posibil s includem valori n fiecare coloan , fie deoarece subiectul nu a r spuns, fie pentru c itemul respectiv nu i se adreseaz . n acest caz, se recomand s l sa&i acea celul liber , deoarece SPSS este astfel proiectat nct s trateze celulele goale drept cazuri lips . Introducerea altor valori pentru cazurile lips poate crea confuzii. Respecta&i ntotdeauna regula ceea ce e cel mai simplu este #i cel mai bun. Regulile de codare se vor aplica tuturor subiec&ilor. Acest lucru nseamn c nu pute&i aplica reguli valabile doar pentru anumi&i participan&i. De exemplu, dac dori&i ca anumite valori s fie tratate ca valori lips pentru un anumit subiect, nu pute&i face acest lucru. Valorile lips vor fi tratate similar pentru to&i subiec&ii. Folosi&i coduri n concordan&# cu sensul scalei. Unele chestionare presupun tipuri de scale ordinale (de exemplu 1 niciodat , 2 rareori, 3 uneori, 4 deseori, 5 ntotdeauna). De#i scalele pot fi codate #i invers (1 ntotdeauna, 2 deseori, 3 uneori, 4 rareori, 5 niciodat ), se recomand p strarea sensului natural al scalei pentru evitarea problemelor ulterioare referitoare la interpretare. Mai u#or asociem niciodat cu 1 dect niciodat cu 5. Oricum, chiar dac ulterior exist suficiente posibilit &i de recodare a valorilor astfel nct analiza s fie consistent , proiectarea adecvat a cercet rii #i cod rii v poate scuti de b t i de cap #i munc inutil .

54

Cristian Opariuc-Dan Dup proiectarea bazei de date, se recomand listarea structurii acesteia (a meta-informa&iilor) n vederea consult rii ulterioare. Dac nu ve&i lucra cteva luni cu baza de date, probabil c nu ve&i re&ine la ce se refer mem_ini sau mpg #i nici de ce tip este. SPSS prezint o modalitate u#oar de a afi#a structura bazei de date cu informa&ii complete. Nu trebuie dect s accesa&i meniul File #i apoi op&iunea Display Data File Information. Se va deschide o nou sec&iune care v invit s alege&i ntre a afi#a Figura 1.16 Afi#area informa&iilor despre baza de date informa&iile bazei de date curente (Working File) sau cele ale unei alte baze de date de pe disc (External File). Noi suntem interesa&i de afi#area structurii bazei noastre de date (IQ.sav) #i vom alege, a#adar, prima op&iune. n fereastra de rezultate (Output), vor ap rea o serie de tabele corespunz toare defini&iilor variabilelor din baza de date, astfel:
Tabelul 1.1 Tabelul de structur a bazei de date

Variable Information Variable nume varsta sexul 3 iq 4 Position 1 2 Label Numele subiectului Varsta subiectilor Genul biologic al subiectilor Coeficientu l de inteligenta Measurement Level Nominal Scale Scale Column Width 14 8 8 Alignment Left Right Right Print Format A20 F2 F1 Write Format A20 F2 F1

Scale

Right

F3

F3

Variables in the working file

55

Statistic aplicat n tiinele socio-umane

III.2.5 Obinerea indicatorilor tendinei centrale n SPSS


V mai amintii, cred, de baza de date creat n SPSS n capitolul unu i pe care am numit-o IQ. Haidei s o deschidem. Dac nu reuii, revedei primul capitol. Acum vom introduce cteva date n SPSS. Trecem, deci, n modul Data View prin apsarea tabulatorului din partea din stnga jos a programului SPSS. Se afieaz o foaie de lucru, un tabel similar tabelului din Excel, n care, pe prima coloan, cea de culoare gri (capul de tabel), ntlnim numele variabilelor definite anterior. Modul de lucru este analog celui din Excel. Se scriu pur i simplu datele n celule. Atenie! Avem dou variabile pentru care am asociat valori: variabila sexul i variabila scoala. Aici nu vom scrie cuvntul Masculin sau Feminin, ci vom tasta 1 pentru Masculin i 2 pentru Feminin. La fel i n cazul variabilei scoala, vom tasta 1 pentru Primare, 2 pentru Gimnaziu i aa mai departe. Baza dumneavoastr de date trebuie s arate n final ca n figura de mai sus. O mic precizare. Pe bara de instrumente, penultimul buton se numete Value Labels i arat ca n imaginea alturat. La o apsare a acestuia, butonul se activeaz, iar n baza de date se afieaz etichetele asociaiilor fcute, ca n figura alturat. La o nou apsare, etichetele asociaiilor nu se mai afieaz, ci se afieaz valorile asociaiilor ca n figura mare de Figura 3.2 Baza de date cu afiarea etichetelor asocierilor mai sus.

92

Cristian Opariuc-Dan Dup ce am introdus cele 30 de date, vom salva baza de date i vom iniia procedura de extragere a indicatorilor tendinei centrale. Indicatorii tendinei centrale ne sunt furnizai prin intermediul numeroaselor proceduri statistice. Cele mai simple comenzi, pentru a nu complica inutil expunerea, le gsim n meniul Analyze i apoi n meniul Descriptive Statistics. n traducere, Figura 3.3 Lansarea proceanalize statistici descriptive. Primele trei codurilor de analiz descriptiv pe frecvene menzi din acest submeniu pot extrage indicatorii tendinei centrale. Vom analiza doar prima comand, comanda Frequencies, urmnd ca celelalte dou s le discutm cu alte ocazii, deoarece presupun i alte informaii. Comanda Frequencies sau frecvene prezint cele trei puncte, fapt care va duce la deschiderea unei noi casete de dialog. Dai clic pe aceast comand i vei obine o caset ca cea din imaginea de mai jos.
Figura 3.4 Caseta de analize descripn partea stng se afl o list cu tive utilizndu-se frecvenele toate variabilele din baza dumneavoastr de date. Alturi de aceast list, se afl un buton de transfer (acel buton cu o sgeat pe el). Urmeaz apoi lista Variable(s), care nseamn variabilele pe care le introducem spre analiz. Pentru a introduce o variabil spre analiz, trebuie s o selectm, printr-un clic simplu pe numele acesteia, din lista de variabile din partea stng. O variabil Figura 3.5 Includerea variabilelor spre selectat are fundalul albastru (sau o analiz

93

Statistic aplicat n tiinele socio-umane

alt culoare n funcie de schema de culori a calculatorului dumneavoastr). Dup ce o selectai, apsai butonul de transfer (care va avea sgeata orientat spre lista Variable(s)) pentru a transfera variabila dumneavoastr n lista variabilelor ce urmeaz a fi analizate. n figura din stnga, transferm variabila Varsta subiectilor din lista variabilelor din baza de date n lista variabil elor supuse analizei. n final, va trebui s obinei o imagine ca cea de alturi. Observai c dac am transferat variabila Varsta subiectilor n lista variabilelor supuse analizei, butonul de transfer i-a schimbat sensul. Acum, dac apsm pe el, scoatem variabila noastr din lista variabilelor supuse analizei (dup ce, n prealabil, evident, o selectm) i o introducem n lista variabilelor totale din baza de date. Oricum, acest buton de transfer ne va nsoi permanent n analizele noastre, deoarece va trebui s spunem programului ce variabile s analizeze i pe care s nu le analizeze. Vom trece n revist acum toate comenzile din aceast fereastr, cu precizarea c unele dintre ele vor fi abordate n detaliu n cadrul altor capit ole. Caseta de bifare Display frequency tables informeaz aplicaia SPSS dac s afieze tabelul frecvenelor (n condiiile n care aceast caset o bifai) sau s nu-l afieze (n condiiile n care nu o bifai). Tabelul frecvenelor este acel tabel general, studiat la capitolul despre organizarea datelor, nainte de a grupa valorile n clase. Iat c, acum, am ales ca acest tabel al frecvenelor s fie afiat. n partea dreapt a acestui formular, se afl un numr de cinci butoane de acionare. Butonul OK este butonul pe care vom apsa pentru a lansa analiza, dup ce am configurat modul n care dorim ca analiza s fie efectuat.

94

Cristian Opariuc-Dan Butonul Paste este un buton pe care nu-l vom folosi deloc. El permite lipirea codului care efectueaz analiza curent ntr-o fereastr de sintax de comenzi. El se adreseaz utilizatorilor care doresc s fac programare n SPSS, utiliznd limbajul propriu de programare al acestei aplicaii. ntr-o alt lucrare, vom aborda i aspecte legate de programarea n SPSS. Butonul Reset permite reiniializarea ferestrei la starea ei original. Cu alte cuvinte, toate variabilele din lista de analiz sunt eliminate, toate configurrile de analiz pe care le -am fcut sunt iniializate la valoarea lor implicit. Este un buton pe care-l vom folosi destul de frecvent. Butonul Cancel este butonul prin care renunm la analiz i nchidem aceast fereastr, fr a mai efectua nicio operaiune. Butonul Help este butonul cu ajutorul cruia obinem asisten i informaii (n limba englez) referitoare la funcionarea acestei proceduri. Dac tii englez, nu ezitai s-l utilizai. SPSS are un tutorial excelent pe care l putei parcurge i nelege cu succes.

n partea de jos a formularului, se afl trei butoane care permit configurarea statisticilor pe care le vom calcula. Butonul Statistics este butonul pe care vom i apsa acum pentru a calcula indicatorii tendinei centrale. Dup cum i spune i numele, cu ajutorul acestui buton, putem stabili ce statistici descriptive vom analiza. Iat c cele

Figura 3.6 Fereastra de alegere a indicatorilor tendinei centrale

95

Statistic aplicat n tiinele socio-umane

trei puncte de suspensie deschid acum o nou fereastr. Fereastra are mult mai multe opiuni. Pentru moment, ne vom rezuma la cele care ne intereseaz. Observm c, n partea dreapt a acestei noi ferestre, gsim seciunea Central Tendency, adic exact ceea ce urmrim s punem n eviden. n aceast seciune, observm casetele de bifare Mean (media), Median (mediana) i Mode (modul). Acestea sunt elementele pe care dorim s le calculm. Vom bifa deci, una cte una, aceste casete, prin efectuarea unui clic simplu pe ele, astfel nct formularul s arate ca n figura de mai sus. Mai exist i caseta de bifare Sum (suma), prin bifarea creia obinem suma valorilor din variabila respectiv. Variabila noastr este vrsta subiecilor i nu ne intereseaz s nsumm vrstele celor 30 de subieci. Ar fi un indicator fr nici o relevan pentru noi. Dup ce am bifat cele trei casete, apsm butonul Continue (continuare), pentru a prsi aceast fereastr i a ne ntoarce n cea iniial. Acum am comunicat programului SPSS ce indicatori statistici s extrag. Butonul Chart i Format permite afiarea unor grafice, respectiv configurarea modalitii n care vor fi afiate rezultatele. Despre aceste butoane vom discuta cu alt ocazie. Cam asta ar fi tot. Practic, am spus programului SPSS s calculeze media, mediana i modul pentru variabila Varsta subiectilor cu afiarea tabelului de frecvene. Nu ne rmne acum dect s apsm butonul OK i s

Figura 3.7 Fereastra de afiare a rezultatelor

96

Cristian Opariuc-Dan vedem ce se ntmpl. Iat c a aprut fereastra de rezultate sau fereastra Output. Nu vom intra acum n detalii explicative ale acestei ferestre, pentru c s-ar putea s v speriai de prea multe informaii i s trecei la Solitaire. Ne vom concentra asupra celor dou tabele pe care le-a generat SPSS n partea din dreapta a ferestrei de rezultate (partea cea mare), care nu reprezint altceva dect cele dou tabele pe care le-am solicitat. Primul tabel conine indicatorii tendinei centrale pe care i-am configurat n etapa anterioar. Tabelul se numete Statistics i conine n partea de sus numele variabilei, Varsta subiectilor, pentru a putea identifica variabila cu care operm. Apoi ne d numrul de cazuri, N, i ne spune c sunt 30 de date valide (Valid) i zero date lips (Missing). Cu alte cuvinte, toi cei 30 de subieci au nregistrat vrsta lor. Nu exist nici un subiect la care s fi uitat s introducem aceast valoare. n continuare, ne spune c media de vrst este 29,33 (Mean), mediana este 29 (Median), iar modul. avem o problem. SPSS ne inforTabel 3.7 Indicatorii tendinei centrale Statistics meaz n josul tabelului c Varst a subiectilor sunt mai multe valori cu N Valid 30 frecvena cea mai mare i Missing 0 Mean 29,33 c o va afia pe cea mai Median 29,00 mic, 24 (Multiple Mode 24a modes exist. The smallest a. Mult iple modes exist. The smallest v alue is shown value is shown). Acesta este, deci, un singur mod real, cel inferior, i urmeaz s vedem care este i cealalt valoare modal, deoarece avem o distribuie cu mai multe moduri (multimodal).

97

Cristian Opariuc-Dan niciuna. Vom putea ns face media acestor dou eantioane. Adunm 178 cu 165 i mprim la doi. Obinem 171,5 centimetri, un indicator mai precis pentru media populaiei. Iat c media eantioanelor este un indicator care aproximeaz mai bine media unei populaii. Cu ct avem mai multe eantioane, cu att putem stabili mai precis media populaiei. Aceast caracteristic a mediei eantioanelor de a tinde ctre media populaiei poart n statistic numele de teorema limitei centrale. Asupra acestui aspect vom reveni i vom avea ocazia s-l tratm amnunit ntr-un alt capitol.

IV.1 Reprezentri grafice


Am studiat n primul capitol o serie de reprezentri grafice uzuale. Vom vedea cum putem reprezenta grafic datele folosind SPSS i ce semnificaie au aceste reprezentri. Aadar, vom deschide baza de date creat anterior, baza de date IQ, i ne propunem s reprezentm datele noastre printr-un grafic cu bare.

Vom folosi pentru aceasta meniul Graphs i apoi opiunea Bar n general, n meniul Graphs gsim toate posibilitile de reprezentare grafic a datelor pe care SPSS le pune la dispoziie8. n momentul n care am accesat opiunea Bar... apare o nou fereastr, n care va trebui s alegem tipul de grafic cu bare pe care dorim s-l reprezentm. Avem la dispoziie trei variante: Simple (simplu), Clustered (pe clusteri) i
8

Figura 4.1 Meniul pentru graficul cu bare

Figura 4.2 Alegerea tipului de grafic cu bare

n SPSS versiunea 15, modalitatea de construcie a graficelor difer radical, fiind mult mai simpl i mai inteligent. Vom aborda aspectele grafice ale aplicaiei SPSS 15, la sfritul acestui volum i n volumele viitoare

101

Statistic aplicat n tiinele socio-umane

Stacked (aditiv). Graficul simplu ne permite reprezentarea cu bare doar a variabilei noastre (n cazul nostru vom folosi reprezentarea cu bare a coeficientului de inteligen, iq). Graficul pe clusteri l folosim dac dorim s includem o variabil categorial (de exemplu, dac dorim s prezentm comparativ coeficientul de inteligen al brbailor i al femeilor), iar graficul aditiv prezint valorile una deasupra alteia i se folosete atunci cnd urmrim s vedem cu ct crete o variabil n timp sau care este rezultatul cumulrii mai multor variabile. n cazul nostru, vom folosi graficul cu bare simplu. Aadar vom efectua clic pe imaginea graficului Simple pentru a-l selecta. Exist, dup cum putei observa, un numr de trei opiuni pe care le vei folosi: prima opiune, Summaries for group of cases arat c SPSS va parcurge categoriile unei singure variabile i va afia, pentru fiecare bar, categoria corespunztoare. A doua opiune, Summaries of separate variables arat c dou sau mai multe variabile vor fi parcurse, iar barele vor indica fiecare dintre variabile. n sfrit, opiunea Values of individual cases ne spune c SPSS va lucra cu o singur variabil, iar barele vor reprezenta valorile sale. Aceasta este, de fapt, i opiunea care ne intereseaz pe noi. Alegem, deci, aceast opiune, dup care apsm butonul Define pentru a defini variabilele ce vor fi reprezentate. Apare o nou fereastr cu mai multe elemente. Recunoatem, n partea stng, lista variabilelor din baza noastr de date. n partea dreapt, primul element l reprezint caseta Bars Represent care se refer la ceea ce vor reprezenta barele noastre. Variabila pe care dorim s o reprezentm este Coeficient de inteligen. O vom selecta i apoi vom apsa butonul de

Figura 4.3 Opiunile de reprezentare ale graficului simplu cu bare

102

Cristian Opariuc-Dan transfer pentru a o include n caseta Bars Represent ca n figura de mai jos. Pentru moment, att avem de fcut n vederea trasrii graficului cu bare. Exist i alte opiuni pe care le putem folosi. Seciunea Category Labels ne permite s alegem dac pe axa categoriilor (axa OX) va fi afiat numrul fiecrui caz (opiunea Case number) sau valorile unei alte variabile categoriale pe care le vom specifica (opiunea Variable:). Seciunea Panel by permite gruparea barelor n funcie de o alt variabil categorial. Gruparea poate fi efectuat fie pe linii, fie pe coloane, cazuri n Figura 4.4 Reprezentarea prin grafic cu bare care va trebui s specificm i varia QI pe nivele se colarizare i n funcie de sex abilele categoriale n funcie de care se va face gruparea, introducndu-le n listele Rows: sau Columns:. Dac avem vreun ablon de grafic preferat, descrcat de pe Internet sau construit de noi, l putem folosi pentru a desena graficul nostru, bifnd caseta Use chart specification from: i apoi apsnd butonul File care se activeaz i ne invit s ncrcm acel fiier. Putem, de asemenea, da un titlu graficului nostru apsnd butonul Titles. Utilizarea acestui buton v-o lsm dumneavoastr ca exerciiu. Dup ce am terminat de stabilit variabila pentru care dorim s trasm graficul, apsm butonul OK, care devine activ. SPSS va Figura 4.5 Graficul cu bare simplu al genera graficul n fereastra de rezultate
125

Value Coeficient de inteligenta

120

115

110

105

100

9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Case Number

coeficientului de inteligen

103

Statistic aplicat n tiinele socio-umane

(Output), rezultnd un desen ca n figura de mai sus. Iat, aadar, reprezentarea cu bare care ne intereseaz. Pentru a exemplifica i celelalte faciliti ale acestei reprezentri grafice, v prezentm, n figura alturat, un grafic cu bare, n care am folosit ca variabil etichet Nivelul de colarizare, iar graficul este mprit pe linii dup variabila Sexul subiecilor. Lansnd procedura de desenare prin apsarea butonului OK, obinem urmtorul grafic cu bare:
125 120

Feminin

115

Value Coeficient de inteligenta

110 105 100 125 120

Sexul subiectilor Masculin

115 110 105 100


Li Li Li Gi Li Li Po Po Fa Fa Fa Fa Fa Pr Pr Gi Li Li Li Li Po Po ce ce ce m ce ce stl stl cu cu cu cu cu im im m ce ce ce ce stl stl u u u na u u ic ic lta lta lta lta lta ar ar na u u u u ic ic zi ea ea te te te te te e e zi ea ea u la la u la la Po stl ic ea la Po Li Li Li Po Fa Fa stl ce ce ce stl cu cu ic u u u ic lta lta ea ea te te la la

Nivelul de scolarizare

Figura 4.6 - Reprezentarea prin grafic cu bare a QI pe nivele se colarizare i n funcie de sex

Observm dou grafice, n cel de jos fiind reprezentat coeficientul de inteligen al brbailor, iar n graficul de sus cel al femeilor. Dac privim cu atenie pe axa OX, observm c, pentru fiecare bar, este indicat i nivelul de colarizare al subiectului respectiv. Dup ce vei stpni la un nivel suficient de ridicat lucrul n SPSS, vei putea face combinaii ntre variabile pentru a realiza grafice intuitive cu care s v susinei demonstraiile statistice. Exerciiu: Reprezentai, folosind un grafic cu bare, valorile variabilei Varsta subiectilor. n primul capitol discutam, de asemenea, despre poligonul frecvenelor absolute (al valorilor individuale), al frecvenelor relative i al frecvenelor cumulate absolute sau relative. Folosind SPSS, vom putea desena poligonul valorilor individuale prin folosirea unui grafic cu linii. Pentru aceasta, vom accesa, tot meniul Graphs i apoi, submeniul Line. La fel ca n

104

Cristian Opariuc-Dan graficul cu bare, se afieaz o nou fereastr care ne invit s alegem tipul graficului pe care-l dorim. Avem de ales ntre un grafic simplu (Simple), care ne intereseaz i pe noi, un grafic cu linii multiple (Multiple), ce permite trasarea a dou sau mai multe variabile pe acelai grafic i un grafic de tip pivot (Drop-line), cu ajutorul cruia putem reprezenta dou sau mai multe categorii de date. Pentru exemplul nostru, vom alege graficul de tip simplu. La fel ca n cazul graficului cu bare, i aici avem cele trei opiuni cu exact aceeai semnificaie. Vom alege, ca i n exemplul anterior, opiunea Values of individual cases, deoarece dorim Figura 4.7 Meniul s reprezentm un poligon al pentru graficul cu linii frecvenelor individuale. Pentru a putea lansa procedeul de definire a graficului, putem apsa butonul Define. Observm apariia unei ferestre identice cu fereastra pe care am ntlnit-o la graficul cu bare i care are exact aceeai funcionalitate. Nu vom intra din nou n detalii Figura 4.8 Selectaasupra elemen- rea tipului de grafic cu linii telor pe care le gsim aici, deoarece ele au fost discutate la graficul cu bare. Vom transfera doar variabila Coeficient de inteligen, din lista variabilelor n lista Line Represents, pentru a indica programului SPSS variabila pe care urmeaz s o reprezinte prin linii. De Figura 4.9 Definirea graficului simplu cu fapt, aceasta este singura diferen linii ntre cele dou ferestre. n fereastra

105

Statistic aplicat n tiinele socio-umane

anterioar, acest element se numea Bar Represent, deoarece era vorba de un grafic cu bare, iar aici se numete Line Represents, deoarece suntem n faa unui grafic cu linii. Nu ne rmne acum dect s apsm butonul OK care vedem c s-a activat, pentru a lansa procedura de desenare a graficului. Iat, n fereastra de rezultate, apare dup cteva momente i poligonul frecvenelor individuale pe care l-am solicitat.
Value Coeficient de inteligenta

125

120

115

110

105

100

10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Case Number

Figura 4.10 Poligonul frecvenelor absolute pentru coeficientul de inteligen

Cum am putea totui s reprezentm grafic poligonul frecvenelor absolute cumulate? Ne amintim, din capitolul despre organizarea datelor, c frecvenele cumulate se calculeaz prin adugarea frecvenei unei valori la frecvena cumulat a valorii anterioare, irul valorilor fiind un ir ordonat. La fel, am vzut c la desenarea unui grafic cu linii (sau cu bare) n SPSS, avem la dispoziie mai Figura 4.11 Configurarea graficului pentru multe opiuni, iar frecvenele cumulate noi nu am folosit dect opiunea Values of individual cases. De data aceasta, vom merge tot n meniul Graphs, opiunea Line.. . Nu vom mai alege acum Values of individual cases, ci Summaries for groups of cases, adic i vom comunica programului s cumuleze ntrun fel valorile unei variabile. Rmnem tot la graficul simplu, deoarece ne intereseaz s Figura 4.12 Stabilirea parametrilor de configurare a frecvenelor cumulate

106

Cristian Opariuc-Dan reprezentm o singur linie i nu un grup de linii sau categorii de linii. Lansm apoi procedura de definire a graficului, prin apsarea butonului Define. n momentul n care am schimbat opiunea cu care vom defini datele n zona grafic, evident, va aprea o alt fereastr de definiie a datelor, ca n figura alturat. Exist multe elemente comune cu fereastra anterioar, ns i seciuni specifice pe care vom ncerca s le descriem pe scurt. Cea mai important seciune este Line Represents, n care nu mai introducem pur i simplu variabila, ci definim modul n care vor fi cumulate datele. Putem opta pentru N of cases, prin care SPSS va numra apariiile fiecrei valori n irul de date, obinnd un poligon al frecvenelor absolute pe date grupate, Cum. N, adic apariiile fiecrei valori n irul de date (frecvenele), dar prezentate cumulat i exprimarea procentual a acestora (sau frecvenele relative i relative cumulate) % of cases i Cum. %. Exist i posibilitatea s reprezentm grafic anumite statistici, folosind opiunea Other statistics, situaie n care va trebui s includem variabila pentru care vom extrage anumii indicatori statistici i, de asemenea, s precizm ce indicatori se vor folosi prin activarea butonului Change Statistic. Nu intrm acum n detalii legate de aceast opiune. n cazul nostru, am ales opiunea Cum. N, deoarece dorim s reprezentm frecvenele cumulate Figura 4.13 Poligonul frecvenelor absolute. Avem de stabilit i variabicumulate la pentru care vom desena poligonul frecvenelor cumulate absolute, pe care trebuie s o introducem n cmpul Category Axis:, folosind butonul de transfer din faa acestui cmp. Acum,
30 25

Cumulative Frequency

20

15

10

100

101

103

104

105

107

108

109

110

111

120

121

124

Coeficient de inteligenta

107

Statistic aplicat n tiinele socio-umane

nu mai trebuie dect s apsm butonul OK i obinem, iat, poligonul frecvenelor absolute cumulate aa cum ne-am dorit. Folosind celelalte trei opiuni, pot fi desenate poligoanele frecvenelor absolute i ale frecvenelor relative i relative cumulate, activiti pe care vi le lsm ca exerciiu. Reprezentarea procentual a unor variabile categoriale, cum ar fi genul biologic sau nivelul de colarizare, se poate face, cel mai bine, folosind un grafic de tip plcint (pie), numit i diagram de structur. Cu ajutorul programului SPSS, vom ncerca s desenm graficul de tip plcint pentru variabila nivel de colarizare. Pentru a reui acest lucru, vom apela tot la meniul Graphs i vom alege apoi

Figura 4.14 Meniul pentru diagramele de structur

submeniul Pie.... De aceast dat, nu mai avem ce tip de grafic plcint s selectm, iar urmtoarea Figura 4.15 Alegerea tipului de grafic fereastr prezint doar cele trei opiuni pe care le-am discutat. Vom selecta acum prima opiune, Summaries for groups of cases, deoarece ne intereseaz s reprezentm grafic frecvenele cu care apar subiecii cu studii primare, cei cu gimnaziu, cu liceu etc. i, n plus, aceast reprezentare s aib un caracter procentual. Deci, alegnd aceast opiune, SPSS va aduna cazurile care au o aceeai valoare.
Figura 4.16 Configurarea reprezentrii prin diagram de structur

108

Cristian Opariuc-Dan Pentru a defini graficul, procedm ca i n exemplul anterior, apsnd butonul Define. Se va deschide fereastra de definire a graficului, o fereastr pe care o cunoatem deja de la reprezentarea poligonului frecvenelor cumulate. Singura deosebire const n seciunea Slices Represents sau, tradus, ce reprezint feliile plcintei. Evident, n aceast seciune am selectat opiunea % of cases, adic am comunicat programului SPSS s-mi reprezinte grafic procentul n care se gsete fiecare nivel al acestei variabile n eantionul total. Desigur, trebuie s precizm i variabila pentru care vor fi reprezentate grafic procentele. Acest lucru l putem face prin transferarea variabilei Nivelul de colarizare din lista variabilelor din baza de date n caseta Define Slices by: Selectai, aadar, variabila n lista variabilelor din baza de date i apsai butonul de transfer din faa acestui element pentru a obine o imagine ca n figura alturat. n acest moment, se activeaz i butonul OK pe care va trebui s apsm pentru a lansa n execuie procedura de desenare a graficului. Dup cteva momente, Figura 4.17 Diagrama de structur pentru obinem n fereastra de rezultate urmnivelul de studii torul grafic plcint:
Primare Liceu Gimnaziu Postliceala Facultate

Nivelul de scolarizare

Observm c acest grafic prezint i o legend prin care suntem informai asupra categoriilor variabilei analizate. Putem cu uurin constata c majoritatea subiecilor sunt absolveni de liceu, apoi, n proporii relativ egale, absolveni de postliceal i facultate. Cei mai puini sunt cei cu studii primare i gimnaziale. Iat, aadar, cteva metode extrem de simple prin care putem desena grafice intuitive utiliznd aplicaia SPSS. Toate aceste statistici pe care le-am

109

Statistic aplicat n tiinele socio-umane

prezentat i pe care le vom mai prezenta fac parte din analiza de date exploratorie, deoarece scopul acesteia este acela de a explora, de a cunoate structura datelor analizate. V mai amintii, desigur, fereastra studiat n capitolul anterior, prin care am calculat indicatorii tendinei centrale. Iat-o, v-o reamintesc, iar dumneavoastr va trebui s gsii comenzile prin care s ajungei la ea, deoarece reprezentarea grafic a datelor se Figura 4.18 Selectarea variabilei ce urpoate face i n acest mod. S inmeaz s fie reprezentat troducem, la fel ca n capitolul anterior, variabila Coeficient de inteligen, pentru a extrage indicatorii tendinei centrale. Sper c v amintii cum se face. Dac nu, v dau un ind iciu: folosii butonul Statistics. Iat c, lng acest buton, se afl un alt buton, butonul Charts pe care vom apsa. Se deschide o nou fereastr, n care putem stabili ce grafic s desenm pentru variabila introdus n analiz. Opiunea None nu deseneaz niciun fel de grafic i ignor setrile grafice. Opiunea Bar charts deseneaz un grafic cu bare, opiunea Pie charts deseneaz grafice plcint i, iat, opiunea Histograms: ne permite desenaFigura 4.19 Modul de reprezentare rea unei histograme. Aceast opiune o grafic din analiza frecvenelor ntlnim aici, alturi de caseta de bifare With normal curve ce permite desenarea curbei normale care caracterizeaz datele din variabila noastr. Nu vom

110

Cristian Opariuc-Dan bifa acum aceast caset, deoarece despre curba normal vom discuta ntr-un alt capitol. Ne rezumm s alegem doar graficul sub form de histogram. Anumite grafice pot fi reprezentate sub form de frecvene absolute (opiunea Frequencies) sau sub form de frecvene relative (opiunea Percentages), prin selectarea uneia dintre cele dou opiuni din seciunea Chart Values. Folosind aceast fereastr, avem de Histogram configurat mult mai puine elemente. Deoarece am introdus anterior variabila pe care dorim s o analizm, SPSS va lua singur decizia modului n care va desena graficul. Apsm butonul Continue pentru a confirma aciunea noastr i Coeficient de inteligenta apoi butonul OK pentru a Figura 4.20 Histograma pentru coeficientul lansa analiza.
5 4

Frequency

Mean =111,33 Std. Dev. =8,511 N =30

100

105

110

115

120

125

de inteligen

Dup cteva momente, SPSS va extrage indicatorii tendinei centrale sub forma celor dou tabele discutate n capitolul anterior, ns ne va oferi i histograma variabilei Co eficient de inteligen, alturi de o serie de date din inventarul statistic de baz, pe care le vom discuta ntr-un alt capitol.

IV.2 Analiza grafic a tendinei centrale


Afirmam n capitolul dedicat indicatorilor tendinei centrale c media este cel mai fin, cel mai precis indicator, ns ea are o problem este sensibil la scoruri extreme i, n acest caz, nu mai aproximeaz bine tendina central a setului de date. Totui, cum ne dm seama de existena acestor scoruri extreme? Tot analiza exploratorie ne vine n ajutor. Utiliznd reprezent111

Statistic aplicat n tiinele socio-umane

rile de date de mai sus, ne putem face o imagine intuitiv asupra acestor scoruri extreme. Exist oare o metod mai precis de a le depista? Rspunsul este pozitiv i vom prezenta n continuare dou tipuri de grafice deosebite, dar care pot caracteriza mai precis scorurile extreme.

IV.2.1 Graficul tulpin i frunze


A fost conceput de ctre Tuckey (1977) i se aseamn foarte mult cu histogramele de frecvene, ns, spre deosebire de acestea, afieaz i scorurile individuale. Un asemenea grafic se deseneaz mai uor manual dect computerizat i ofer o imagine precis a distribuiei, deoarece alturi de reprezentarea numeric ofer i o imagine vizual a datelor analizate (Dancey, i alii, 2002). Dac avem, de exemplu, urmtorul ir ordonat de date: 2, 12, 12, 19, 19, 20, 20, 20, 25 i dorim s construim un grafic tulpin i frunze, acesta va arta dup cum urmeaz:
Tulpina 0 1 2 Frunzele 2 2299 0005

Oare ce informaii noi ne aduce acest grafic i cum se interpreteaz? Destul de simplu. Tulpina reprezint valorile zecilor, iar frunzele valorile unitilor. Deci, tulpina 0 cuprinde scorurile de la 0 la 9, tulpina 1 scorurile de la 10 la 19, tulpina 2 - scorurile de la 20 la 29 i aa mai departe. Frunzele reprezint frecvenele scorului observat. Astfel, la tulpina 0 (scoruri ntre 0 i 9) avem o singur apariie a lui 2. La tulpina 1 (scoruri ntre 10 i 19) avem frunza 2 de dou ori (adic dou apariii ale lui 12) i frunza 9 de dou ori (dou apariii ale lui 19). La tulpina 2 (scoruri ntre 20 i 29) avem frunza 0 cu trei apariii (trei scoruri de 20) i frunza 5 cu o singur apariie (un singur scor de 25). Simplu, nu? Iat c, dei seamn cu o histogram, acest grafic aduce n plus posibilitatea monitorizrii scorurilor individuale. 112

Cristian Opariuc-Dan Pentru a nelege mai bine, s considerm un set mai voluminos de date: 1, 1, 2 ,2 ,2 , 5, 5, 5, 12, 12, 12, 12, 14, 14, 14, 14, 15, 15, 15, 18, 18, 24, 24, 24, 24, 24, 24, 25, 25, 25, 25, 25, 25, 25, 28, 28, 28, 28, 28, 28, 28, 32, 32, 33, 33, 33, 33, 34, 34, 34, 34, 34, 35, 35, 35, 35, 35, 42, 42, 42, 43, 43, 44. Pentru acest set de date, avem urmtorul grafic tulpin i frunze:
0 1 2 3 4 11222555 2222444455588 44444455555558888888 22333344444455555 222334

Prin aceast reprezentare avem o metod mai concis i mai sintetic de explorare a unui volum mare de date. Putem observa c scorurile de la tulpina 2 (ntre 20 i 29) sunt cele mai frecvente, iar datele sunt relativ grupate, fr scoruri extreme. n acest caz, am putea decide utilizarea mediei ca indicator al tendinei centrale. Comparativ, s considerm un ir de date cu scoruri extreme i s l reprezentm sub forma acestui grafic.
0, 0, 0, 0, 0, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5 , 5, 5, 5, 5, 5, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 9, 9, 9, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10, 10, 10, 13, 13, 13, 13, 13, 18, 18, 18, 23, 64

Graficul pentru acest ir de date ar fi:


0 1 2 6 0000022222222333333333555555555555555777777777777799999999 000000033333888 3 4

Observm c graficul ne indic faptul c majoritatea scorurilor se situeaz sub 20, ns avem i un scor extrem, scorul 64. Iat deci o situaie tipic, n care mediana va fi cel mai bun indicator al tendinei centrale. Totui, acest grafic efectuat pe blocuri de 10 valori nu este foarte informativ. Nu avem o reprezentare foarte clar a scorurilor sub 20, deoarece exist foarte multe. Prin urmare ar fi mai comod pentru noi s reprezentm grafic aceste scoruri folosind nu blocuri de 10, ci blocuri de cinci (ntre 0 i 4, apoi ntre 5

113

Statistic aplicat n tiinele socio-umane

i 9, ntre 10 i 14 i aa mai departe). Folosind un asemenea sistem, graficul devine:


0. 0* 1. 1* 2. 6. 0000022222222333333333 555555555555555777777777777799999999 000000033333 888 3 4

Observm c am folosit punctul (.) pentru a desemna prima jumtate a blocului (0-4) i stelua (*) pentru a desemna a doua jumtate a blocului (59). De data aceasta, lucrurile au devenit ceva mai clare. Exist acelai scor extrem, 64, ns acum putem afirma precis c cei mai muli subieci au obinut rezultate ntre 5 i 9, ceea ce reprezint un plus de informaie. Rolul acestei reprezentri este mai ales acela de a identifica existena scorurilor extreme ntr-un set de date n vederea stabilirii indicatorului tendinei centrale ce va fi folosit. Discutam, pe la nceputul lucrrii noastre, despre situaia n care ordonm toate valorile posibile i apoi stabilim frecvenele absolute prin numrarea apariiilor fiecrui scor individual. La fel, am abordat i problema organizrii datelor n clase. Am vzut atunci c un numr mare de clase reprezint o abordare analitic, accentul cznd mai mult pe valori individuale i se pierde tendina de ansamblu. Analog, un numr mic de clase determin o perspectiv sintetic, unde vedem clar tendina de ansamblu, ns de pierde viziunea individual. Unul dintre avantajele incontestabile ale acestui grafic este acela c permite o viziune de ansamblu fr, ns, a se pierde repartiia scorurilor individuale n distribuie. Prin intermediul acestui tip de grafic, se pot reprezenta, comparativ, dou distribuii, n situaia n care dorim, spre exemplu, s comparm rezultatele la dou probe psihologice. Utiliznd cele dou seturi de date de mai sus, am putea s le reprezentm grafic dup cum urmeaz: 114

Cristian Opariuc-Dan
Test 1 9999999977777777777775555555555555553333333332222222200000 888333330000000 3 Test 2 11222555 2222444455588 44444455555558888888 22333344444455555 222334

0 1 2 3 4 5 6

Datorit uurinei n realizare i a avantajelor pe care le ofer, acest tip de grafic se utilizeaz tot mai frecvent n tiinele socio-umane.

IV.2.2 Graficul cutie (box-plot)


Dei graficul anterior sesizeaz scorurile extreme suficient de bine, uneori devine destul de puin sensibil, iar scorurile extreme sunt greu de observat. O metod mai precis o reprezint graficul cutie sau graficul cutiei cu musti. Aceast tehnic, la fel ca tehnica anterioar, a fost descoperit de ctre Turkey (1977) i reprezint una dintre cele mai importante metode de analiz exploratorie a datelor. La fel ca graficul tulpin i frunze, graficul cutie descrie modul n care sunt distribuite datele i ofer, n plus, o metod precis de depistare a scorurilor extreme (Dancey, i alii, 2002). Acest tip de reprezentare este format dintr-un dreptunghi cu baza inferioar situat n dreptul percentilei 25, iar baza superioar n dreptul percentilei 75, cuprinznd ntre aceste limite, 50% dintre rezultate (n fapt, intervalul cuartil despre care vom vorbi n capitolul urmtor). n interiorul acestui dreptunghi se afl marcat linia median, corespunztoare percentilei 50. Distana dintre cele dou baze (intervalul cuartil) poart numele de hspread sau pe scurt H. De la cele dou baze pornesc, n sus i n jos, dou musti de lungime maxim 1,5 H. ntre limitele acestor dou musti se afl zona normal. Orice scor mai mare de limita mustii superioare sau mai mic de limita mustii inferioare se consider a fi un scor extrem. Pentru realizarea acestui grafic, vom parcurge urmtorii pai, considernd irul ordonat de date 2, 12, 12, 19, 19, 20, 20, 20, 25.

115

Statistic aplicat n tiinele socio-umane

Pasul 1 Stabilirea medianei i a poziiei pe care aceasta o ocup n cadrul irului de date. n cazul nostru, mediana este 19, iar poziia pe care o ocup este poziia a cincea. 2, 12, 12, 19, 19, 20, 20, 20, 25 Pasul 2 Calculul pivoilor. Pivoii reprezint valorile care mpart irul de date n sfertul inferior (primele 25% dintre scoruri, numit i cuartilul inferior) i sfertul superior (ultimele 25% dintre scoruri, numit i cuartilul superior). Dac mediana este valoarea care mparte irul ordonat de date n dou pri egale, cuartilul este valoarea ce mparte acelai ir n 4 pri egale, dup cum vom vedea n capitolul ce urmeaz. Reconsidernd exemplul, obinem poziia primului cuartil ntre a doua i a treia valoare, adic primul cuartil va avea valoarea 12 (amintii-v exemplul de calcul al medianei). Similar, al treilea cuartil va fi situat ntre poziia 7 i poziia 8 i va avea valoarea 20. 2, 12, 12, 19, 19, 20, 20, 20, 25 Pivoii, n cazul exemplului de fa, vor avea valorile 12 i 20. Putem acum trasa dreptunghiul care ne intereseaz (box).
Pivot superior valoarea 20 Linia medianei valoarea 19 Pivot inferior valoarea 12

Figura 4.21 Calculul pivoilor

Pasul 3 Obinerea valorii expansiunii (factorul h-spread). Acest factor nu reprezint dect amplitudinea scorurilor dintre cei doi pivoi (intervalul cuartil). n cazul nostru, h-spread = 20 12 = 8.

Pasul 4 Stabilirea scorurilor extreme. Un scor extrem este un scor care depete o dat i jumtate valoarea factorului h-spread raportat la cei doi pivoi. Aceste puncte de referin se numesc limite de barier. n cazul nostru, 1,5 x 8 = 12. Deci limitele

116

Cristian Opariuc-Dan de barier sunt 12 12 = 0 i 20 + 12 = 32. Scorurile mai mici de 0 vor fi considerate extreme, deoarece depesc limita de barier inferioar n jos, iar scorurile mai mari de 32 vor fi considerate de asemenea extreme, deoarece depesc n sus limita de barier superioar. Pasul 5 Scorurile care se afl ntre pivoi i limitele de barier, mai apropiate de limitele de barier se numesc scoruri adiacente. n cazul nostru, scorurile adiacente sunt 2 i 25, deoarece 2 se afl ntre 0 i 12, iar 25 este situat ntre 20 i 32. 2, 12, 12, 19, 19, 20, 20, 20, 25 Liniile cuprinse ntre pivoi i bariere (zonele scorurilor adiacente) poart numele de musti, iar dreptunghiul format de cei doi pivoi, care conine mediana, se numete cutie. De aici provine i numele graficului, grafic cutie sau cutie cu musti. Zona mustilor reprezint de fapt amplitudinea scorurilor care prsesc zona aa- numit normal, delimitat de cei doi pivoi, scoruri care ns rmn n limitele barierelor. Orice scor care iese din limita barierelor se numete scor extrem. Dac reconsiderm irul anterior de date, 0, 0, 0, 0, 0, 2,
Figura 4.22 Graficul box-plot

117

Statistic aplicat n tiinele socio-umane

2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 9, 9, 9, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10, 10, 10, 13, 13, 13, 13, 13, 18, 18, 18, 23, 64, atunci graficul nostru se va prezenta ca n figura de mai jos.
70,00

60,00

50,00

40,00

30,00

20,00

10,00

0,00

Iat c observm existena a dou scoruri extreme ns. acestea sunt notate cu 77 i 76. Am fi nclinai s credem c aceste valori reprezint scorurile nsei. Totui, s nu uitm c acest grafic se bazeaz pe poziia unui scor n irul ordonat de date. Prin urmare, 77 i 76 nu reprezint scorurile propriu- zise, ci poziia acestora n irul ordonat de date. Deci poziia 77 se refer la Figura 4.23 Graficul box-plot n SPSS. Se observ scorul extrem, al 77-lea element ultimul scor, adic la valoarea 64, iar poziia 76 la penultimul scor, adic la valoarea 23. Avem, aadar, dou scoruri extreme n irul nostru de date i anume scorul 23 i 64. Desigur, n acest caz, indicatorul care exprim cel mai bine tendina central este mediana. Programul SPSS ofer i o m odalitate de a marca scorurile extreme. Observm c alturi de poziia 77 (corespunztoare scorului 64) apare o stelu. Aceast stelu are rol de avertisment, n sensul c valoarea 64 este foarte ndeprtat de limita superioar a irului de date. De asemenea, alturi de poziia 76 (corespunztoare scorului 23) apare un cercule. Acest cercule ne spune c, dei 23 este i el un scor extrem, nu este, totui, att de deprtat de limita superioar a irului de date.
77 76
Exemplu

IV.3 Tratarea scorurilor extreme


Nu ne putem mulumi s constatm doar existena acestor scoruri extreme, mai ales n condiiile n care acestea ar afecta puternic analiza datelor.

118

Cristian Opariuc-Dan Un scor extrem duce la o distribuie de date care nu mai respect criteriul normalitii, face media un indicator irelevant pentru acel set de date i, implicit, determin imposibilitatea utilizrii statisticilor parametrice. Totui, de unde pot s apar aceste scoruri extreme? Ce surse pot determina prezena unor asemenea valori? (Popa, 2003) Cea mai frecvent surs se refer la erorile de nregistrare a datelor. Dac introducem un chestionar, la care subiecii rspund la ntrebri pe o scal de la 1 la 5 i, n loc s tastm 5, tastm, din greeal, 55, evident c acesta va aprea ca fiind un scor extrem. Din fericire, remedierea acestei probleme este simpl. Nu trebuie dect s analizm minimul i maximul distribuiei. Dac una dintre aceste valori iese din domeniul de definiie, putem reveni uor la baza de date i o vom corecta. Dac sunt mai multe valori incorecte, putem sorta datele cresctor sau descresctor i putem corecta mai uor erorile sau putem apela la o operaiune de recodificare; Erorile de eantion se refer la situaia n care eantionul estras este prea mic, iar posibilitatea de apariie a unui caz atipic (extrem) va deveni foarte mare, dar i la cazul n care eantionul a fost extras dintr-o populaie asimetric. Putem, de exemplu, s studiem nlimea unor subieci dintr-un liceu, iar pentru aceasta extragem zece persoane din dou clase. Probabilitatea ca un elev s fie baschetbalist este destul de mare. Dac avem ghinionul s l selectm tocmai pe acela, va aprea, evident, i un caz extrem. De asemenea, dac una dintre clase este reprezentat de clasa de sport, cu elevi nali, printre care am gsit i un elev cu nlime normal, acea nlime normal se va comporta ca un caz extrem;

119

Statistic aplicat n tiinele socio-umane

Erorile determinate de existena unor populaii diferite de valori apar atunci cnd n eantionul studiat gsim, sub aspectul variabilei msurate, mai multe grupe de subieci care difer ntre ele. De exemplu, dac studiem veniturile angajailor unei ntreprinderi, avem suficiente anse ca salariile conducerii s se comporte ca scoruri extreme n raport cu celelalte categorii de angajai. n realitate, acestea nu sunt scoruri extreme, ci problema se refer tocmai la faptul c exist mai multe categorii de salarizare n acea instituie; Erorile de msurare se datoreaz unor msurtori incorecte sau apariiei unor situaii anormale n condiiile experimentale. La nregistrarea temperaturii unor persoane, se poate defecta, la un moment dat, aparatul de nregistrare sau, msurnd performanele unor sportivi, putem constata apariia unor valori extreme ca efect al dopajului.

Indiferent de sursa de eroare, naintea realizrii prelucrrilor statistice prin metode i tehnici specifice, este absolut necesar analiza preliminar a datelor, prin intermediul creia s depistm caracteristicile distribuiei, iar dac acestea sunt inadecvate prelucrrilor necesare, s impunem msuri corective. Din fericire, cu excepia situaiei defectrii unor aparate sau a design urilor de cercetare defectuoase, exist suficiente mijloace prin care putem repara aceste disfuncionaliti. Deoarece tehnicile de transformare a datelor brute presupun i alte cunotine, vom amna tratarea acestora pentru un capitol viitor. Orice prelucrare mai avansat de date ncepe cu statisticile descriptive i este absolut necesar o asemenea analiz exploratorie pentru a vedea care sunt caracteristicile irului nostru de date i ce indicatori putem folosi. Programul SPSS ne pune la dispoziie, iat, o serie de metode prin intermediul crora putem verifica rapid i precis structura datelor cu care lucrm.

120

Cristian Opariuc-Dan

IV.3.1 Obinerea graficelor pentru tendina central n SPSS


Vom rmne la baza noastr de date IQ i ne propunem s obinem aceste grafice folosind programul SPSS. Pentru a realiza acest lucru, apelm la meniul Analyze, apoi la submeniul Descriptive Statistics i n final utilizm opiunea Explore. Iat o nou ancor mnemotehnic care ne spune c ne aflm n analiza datelor, la statistici descriptive i la analize exploratorii. Efectund clic pe aceast opiune, se deschide o fereastr nou prin Figura 4.24 Meniul de analiz exploraintermediul creia putem stabili analizetorie a datelor le de date ce vor fi efectuate. Avem mai multe elemente noi n aceast fereastr. n primul rnd, caseta Dependent List: care se refer la variabilele ce vor fi incluse spre analiz. n aceast caset vom include variabila noastr i anume Vrsta subiecilor, prin selectarea ei din lista Figura 4.25 Configurarea variabilelor n analiza variabilelor din baza de date i descriptiv exploratorie apsarea butonului de transfer. n acest moment, se activeaz i butonul OK, ceea ce ne spune c putem face imediat prelucrarea datelor. S nu ne grbim ns i s studiem mai atent aceast fereastr. ntr-un capitol anterior, discutam despre faptul c indicatorii tendinei centrale (i nu numai ei) pot fi obinui prin mai multe metode. Atunci am analizat numai opiunea Frequencies i am promis c celelalte modaliti vor fi studiate cu alt

121

Statistic aplicat n tiinele socio-umane

ocazie. Iat c a venit i momentul acesta. Caseta Factor List: se refer la variabile categoriale ce pot fi utilizate n vederea gruprii analizei n funci e de anumite criterii. Att aceast list, ct i elementul Label Cases by: vor fi studiate atunci cnd vom clarifica conceptele de variabil dependent i variabil independent. n seciunea Display, situat imediat sub lista variabilelor din baza de date, putem stabili ce fel de rezultate s se afieze n fereastra de rezultate. Putem Figura 4.26 Stabilirea indiopta pentru afiarea doar a rezultatelor prelucrcatorilor statistici rilor statistice (Statistics), pentru afiarea doar a graficelor (Plots) sau a ambelor (Both). Noi vom dori s afim toate aceste date i, de aceea, am selectat opiunea Both. Butonul Statistics permite afiarea statisticilor descriptive care vor fi calculate. La apsarea acestuia va aprea urmtoarea fereastr: Sunt mai multe opiuni aici, noi vom bifa doar opiunea de calcul a statisticilor descriptive, Descriptives. Seciunea Confidence interval for Mean: se refer la intervalul de ncredere la care va fi calculat media. Asupra acestui aspect vom reveni, ns, ntr-un alt capitol. De asemenea, celelalte opiuni nu ne intereseaz deocamdat, astfel nct le vom ignora pe moment. Menionm doar c Mestimators reprezint o alternativ la media i mediana eantionului, Outliers afieaz primele cinci valori cele mai mari, respectiv cele mai mici (extremele), iar Percentiles permite calculul unor valori percentile. n vederea confirmrii aciunii Figura 4.27 Configurarea graficelor noastre, va trebui s apsm butonul Conexploratorii tinue pentru a reveni la fereastra anterioa-

122

Cristian Opariuc-Dan r. Acionarea butonului Plots determin afiarea unei alte ferestre, care va configura modul de prezentare grafic a datelor. i aici avem mai multe informaii. Pentru nceput observm c este bifat caseta Stem-andleaf, adic va fi afiat graficul tulpin i frunze. De asemenea, vom afia i histograma, bifnd caseta Histogram. Seciunea Boxplots, situat n partea stng-sus, permite configurarea modului de calcul al graficului cutie cu musti discutat anterior. Putem opta pentru combinarea nivelurilor variabilei categoriale (dac am inclus vreuna n fereastra anterioar), alegnd Factor levels together sau putem combina mai multe variabile incluse n lista variabilelor independente alegnd opi unea Dependents together. Desigur, putem renuna la afiarea acestui grafic, selectnd opiunea Tabel 4.1 Sumarul cazurilor Case Processing Summary None. n cazul nostru, Cases Valid Missing Total avnd doar o singur variaN Percent N Percent N Percent Varst a subiect ilor 30 100,0% 0 ,0% 30 100,0% bil inclus spre analiz, pe oricare dintre primele dou opiuni am alege-o, obinem acelai efect. Prsirea acestei casete va fi fcut tot prin apsarea butonului Continue. Nu ne rmne acum dect s apsm butonul OK pentru a lansa procedurile de analiz. n fereastra de rezultate avem acum mai multe tabele i grafice.
Tabel 4.2 Descriptives Statistici descriptive
Varst a subiectilor Mean 95% Conf idence Interv al f or Mean 5% Trimmed Mean Median Variance St d. Dev iation Minimum Maximum Range Interquart ile Range Skewness Kurt osis Lower Bound Upper Bound St at ist ic 29,33 27,27 31,40 29,33 29,00 30,506 5,523 20 39 19 10 ,116 -,878 St d. Error 1,008

,427 ,833

n tabelul Case Processing Summary ne sunt prezentate numrul de cazuri. Aflm c avem 30 de cazuri valide, adic 30 de subieci ce au date completate pentru variabila Vrsta subiecilor, ceea ce reprezint un procent de 100%. Evident, nu avem nici un caz lips (Missing)

123

Statistic aplicat n tiinele socio-umane

i, corespunztor, un procent de 0%. n total, sunt deci 30 de cazuri ce reprezint un procent de 100%. Urmtorul tabel este acela al statisticilor descriptive (Descriptives). Remarcm cu uurin media (Mean) egal cu 29,33 ani i mediana (Median) egal cu 29 de ani. Sunt mult mai multe informaii aici, legate de eroarea standard a mediei, intervalul de ncredere al acesteia, precum i indicatori ai dispersiei pe care-i vom studia n alt capitol. Observm c din acest tabel lipsete modul. ntr-adevr, folosind aceast opiune nu putem calcula modul. Urmeaz apoi histograma pentru variabila Vrsta subiecilor, nsoit de o serie de date statistice cum ar fi media, abaterea standard i numrul de cazuri i, iat, graficul tulpin i frunze, pe care l-am discutat anterior.
Varsta subiectilor Stem-and-Leaf Plot Frequency 3,00 ,00 5,00 3,00 6,00 4,00 1,00 3,00 2,00 3,00 Stem width: Each leaf: Stem & 2 2 2 2 2 3 3 3 3 3 . . . . . . . . . . Leaf 001 44444 666 899999 0111 2 455 77 889

10 1 case(s)
39

Observm c acest grafic a fost creat din doi n doi (20-21, 2223, 24-25, 26-27, 28-29 ani i aa mai departe), pentru a oferi o bun reprezentare a datelor. Iat c, analiznd acest grafic, putem afirma c

36

33

30

27

24

21

Varsta subiectilor

Figura 4.28 Graficul box-plot

124

Cristian Opariuc-Dan cei mai muli subieci au vrste de 28 i 29 de ani i nu exist scoruri extreme. Pentru a fi siguri de acest lucru, privim urmtorul grafic, graficul cutie. Constatm lipsa scorurilor extreme, mediana fiind situat la valoarea 29 i o distribuie destul de uniform a acestor rezultate. Putem afirma, deocamdat, c aceste date permit utilizarea mediei ca indicator al tendinei centrale pentru setul nostru.

125

Statistic aplicat n tiinele socio-umane

poate fi folosit n situaii n care comparm, sub aspectul variabilitii, dou distribuii diferite. Exist anumite reguli care permit aprecierea gradului de mprtiere a scorurilor n jurul mediei, utilizndu-se acest coeficient (Popa, 2006): Un coeficient de variaie mai mic de 15% indic un grad de mprtiere redus, media fiind un bun indicator al tendinei centrale; Un coeficient de variaie cuprins ntre 15% i 30% arat o mprtiere moderat, caz n care reprezentativitatea mediei este satisfctoare; Un coeficient de variaie de peste 30% arat o mprtiere mare, media nemaifiind un bun indicator pentru tendina central.

V.3 Obinerea indicatorilor mprtierii n SPSS


Pentru a studia modul n care aflm indicatorii dispersiei n SPSS, vom folosi baza de date IQ.sav, n care avem deja datele introduse n capitolul anterior. Folosim, pentru aceasta, tot comanda Figura 5.3 Meniul de analiz a Analyze, apoi submeniul Descriptive frecvenelor Statistics i opiunea Frequencies. Se va deschide binecunoscuta de acum fereastr, pe care am studiat-o n momentul n care am aflat cum putem calcula indicatorii tendinei centrale. i de data aceasta, vom folosi, ca exemplu, variabila Varsta subiectilor, variabil pe care o vom transfera din lista variaFigura 5.4 Includerea variabilei n bilelor din baza de date n lista variabianaliz

146

Cristian Opariuc-Dan lelor supuse analizei (Variable(s)) din partea dreapt a formularului, aa cum se poate observa n figura 5.4. Asupra modului n care se face acest transfer nu mai insistm, deoarece procedeul a fost descris pe larg n capitolul destinat indicatorilor tendinei centrale. Dac nu v putei aminti, revedei capitolul 3. Dup transfer, va trebui s comunicm aplicaiei SPSS s ne calculeze indicatorii mprtierii. V amintii probabil c acest lucru l putem face apsnd butonul Statistics situat n partea de jos a acestui formular. Imediat, se va deschide o nou fereastr, cunoscut de la calculul indicatorilor tendinei centrale. Observm, n partea din stnga-jos a acestei ferestre, seciunea destinat calculului indicatorilor dispersiei (seciunea Dispersion). Vom putea calcula abaterea standard, prin bifarea casetei Std. deviation, variana, bifnd caseta Variance sau amplitudinea de variaie cu ajutorul casetei Range. De asemenea, este posibil afiarea valorii minime i maxime din Figura 5.5 Selectarea indicatorilor mprtierii distribuia noastr prin bifarea casetelor Minimum i Maximum. Seciunea permite i calcularea erorii standard a mediei (caseta S.E mean), ns asupra acestui element vom reveni ceva mai trziu.
Tabel 5.6 Indicatorii mprtierii

Vom alege, dup cum putei observa n figura de mai sus, afiarea abaterii standard, a varianei, amplitudinii distribuiei, minimului i maximului. Apsm apoi butonul Continue pentru ca SPSS s memoreze comenzile noastre i ne ntoarcem n formularul anterior. Nu ne mai rmne dect s apsm butonul OK, pentru a lansa procedeul de analiz.

147

Statistic aplicat n tiinele socio-umane

Dup cteva fraciuni de secund, SPSS va afia n fereastra de rezultate tabelul cu rezultatele comandate de noi. Automat, SPSS include i numrul de cazuri (N). Aflm, din analiza acestui tabel, c avem un numr de 30 de subieci (N=30) i toi subiecii au valori pentru variabila Varsta subiectilor (Valid=30; Missing=0). Cu alte cuvinte, niciunul dintre aceti subieci nu are necompletat valoarea pentru variabila vrst. Aflm, n continuare, c abaterea standard (Std. Deviation) este 5,523, iar variana (Variance) este 30,506. Dac vei extrage rdcina ptrat din varian (30,506), vei obine exact valoarea abaterii standard (5,523), ceea ce confirm teoria expus mai sus. De asemenea, amplitudinea de variaie (Range) este 19, cu alte cuvinte, ntre Minimum 20 i Maximum 39 pot exista cel mult 19 valori posibile. Pare mult mai simplu dect s efectum manual calculele prezentate la nceputul acestui capitol. Iat de ce SPSS i merit cu prisosin banii pe care i solicit productorul n concluzie:
Dincolo de tendina central, este necesar s studiem i modul n care rezultatele se mprtie n jurul tendinei centrale prin calculul indicatorilor dispersiei; Indicatorii dispersiei pot ine seama doar de anumite date i se numesc indicatori elementari ai mprtierii sau de toate datele, cazul indicatorilor sintetici; Indicatorii elementari ai mprtierii sunt: o Amplitudinea de variaie absolut i relativ; o Intervalul cuartil i abaterea cuartil; Indicatorii sintetici ai mprtierii sunt: o Diferena medie Gini; o Oscilaia absolut i relativ; o Abaterea medie; o Abaterea median; o Dispersia sau variana; o Abaterea standard; o Coeficientul de variaie. Media i abaterea standard sunt indicatorii pe baza crora se caracterizeaz o di stribuie normal; Indicatorii dispersiei bazai pe medie pot fi calculai numai dac nivelul de msurare al variabilei este cel puin unul de interval i nu exist scoruri extreme n distr ibuie.

148

Cristian Opariuc-Dan Etalonul se scrie la fel ca un etalon n cuantile i are aceeai semnificaie. Nu uitai s inei cont de regulile elaborrii unui etalon, n momentul n care intenionai s-l folosii sau s-l distribuii.

VI.7 Analiza distribuiei i realizarea etaloanelor n SPSS


Dup abordarea teoretic a distribuiei normale, a venit momentul aplicrii practice a cunotinelor dobndite prin analiza unei distribuii de date efectuat n SPSS. Vom utiliza aceeai baz de date pe care am creat -o la nceputul acestui volum, baza de date IQ.sav. Ne propunem s analizm modul n care se distribuie scorurile obinute de cei 30 de subieci la variabila iq (Coeficientul de inteligen). Etapele le tii deja. Vom selecta din meniul Analyze opiunea Descriptive Statistics i apoi Frequencies. Apare cunoscuta caset de dialog, de unde vom include spre analiz variabila iq.

Figura 6.14 Includerea variabilei spre analiz.

Desigur, vom accesa apoi butonul Statistics pentru a comunica programului SPSS ce fel de statistici s calculeze. Alturi de indicatorii tendinei centrale (media, mediana i mod) i de cei ai dispersiei (abaterea standard, amplitudinea distribuiei, minimul i maximul), vom include i cei doi indicatori ai distribuiei (Skewness i Kurtosis), pentru a putea analiza forma acestei distribu-

Figura 6.15 Configurarea inventarului statistic de baz

189

Statistic aplicat n tiinele socio-umane

ii i a decide dac distribuia poate fi considerat sau nu o distribuie normal. Dup selectarea adecvat a acestor elemente, putem apsa butonul Continue i revenim la fereastra iniial a alegerii variabilelor. n acest moment, SPSS a memorat operaiunile pe care trebuie s le execute. Este uneori util s afim i un grafic al distribuiei datelor noastre. Pentru aceasta, putem accesa butonul Charts i se va deschide fereastra de definire a graficelor pentru setul de date. Aceast fereastr o cunoatem destul de bine din capitolele anterioare. Motivul pentru care am abordat-o din nou este acela c, pentru a reprezenta grafic anumite date, trebuie s facem nite precizri suplimentare. De nenumrate ori mi-a fost dat s vd studeni care reprezint o variabil continu printr-o diagram de structur (grafic tip plcint), ba mai mult, profesori univerFigura 6.16 Alegerea graficului cu bare pentru reprezentarea sitari de psihologie experimental, coordodatelor natori de licen, care solicit studenilor reprezentarea variabilelor continui printr-un asemenea procedeu. O reprezentare prin diagram de structur se face n cazul unor date nominale sau cel mult ordinale, atunci cnd dorim s vedem compoziia datelor i cnd numrul de valori pe care le ia variabila nu este prea mare. Este normal s reprezentm genul biologic al subiecilor printr-o plcint, deoarece vorbim n acest caz de X% brbai i Y% femei. Variabila are doar dou niveluri, iar aceast reprezentare ofer indicii clare asupra compoziiei unui eantion. Este din nou normal s reprezentm prin plcint gradele didactice dintr-o universitate, deoarece variabila are cinci grade de intensitate. Este ns absurd s

190

Cristian Opariuc-Dan reprezentm grafic prin plcint vrsta unor subieci, variabil continu, cu o infinitate de valori. Un asemenea grafic nu ne spune nimic, ci, din contra, induce distorsiuni care ne creeaz o imagine fals asupra datelor. Foarte muli psihologi experimentaliti, care au rutin n analiza datelor, reprezint o variabil continu prin histogram, deoarece, folosind acest procedeu, SPSS ofer o metod de estimare grafic a curbei de distribuie. Unii chiar se rezum la a interpreta distribuia datelor dup aspectul grafic al acestei curbe s fim serioi, statistica este totui o disciplin matematic, iar demonstraiile se fac cu cifre, nu cu imagini i aprecieri subiective pe baza acestora. Nu este att de grav n comparaie cu reprezentarea prin diagrame de structur, ns probabil v amintii de faptul c histograma reprezint dat ele grupate n intervale. Este adevrat c SPSS efectueaz automat o grupa re a acestor date n intervale pe care le alege singur. Acesta nu este ns un motiv n condiiile n care dorim s avem o viziune analitic a scorurilor. Prin urmare, pentru a reprezenta grafic o variabil continu, atunci cnd discutm despre distribuie, vom prefera graficul cu bare, care ne ofer o viziune fin asupra modului n care datele se distribuie sau graficul tip histogram, care prezint datele ntr-un mod mai grosier, ns are avantajul estimrii vizuale a curbei de distribuie. n nici un caz nu vom utiliza diagrame de structur sau alte tipuri de diagrame, chiar dac acestea arat frumos.

Figura 6.17 Alegerea histogramei pentru reprezentarea datelor

n figura 6.16, am ales modul de reprezentare al unui grafic cu bare, iar n figura 6.17, am optat pentru reprezentarea prin histogram. Vom analiza ulterior ambele tipuri de grafice i vom nva cteva metode de cosmeti-

191

Statistic aplicat n tiinele socio-umane

zare a graficelor, astfel nct imaginile noastre s prezinte i un aspect el egant. Indiferent de tipul de grafic ales (cu bare sau histogram), vom apsa din nou butonul Continue pentru a reveni la fereastra iniial. n acest moment, toate configurrile fiind realizate, nu ne rmne dect s apsm butonul OK pentru a comunica programului SPSS s efectueze analiza. n cteva secunde, va fi afiat fereastra de rezultate (Output) n care regsim prezentate informaiile solicitate. n aceast fereastr, cel mai important tabel este tabelul Coef icientul de inteligent a Statistics, numit i inventarul N Valid 30 Missing 0 statistic de baz sau indicatorii Mean 111,33 statistici de start. Utiliznd Median 108,50 Mode 124 numai acest tabel, putem decide St d. Dev iation 8,511 Skewness ,413 dac distribuia noastr este sau St d. Error of Skewness ,427 nu este o distribuie normal. Kurtosis -1,384 St d. Error of Kurtosis ,833 Cred c v mai amintii condiiRange 24 Minimum ile pe care trebuie s le ndepli100 Maximum 124 neasc o distribuie pentru a putea fi considerat normal. O distribuie normal este o distribuie unimodal, simetric i Tabel 6.9 Inventarul statistic de baz Statistics mezocurtic.
Tabel 6.8 Inventarul statistic de baz
Statistics

Unimodalitatea este uor de observat. SPSS raporteaz un mesaj de genul Multiple mod exist. The smallest value is shown, afiat la subsolul tabelului cu o not, de obicei a n dreptul valorii modului. Acest mesaj

Varst a subiect ilor N Mean Median Mode St d. Dev iation Skewness St d. Error of Skewness Kurtosis St d. Error of Kurtosis Range Minimum Maximum

Valid Missing

30 0 29,33 29,00 24a 5,523 ,116 ,427 -,878 ,833 19 20 39

a. Multiple modes exist. The smallest v alue is shown

192

Cristian Opariuc-Dan ne comunic faptul c programul a identificat mai multe valori mod i c o afieaz pe cea mai mic. n inventarul statistic alturat, unde am analizat distribuia acelorai 30 de subieci n funcie de variabila vrst, avem un exemplu de distribuie multimodal. Nu putem ti, deocamdat, dac distribuia este bimodal, trimodal sau prezint mai multe valori ale modului. Tot ceea ce tim este c cea mai mic valoare mod, n cazul nostru, reprezint 24 de ani. Pentru a afla tipul distribuiei sub aspectul modalitii i Cumulat iv e Frequency Percent Valid Percent Percent a vedea toate valorile mod, vom Valid 20 2 6,7 6,7 6,7 21 1 3,3 3,3 10,0 cuta n distribuia statistic (al 24 5 16,7 16,7 26,7 26 3 10,0 10,0 36,7 doilea tabel din fereastra de re28 1 3,3 3,3 40,0 29 5 16,7 16,7 56,7 zultate) valoarea 24. n cazul 30 1 3,3 3,3 60,0 31 3 10,0 10,0 70,0 nostru, observm c valoarea 24 32 1 3,3 3,3 73,3 34 1 3,3 3,3 76,7 se regsete n cinci cazuri (co35 2 6,7 6,7 83,3 37 2 6,7 6,7 90,0 loana Frequency). Nu trebuie 38 2 6,7 6,7 96,7 39 1 3,3 3,3 100,0 acum dect s vedem ce valori, Total 30 100,0 100,0 mai mari de 24, au aceeai frecven. Observm c valoarea 29 de ani are aceeai frecven i c nu exist o alt valoare cu aceast frecven maxim. Aadar, distribuia vrstei subiec ilor este o distribuie bimodal, cu modul de 24 i 29 de ani. Strict vorbind, o distribuie multimodal nu este o distribuie normal. Analiza noastr ar trebui s se opreasc aici i s folosim tehnici de eliminare a acestei anomalii (n cazul nostru, renunnd la un subiect care are vrsta de 24 sau 29 de ani).
Varsta subiectilor

Tabel 6.10 Identificarea valorilor mod

Totui, distribuia scorurilor subiecilor la variabila coeficient de inteligen este o distribuie unimodal. n acest caz, vom trece la urmtoarea etap i anume analiza simetriei. Simetria sau oblicitatea este dat de valoarea indicatorului Skewness. La modul teoretic, acest indicator are valoarea zero pentru o dis-

193

Statistic aplicat n tiinele socio-umane

tribuie perfect simetric. O asemenea valoare este ns aproape imposibil de regsit n practic. ntotdeauna, acest indicator va avea valori diferite de zero, fie n sens negativ distribuie asimetric negativ cu tendine ctre scoruri mari, fie n sens pozitiv distribuie asimetric pozitiv cu tendine ctre scoruri mici. Exist mai multe metode de verificare a asimetriei, prin intermediul crora putem decide dac o distribuie poate sau nu poate fi considerat sim etric. Una dinte metode, valabil pentru eantioane mari (peste 200 de subieci), este reprezentat de reperul propus de Lewis-Beck (Sava, 2004). Valorile pentru Skewness mai mici de -0,80 sau mai mari de 0,80 indic o asim etrie clar, negativ sau pozitiv. n cazul nostru, valoarea Skewness este de 0,41, iar eantionul este de doar 30 de persoane. Prin aceast metod, putem considera distribuia scorurilor ca fiind o distribuie simetric, chiar dac nu s-a respectat cerina unui eantion mare. O alt metod (Sava, 2004) valabil n cazul eantioanelor medii i mici, se bazeaz pe calcului cotei z a indicelui de oblicitate Skewness. Cu alte cuvinte, mprim valoarea indicelui de oblicitate la valoarea erorii s tandard a acestuia. n acest caz, exist dou praguri ale lui z n funcie de valorile obinute (Sava, 2004). Pentru un eantion mai mic de 30 de subieci, valoarea pragului de semnificaie este de 1,58, iar pentru eantioane mai mari sau egale cu 30 de subieci, acest prag are valoarea de 1,96. n cazul nostru, v aloarea Skewness este de 0,41, iar eroarea standard Skewness este de 0,42. Fcnd raportul 0,41:0,42=0,97. Cum eantionul nostru este de 30 de subieci, pragul de semnificaie al lui z este de 1,96. Valoarea obinut de 0,97 fiind mai mic dect pragul, putem considera distribuia ca fiind simetric. Aceast metod se folosete i n cazul boltirii. A treia metod propus, aplicabil i pentru boltire, ia n considerare stabilirea intervalului de ncredere al simetriei n baza erorii standard

194

Cristian Opariuc-Dan Skewness i poate fi utilizat indiferent de mrimea eantionului. Eroarea standard Skewness ne ofer limitele ntre care trebuie s se regseasc coeficientul de oblicitate, astfel nct s putem considera, la un nivel de precizie suficient de mare, distribuia ca fiind simetric. La acest nivel, exist dou tipuri de intervale: La un nivel de precizie de peste 99%, cu alte cuvinte n mai puin de 1% din cazuri, distribuia noastr poate s se comporte ca o distribuie asimetric. Intervalul este determinat de o eroare standard Skewness. Un asemenea interval este foarte precis i se folosete atunci cnd simetria reprezint un element critic pentru distribuia datelor. La un nivel de precizie de peste 95%, cu alte cuvinte n mai puin de 5% din cazuri, distribuia noastr poate s se comporte ca o distribuie asimetric. Intervalul este determinat de dou erori standard Skewness. Un asemenea interval este mai puin precis n comparaie cu primul i se folosete cnd simetria nu reprezint un element critic pentru distribuia datelor.

Dac valoarea coeficientului de oblicitate Skewness intr ntr-unul dintre aceste intervale, distribuia poate fi considerat simetric. Dac valo area coeficientului de oblicitate iese din acest interval la limita negativ, avem de-a face cu o distribuie asimetric negativ, iar dac iese din interval la limita pozitiv, distribuia este asimetric pozitiv. n situaia noastr, valoarea coeficientului de oblicitate Skewness este de 0,41 iar valoarea erorii standard Skewness este de 0,42. Intervalul de ncredere la un nivel de precizie de 99% este cuprins ntre -0,42 +0,42, iar la un nivel de precizie de 95% este cuprins ntre -0,84 +0,84. Putem constata cu uurin c valoarea coeficientului de oblicitate Skewness (0,41) intr att n primul interval, ct i n al doilea interval. Putem aadar afirma, cu anse

195

Statistic aplicat n tiinele socio-umane

mai mici de 1% ca distribuia noastr s se comporte asimetric, c avem de a face cu o distribuie simetric. Indiferent de metoda folosit, am decis c distribuia scorurilor celor 30 de subieci la coeficientul de inteligen este o distribuie simetric. A tr eia metod, datorit viziunii extrem de precise pe care o ofer, v-o recomand s o folosii ori de cte ori analizai simetria sau boltirea unei distribuii. Am artat pn acum c distribuia scorurilor subiecilor la variabila coeficient de inteligen este o distribuie unimodal i simetric. Mai rmne s demonstrm c este o distribuie mezocurtic, pentru a decide faptul c scorurile la coeficientul de inteligen se distribuie normal. Boltirea sau excesul reprezint tendina rezultatelor de a se concentra n jurul mediei (distribuia ascuit sau leptocurtic) sau, din contra, de a se rspndi, disipa puternic n jurul mediei (distribuia platicurtic). Dup cum tim, indicatorul care ne d mrimea acestei mprtieri este Kurtosis. Anal iza boltirii se poate face prin a doua sau a treia metod expus anterior, pentru care nu intrm n detalii. Distribuia scorurilor celor 30 de subieci la variabila coeficient de inteligen prezint coeficientul de boltire Kurtosis de -1,34 i eroarea standard a acestui coeficient de 0,83. Utiliznd a doua metod, obinem nota z pentru Kurtosis de 1,34:0,83= 1,61. Pragul de semnificaie pentru eantionul nostru este, la fel ca i n cazul simetriei, 1,96. Valoarea notei z pentru Kurtosis fiind mai mic dect pragul de semnificaie, putem aprecia c suntem n faa unei distribuii mezocurtice. Haidei acum s analizm boltirea prin prisma celei de-a treia metode, pentru a vedea diferena de precizie. Intervalul de ncredere la un nivel de precizie de 99% este cuprins ntre -0,83 +0,83, iar pentru un nivel de precizie de 95% ntre -1,66 +1,66. Observm c valoarea Kurtosis de -1,34

196

Cristian Opariuc-Dan intr ntr-al doilea interval (cu precizie mai mic) ns nu i n primul interval (de mare precizie). Deci, n situaia n care eterogenitatea sau omogenitatea scorurilor n jurul mediei este un element important, vom considera distribuia noastr ca fiind o distribuie platicurtic, deoarece nu intr n intervalul cu precizie mare. n situaia n care excesul nu este un element att de important, putem considera distribuia ca fiind mezocurtic. Oricum, n tiinele sociale nivelul de precizie acceptat este de peste 95%, astfel nct distribuia noastr poate fi considerat o distribuie mezocurtic. Valorile coeficientului de boltire Kurtosis negative i care ies din intervalul de ncredere sunt reprezentative pentru o distribuie platicurtic. Dac avem de a face cu valori pozitive care ies din intervalul de ncredere, distribuia este leptocurtic. Demonstrnd faptul c distribuia scorurilor celor 30 de subieci la variabila coeficient de inteligen este o distribuie unimodal, simetric i mezocurtic am demonstrat de fapt c distribuia respect toate caracteristicile unei distribuii gaussiene i poate fi considerat o distribuie normal. Analiza distribuiei trebuie s precead orice analiz ulterioar de date, deoarece, n funcie de normalitatea distribuiei, pot fi alese statisticile parametrice sau nonparametrice utilizabile pe parcursul demersului de cercetare, dup asumpiile teoretice ale fiecrei metode n parte. Pentru a concluziona, v voi oferi un model complet de analiz a distribuiei scorurilor n funcie de variabila coeficient de inteligen. ntotdeauna furnizai, n analiz, ct mai multe informaii legate de variabila dumneavoastr. V rog s avei n vedere ataarea exact a inventarului statistic de baz din SPSS i a eventualelor grafice care v pot susine demonstraia. ntr-o analiz de date, va trebui s precizai: denumirea variabilei analizate, numrul de cazuri, indicatorii tendinei centrale i ai mprtierii, indi-

197

Statistic aplicat n tiinele socio-umane

catorii distribuiei i explicarea acestora n cazul unor distribuii asimetrice, platicurtice sau leptocurtice, tabelele valorice ale inventarului statistic de baz, graficele sub forma graficului cu bare sau histogram.
Statistics Coef icientul de inteligent a N Valid Missing Mean Median Mode St d. Dev iation Skewness St d. Error of Skewness Kurtosis St d. Error of Kurtosis Range Minimum Maximum

30 0 111,33 108,50 124 8,511 ,413 ,427 -1,384 ,833 24 100 124

Distribuia rezultatelor celor 30 de subieci la variabila Coeficient de inteligen este o distribuie unimodal (modul=124 IQ), simetric (Skewness=0,41; Eroarea standard Skewness=0,42) i mezocurtic (Kurtosis=-1,38; Eroarea standard Kurtosis=0,83), cu media 111,33 IQ, mediana 108,5 IQ i abaterea standard 8,51 IQ. Amplitudinea distribuiei este de 24 scoruri IQ cuprins ntre un minim de 100 IQ i un maxim de 124 IQ. Avnd n vedere aceste elemente, putem considera c scorurile obinute de cei 30 de subieci se distribuie normal n cazul variabilei Co eficient de inteligen, aceast variabil suportnd proceduri parametrice de analiz statistic. Iat un exemplu complet i profesional prin care putei realiza o anal iz a distribuiei datelor, valid n orice comunicare tiinific naional sau internaional. Muli vor spune c nu e chiar profesional, c trebuia s specific tabelul numrul . figura numrul. i ce nseamn acel tabel i acea figur. Asemenea lucruri in de normele de redactare a documentelor tiinifice elaborate APA i vi le las ca studiu, deoarece nu intenionez s le abordez n prezenta lucrare. Oricum, m adresez unor oameni inteligeni, iar aceste 198

Cristian Opariuc-Dan amnunte le tii sau le putei afla i singuri. Nici cartea de fa nu le respect, ns prefer s am un stil propriu i a fi ncntat dac ai nva din aceste rnduri cum s facei efectiv analize de date mai mult dect cum s v conformai unor norme. Deschiznd o parantez, tiu, desigur, c pot s fiu acuzat c am copiat i lipit n document tabele i grafice din SPSS fr s le traduc n romnete. Departe de mine aceast intenie. n primul rnd, pentru c SPSS ofer tabelele i graficele n englez, iar eu doresc s introduc coninutul lor original. n al doilea rnd, conform acelorai norme APA, utilizarea elementelor furnizate de programe informatice n lucrri tiinifice se face prin includerea coninutului original i nemodificat. n al treilea rnd, pentru c vreau s v nv, imediat, cum s editai coninutul elementelor din fereastra de rezult ate. Orice element din fereastra de rezultate SPSS este un element editabil. Putei s facei aproape orice cu tabelele i graficele pe care SPSS le furnizeaz. Nu avei dect s dai un dublu clic pe elementul pe care dorii s-l editai i vei intra ntr-un alt mod pe care SPSS l suport, modul de editare. Pentru nceput, s dm dublu clic pe tabelul inventarului statistic de baz, tabelul Statistics. Observm c marginea care ncadreaz acest tabel a devenit o margine haurat i, de asemenea, este posibil s se afieze o bar de instrumente de editare, similar celei din programul Microsoft Word.
Figura 6.18 Tabelul Statistics n mod editare

Primul buton de pe aceast bar de formatare permite anularea aciunilor efectuate (Undo). Cel de-al doi-

199

Statistic aplicat n tiinele socio-umane

lea buton este butonul pivot, care permite schimbarea rndurilor i a coloanelor n tabel.

Figura 6.19 Bara de formatare SPSS

Urmeaz apoi o caset derulant de aplicare a unui stil tabelului formatat, caseta derulant de alegere a fontului i caseta derulant de alegere a dimensiunii fontului pentru textele selectate. Urmtoarele trei butoane permit scrierea ngroat, nclinat i sublinierea, iar butonul al patrulea selecteaz culoarea cu care s fie afiat fontul. Cele patru butoane care se succed permit alinierea textului selectat, la stnga, dreapta, centrat sau automat. Ultimele dou butoane lanseaz sistemul de asisten (help) sau modul de creare a graficelor pentru variabila selectat iat o alt modalitate de a realiza grafice, dac ai uitat s o facei n etapa de analiz. V recomand s exersai aceste elemente, fr team c ai putea strica ceva (n definitiv avei la dispoziie butonul de anulare - Undo). Nu vom intra n amnunte legate de formatarea tabelelor, deoarece ar trebui s includem, inutil, mai multe pagini. Un tabel n modul de editare permite modificarea elementelor componente. Pentru nceput, ne propunem s traducem n romnete cuvintele Missing (Lips), Mean (Media), Media (Mediana) i Mod (Modul). Aflndu-v n modul de editare, efectum din nou dublu
Figura 6.20 Editarea valorilor n tabel

200

Cristian Opariuc-Dan clic pe cuvntul Missing. Va rezulta o figur similar celei alturate. Observai c textul Missing este deja selectat acum; dac apsai orice tast, coninutul selectat va fi nlocuit cu tasta apsat. Nu v rmne dect s scriei n loc de Missing, Lips. Cuvntul Missing este nlocuit cu textul introdus, Lips. Procedai la fel cu toate celelalte cuvinte din tabel, pentru a putea traduce tabelul n limba romn. Putei folosi bara de formatare pentru a ngroa, schimba culoarea sau alinia textele selectate. Cnd ai terminat, dai clic oriunde pe suprafaa alb a ferestrei de rezultate, pentru a iei din modul de editare.
Inventar statisti c de baza Coef icientul de inteligent a N Valid Lipsa Media Mediana Modulul Abaterea standard Skewness Eroarea Skewness Kurtosis Eroarea Kurtosis Amplitudinea Minimum Maximum

30 0 111,33 108,50 124 8,511 ,413 ,427 -1,384 ,833 24 100 124

Figura 6.21 Inventarul statistic dup editare

n final, tabelul dumneavoastr trebuie s arate la fel ca cel din figura de mai sus. Iat modalitatea prin care putei traduce, dac dorii, orice element al formularului de rezultate ntr-o alt limb. Din nefericire, la fel cum pot fi traduse cuvintele, pot fi modificate i cifrele, ceea ce v poate determina uneori s schimbai datele oferite de SPSS cu alte date mai convenabile vou. Nu uitai c, n general, trebuie s punei la dispoziie i baza de date n momentul n care publicai un studiu i de cele mai multe ori analizele sunt refcute de comisia de publicare a articolului. Tot folosind modul de editare, putei ajusta limea coloanelor pentru ca tabelul dumneavoastr s prezinte un aspect elegant. Deplasai cursorul mausului deasupra unei linii, ca n figura alturat, pn cnd se transform ntr-o sgeat orizontal. Apoi inei apsat butonul din stnga al mausului i tragei micnd mausul la dreapta sau la stnga, 201

Statistic aplicat n tiinele socio-umane

pentru a ajusta dimensiunea coloanei din tabel. La fel putei proceda i pentru ajustarea dimensiunilor pe vertical. Referitor la formatarea tabelelor, SPSS pune la dispoziie mai multe meniuri pe care nu le vom analiza n detaliu aici, din considerente de spaiu. Putei consulta, pentru
Figura 6.22 Inventar statistic tradus

informaii suplimentare, manualul SPSS. Ne vom limita doar s le pre-

zentm. Meniul Insert permite adugarea, n cadrul tabelului selectat, a unui nou titlu, a unei noi etichete n subsolul tabelului sau a unei noi note se subsol ntr-un mod similar operaiunii pe care SPSS o face automat n momentul n care depisteaz o distribuie multimodal. Meniul Pivot permite marcarea tabelului curent n scopul unei regsiri rapide n fereastra de rezultate, comutarea tabelului prin inversarea liniilor sau a coloanelor sau lansarea ferestrei speciale prin care poate fi controlat pivotarea tabelului. Acest meniu este un meniu important n formatarea aspectului grafic al tabelului, cu aplicaii n condiiile analizei unui volum mare de date. Vom reveni asupra acestui meniu, n momentul n care vom discuta despre studiile corelaionale. Meniul Format cuprinde un set de utilitare prin intermediul crora putem modifica aspectul celulelor din tabel, a ntregului tabel, a fonturilor

202

Cristian Opariuc-Dan sau a notelor de subsol. SPSS conine, asemntor progr amului Microsoft Word, mai multe abloane grafice care pot fi aplicate tabelelor. Alegnd un asemenea ablon grafic, putei modifica complet aspectul tabelelor din foaia de rezultate. Toate opiunile din acest meniu in doar de aspectul grafic al tabelelor i nu afecteaz n niciun fel coninutul datelor dumneavoastr. Se pot stabili, alturi de cele expuse mai sus, numrul de zecimale pe care SPSS s le afieze, ordonarea datelor, includerea sau excluderea capului de tabel etc. V invit s parcurgei acest meniu i s exersai facilitile pe care le ofer. Oricnd v putei ntoarce la starea iniial, anterioar unei aciuni, folosind butonul Undo.

VI.7.1 Calculul notelor z n SPSS


Programul SPSS permite calculul notelor z pentru fiecare dintre cazurile individuale prezente n distribuia de date, ntr-un mod foarte simplu i elegant. Din acelai meniu, Analyze, vei alege opiunea Descriptive Statistics i apoi opiunea DescripFigura 6.23 Meniul statistici descriptive

tives

Cunoatei deja fereastra care se deschide, deoarece am analizat-o pe parcursul acestei lucrri, drept pentru care nu vom insista dect asupra unui singur element. Este vorba despre caseta de bifare Save standardized values as variables. Rolul acestei casete, pe care o vom bifa, este acela de a crea o nou variabil care va stoca scorurile z ale fiecrui Figura 6.24 Fereastra de configurare a analizei caz din baza de date. Evident, va fi lansat fereastra de afiare a rezultatelor care conine un

203

Statistic aplicat n tiinele socio-umane

tabel pe care l-am discutat deja. Totui, unde sunt notele z att de cutate de noi? S ne amintim ce am bifat. Am bifat o opiune, dup ce am introdus variabila Coeficient de inteligen n lista variabilelor ce trebuie analizate, prin care notele standardizate vor fi salvate ca variabile. Trebuie, deci, s ne ntoarcem la baza de date, unde vom regsi o nou variabil creat automat. Este vorba despre variabila Ziq, ultima din baza de date, care nu conine altceva dect notele z ale fiecrui subiect. Observm c primul subiect se afl la 1,33 abateri standard n stnga mediei, adic n zona rezultatelor medii, al doilea la 1,01 abateri standard n dreapta mediei, tot n zona scorurilor medii i aa mai departe. Cum facem totui pentru a obine note standardizate rezultate din notele z, scoruri sten spre exemplu. V mai amintii probabil c scorurile sten se obin aduadunnd valoarea 5,5 la valoarea notei z. Dac avem notele z, restul este simplu. Cum facem ns acest lucru n SPSS?
Figura 6.26 Meniul de transformare SPSS Figura 6.25 Noua variabil ce conine scorurile z

Vom folosi serviciile unui alt meniu, i anume meniul Transform, de unde vom selecta opiunea Compute sau Compute variable, n funcie de versiunea SPSS pe care o posedai. Rezultatul acestei aciuni se concretizeaz ntr-o fereastr similar celei alturate, care conine urmtoarele elemente: Target variable reprezint seciunea n care
Figura 6.27 Fereastra de calcul a variabilelor

204

Cristian Opariuc-Dan vom introduce numele variabilei destinaie, variabil n care se vor salva noile rezultate. n cazul nostru, suntem interesai s calculm scorurile sten pe ntru variabila iq i vom introduce un nume, ca spre exemplu StenIQ. Sub aceast caset de text se afl un buton intitulat Type & Label, pe care, dac apsm, vom putea configura proprietile noii variabile create. Astfel, avem posibilitatea s adugm o etichet variabilei nou create, folosind cele dou opiuni din seciunea Label. Putem decide dac introducem un text ca etichet (ca n cazul figurii alturate) ori vom folosi drept etichet formula de calcul, situaie n care va trebui s alegem opiunea Use expression as label. Seciunea Type permite alegerea tipului de variabil. Putem decide ntre un tip numeric implicit i un ir de caractere, caz n care va trebui s includem i dimensiunea acestui ir, numrul de caractere pe care l perm ite variabila.
Figura 6.28 Proprieti ale variabilei

Sub butonul Type & Label se afl binecunoscuta list a variabilelor din baza de date. n partea dreapt, apare caseta de text Numeric Expression, cu ajutorul creia putem scrie formula de calcul prin care va fi obinut noua variabil. n acest sens, putem utiliza calculatorul de sub caset sau putem tasta pur i simplu valorile sau formula n caseta de text. Pentru a v uura accesul la formule, SPSS v pune la dispoziie dou liste: lista Function group care conine funciile sistemului grupate pe categorii i lista Functions and Special Variables care se refer la funciile din categoria selectat anterior. Dac, de exemplu, n prima list, efectum clic pe elementul Arithmetic, atunci, n cea de-a doua list, vor fi afiate funciile referitoare la operaiile aritmetice uzuale. Butonul If permite efectuarea condiional a calculelor, adic calcularea doar a datelor care ndeplinesc o condiie.

205

Statistic aplicat n tiinele socio-umane

ntlnim aici posibilitatea de a include toate cazurile (Include all cases) sau de a include doar cazurile care satisfac o condiie (Include if cases satisfies condition). Dac, de exemplu, dorim s calculm scorurile sten doar pentru brbai, vom alege aceast opiune, iar apoi vom scrie n caseta de formule expresia sexul=1. n acest fel, SPSS va calcula scorurile sten numai pentru brbai, ignornd femeile. ntlnim i aici lista de funcii, util pentru crearea unor expresii mai complexe. Deocamdat nu ne intereseaz niciun calcul condiional, prin urmare vom prsi fereastra fr a efectua nicio modificare. S vedem acum, concret, cum calcu- Figura 6.29 Calculul condiional al datelor lm scorurile sten ale variabilei iq, folosind aceste elemente. n primul rnd, am introdus numele i descrierea noii variabile n caseta Target Variable, aa cum a fost exemplificat mai sus. Ne amintim c nota sten se calculeaz adunnd 5,5 la valoarea notei z. Nota z, ns, am calculat-o anterior i o regsim n baza de date sub denumirea Ziq (Zscore: Coeficientul de inteligen). Restul e simplu. Nu v rmne dect s scriei n caseta Numeric Expression formula (5,5 + Ziq), fie tastnd-o, fie folosind calculatorul. Variabila care conine nota z (Ziq) se poate tasta sau se poate folosi butonul de transfer pentru a include variabila din lista variabilelor n formul.
Figura 6.30 Calculul scorurilor sten

Nu mai trebuie dect s apsai butonului OK i s vedem ce se ntmpl. Apare, desigur, fereastra de rezultate care ne informeaz asupra faptului c operaiunea a reuit. La fel ca la calculul notelor z, ne intereseaz baza de date. 206

Cristian Opariuc-Dan Iat c a aprut noua variabil StenIQ care conine, exact aa cum am specificat, scorurile sten ale subiecilor. Observm c, de aceast dat, notele nu mai sunt cuprinse ntre -3 i +3, ci pe o scal de la 1 la 10, exact ca n sistemul colar. Este mult mai intuitiv, nu-i aa? Ca exerciiu, v propun calculul notelor z i a scorurilor sten pentru variabila vrsta subiecilor.

n concluzie:
Media i abaterea standard caracterizeaz pe deplin o distribuie i , de aceea, aceti doi indicatori poart numele de parametri ai repartiiei normale; O distribuie normal trebuie s ndeplineasc simultan urmtoarele trei condiii: o S fie unimodal; o S fie simetric; o S fie mezocurtic; Unimodalitatea reprezint existena unei singure categorii cu frecvena absolut maxim i se analizeaz prin inspectarea valorii modale; O distribuie normal este o distribuie unimodal; Simetria reprezint echilibrarea distribuiei pe axa orizontal i se poate calcula prin: o Coeficientul Yule; o Coeficientul Fisher; o Relaia dintre medie, median i abaterea standard; Referitor la simetrie, exist un sistem de relaii ntre indicatorii tendinei centrale (medie, median i mod), distribuiile putnd fi simetrice, asimetrice la stnga i asimetrice la dreapta. O distribuie normal este o distribuie simetric Boltirea reprezint o asimetrie vertical a distribuiei i se poate calcula prin: o Coeficientul de boltire Pearson; O distribuie normal este o distribuie mezocurtic; ntr-o distribuie normal, exist un numr de ase abateri standard; trei la stnga mediei i trei la dreapta mediei; n funcie de abaterile standard, o distribuie normal prezint patru zo ne: zona scorurilor normale, zona scorurilor accentuate, zona scorurilor atipice i zona sc orurilor aberante; Notele z reprezint distana dintre un scor particular i medie , exprimat n termeni de abateri standard;

207

Cristian Opariuc-Dan Figura 1.15 arat norul de puncte al unei corelaii negative slabe de 0,28. Putem intui dreapta de evoluie a celor dou variabile, ns observai c datele sunt mult mai mprtiate n jurul acesteia. Legtura, evident, exist, ns nu are puterea celeia din figura 1.14. Variabilitatea datelor n acest caz este mult mai mare. Fcnd aceast incursiune prin analiza graficelor, am dorit s subliniem importana studiului diagramei de corelaie. Interpretarea exclusiv pe baza coeficientului de corelaie nu se recomand, deoarece, foarte uor putem cdea n capcana unei relaii neliniare sau specifice. Primul pas n interpret area coeficientului de corelaie este analiza diagramei de corelaie. n funcie de aspectul datelor, se ajusteaz procedurile de calcul i de raportare. Analiza datelor prin utilizarea creionului i a hrtiei reprezint un proces laborios, care presupune o important investiie de timp i este susceptibil de a genera erori. Din fericire, programele specializate de analiz statistic pot face aceste operaii n cteva fraciuni de secund. Iat c a venit timpul s studiem corelaiile folosind cunoscutul pachet de programe, SPSS for Windows.

I.5 Obinerea coeficienilor de corelaie n SPSS


Nu-i aa c v-ai sturat de attea calcule? Aa-i c v este dor de cteva clicuri? Sigur c vorbim despre o diferen enorm. Pe un lot de cercetare de 200 de persoane, pentru a calcula pe hrtie coeficientul de corelaie r Bravais-Pearson, probabil c v va lua jumtate de zi. Folosind SPSS for Windows i presupunnd c avei deja datele introduse, v va lua sub un m inut.

I.5.1 Coeficieni de corelaie bazai pe date parametrice


SPSS for Windows, n acest moment, a ajuns la versiunea 17, versiune cu multe mbuntiri i faciliti n comparaie cu variantele anterioare. nainte de a ncepe, vom crea o baz de date nou, relund exemplul din capi-

113

Statistic aplicat n tiinele socio-umane

tolul destinat studiului corelaiilor pariale. V reamintesc faptul c am dorit, atunci, s aflm legtura dintre performana la examen i emoiile din timpul examenului. Realizm, prin urmare, o baz de date cu urmtoarea structur:
Tabelul 1.35 Structura bazei de date Variabila Timp Emotii Gen Nota Eticheta Timp de studiu Emotii examen Gen biologic Nota examen Nivel de msur Scalar Scalar Nominal Scalar Tip Numeric Numeric Numeric Numeric Caractere 2 3.2 1 3.2

Probabil c v mai amintii cum se creeaz o baz de date n SPSS. Detalii despre aceste procedee putei gsi n lucrarea anterioar sau n alte cri de specialitate. Observm c avem un numr de patru variabile, toate elementele necesare realizrii bazei de date gsindu-se n tabelul 1.29. Variabila Gen este o variabil nominal cu asocierile din tabelul alturat. Valoare Etichet Dup realizarea structurii bazei de date, n fereastra principal SPSS, seciunea Data view vei avea urmtoarea structur, prezentat n figura 1.16.
Gen 1 2 Masculin Feminin

Aceast baz de date o vom folosi doar pentru studiul coeficienilor de corelaie parametrici, aprofundarea corelaiilor neparametrice fcndu-se pe baza altor date.
Figura 1.16 Structura bazei de date

Pentru acest studiu, am investigat un numr de 103 subieci, nregistrnd timpul de studiu (n ore) necesar susinerii examenului de statistic, media obinut la examenul de statistic (nota la examen i activitatea de s e-

114

Cristian Opariuc-Dan minar), genul biologic i scorul obinut la un instrument de evaluare a emotivitii n condiii de examen3. Nu este cazul s v mai explic modul n care vei introduce datele n SPSS. Mai jos avei ntreaga baz de date, pe care v invit s o realizai. Nu v speriai, nu v ia mai mult de 10 minute. Dup ce ai introdus datele, sa lvai fiierul sub numele de Corelaii parametrice.
Timp 4 11 27 53 4 22 16 21 25 18 18 16 13 18 98 1 14 29 4 23 14 12 22 84 23 26 24 72 37 10 3 36 43 19
3

Emotii 86,30 88,72 70,18 61,31 89,52 60,51 81,46 75,82 69,37 82,27 79,04 80,66 70,18 75,01 34,71 95,16 75,82 79,04 91,13 64,54 80,66 77,43 65,34 0,06 71,79 81,46 63,73 27,46 73,40 89,52 89,52 75,01 43,58 82,27

Tabelul 1.36 Baza de date Corelaii parametrice Gen Nota Timp Emotii 1 4,00 42 68,57 2 6,50 4 93,55 1 8,00 8 84,69 1 8,00 6 82,27 1 4,00 11 81,46 2 7,00 7 82,27 2 2,00 15 91,13 2 5,50 4 91,94 2 5,00 28 86,30 2 4,00 22 72,60 1 4,50 29 63,73 1 8,50 2 63,73 1 7,00 16 71,79 2 5,00 59 57,28 1 9,50 10 84,69 1 7,00 13 84,69 1 9,50 8 77,43 2 9,50 5 82,27 2 5,00 2 10,00 1 6,00 38 50,83 1 8,00 4 87,91 1 7,50 10 83,88 2 8,50 6 84,69 2 9,00 68 20,21 2 3,00 8 87,10 2 6,00 1 83,88 1 7,50 14 67,76 2 7,50 42 95,97 2 2,70 13 62,12 1 2,00 1 84,69 2 7,50 3 92,75 2 9,00 5 84,69 1 6,00 12 83,07 1 3,00 19 73,40

Gen 2 1 2 1 2 1 1 2 2 1 2 1 2 1 2 1 2 2 1 2 1 1 2 2 1 2 1 2 2 1 1 2 2 1

Nota 7,00 4,00 8,00 1,00 2,00 4,00 4,00 7,00 5,20 5,00 6,00 8,00 6,00 6,50 1,50 8,50 2,00 8,00 10,00 10,00 8,00 1,00 7,00 10,00 7,00 7,00 6,50 7,50 8,50 3,00 0,50 1,00 9,00 7,00

Datele sunt fictive i nu corespund unui studiu real. Ele au fost manipulate n aa fel nct s corespund necesitilor didactice.

115

Statistic aplicat n tiinele socio-umane


12 9 72 10 12 30 15 8 34 22 21 27 6 18 8 19 13 79,04 79,04 37,13 81,46 83,07 50,83 82,27 78,24 72,60 74,21 75,82 70,98 97,58 67,76 75,01 73,40 62,12 1 2 1 1 2 1 1 2 1 2 2 1 1 1 1 2 1 8,00 1,00 8,50 0,70 0,50 8,50 2,00 4,50 6,00 7,00 5,00 2,50 5,00 4,00 8,00 5,00 2 19 11 15 23 13 14 1 9 20 0 52 38 19 23 11 27 17 87,91 71,79 86,30 84,69 75,82 70,98 78,24 82,27 79,04 91,13 93,55 58,89 53,25 84,69 89,52 71,79 82,27 69,37 2 1 1 2 1 2 2 1 1 2 2 2 2 1 2 2 1 1 2,00 8,50 3,50 3,00 7,00 5,50 7,50 0,20 4,00 5,00 3,50 8,00 5,00 4,90 7,50 2,50 6,50 8,00

n primul rnd, s ncepem cu nceputul. Dorim s aflm dac exist vreo legtur ntre nota obinut la examen i emoiile din timpul examenului. nainte de a ne grbi s calculm coeficientul de corelaie r BravaisPearson, trebuie s ne asigurm c cele dou variabile ndeplinesc condiiile de calcul ale statisticilor parametrice. Vom presupune c ambele variabile au o distribuie normal, deoarece este evident faptul c se situeaz la un nivel scalar de msur. Lansarea procedurilor de calcul ale corelaiilor se realizeaz prin accesarea meniului Analyze, apoi din submeniul Correlate vom alege opiunea Bivariate. Imediat se va deschide o fereastr similar celei din figura 1.18. Formularul conine dou liste,
Figura 1.18 Fereastra corelaiilor bivariate Figura 1.17 Lansarea procedurii de calcul ale corelaiilor

116

Cristian Opariuc-Dan separate prin butonul de transfer n form de sgeat. Cu ajutorul acestuia, putem transfera variabilele din baza de date (fereastra din stnga) n lista variabilelor supuse analizei (fereastra din dreapta). n cazul nostru, am inclus spre analiz, variabilele Nota examen i Emoii examen, n conformitate cu planul de cercetare. Sub aceste dou liste se afl seciunea Correlation Coefficients, care conine trei casete de bifare, corespunztoare celor trei coeficieni de corelaie ce pot fi calculai: coeficientul de corelaie r Bravais-Pearson (Pearson), coeficientul de corelaie Kendall (Kendalls tau-b) i coeficientul de corelaie al rangurilor Spearman (Spearman). Situaia noastr este clar; vom calcula coeficientul de corelaie r Bravais-Pearson. Urmtoarea seciune, Test of Significance are n vedere stabilirea tipului de ipotez cu care lucrm. Putem alege ntre o ipotez nedirecional (Two-tailed) i o ipotez direcional (One-tailed). Presupunem c ipoteza noastr vizeaz stabilirea unei relaii ntre performana la examen i emoiile din timpul examenului. tii deja c aceasta este o ipotez nedirecional, corelaia fiind semnificativ att n cazul unei legturi pozitive, ct i n cazul unei legturi negative. ntrebare Cum ai formula o ipotez direcional n acest design de cercetare? Ce opiune ai alege n seciunea testelor de semnificaie? Caseta de bifare Flag significant correlations comunic programului SPSS s marcheze, n mod distinct, corelaiile semnificative. Aplicaia va marca, folosind un asterisc pentru corelaiile semnificative la un prag de semnificaie mai mic de 0,05, i dou asteriscuri n cazul corelaiilor semnificative la un prag de semnificaie mai mic de 0,01.

Figura 1.19 Fereastra opiunilor avansate

117

Statistic aplicat n tiinele socio-umane

Butonul Options v permite configurarea opiunilor avansate referitoare la calculul coeficientului de corelaie. Seciunea Statistics ofer posibilitatea calculului a dou elemente: mediile i abaterile standard pentru fiecare dintre variabilele analizate (Means and standard deviation) i covarianele, respectiv produsului ncruciat al abaterilor (Cross-product deviations and covariances). Acest din urm element se afieaz pentru fiecare pereche de variabile supuse analizei. Produsul ncruciat al abaterilor reprezint suma produselor mediilor corectate ale variabilelor. Acest indicator reprezint, de fapt, valoarea numrtorului din formula de calcul a coeficientului de corelaie r Bravais-Pearson. Covariana, ca msur nestandardizat a relaiei dintre cele dou variabile studiat la nceputul acestui capitol nu este altceva dect produsul ncruciat, mprit la numrul gradelor de libertate (n cazul nostru, n-1). Seciunea Missing values cuprinde dou opiuni reciproc exclusive i se refer la tratarea cazurilor lips. n situaia Exclude cases pairwise, SPSS nu va lua n calcul nregistrrile n care lipsesc date din ambele vari abile. Dac o variabil conine date iar cealalt nu conine date, SPSS va calcula totui coeficientul de corelaie, considernd valoarea lips ca fiind valoare nul. n acest fel se asigur obinerea unui maximum de informaii din datele introduse, dei exist riscul unor erori statistice. Situaia Exclude cases listwise exclude din analiz cazurile n care una dintre variabile nu are date. Aceasta este o opiune mai riguroas, ns este posibil s se piard un volum important de informaie. n general se utilizeaz prima opiune. Prsirea ferestrei se face prin acionarea butonului Continue, caz n care se revine la formularul iniial. Celelalte butoane v sunt cunoscute i nu comport explicaii suplimentare. Lansarea procedurilor de calcul se face prin acionarea butonului OK. n cteva fraciuni de secund, rezultatele analizei vor fi afiate n fereastra de rezultate (Output).

118

Cristian Opariuc-Dan
Tabelul 1.37 Rezultatele corelaiei bivariate r Bravais-Pearson Correlations Nota examen Pearson Correlation Nota examen Sig. (2-tailed) N Pearson Correlation Emotii examen Sig. (2-tailed) N **. Correlation is significant at the 0.01 level (2-tailed). 103,000 -,441** ,000 103 103,000 1,000 Emotii examen -,441** ,000 103 1,000

Tabelul 1.31 prezint rezultatele acestei analize. Att pe linii, ct i pe coloane, sunt afiate cele dou variabile analizate (Nota examen i Emoii examen). Linia Pearson Correlation conine valoarea coeficientului de corelaie ntre cele dou variabile. Evident, corelnd variabila cu ea nsi, coeficientul de corelaie va fi 1,00. Pe noi ne intereseaz coeficientul de corelaie dintre cele dou variabile. Iat c am obinut 0,441, corelaie semnificativ la un prag de semnificaie mai mic de 0,01, aa cum rezult i din subsolul tabelului. Linia Sig. (2-tailed) exprim n mod precis pragul de semnificaie. Acesta este 0,00, valoare rotunjit. n realitate, valoarea exact este de 0,000003, n mod evident mai mic de 0,01. n sfrit, ultima linie, N, arat numrul de cazuri. Cercetarea a fost realizat pe un numr de 103 subieci. Ce concluzii putem extrage de aici? Desigur, avem de a face cu o corelaie semnificativ, deoarece pragul de semnificaie este mai mic de 0,01. Totodat, corelaia este negativ i moderat, aspecte rezultate din semnul coeficientului de corelaie i din valoarea acestuia. Mrimea
Figura 1.20 Diagrama de corelaie ntre cele dou variabile

119

Statistic aplicat n tiinele socio-umane

efectului acestei relaii este de 0,194, sau 19,4% din variana unei variabile poate fi explicat prin cealalt variabil, intensitatea efectului fiind una medie. Putem, aadar, afirma c exist o corelaie moderat, negativ i semnificativ ntre performana la examen i emoiile din timpul examenului; persoanele cu note slabe la examen, prezint i un nivel semnificativ mai mare al emoiilor.
Figura 1.21 Crearea manual a graficelor

Nu ne-ar mai rmne dect s facem o poz a acestei corelaii; cu alte cuvinte s realizm norul de puncte, pentru a vedea dac apar situaii atipice.

Iat, n figura 1.20, diagrama de corelaie. Se observ clar sensul n egativ al legturii, precum i intensitatea acesteia. n acelai timp, putem suspecta o relaie heteroscedastic. Corelaia pare puternic doar n situaia notelor mici obinute la examen. Pentru notele mari, este posibil s nu existe nici un fel de legtur ntre cele dou variabile (vedei grosimea norului de puncte n cele dou cazuri. De asemenea, ar fi posibil existena unei alte variabile care s modereze aceast corelaie (cred c tii deja despre ce variabil este vorba). ntrebarea pe care mi-o vei pune acum va fi una referitoare la modul n care am ajuns la acest grafic. Puin rbdare. Toate elementele grafice din SPSS se regsesc n meniul Graphs. Exist, aici, dou posibiliti: fie utilizarea unui expert de creare a graficelor (opiunea Chart Builder, fie crearea manual a acestora (opiunea Legacy Dialogs). Pentru moment, vom avea n vedere a doua situaie, urmnd ca pe parcursul acestui volum s detaliem i expertul n grafice SPSS.

Figura 1.22 Alegerea tipului de diagram de corelaie

120

Cristian Opariuc-Dan Graficul care ne intereseaz este Scatter/Dot. Accesarea acestui meniu permite lansarea unei ferestre simple, de selecie a tipului de grafic, aa cum se poate observa n figura 1.22. Exist, n acest formular, un numr de 5 variante de grafice. Varianta Simple Scatter este opiunea care ne intereseaz pe noi. n acest caz, graficul va desena cele dou variabile pe ordonat i abscis, permind eventual intervenia unei a treia variabila categoriale (de exemplu sexul). Overlay Scatter este o versiune a graficului simplu, permind afiarea, pe aceeai diagram, a mai multor perechi de variabile, fiecare variabil fiind indiFigura 1.23 Grafic tip Overlay Scatter cu dou perechi de cat printr-un element de marcaj distinct. Vom variabile folosi acest grafic dac, de exemplu, intenionm s reprezentm pe acelai grafic, corelaia dintre performana la examen i emoiile din timpul examenului (nor de puncte reprezentat prin cercuri) i corelaia dintre timpul de studiu i performana la examen (nor de puncte reprezentat prin ptrate). A treia form, Matrix Scatter, se folosete n momentul n care avem de reprezentat mai mult de o pereche de variabile. Dac, de exemplu, am include n analiz i timpul de studiu, SPSS ar efectua un numr de 3 corelaii, corespunztoare perechilor de variabile. Pentru a nu desena mai multe grafice, se poate folosi aceast form.

Observm, n figura 1.24, reprezentarea tuturor celor trei diagrame de corelaie. Pe ambele axe sunt incluse variabilele. La intersecia a dou variabile se afieaz norul de puncte corespunztor. Putei

Figura 1.24 Grafic tip Matrix Scatter

121

Statistic aplicat n tiinele socio-umane

remarca, pe al doilea rnd, ultimul cadran, graficul din figura 1.20. Aceasta este o modalitate ideal de a vizualiza ansamblul legturilor dintre variabile. Graficul 3-D Scatter este util n reprezentarea tridimensional a corelaiilor ntre mai multe perechi de variabile. Este o diagram de corelaie mai dificil de analizat i presupune o oarecare experien n analiza datelor, folosindu-se frecvent n analiza factorial i n corelaii pariale. n figura Figura 1.25 Grafic tip 31.25, reprezentnd tridimensional cele trei variabile, D Scatter putem observa uor lipsa efectului emoiilor din timpul examenului. Norul de puncte este concentrat preponderent n zona variabilelor nota examen i timp de studiu, cu orientare ctre scoruri mici ale dimensiunii emoiei din timpul examenelor. Graficul de tip Simple dot nu-l vom discuta. Acesta nu reprezint un nor de puncte propriu-zis ci o variant a graficului cu bare, prin care reprezentm observaiile individuale ale unei singure variabile. Acum s trecem la treab. Am ales norul de puncte simplu, am apsat butonul Define pentru a intra n modul de definiie al graficului, acum privim la noua fereastr care ne ocup ecranul.

Figura 1.26 Formularul de definire a graficului de tip nor de puncte

122

Cristian Opariuc-Dan n partea stng, avem, de acum obinuita list a variabilelor din baza de date. n partea dreapt regsim butoanele de transfer, corespunztoare se ciunilor care trebuie definite. Seciunea Y-Axis permite includerea variabilei ce va fi reprezentat pe abscis (axa OY). n cazul nostru, am inclus emoiile din timpul examenului. X-Axis va conine variabila reprezentat pe ordonat (axa OX). Nota obinut la examen a fost selectat n vederea reprezentrii pe aceast ax. Caseta Set Markers by se folosete n cazul n care dorim s includem o variabil categorial, ce va diferenia datele. De exemplu, dac dorim s reprezentm diferit norul de puncte al brbailor n comparaie cu cel al femeilor, vom include variabila Gen biologic n aceast seciune. Graficul va reprezenta datele femeilor cu cercuri i datele brbailor cu ptrare. Seciunea Label cases by reprezint un alt element deosebit de util n condiiile n care dorim s identificm fiecare element din grafic. De exemplu, dac am include genul biologic n aceast caset, deasupra fiecrui cerc de pe grafic, se va afia genul biologic al subiectului respectiv. Desigur, dac am dori s reprezentm datele separat pentru brbai i pentru femei, vom prefera varianta Set Markers by, deoarece Label Cases by poate duce la o supra-aglomerare a graficului. Alternativ, am putea include n aceast caset, variabila timp de studiu. ntr-o asemenea situaie, deasupra fiecrui cerc de pe grafic, va fi afiat valoarea timpului petrecut de ctre fiecare subiect n vederea pregtirii pentru examen. Seciunea Panel by permite separarea graficului n funcie de o variabil categorial. Dac dorim s afim separat norul de puncte pentru brbai i pentru femei, putem include n aceast seciune variabila gen biol ogic. n funcie de dorin, graficul va fi separat pe orizontal dac variabila se include n caseta Rows sau pe vertical dac o includem n caseta Columns. Seciunea Template permite ncrcarea unui ablon grafic dintr-un fiier. Colecii de abloane grafice pentru SPSS pot fi gsite pe Internet, n galeria aplicaiei sau pot fi comandate la compania productoare. 123

Statistic aplicat n tiinele socio-umane

Butonul Titles este destinat denumirii graficului. Putem include dou linii de text n antetul graficului (partea superioar) i dou linii de text n subsolul graficului (partea inferioar). Opiunea se folosete pentru denumirea graficului i pentru eventualele explicaii suplimentare referitoare la semnificaia acestuia, ori la drepturile de autor. Nu mai intrm n detalii referitoare la butonul Options deoarece nu cred c v-ar putea interesa n mod deosebit. Oricum, acest buton are cteva variante de configurare avansat, de natur grafic i statistic. Dac dorii s aflai mai multe, consultai excelentul sistem de asisten al programului SPSS, prin apsarea butonului Help. Sistemul de asisten este furnizat n limba englez i reprezint o adevrat enciclopedie statistic. Finalizarea definirii graficului i lansarea opiunii de desenare se poate face prin apsarea butonului OK. n cteva momente, n fereastra de rezultate, vei obine desenul solicitat. Excelent! n acest moment, avem toate datele necesare elaborrii unui raport, privind studiul acestei corelaii. Mai jos, vei gsi o analiz complet a studiului propus. V voi ruga s comparai cele expuse cu activitile du mneavoastr de cercetare. Dac considerai c studiile dumneavoastr sunt mai complexe, v rog s-mi scriei. Dac nu, v rog ca de acum nainte s abordai cel puin acest nivel. Studiul efectuat pe un lot de cercetare de 103 studeni, n baza ipotezei nedirecionale conform creia exist o legtur semnificativ ntre performana studenilor la examen i emoiile acestora n timpul examenului, s-a bazat pe un plan corelaional. Cele dou variabile (Nota examen i Emoii examen) se situeaz la un nivel de msur scalar, analiza distribuiei acestora permind utilizarea statisticilor parame-

124

Cristian Opariuc-Dan trice. n consecin, a fost folosit coeficientul de corelaie r Bravais -Pearson, rezultnd o valoare a corelaiei de r=-0,441, la un prag de semnificaie p<0,01. ntr-o prim etap, putem respinge ipoteza nul, i putem afirma c exist o corelaie medie, negativ i semnificativ ntre cele dou variabile. Astfel, studenii cu note mici la examen sunt caracterizai prin niveluri ridicate ale emoiilor n timpul examenului. Cei care obin performane la acest examen, pot fi considerai ca fiind puin emotivi. Mrimea efectului acestei corelaii este de 0,194, corespunztoare unei variane explicate de 19,4%. Putem considera c, lipsa de performan n condiii de examen, se datoreaz, n procent de 19,4%, emoiilor din timpul examenului. Totui, studiind diagrama de corelaie, se remarc imediat existena unei legturi heteroscedastice. Asocierea negativ ntre cele dou variabile pare a exista doar n cazul notelor mici la examen, corespunztoare scorurilor mari la emoii n timpul examenului. Pentru studenii cu note mari, relaia nu se mai respect. Se poate suspecta existena unei variabile moderatoare, care s influeneze att performana la examen, ct i emoiile din timpul examenului, ori existena unui optim emoional pn la care aceast atitudine poate corela cu o contraperforman, n situaii de evaluare. n mod cert, planul de cercetare este incomplet i urmeaz a fi optimizat. Iat cam cum putei prezenta rezultatele unui studiu de acest tip. n mod cert vor exista diferene ntre ceea ce tiai pn acum i ceea ce ai gsit mai sus. Ai observat c nu m-am hazardat s ofer vreo explicaie psihologic, sociologic sau economic a faptelor constatate. Nici nu este cazul. Stati stica se bazeaz pe datele existente i ofer un raport constatativ i nu explicativ a fenomenelor. Interpretarea statistic nu se poate confunda cu un alt tip de interpretare. Dei sunt psiholog de profesie, nu m-a hazarda s fac aprecieri asupra acestor fapte, n condiiile unei lucrri destinate nsuirii tehnicilor de analiz a datelor. Avnd la dispoziie aceste date, un sociolog i poate exprima punctul de vedere, un psiholog poate avea viziune proprie, la fel i

125

Statistic aplicat n tiinele socio-umane

un economist sau un medic psihiatru. Reinei c metodele de analiz a dat elor ofer fapte. Interpretarea faptelor cade n sarcina analistului. Exerciii: Studiai legtura care exist ntre performana la examen i timpul alocat studiului, precum i ntre emoiile din timpul examenului i timpul alocat studiului. Stabilii ipotezele, precizai tipul acestora, analizai cifric i grafic coeficienii de corelaiei, elaborai raportul. Presupunnd existena unei a treia variabile, care s modereze att performana la examen, ct i emoiile din timpul examenului, ne gndim la timpul de studiu. Automat, vom avea n vedere o corelaie parial. Meniul din care putem lansa calculul corelaiilor pariale l regsim n aceeai locaie. De data aceasta, nu mai apelm opiunea Bivariate ci vom folosi Partial. Fereastra se aseamn foarte mult cu cea ntlnit la corelaiile bivariate. Singura diferen const n locaia de includere a variabilelor spre analiz. n acest caz, lista Variables conine variabilele ce urmeaz a fi corelaFigura 1.27 Lansarea corelaiilor pariale te, iar lista Controlling for se refer la variabilele de control. Analiza noastr urmrete corelarea notei obinute la examen cu emoiile din timpul examenului, n condiiile controlului asupra variabilei tipul alocat studiului, astfel nct fereastra dumneavoastr va trebui s arate ca n figura 1.28. Butonul Options va deschide o alt fereastr, de configurare a opiunilor avansate. Formularul este asemntor cu cel de la corelaiile bivariate. Singura diferen const n dispariia

Figura 1.28 Configurarea corelaiilor pariale

126

Cristian Opariuc-Dan produsului ncruciat al abaterilor i apariia casetei de bifare Zero-order correlations, a crei selectare comunic programului calcularea corelaiilor r Bravais-Pearson, ntre perechile formate din cele trei variabile, fr moderare. Facilitatea este foarte util, scutindu-ne de a efectua corelaii repetate, prin urmare am bifat-o i noi. Apsarea butonului Continue nchide aceast fereastr i se revine n primul formu-

Figura 1.29 Opiuni avansate de configurare

lar. Dup ce am introdus cu atenie variabile care urmeaz a fi calculate, putem lansa operaiunea prin apsarea butonului OK. n scurt timp vei obine, n fereastra de rezultate, tabelul 1.36.
Tabelul 1.38 Rezultatele corelaiei pariale Correlations Control Variables -none-a Nota examen Correlation Significance (2-tailed) Df Emotii examen Correlation Significance (2-tailed) Df Timp de studiu Correlation Significance (2-tailed) Df Timp de studiu Nota examen Correlation Significance (2-tailed) Df Emotii examen Correlation Significance (2-tailed) Df a. Cells contain zero-order (Pearson) correlations. Nota examen Emotii examen Timp de studiu 1,000 . 0 -,441 ,000 101 ,397 ,000 101 1,000 . 0 -,247 ,012 100 -,441 ,000 101 1,000 . 0 -,709 ,000 101 -,247 ,012 100 1,000 . 0 ,397 ,000 101 -,709 ,000 101 1,000 . 0

127

Statistic aplicat n tiinele socio-umane

Vi se pare un tabel complicat? Nu este cazul s v speriai. n partea de sus, sunt afiate cele trei variabile analizate i corelaiile de rang zero ntre ele. tim deja, ntre notele obinute la examen i emoiile din timpul exam enului, avem un coeficient de corelaie semnificativ de r=-0,441, p<0,01. ntre nota la examen i timpul alocat studiului, corelaia este semnificativ i poz itiv, r=0,397, p<0,01; similar, ntre timpul de studiu i emoiile din timpul examenului exist o corelaie negativ, r=-0,709, p<0,01. Ai observat c aceste corelaii de ordin zero nu reprezint altceva dect coeficienii de corelaie r Bravais-Pearson ntre cele trei variabile, luate dou cte dou. n loc s efectum trei corelaii bivariate, bifm caseta Zero-order correlations iar SPSS le va calcula automat, realiznd astfel o important economie de timp. n partea de jos a tabelului, regsim corelaia parial solicitat. Observm c ntre nota obinut de ctre studeni la examen i emoiile din ti mpul examenului, n condiiile n care controlm efectul timpului alocat pentru studiu, exist o corelaie parial negativ i semnificativ r12.3=-0,247; p<0,05, la un numr de 100 de grade de libertate. Efectul acestei corelaii este de 0,06, adic doar 6% din variana notei obinute la examen poate fi regsit n emoiile din timpul examenului. Reprezentarea grafic adecvat acestei corelaii este graficul tridimensional 3-D Scatter. Pe axele OX i OY se reprezint cele dou variabile corelate, iar pe axa OZ vom afia variabila de control. Se remarc foarte uor intensitatea slab a corelaiei dintre nota obinut i emoiile din timpul examenului, n condiiile controlului exercitat de timpul de studiu, precum i traseul descendent al norului de puncte.

Figura 1.30 Graficul corelaiei pariale

128

Cristian Opariuc-Dan Interpretarea corelaiei pariale se realizeaz similar corelaiei bivari ate simple, la care se adaug elemente ce in de variabila de control. S-ar putea s fim interesai, la un moment dat, de relaia existent ntre genul biologic i timpul alocat studiului, pentru a vedea n ce msur sexul subiecilor determin efecte asupra timpului de studiu. Suntem n situaia asocierii unei variabile dihotomice cu o dihotomie discret, real, cu o variabil continu. Ce tip de corelaie folosim? Ai ghicit, corelaie punct biserial. n SPSS, coeficientul de corelaie punct biserial nu este altceva dect coeficientul de corelaie r Bravais-Pearson, n condiiile n care una dintre variabile este dihotomic. Unii autori (Field, 2000), (Bakeman, i alii, 2004), (Swinscow, i alii, 2002) recomand codarea variabilei dihotomice cu valorile zero i unu pentru a nu exista nici un fel de dubiu referitor la calculul acestui coeficient. n realitate, SPSS realizeaz automat conversia. n cazul nostru, variabila gen biologic este o variabil dihotomic codat cu unu i doi, iar calculul coeficientului de corelaie punct biserial nu pune probleme. Calculai coeficientul de corelaie r Bravais-Pearson ntre genul biologic i timpul de studiu.
Tabelul 1.39 Rezultatele corelaiei punct biseriale

Correlations Gen biologic Pearson Correlation Gen biologic Sig. (2-tailed) N Pearson Correlation Timp de studiu Sig. (2-tailed) N 103,00 ,085 ,391 103 103,00 1,00 Timp de studiu ,085 ,391 103 1,00

n tabelul de mai sus, putei observa lipsa oricrei asocieri ntre cele dou variabile. Putem afirma c cele dou variabile sunt independente, genul biologic nu determin nici un efect asupra timpului de studiu.

129

Statistic aplicat n tiinele socio-umane

SPSS nu dispune de proceduri distincte de calcul a coeficientului de corelaie biserial. n cazul n care variabila dihotomic are o dihotomie continu i se impune calculul acestui coeficient, putei calcula nti coeficientul de corelaie punct biserial i apoi putei aplica formula de transformare n coeficient biserial, aa cum s-a artat n capitolul dedicat acestor coeficieni.

I.5.2 Coeficieni de corelaie bazai pe date neparametrice


Tabelul 1.40 Structura bazei de date Variabila sex educatie grad inaltime greutate Eticheta Genul biologic Ultima scoala Grad militar Inaltimea Greutatea Nivel de msur Nominal Nominal Ordinal Ordinal Scale Scale Tip Numeric Numeric Numeric Numeric Numeric Numeric Caractere 1 1 1 1 3 3

culoare_ochi Culoarea ochilor

Pentru a studia, utiliznd SPSS, legtura dintre variabilele situate la un nivel de msur neparametric, baza de date creat mai sus nu ne este de prea mare ajutor. Vom realiza o nou baz de date, avnd o structur diferit.
Tabelul 1.41 Valorile variabilelor Valoare Sex 1 2 culoare_ochi 1 2 3 4 Educatie 1 2 3 4 Grad 1 2 3 4 Etichet Masculin Feminin Albastri Verzi Caprui Negri Liceul Scoala postliceala Facultate Postuniversitare Subofiter Ofiter cu grad inferior Ofiter cu grad superior General

Aceast baz de date corespunde unei cercetri imaginare, efectuat la nivelul unei uniti militare, cercetare n care ne intereseaz s nregistrm variabilele prezente n tabelul 1.40. Se observ existena unui numr de 2 variabile de nivel nominal, dou variabile ordinale i dou variabile scalare, structur suficient ndeplinirii scopurilor noastre. Etichetele variabilelor neparametrice sunt prezentate n tabelul 1.41, i nu necesit explicaii. Cunoscnd toate aceste elemente, nu v rmne dect s proiectai baza de date i

130

Cristian Opariuc-Dan s o salvai sub un nume, s spunem, Corelaii neparametrice.sav. Dup salvare, urmtorul pas este reprezentat de popularea bazei de date. n tabelul 1.42 avei structura complet a acestor informaii. Desigur, toate valorile sunt fictive i nu corespund unei cercetri reale. na rmai-v, aadar, cu mult rbdare i completai cele 50 de cazuri, pentru a putea demara apoi analiza. Desigur, la final, nu vei uita s salvai din nou baza de date, sub acelai nume, pentru a evita surprizele provocate de o eventual blocare a computerului.
Tabelul 1.42 Baza de date pentru corelaii neparametrice
Sex 1 2 2 2 1 1 1 1 2 1 1 1 1 2 1 1 1 2 1 1 2 Culoare 3 2 1 3 1 3 4 3 1 1 3 3 4 4 1 3 4 4 3 4 3 Educatie 4 4 4 4 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 Grad 4 4 3 3 3 3 4 4 4 3 3 3 3 3 3 3 3 3 3 3 2 Inaltime 172 180 184 176 173 187 178 180 170 171 172 170 185 172 187 193 184 175 187 169 171 Greutate 87 102 79 86 85 77 80 100 82 71 79 89 90 94 75 73 83 80 84 71 93 Sex 2 1 1 1 2 2 1 1 1 2 2 1 1 2 2 1 1 2 1 1 1 Culoare 3 1 4 4 2 2 2 3 4 3 1 1 4 4 3 3 3 3 3 2 2 Educatie 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 Grad 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 Inaltime 193 175 177 170 188 172 170 173 171 186 187 191 178 181 187 174 189 170 182 186 193 Greutate 94 96 92 69 81 76 93 98 74 77 92 99 72 85 72 100 86 77 90 90 97

131

Statistic aplicat n tiinele socio-umane

1 1 1 1

2 2 3 3

3 3 3 3

2 2 2 2

188 174 174 184

69 74 78 91

1 2 1 1

3 3 3 3

2 1 1 1

1 1 1 2

177 182 188 172

70 82 87 97

Pentru nceput, ne propunem s analizm relaia dintre nlimea i greutatea celor 50 de subieci. Teoretic, ambele variabile sunt de tip scalar, putndu-se folosi coeficientul de corelaie r BravaisPearson. S presupunem, ns, c nlimea subiecilor nu are o distribuie normal, ci una puternic asimetric la stnga, artnd faptul c tendina n gruFigura 1.31 Meniul de lansare a analizei pul de studiu este ctre subiecii nali. Media nu mai este un indicator reprezentativ pentru tendina central, i, prin urmare, nu vom putea folosi coeficientul de corelaie menionat mai sus. Urmtoarea alternativ este aceea a coeficienilor de corelaie Spearman i Kendall. Pentru a ncepe calculul acestor doi coeficieni, vei proceda exact la fel ca mai sus, la calculul coeficientului de corelaie r Bravais-Pearson. Vei accesa meniul Analyze, apoi submeniul Correlate i, n final, opiunea Bivariate. Se va deschide cunoscuta fereastr din figura 1.32. Atunci cnd ai calculat coeficientul de corelaie r Bravais-Pearson, v amintii, ai inclus cele dou variabile n lista variabilelor supuse analizei, apoi ai bifat caseta Pearson. n cazul nostru, lucrurile stau la fel, cu o singur excepie. Nu vom mai bifa caseta Pearson din cadrul seciunii Correlation Coefficients, ci casetele Kendalls tau-b pentru a calcula coeficientul de corelaie Kendall i Spearman pen132

Figura 1.32 Fereastra de analiz a corelaiilor

Cristian Opariuc-Dan tru a calcula coeficientul de corelaie Spearman. Alte explicaii, la acest nivel, nu sunt necesare, toate aspectele fiind lmurite anterior. Nu rmne dect s apsai butonul OK pentru ca programul s iniieze calculul acestor date. Fereastra de rezultate va afia un tabel, la fel cu tabelul 1.41, n care sunt prezentate cele dou analize, bazate pe coeficientul de corelaie Kendall i pe coeficientul de corelaie Spearman, ambii fiind, v reamintim, coeficieni de corelaie ai rangurilor. La fel ca n cazul coeficientului de corelaie r Pearson, tabelul conine trei elemente: valoarea coeficientului de corelaie, pragul de semnificaie pentru o ipotez bilateral (sau unilateral, dac am specificat acest lucru n fereastra de configurare a analizei) i numrul de subieci investigai (n). Situaia noastr ar trebui s bucure sau s supere cercettorul, n funcie de modul n care i-a formulat obiectivele. Se poate observa existena unor coeficieni de corelaie nesemnificativi, foarte mici (=0,069, =0,097) ntre nlimea i greutatea subiecilor.
Tabelul 1.43 Rezultatul analizei legturii dintre nlime i greutate

Correlations nlimea Kendall's tau_b nlimea Correlation Coefficient Sig. (2-tailed) N Greutatea Correlation Coefficient Sig. (2-tailed) N Spearman's rho nlimea Correlation Coefficient Sig. (2-tailed) N Greutatea Correlation Coefficient Sig. (2-tailed) . 50 ,097 ,503 . . 50 ,069 ,491 . 50 1,000 50 ,097 ,503 50 1,000 1,000 Greutatea ,069 ,491 50 1,000

133

Statistic aplicat n tiinele socio-umane


Tabelul 1.43 Rezultatul analizei legturii dintre nlime i greutate

Correlations nlimea Kendall's tau_b nlimea Correlation Coefficient Sig. (2-tailed) N Greutatea Correlation Coefficient Sig. (2-tailed) N Spearman's rho nlimea Correlation Coefficient Sig. (2-tailed) N Greutatea Correlation Coefficient Sig. (2-tailed) N . 50 ,097 ,503 . 50 50 . 50 ,069 ,491 . 50 1,000 50 ,097 ,503 50 1,000 1,000 Greutatea ,069 ,491 50 1,000

n concordan cu datele cercetrii, nu exist nicio legtur ntre nlimea i greutatea subiecilor, cele dou variabile fiind independente, iar noi putem s nu respingem ipoteza nul. O asemenea cercetare, presupunnd c am fi lucrat cu date reale, poate fi lipsit de valoare? Depinde de modul n care explicm rezultatele. Privind figura 1.33, n care am reprezentat grafic aceast relaie, putem observa cteva lucruri interesante. Exist, ntr-adevr, o tendin ctre un tip de corelaie pozitiv, tendin anulat ns de dou situaii particulare: de existena unui grup de persoane foarte Scunzi-Grai nalte i foarte slabe i de existena unui alt grup de persoane ceva mai numeros scunde Figura 1.33 Relaia dintre nlime i greutate i supraponderale. Lipsa unui coeficient de corelaie semnificativ se poate datora tocmai acestui lucru i, putem suspecta,
nali-Slabi

134

Cristian Opariuc-Dan influena unei variabile de grup probabil tipul constituional pe care nu am luat-o n considerare. Analiza coeficientului de corelaie Kendall ori a coeficientului de corelaie Spearman se realizeaz la fel ca i cea a coeficientului de corelaie r Bravais-Pearson, drept pentru care nu vom intra n amnunte referitoare la acest lucru. Cum vom proceda n condiiile n care dorim s aflm dac exist vreo legtur ntre genul biologic al subiecilor i culoarea ochilor? Ambele
Figura 1.34 Meniul de accesare a tabelelor de contingen.

variabile sunt la un nivel de msur nominal, iar singura posibilitate pe care o avem este aceea de a utiliza tabelele de contingen.

n SPSS for Windows, construcia i analiza tabelelor de contingen se afl n cadrul meniului Analyze la Descriptive Statistics i apoi opiunea Crosstabs. Termenul semnific ideea de tabele ncruciate, de fapt chiar ideea conceptului menionat mai sus, cea de tabel de contingen. La accesarea acestei opiuni, se va deschide o fereastr nou, fereastra de configurare i de analiz a tabelului de contingen. Fiind un element nou, ne vom concentra atenia asupra formularului. Se observ cteva elemente comune: lista variabilelor din baza de date, buto- Figura 1.35 Fereastra de configurare i analiz a tabelelor de contingen nul de lansare a analizei OK, de copiere a codului Paste, de reiniializare a formularului Reset, de anulare Cancel i de asisten Help, alturi de butoanele-sgeat de transfer. 135

Statistic aplicat n tiinele socio-umane

Celelalte elemente sunt, n marea lor majoritate, controale noi, astfel nct le vom trata n detaliu. Listele Row(s): i Column(s): se refer la variabilele ce vor fi reprezentate pe liniile, respectiv pe coloanele tabelului de contingen. SPSS permite att analiza tabelelor de contingen bidimensionale, ct i a celor multidimensionale. Rezult c, putem include mai multe variabile n listele Row(s) ori Column(s), n vederea construciei unor tabele multidimensionale. Seciunea Layer vizeaz includerea n analiz a uneia sau a mai multor variabile de control, variabile care presupunem c ar putea influena tabelul de contingen. De exemplu, dac am studia relaia dintre culoarea ochilor i culoarea prului i am presupune c aceast relaie este influenat de genul biologic, atunci am include variabila gen biologic n lista Layer, aceasta funcionnd ca variabil de control. Mai mult, SPSS ne permite construcia de modele ierarhice folosind variabile de control, pentru a vedea efectul exercitat de introducerea, succesiv, a acestora. La includerea uneia sau a mai multor variabile n aceast list, programul efectueaz analize separate pentru fiecare categorie a fiecrei variab ile de control introduse. Vom obine, aadar, o analiz a relaiei dintre culo area ochilor i culoarea prului pentru brbai i o alt analiz, separat, pentru femei. Butoanele Previous i Next permit navigarea prin modelele de variabile de control, n vederea adugrii sau n vederea modificrii acestora. Dac bifai caseta Display clustered bar charts, comunicai programului SPSS s construiasc un grafic cu bare, grupat dup o variabil, fiecare grup coninnd categoriile celeilalte variabile. n cazul nostru, SPSS ar construi dou grupuri de grafice cu bare pentru femei i pentru brbai fiecare grup coninnd graficul cu bare pentru culoarea ochilor.

136

Cristian Opariuc-Dan Bifarea casetei Suppress tables are ca efect includerea tuturor tabelelor de contingen ntr-unul singur (dezactivndu-se i butoanele Cells i Format). Personal nu recomand bifarea acestei opiuni, deoarece rezultatele pot s piard foarte mult din lizibilitate. Caseta are efect numai asupra modului de prezentare al datelor, nu i asupra procedurilor de calcul. Apsarea butonului Exact determin deschiderea formularului de configurare a testelor de semnificaie, furniznd o serie de metode adiionale. Varianta Asymptotic only este metoda implicit, bazat pe calculul nivelului de semnificaie n funcie de tipul distribuiei teoretice. Figura 1.36 Configurarea Este, dac dorii, metoda clasic de calcul a semtestelor de semnificaie nificaiei, aa cum a fost ea descris pn acum, n acest volum. O valoare este considerat semnificativ dac pragul de se mnificaie este mai mic de 0,05. Totui, varianta pleac de la premisa c setul de date este suficient de mare i uniform distribuit. Pentru un numr redus de cazuri sau n condiiile n care omogenitatea distribuiei pune probleme, aceast metod poate s nu reprezinte un bun indicator al pragului de semnificaie. Celelalte metode, Monte Carlo i Exact, se vor folosi n condiiile n care distribuia datelor nu permite utilizarea metodei clasice. Metoda Monte Carlo reprezint o form precis de analiz a nivelului de semnificaie, bazat pe simulare, derivat din calculul repetat, efectuat pe mai multe eantioane de tabele de contingen de aceleai dimensiuni, i cu aceleai totaluri marginale ca i tabelul analizat. Metoda Monte Carlo permite estimarea precis a pragului de semnificaie, chiar n condiiile n care nu se poate aplica metoda clasic, asimptotic. Se poate folosi n cazul

137

Statistic aplicat n tiinele socio-umane

n care numrul subiecilor este suficient de mare, ns avem de a face cu o distribuie problematic. Singurele elemente care trebuie configurate, se refer la nivelul de ncredere (Confidence level), care poate fi 95% pentru un prag de semnificaie de 0,05 sau 99% pentru un prag de semnificaie de 0,01 i numrul de eantioane pe baza crora se va face simularea (Number of samples). Valoarea implicit, 10.000, este suficient. O valoarea mai mare determin i un nivel de precizie mai mare, ns consum foarte mult din puterea de calcul a procesorului. Metoda Exact permite calcularea precis a probabilitii de apariie a unui rspuns. n mod normal, un nivel de semnificaie mai mic de 0,05 este considerat, i aici, suficient, indicnd existena unei relaii ntre variabile. Deoarece este o operaiune de durat, poate fi configurat limita de timp per fiecare test. Bifnd caseta Time limit per test, putei comunica programului s nu execute teste care depesc durata menionat. n general, nu prea avem motive s folosim alt metod dect cea clasic, asimptotic. Dac totui dorii s fii extrem de precii, putei folosi metoda Monte Carlo. Utilizarea metodei Exact presupune un computer foarte puternic i mult rbdare, analiza fiind de lung durat. Uneori s-ar putea s avei surpriza c v nghea calculatorul i singura variant va fi s-l scoatei din priz. S nu spunei c nu v-am avertizat! Apsarea butonului Continue permite revenirea n formularul iniial, cu memorarea testului de semnificaie dorit. Butonul Statistics ne intereseaz n mod deosebit, deoarece din aceast fereastr putem alege indicatorii care ne intereseaz. Formularul este foarte intuitiv, grupat pe seciuni, conine doar 138
Figura 1.37 Configurarea coeficienilor de corelaie

Cristian Opariuc-Dan casete de bifare. Remarcai o serie de indicatori pe care-i cunoatei, dar i indicatori de care probabil nu ai auzit. Haidei s-i lum pe fiecare n parte. Caseta Chi-square se refer exact la coeficientul de contingen 2. Bifai aceast caset, pentru a calcula coeficientul de contingen Pearson 2, coeficientul de contingen probabilistic-proporional 2, testul de semnificaie Fisher i coeficientul de contingen Yate 2 corectat pentru continuitate. tiu c nu ai auzit de aceti coeficieni. n esen, sunt forme derivate din 2, pentru a rspunde unor necesiti specifice de cercetare. Spre exemplu, 2 corectat pentru continuitate se folosete strict pentru tabele de continuitate bidimensionale de tip 2x2, aa cum am vzut deja. Pentru tabele bidimensionale cu mai multe linii i coloane, reperul este 2 Pearson sau 2 probabilistic proporional. Dac cele dou variabile nu sunt nominale sau ordinale, ci se situeaz la un nivel scalar, cel mai bun indicator va fi coeficientul de asociere liniar 2. Testul de semnificaie Fisher se folosete doar pentru tabele 2x2, n cazul n care frecvena ateptat la nivelul unei celule este mai mic de 5. Nu v impacientai. Toate aceste elemente le vom discuta n momentul n care vom analiza rezultatele. Caseta Correlations o putei folosi n condiiile n care tabelul de contingen conine date aflate la un nivel ordinal sau scalar. Se va calcula coeficientul de corelaie Spearman, dac datele se afl la un nivel ordinal sau/i coeficientul de corelaie r Pearson dac datele se afl la un nivel scalar. Iat, cel puin un motiv pentru care este important s definim corect nivelul de msur atunci cnd proiectm baza de date. Seciunea Nominal se refer la coeficieni de asociere pentru date nominale. Putei bifa caseta Contingency coefficient pentru a calcula coeficientul de contingen, caseta Phi and Cramers V pentru a calcula coeficienii de contingen Pearson i v Cramer, caseta Lambda pentru coeficientul de asociere , Goodman i Kruskal, acela care permite realizarea unui fel de predicii i caseta Uncertainty coefficient, cu ajutorul creia

139

Statistic aplicat n tiinele socio-umane

calculai coeficientul de incertitudine. Acesta din urm nu a fost studiat, ns seamn mult cu coeficientul Goodman i Kruskal. Msoar, de asemenea, reducerea proporional a erorilor atunci cnd o variabil este folosit pentru a prezice o alt variabil. Seciunea Ordinal permite calculul coeficienilor de corelaie n situaia n care variabilele se afl la un nivel ordinal. Bifarea casetei Gamma permite calculul coeficientului de corelaie , pe care l-am studiat. Casetele Kendalls tau-b i Kendalls tau-c permit calculul variantelor b i c ale coeficientului de corelaie al rangurilor Kendall. Singura diferen dintre cei doi coeficieni este aceea c b ine seama de rangurile egale iar c nu ine seama de aceste ranguri. Caseta Somers d ofer posibilitatea calculului coeficientului de corelaie d Somers. Acest indicator nu a fost studiat, ns se folosete ca i coeficientul ce corelaie Spearman sau Kendall Seciunea Nominal by Interval se refer la cazul n care o variabil se afl la un nivel de msur de interval iar o alt variabil este nominal. Singurul coeficient pus la dispoziie de SPSS este coeficientul (eta), pe care nu l-am analizat n detaliu n aceast lucrare. Coeficientul este unul nedirecional, ia valori ntre 0 i 1 i exprim intensitatea legturii dintre o variabil nominal i una ordinal sau scalar. n imensa lor generozitate, pltit, desigur, cu bani grei, programatorii de la SPSS Inc. ne ofer o serie de indicatori suplimentari, astfel: Caseta Kappa ne ofer o msur a acordului. De fapt, calculeaz coeficientul Cohen , un coeficient asemntor coeficientului de concordan W Kendall. SPSS nu ofer o modalitate direct de calcul a coeficientului de concordan W Kendall, dei include aceast procedur n anumite teste st atistice. Oricum, coeficientul Cohen se poate folosi ca o alternativ la coef icientul W Kendall, n situaia n care ambele variabile au acelai numr de categorii i aceleai valori ale categoriilor.

140

Cristian Opariuc-Dan Caseta Risk nu se refer la riscul de a v pierde buna dispoziie citind aceast carte, ci reprezint un coeficient care msoar puterea legturii dintre prezena unui factor i apariia unui eveniment. Dac dorii s studiai relaia dintre prezena soacrei i apariia unui conflict n familie, acesta este coeficientul care vi se potrivete cel mai bine. Coeficientul McNemar studiaz legtura dintre dou variabile dihotomice i se bazeaz tot pe 2. Se folosete, de obicei, n cercetri de tipul nainte i dup, pentru a se identifica modificarea rspunsurilor n urma apariiei unei situaii experimentale. Cellalt element din aceast fereastr nu Figura 1.38 Configurarea datelor n tabele prezint un interes deosebit pentru subiectul nostru, referindu-se mai mult la studiul diferenelor dect la studiul corelaiilor, motiv pentru care l vom discuta cu alt ocazie. Butonul Cells permite configurarea datelor ce vor fi prezentate n tabelele de contingen. Seciunea Counts are dou casete de bifare: Observed i Expected. Ele permit afiarea, n tabelul de contingen, a frecvenelor actuale (observate) i/sau a frecvenelor estimate (teoretice), n condiiile n care se lucreaz cu 2. Seciunea Percentages permite adugarea i a frecvenelor relative (procente) pentru variabilele situate pe linii (Row), i/sau pentru variabilele situate pe coloane (Column) ori la nivelul rezultatelor marginale (Total). Reziduurile nu reprezint altceva dect diferena dintre scorul observat i cel estimat. Controlul afirii acestor elemente se realizeaz prin intermediul seciunii Residuals. Acestea se pot afia n form brut, nestandar-

141

Statistic aplicat n tiinele socio-umane

dizat (Unstandardized), ca diferen ntre numrul de cazuri observate i numrul de cazuri estimate. Ca s v reamintii, numrul de cazuri observate reprezint numrul de subieci, din baza de date, care au acea caracteristic, iar numrul de cazuri estimate (teoretice) se refer la numrul de cazuri care ar trebui s existe n celula respectiv, dac nu ar exista nicio relaie ntre cele dou variabile. Dac rezultatul acestui reziduu este pozitiv, atunci nseamn c numrul de cazuri din acea celul este mai mare n comparaie cu situaia n care cele dou variabile ar fi independente. Forma standardizat se poate afia prin bifarea opiunii Standardized. SPSS va calcula raportul dintre valoarea rezidual brut i abaterea standard a acestei estimri. Aceste date sunt reprezentate pe o distribuie z, cu media 0 i abaterea standard 1, avnd aceeai semnificaie ca i scorurile z. Din acest motiv, se mai numesc i reziduuri Pearson. Bifarea casetei Adjusted standardized permite afiarea reziduurilor n form standardizat, exprimate ns ca abateri standard n jurul mediei. Este, dac dorii, un fel de etalonare n uniti sigma a reziduurilor. Seciunea Noninteger Weights are n vedere modul de reprezentare a rezultatelor n celulele tabelului de contingen. n mod normal, celulele tabelului de contingen conin numere ntregi. Sunt ns situaii n care se pot opera deplasri ori ponderri. O deplasare cu o valoare fracionar (spre exemplu o multiplicare a tuturor datelor cu o constant de tipul 1,19) va determina afiarea n celulele tabelului a unor numere zecimale. Aceste valori pot fi rotunjite sau trunchiate, folosindu-se opiunile acestei seciuni. Opiunea Round cell counts are ca efect rotunjirea valorilor din baza de date, nainte de a se efectua calculele statistice. Opiunea Truncate cell counts are ca efect trunchierea valorilor din baza de date nainte de a se efectua calculele statistice. Diferena dintre rotu njire i trunchiere const n faptul c la rotunjire valorile zecimale se transfor-

142

Cristian Opariuc-Dan m n ntregi n sensul superior (de exemplu 1,39 va fi rotunjit la 2) iar la trunchiere, valorile zecimale se transform n ntregi, n sensul inferior (1,39 va fi trunchiat la 1). Operaiunile nu afecteaz datele din baza de date, ci doar rezultatele calculelor statistice. Opiunea Round case weights are ca efect rotunjirea datelor direct n baza de date, naintea efecturii oricror calcule statistice. Opiunea Truncate case weights are ca efect trunchierea datelor direct n baza de date, naintea efecturii oricror calcule statistice. Desigur, opiunea No adjustments nu efectueaz nicio ajustare, datele fiind folosite aa cum sunt.
Figura 1.39 Configurarea formatrii datelor

Ultimul buton rmas este butonul Format care controleaz ordinea de sortare a variabilei reprezentate pe linii. Putem opta pentru o sortare ascendent a categoriilor variabilei reprezentat pe linii (alegnd opiunea Ascending) sau pentru o sortare descendent, de la mare la mic, a aceleiai variabile (alegnd opiunea Descending). Acestea sunt, n mare, opiunile referitoare la construcia i analiza t abelelor de contingen. Acum, s revenim la problemele noastre. Ne-am propus s studiem relaia existent ntre genul biologic al persoanelor i culoarea ochilor. Ambele sunt variabile situate la nivel nominal, singurele statistici ce pot fi calculate sunt cele bazate pe date nominale. n lista Row(s) vom include genul biologic iar n lista Column(s) includem culoare ochilor. Vom bifa i caseta Display clustered bar charts pentru a fora SPSS s reprezinte graficul cu bare al acestor variabile i cam att aici. Opiunea de calcul a testelor de semnificaie va rmne cea 143

Statistic aplicat n tiinele socio-umane

implicit opiunea asimptotic, astfel nct putem ignora butonul Exact. Butonul Statistics ne intereseaz ceva mai mult. Aici vom bifa caseta Chi-Square, pentru a calcula coeficienii 2. De asemenea, n seciunea Nominal, vom calcula coeficientul de contingen i coeficienii i v Cramer. Celelalte casete nu le vom bifa, deoarece nu suntem n situaia de a ncerca predicii i nici nu avem variabile situate la vreun nivel superior de msur. Apsnd butonul Cells vom comunica programului modalitatea de afiare a rezultatelor. Dorim s prezentm att frecvenele ateptate, ct i cele observate, ne intereseaz i toate reziduurile. Dup bifarea opiunilor respective, putem apsa butonul Continue pentru a reveni la formularul iniial i apoi butonul OK n vederea lansrii analizei. Acum, dac vei privi n fereastra de afiare a rezultatelor, vei rmne surprini. SPSS a generat nu mai puin de patru tabele i un grafic.
Tabelul 1.44 Sumarul analizei Case Processing Summary Cases Valid N Genul biologic * Culoarea ochilor Percent Missing N 0 Percent ,0% N Total Percent

50 100,0%

50 100,0%

Primul tabel se refer la sumarul analizei. Se poate observa c toi cei 50 de subieci au scoruri la cele dou variabile, nu exist cazuri lips, datele sunt utilizabile 100%. Al doilea tabel nu este altceva dect tabelul ncruciat de contingen. Se poate observa reprezentarea pe coloane a variabilei culoarea ochilor, n timp ce pe linii este reprezentat variabila gen biologic. Datele din acest tabel ne ofer informaii valoroase referitoare la structura intern a analizei i vor trebui incluse n orice raport de cercetare. Iat o prim situaie n care ar

144

Cristian Opariuc-Dan fi trebuit s folosim opiunile de rotunjire sau trunchiere, fr afectarea bazei de date. Vei vedea imediat de ce. Ce ne spune acest tabel? n primul rnd avem un numr de 34 de brbai. Dintre acetia, 5 au ochi albatri, 5 au ochi verzi, 16 au ochi cprui i 8 au ochi negri. Similar, am investigat 16 femei, 3 cu ochi albatri, 3 cu ochi verzi, 7 cu ochi cprui i 3 cu ochi negri. Frecvenele estimate, pentru brbai, sunt 5,4 pentru ochi albatri, 5,4 pentru ochi verzi, 15,6 pentru ochi cprui, 7,5 pentru ochi negri. Situaia este redat n mod analog i pentru femei. T otui, ce nseamn, spre exemplu, 5,4? nseamn cumva cinci brbai i jumtate? La acest nivel de msur ar fi fost mai bine s folosim opiunile de rotunjire pentru a evita asemenea exprimri zecimale. Cnd folosim, ns, tru nchierea i cnd folosim rotunjirea? n general, dac baza de date conine un numr mare de cazuri, vom folosi trunchierea. Chiar dac pierdem informaie, ctigm precizie. Dac numrul de cazuri este relativ mic, este de preferat s utilizm rotunjirea. Beneficiem de mai mult informaie n detrimentul preciziei.
Tabelul 1.45 Tabelul de contingen Genul biologic * Culoarea ochilor Cross tabulation Culoarea ochilor Albastri Verzi Caprui Negri Total Genul biologic Masculin Count Expected Count Residual Std. Residual Adjusted Residual Feminin Count Expected Count Residual Std. Residual Adjusted Residual Total Count Expected Count 5 5,4 -,4 -,2 -,4 3 2,6 ,4 ,3 ,4 8 8,0 5 5,4 -,4 -,2 -,4 3 2,6 ,4 ,3 ,4 8 8,0 16 15,6 ,4 ,1 ,2 7 7,4 -,4 -,1 -,2 23 23,0 8 7,5 ,5 ,2 ,4 3 3,5 -,5 -,3 -,4 11 11,0 50 50,0 16 16,0 34 34,0

145

Statistic aplicat n tiinele socio-umane

Urmtoarele linii din tabel se refer la reziduuri. Observm c pentru culorile deschise (albatri i verzi) brbaii se situeaz sub frecvena atept at, n timp ce femeile se situeaz sub frecvena ateptat la culorile nchise (cprui i negri). Ne-am putea gndi la o predominan a culorilor nchise pentru brbai i a culorilor deschise pentru femei, dei forma standardizat a reziduurilor arat abateri mici de la situaia n care nu ar exista nici o relaie ntre cele dou variabile. Presupunerile anterioare se confirm n tabelul 1.44. Observm c nu exist nicio legtur ntre cele dou variabile. Nu se poate stabili nicio relaie ntre culoarea ochilor i genul biologic al subiecilor.
Tabelul 1.46 Coeficientul de contingen 2 Chi-Square Tests Value Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases ,361a ,359 ,320 50 df 3 3 1 Asymp. Sig. (2sided) ,948 ,949 ,571

a. 3 cells (37,5%) have expected count less than 5. The minimum expected count is 2,56.

Absena legturii este confirmat i de coeficienii de asociere derivai din . ntr-adevr, putem s nu respingem ipoteza nul conform creia nu exist nicio legtur ntre culoarea ochilor i genul biologic al subiecilor.
2 Tabelul 1.47 Coeficieni de asociere derivai din 2 Symmetric Measures Value Nominal by Nominal Phi Cramer's V Contingency Coefficient N of Valid Cases ,085 ,085 ,085 50 Approx. Sig. ,948 ,948 ,948

146

Cristian Opariuc-Dan

Reprezentarea grafic a datelor vine n sprijinul demonstraiei cifrice. Genul persoanelor investigate nu are nicio legtur cu culoarea ochilor acestora. Graficul arat doar o preponderen a ochilor cprui, la ambele sexe i o oarecare frecven mai ridicat a ochilor negri la brbai. Culorile deschise au n Figura 1.40 Reprezentarea grafic a relaiei dintre continuare o frecven sczuculoarea ochilor i genul biologic. t, att la brbai ct i la femei. Iat c, prin procedee neparametrice, situate chiar la un nivel nominal, sa putut demonstra o ipotez de cercetare. nainte de a ncheia, vom furniza cteva exemple, fr a intra n det alii, pentru a v putea familiariza cu procedurile de lucru. S presupunem c dorim s aflm relaia dintre culoarea ochilor i gradul militar, adic s vedem dac, ntr-adevr, coloneii au ochi albatri. Suntem n situaia analizei legturii ntre o variabil nominal (culoarea ochilor) i o variabil ordinal (gradul militar). n acest caz avem dou posibiliti. Fie abordm analiza la nivel nominal, la fel cum am procedat anterior, deoarece una dintre variabile se afl la acest nivel i aplicm principiul an alizei bazate pe variabila cea mai slab, fie folosim coeficientul , coeficient care relaioneaz o variabil nominal cu una ordinal sau scalar. Noi vom aborda ambele situaii. Prin urmare, includem pe linii variabila culoarea ochilor i pe coloane gradul militar. Bifm i caseta Display clustered bar charts pentru a putea afia grafic variabilele, apoi alegem opiunile Chi-

147

Statistic aplicat n tiinele socio-umane

square, Contingency coefficient, Phi and Cramers V, dar i opiunea Eta din fereastra de configurare a statisticilor. Vom considera c una dintre variabile nu ndeplinete condiiile testrii asimptotice i vom alege metoda Monte Carlo din fereastra de configurare a testelor de semnificaie. n final, apsm butonul OK pentru a lansa analiza. Nu vom furniza toate tabelele, majoritatea fiind identice cu ele din analiza de mai sus. Constatm c statisticile bazate pe 2 sunt mult mai elaborate la utilizarea metodei Monte Carlo. Avem pragurile de semnificaie att pentru m etoda clasic, asimptotic, dar i pentru metoda Monte Carlo, alturi de intervalele de ncredere. Desigur, nu exist nicio legtur ntre cele dou variabile, aa cum reiese i din tabelul 1.47, tabelul coeficienilor de asociere derivai din 2.
Tabelul 1.48 Coeficieni de asociere 2 Chi-Square Tests Monte Carlo Sig. (2-sided) Monte Carlo Sig. (1-sided) 99% Confidence Interval Value Pearson Chi-Square Likelihood Ratio Fisher's Exact Test Linear-by-Linear Association N of Valid Cases 13,004a 14,002 11,963 ,123c 50 1 df 9 9 Asymp. Sig. (2-sided) Sig. ,162 ,158b ,122 ,210b ,159b ,725 ,769b Lower Bound ,149 ,200 ,149 ,758 Upper Bound ,168 ,220 ,168 ,779 ,397b ,384 ,409 Sig. 99% Confidence Interval Lower Bound Upper Bound

a. 13 cells (81,3%) have expected count less than 5. The minimum expected count is ,80. b. Based on 10000 sampled tables with starting seed 2000000. c. The standardized statistic is -,351.

Toi cei trei coeficieni de asociere calculai arat, din nou, independena celor dou variabile. Oricum, se poate observa creterea preciziei pra-

148

Cristian Opariuc-Dan gului de semnificaie la utilizarea metodei Monte Carlo n comparaie cu testul clasic.
Tabelul 1.49 Coeficieni de asociere derivai din 2 Symmetric Measures Monte Carlo Sig. 99% Confidence Interval Value Approx. Sig. Nominal by Nominal Phi Cramer's V Contingency Coefficient N of Valid Cases ,510 ,294 ,454 50 Sig.
a

Lower Bound Upper Bound ,149 ,149 ,149 ,168 ,168 ,168

,162 ,158a ,162 ,158 ,162 ,158a

a. Based on 10000 sampled tables with starting seed 2000000.

Ultimul tabel analizat este cel al coeficientului de asociere . Aici va trebui s facem cteva precizri, deoarece asocierea se trateaz direcional. Acest lucru nseamn c avem o variabil dependent (variabila situat la nivel scalar) i o variabil independent (variabila situat la nivel nominal). SPSS nu are de unde s tie care este variabila dependent i care este vari abila independent, prin urmare furnizeaz ambele valori. n cazul nostru, variabila dependent este gradul militar iar cea independent culoarea ochilor. Coeficientul care ne intereseaz este, aadar, situat pe a doua linie linia carte trateaz gradul militar (=0,184).
Tabelul 1.50 Coeficientul de asociere nominal ordinal Directional Measures Value Nominal by Interval Eta Culoarea ochilor Dependent Grad militar Dependent ,120 ,184

Remarcm valoarea mic a acestei legturi i, de asemenea, lipsa pragului de semnificaie. SPSS nu furnizeaz valoarea semnificaiei pentru acest coeficient, ea fiind tratat la analizele folosind date nominale. De aceea, coeficientul va fi ntotdeauna nsoit de analize bazate pe 2.

149

Statistic aplicat n tiinele socio-umane

Un ultim exemplu i propune analiza relaiei dintre ultima coal absolvit i gradul militar. Ambele variante se afl la nivel ordinal, astfel nct putem bifa i caseta Correlations, dar i ceilali coeficieni de corelaie pentru date ordinale: Gamma, Sommers d, Kendalls tau-b i Kendalls tau-c. Dac avei curaj, alegei opiunea Exact cu limitare la 5 minute, pentru a vedea cum funcioneaz i acest element. Apoi salvai dac ai lucrat ceva, lansai analiza i luai-v o mic pauz. Glumeam! Numrul mic de date permite analiza rapid a acestora. Observm c legtura dintre cele dou variabile este semnificativ la un prag de semnificaie mai mic de 0,01, prag furnizat att de testul clasic de semnificaie, ct i de testul exact. Coeficienii au valori ridicate, fapt care indic existena unei legturi pozitive, semnificative i puternice ntre gradul militar i ultima coal absolvit. Desigur, gradele militare nalte presupun i studii pe msur, relaia nefiind un fapt surprinztor.
Tabelul 1.51 Coeficieni de corelaie pentru date aflate la nivel ordinal Symmetric Measures Value Ordinal by Ordinal Kendall's tau-b Kendall's tau-c Gamma Spearman Correlation Interval by Interval Pearson's R N of Valid Cases a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. c. Based on normal approximation. ,742 ,661 ,942 ,823 ,780 50 Asymp. Std. Errora Approx. Tb Approx. Sig. Exact Sig. ,040 ,041 ,040 ,034 ,041 16,127 16,127 16,127 10,025 8,629 ,000 ,000 ,000 ,000c ,000
c

,000 ,000 ,000 ,000 ,000

Exerciii: Analizai i interpretai legturile dintre: gen biologic i grad militar, culoarea ochilor i ultima coal absolvit, gen biologic i greutate. Explicai i argumentai utilizarea coeficienilor.

150

Cristian Opariuc-Dan V voi lsa acum n compania SPSS, s v jucai cu opiunile i cu i ndicatorii corelaiilor, s experimentai mai multe variante, deoarece numai aa vei putea s v perfecionai. Nu vom ncheia, ns, acest capitol, dect dup ce vom realiza cteva referiri generale la modul de raportare al studiilor corelaionale.

I.5.3 Raportarea studiilor corelaionale


Pe parcursul acestui capitol am fcut deseori referire la stilul, modul n care se pot raporta studiile de tip corelaional. Desigur, nu exist un ablon standard de raportare, acest lucru rmnnd la latitudinea, experiena i talentul cercettorului. Exist ns o serie de principii generale, a cror respectare v poate scuti de surpriza neplcut a respingerii vreunei lucrri. Am menionat deja c la raportarea unei corelaii sunt importante trei elemente: intensitatea corelaiei, dat de valoarea coeficientului de corelaie, sensul corelaiei, doar pentru coeficienii direcionali, dat de semnul coeficientului de corelaie i pragul de semnificaie. Unii autori (Field, 2000) afirm c este important raportarea efectului, sub forma varianei comune. Desigur, pot fi formulate i o serie de reguli, n general mai mult sau mai puin acceptate i respectate: 1. Nu se recomand scrierea cifrei 0 naintea punctului zecimal, deoarece reprezint o exprimare redundant, atta timp ct i coeficientul, i pragul de semnificaie au o amplitudine cuprins ntre 0 i 1. Prin urmare, nu se recomand publicarea unui coeficient de corelaie r Bravais-Pearson sub forma r=0,57, ci n forma r= ,57 sau r= .57. La fel raportm i pragul de semnificaie. Nu vom scrie p<0,01 ci p< .01 sau p< ,05. Desigur, eu nu am respectat aceast regul din considerente didactice. n mod normal, o respect n lucrrile tiinifice i v recomand i dumneavoastr s o facei.

151

Statistic aplicat n tiinele socio-umane

2. Se recomand precizarea situaiei n care s-a utilizat o ipotez unilateral (unidirecional). Neprecizarea acestui lucru determin, implicit, considerarea ipotezei ca fiind bilateral. n general, ipotezele bilaterale nu se specific, ci se specific doar ipotezele unilaterale. Dac avei o ipotez de tipul exist o legtur pozitiv ntre anxietate i depresie, aceasta este o ipotez unilateral. Regula impune o raportare de genul r= ,87; p(unilateral) < ,01 sau, dac publicai n strintate, r= .87; p(onetailed) < .01 3. Fiecare coeficient de corelaie se exprim printr-o anumit liter, n general acceptat n literatura de specialitate. De exemplu, coeficientul de corelaie Bravais-Pearson se reprezint prin litera r, coeficientul Spearman prin i aa mai departe, dup cum ai observat. Va trebui s respectai aceast notaie. Totui, n situaia n care folosii alte simboluri (repet, situaie care trebuie evitat), suntei obligat s furnizai o legend explicativ a acestora, nsoit de formulele, expresiile de calcul. 4. n tiinele socio-umane, pragul de semnificaie acceptat este de .05. Am susinut deja c, n general, o cercetare nu implic raportarea exact a acestui prag ci raportarea sub forma unei inegaliti. Aadar, nu folosii niciodat expresia p= .000 sau p= .003 ci expresii de forma p< .05, p< .01 sau p< .001, acesta fiind i standardul raportrilor tiinifice. 5. Un prag de semnificaie p= .05 nu este semnificativ. Sunt semnificative doar pragurile mai mici de .05, nu i cele egale cu aceast valoare. n tiinele sociale, de obicei raportm semnificaii mai mici de .05 sau mai mici de .01. Foarte rar

152

Cristian Opariuc-Dan ajungem la niveluri mai mici de .001 i n mod excepional la praguri de semnificaie mai mici de .0001. n sfrit, am ajuns i la finalul acestui capitol. A fost, ntr-adevr, un capitol destul de lung, ns i informaia a fost consistent. Acum, sper c avei o idee precis asupra semnificaiei conceptului de corelaie, mai exact a celui de legtur ntre variabile. Putei, s fii mndri i s dai lecii colegil or n domeniul studiilor corelaionale, ns nu v bucurai prea tare, deoarece avem de discutat lucruri cel puin la fel de interesante. Luai-v o pauz. Mergei la un grtar, la iarb verde, relaxai -v, deoarece imediat vom aborda un alt capitol, i anume cel al testelor statistice. n concluzie:
Relaiile stabilite n urma analizei a dou variabile poart numele de analize biv ariate, spre deosebire de analizele univariate care au n vedere doar o singur var iabil; Gradul de asociere ntre dou variabile se bazeaz pe conceptul ce covarian. Msura standardizat a covarianei poart numele de corelaie; Coeficienii de corelaie pot fi parametrici i neparametrici, dup cum cele dou variabile ndeplinesc sau nu condiiile de aplicare ale statisticilor parametrice; Coeficientul de corelaie al rangurilor Spearman se poate folosi, n general, pe ntru variabile ordinale provenite din variabile continui sau pentru variabile continui care nu ndeplinesc condiiile necesare aplicrii statisticilor pa rametrice; Coeficientul de corelaie al rangurilor Kendall, are mai multe forme, se bazeaz pe calculul inversiunilor i al proversiunilor i se folosete pentru variabile aflate natural la un nivel de msur ordinal sau pentru variabile cantitative care nu ndeplinesc condiiile de aplicare a statisticilor parametrice; Coeficientul de contingen 2 are mai multe forme i se folosete n cazul variabilelor nominale, n calcule bazate pe tabele de contingen. Este un coeficient nedire cional i nestandardizat; Coeficientul de asociere este o form standardizat a coeficientului 2 i se utilizeaz, n general, pentru dou variabile dihotomice. n cazul n care una dintre v ariabile nu mai este dihotomic, acest coeficient nu are relevan; Coeficientul de contingen Pearson (cc) este o variant a coeficientului , care poate fi utilizat pentru variabile cu mai multe categorii; Coeficientul de contingen Tschuprow (t) se bazeaz tot pe coeficientul i ine seama de acesta i de numrul de categorii din cadrul fiecrei variabile, fiind o form ajustat a coeficientului ;

153

Cristian Opariuc-Dan (formula 8.5)

( )

Dac vom aplica formula pe cazul anterior, vom obine la un nivel de precizie de 5%: ( ) Observm c valoarea se apropie mult de cea obinut anterior prin corecie.

VIII.4 Construcia eantioanelor n SPSS


SPSS prezint un instrument foarte puternic de creare a eantioanelor n condiiile n care avei la dispoziie baza de eantionare. Cu ajutorul programului SPSS, putei crea urmtoarele tipuri de eantioane: Eantioane simple aleatorii, cu sau fr nlocuire; Eantioane stratificate i pe clusteri; Eantioane multistadiale; Eantioane probabilistice proporional cu mrimea sau tipuri de eantioane nealeatorii.

Figura 8.4 Meniul de creare i analiz a eantioanelor

Structura eantioanelor n SPSS se prezint sub forma unor fiiere tip plan. Exist dou categorii de planuri: Planul de eantionare conine specificaiile de definire a eantionului; Planul de analiz conine date necesare procedurilor de analiz complex pentru a calcula variana eantionului. Planul

285

Statistic aplicat n tiinele socio-umane

include structura eantionului, metodele de estimare pentru fiecare stadiu, referinele la variabilele de interes. Debutul procedurii de creare a unui eantion se face prin deschiderea bazei de eantionare. Vom folosi, n acest scop, o baz de date pus la dispoziie de SPSS Inc., situat n directorul n care s-a instalat aplicaia. Baza de date se numete 1991 U.S. General Social Survey.sav i conine un numr de 1517 nregistrri, reprezentnd rezultatele unui sondaj efectuat n Statele Unite. Deoarece volumul de date este destul de mare, avnd i o serie de v ariabile factuale i demografice, putem folosi acest fiier ca exemplu pentru baza noastr de eantionare.

VIII.4.1

Crearea unui eantion n SPSS

Proiectarea unui nou plan de eantionare se realizeaz prin apelarea meniului Analyze, iar din submeniul Complex Samples se alege opiunea Select a Sample. Crearea unui eantion este asistat de un program special (Wizard sau asistent) care presupune mai muli pai.

Figura 8.5 Primul pas al crerii unui eantion. Salvarea fiierului plan

Prima fereastr afiat ne solicit alegerea unui fiier n care va fi stocat planul de eantionare. Opiunea implicit este Design a sample, pe care o vom folosi pentru a specifica locaia i numele planului de eantionare. Vom putea introduce direct calea ctre fiierul ce urmeaz a fi salvat sau vom 286

Cristian Opariuc-Dan putea apsa butonul Browse pentru a alege locul pe hard-disc unde va fi salvat planul de eantionare. Evident, va trebui s furnizm i un nume pentru acest fiier. n cazul nostru, am denumit fiierul Test.csplan i a fost salvat direct pe discul C:\. Observai c extensia fiierelor de tip plan de eantionare este .csplan. Pentru a modifica un plan de eantionare existent, avei la dispoziie opiunea Edit a sample design. Cu ajutorul acesteia, vei putea reconfigura sau elimina stadii din cadrul unui plan de eantionare multistadial creat anterior. Evident, acest plan de eantionare va trebui iniial deschis prin tast area cii ctre fiierul de tip .csplan sau folosind butonul Browse. Dac avei deja un plan de eantionare fcut i dorii s creai un eantion n baza acestuia, putei folosi opiunea Draw a sample, dup care alegei fiierul plan dorit, la fel ca mai sus. Trecerea la urmtoarea etap se face prin intermediul butonului Next. Putei oricnd abandona operaia apsnd pe butonul Cancel sau putei parcurge sistemul de asisten contextual prin accesarea butonului Help. A doua fereastr presupune definirea planului de eantionare. n partea stng, avnd o structur arborescent, sunt afiate opiunile acestui stadiu. Prima opiune implic precizarea variabilelor de eantionare n cazul unor eantioane care presupun acest lucru (opiunea Design variables). Avem prezentate, n seciunea central, toate variabilele din baza de eantionare. Folosind butoanele de transfer (butoanele sgeat), vom putea include aceste variabile n seciunea Stratify By, dac dorim un eantion stratificat dup acea variabil. Se vor putea preciza astfel straturile sau subpopula iile (amintii-v de boabele de fasole de 1 an i de 10 ani). n urma acestei selecii se obin eantioane separate pentru fiecare strat. Pentru a se putea mbunti precizia estimrilor, unitile din fiecare strat vor fi ct mai omogene din punctul de vedere al caracteristicii estimate.

287

Statistic aplicat n tiinele socio-umane

Figura 8.6 Pasul 2: Definirea variabilelor cercetrii

O variabil introdus n seciunea Clusters permite crearea unui eantion pe clusteri n care se definesc grupuri de uniti de observaie. Pe ntru a se evita pierderea preciziei i a compensa dezavantajele eantionrii pe clusteri, ntre clusteri trebuie s existe o eterogenitate ct mai mare sub aspectul variabilei de interes. Dac planul de eantionare este parte dintr-un plan de eantionare mai complex, putei introduce o variabil numeric n seciunea Input Sample Weight, variabil ce reprezint dimensiunea unui eantion construit ntr-un stadiu anterior. Pentru claritate, se poate introduce un scurt text care va descrie stadiul n curs, folosind caseta de text Stage Label.

288

Cristian Opariuc-Dan n acest exemplu, vom dori s construim un eantion simplu randomizat. Deocamdat nu ne intereseaz n mod deosebit opiunile prezentate. Urmtoarea seciune, Method, permite stabilirea tehnicii de eantionare pe care o folosim.

Figura 8.7 Pasul 2: Alegerea metodei de eantionare

SPSS permite selectarea, n funcie de variabilele precizate n etapa anterioar, a mai multor tipuri de eantioane. Deoarece nu am inclus nici o variabil n etapa anterioar optnd pentru un eantion simplu randomizat , n caseta de selecie Type din cadrul seciunii Method, vor fi disponibile doar opiunile de acest tip. Observm existena doar a eantioanelor de tip randomizat simplu, sistematic i secvenial i a eantioanelor de tip pr oporional cu mrimea PPS simplu, sistematic i secvenial. Din aceast list vom alege eantionul simplu randomizat (opiunea Simple Random Sample).

289

Statistic aplicat n tiinele socio-umane

La nivelul acestei etape, exist posibilitatea de a efectua selecia fr reintroducerea bilei n urn opiunea Without replacement (WOR) sau cu reintroducerea bilei n urn opiunea With replacement (WR). Cu alte cuvinte, o unitate selectat n eantion va fi eliminat de la urmtoarele posibile selecii n cazul WOR sau nu va fi eliminat, existnd posibilitatea unei noi selecii n cazul WR. n acest din urm caz, bifnd caseta Use WR estimation for analysis, comunicai programului SPSS s estimeze aceast probabilitate de reincludere a unui element n eantion. Implicit, metoda de estimare este specificat n fiierul plan i este consistent cu tipul de eantion selectat. Opiunea permite, de asemenea, forarea metodei cu introducerea bilei n urn, chiar dac metoda de eantionare presupune o selecie fr introducerea bilei n urn. Pe scurt, tipurile de metode ce pot fi alese n aceast etap sunt: Simple Random Sampling eantion aleatoriu simplu, n care unitile sunt selectate cu o probabilitate egal. Metoda poate fi folosit cu sau fr reintroducerea bilei n urn; Simple Systematic eantion sistematizat simplu (cu pas). Unitile sunt selectate cu un pas fix de eantionare din baza de eantionare. Se poate folosi i n cazul eantionrii stratificate, dac s-au specificat anterior variabilele de stratificare. Selecia se face fr introducerea bilei n urn; Simple Sequential unitile sunt extrase secvenial cu probabilitate egal i fr introducerea bilei n urn; PPS eantion proporional cu mrimea n care unitile sunt extrase aleatoriu cu o probabilitate proporional cu mrimea. Orice unitate se selecteaz cu reintroducerea bilei n urn, exceptnd configurarea anterioar a unui eantion pe clusteri;

290

Cristian Opariuc-Dan PPS Systematic eantion proporional cu mrimea de tip sistematic. PPS Sequential eantion proporional cu mrimea de tip secvenial; PPS Brewer eantion proporional cu mrimea n care sunt selectate dou clustere din fiecare strat cu o probabilitate proporional cu mrimea clusterului, fr introducerea bilei n urn. Necesit precizarea unei variabile de tip cluster; PPS Murthy un eantion similar celui anterior. Difer doar metoda statistic prin care sunt alese unitile; PPS Sampford eantion proporional cu mrimea care selecteaz mai mult de doi clusteri din fiecare strat cu o probabilitate proporional cu mrimea clusterului i fr introducerea bilei n urn. Necesit, de asemenea, specificarea unui variabile pentru cluster.

Opiunea Measure of Size (MOS) se aplic eantioanelor de tip PPS proporionale cu mrimea i implic precizarea unei dimensiuni definitorii pentru mrimea fiecrei uniti. Aceste valori pot fi definite n mod explicit, extrase fiind dintr-o variabil (prin bifarea opiunii Read from variable i introducerea variabilei din care vor fi extrase datele) sau pot fi calculate automat selectnd Count data records. De asemenea, se poate preciza amplitudinea acestor dimensiuni, introducnd valorile minime i maxime n casetele de text Minimum respectiv Maximum. Determinarea mrimii eantionului reprezint ultima aciune din acest stadiu. Pentru baza noastr de date, un eantion cu o marj de eroare de 2% i un interval de ncredere de 95% implic un numr de 930 de subieci, pentru a fi reprezentativ.

291

Statistic aplicat n tiinele socio-umane

Acest pas presupune specificarea numrului sau a proporiei n care vor fi selectate unitile de eantionare. Dimensiunea eantionului poate fi fix sau poate varia n funcie de straturi.

Figura 8.8 Pasul 2: Stabilirea dimensiunii eantionului

Caseta de selecie Units permite alegerea ntre un numr fix de uniti selectate alegnd opiunea Counts i o proporie de uniti n eantion alegnd opiunea Proportions. Opiunea Value permite aplicarea unei valori unice pentru toate straturile. n modul numrului fix, va trebui s introducei valoarea dimensiunii eantionului (n cazul nostru, 930). Dac optm pentru proporii, vom include proporia din populaie pe care o regsim n eantion (de exemplu 0,10 pentru 10% din populaie). Opiunea Unequal values for strata permite introducerea valorilor eantionului pentru fiecare strat definit, n condiiile n care dimensiunile straturilor nu sunt egale.

292

Cristian Opariuc-Dan Read values from variable permite selectarea unei variabile numerice, n care sunt stocate dimensiunile fiecrui strat. La alegerea eantionului bazat pe proporii, putem, de asemenea, specifica limitele inferioare i superioare ale numrului de uniti care vor fi selectate (de exemplu, nu mai puin de 50 Minimul i nu mai mult de 200 Maximum). Apsarea butonului Next determin afiarea ferestrei variabilelor care urmeaz a fi calculate.

Figura 8.9 Pasul 3: Alegerea variabilelor eantionului

Pe parcursul acestei etape putem preciza ce variabile vor fi salvate n baza de date n urma crerii eantionului, astfel: Bifnd caseta Population size, vom comunica aplicaiei crearea unei variabile care va stoca numrul estimat de uniti din populaie la un anumit stadiu. n baza de date, aceast variabil va ncepe cu PopulationSize_; 293

Statistic aplicat n tiinele socio-umane

Bifnd caseta Sample size, vom putea salva o variabil care s conin numrul de uniti selectate la un anumit stadiu. n baza de date, aceast variabil va ncepe cu SampleSize_; Bifnd caseta Sample proportion, se va crea o variabil ce va conine proporia eantionului selectat din populaie. Variabila va ncepe cu SamplingRate_; Bifnd caseta Sample weight, comunicm programului SPSS s creeze o variabil ce va stoca inversul probabilitilor de includere a unui element n eantion. Numele variabilei va ncepe n baza de date cu SampleWeightCumulative_, iar variante ale acestei variabile au un rol important n procesul de analiz a eantionului.

Alturi de aceste variabile, n baza de date va fi creat automat o serie de noi variabile, dup cum urmeaz: Probabilitatea de includere proporia unitilor selectate la nivelul unui anumit stadiu, variabil identificat prin InclusionProbability_; Mrimea cumulat mrimea cumulat a eantionului de la un stadiu la altul, variabil identificat prin SampleWeightCumulative_; Indexul permite specificarea unitilor selectate de mai multe ori la nivelul unui stadiu, variabil identificat prin Index_. Variabila este salvat doar n condiiile n care se folosete opiunea cu introducerea bilei n urn.

Ca regul general, n baza de date, fiecare variabil nou creat va fi urmat, dup linia de subliniere, de o cifr care indic stadiul. De exemplu,

294

Cristian Opariuc-Dan probabilitatea de includere a unei uniti n eantion, pentru primul stadiu, va aprea n baza de date sub forma InclusionProbability_1_. n exemplul nostru, am bifat salvarea tuturor variabilelor n baza de date n vederea comentrii ulterioare a ctorva cazuri. Apsarea butonului Next permite trecerea la urmtorul pas al crerii eantionului. Am observat c, la un moment dat, s-a activat i butonul Finish. Acest lucru nseamn c SPSS are deja suficiente informaii pentru a crea eantionul i putem sri peste paii rmai. Noi vom parcurge, totui, ntregul proces pentru a putea analiza etapele acestui instrument.

Figura 8.10 Pasul 4: Sumarul stadiului

Noua etap afieaz sumarul stadiului curent. Obinem scurte informaii despre numrul stadiului, eticheta acestuia n cazul n care am definit una , variabila de stratificare, variabila de cluster, dimensiunea eantionului i metoda de eantionare folosit. La acest nivel, avem posibilitatea crerii unui nou stadiu, selectnd opiunea Yes, add stage 2 now, n cazul n care

295

Statistic aplicat n tiinele socio-umane

ne intereseaz o eantionare multistadial, sau posibilitatea iniierii etapelor de creare efectiv a eantionului, alegnd No, do not add another stage now, care este, de fapt, i varianta implicit selectat. De asemenea, ne putem ntoarce la etapele anterioare, apsnd butonul Back. Pentru moment, nu suntem interesai dect de crearea unui eantion simplu aleatoriu, fr alte stadii suplimentare, astfel nct vom apsa butonul Next.

Figura 8.11 Pasul 5: Crearea eantionului. Opiuni de selecie

Noua fereastr prezint o serie de opiuni care iniiaz modalitatea de creare efectiv a eantionului. Sistemul ne ntreab dac dorim s crem acum eantionul (Do you want to draw a sample?). Putem alege crearea eantionului, selectnd Yes, situaie n care vom avea posibilitatea de generare a tuturor stadiilor, alegnd All din lista derulant sau crearea eantionului doar pentru un anumit stadiu, prin selectarea numrului acestuia. Stadii-

296

Cristian Opariuc-Dan le pot fi generate doar n ordine. Prin urmare, nu putem crea stadiul 3 n condiiile n care nu au fost executate stadiile 1 i 2. Seciunea What type of seed value do you want to use? permite stabilirea valorii de iniializare pentru generatorul de numere aleatoare. Putem alege ntre un numr oarecare, generat automat de computer (selectnd A randomly-chosen number) sau putem include o valoare n caseta de text Custom value, n situaia n care se dorete reproducerea caracteristicilor eantionului. Cele dou casete de bifare permit tratarea cazurilor n care lipsesc informaii la nivelul unor elemente i accelerarea procesului de generare a eantionului. Bifarea primei casete are ca efect includerea ntr-o categorie separat a unitilor cu date lips, iar debifarea acesteia ignor unitile care au date lips. Bifarea celei de-a doua casete are ca efect accelerarea procesului de generare a eantionului, n condiiile n care datele sunt deja sortate dup valorile unei variabile de stratificare. Altminteri, SPSS va proceda la o nou resortare, operaiune consumatoare de timp. Urmtoarea etap permite precizarea locului n care va fi salvat eantionul i variabilele pe care acesta le genereaz. Putem opta ntre baza de date curent (Active dataset), caz n care SPSS va selecta din baza de eantionare unitile incluse n eantion i va calcula variabilele necesare doar pentru acestea, putem alege o nou baz de date (New dataset), caz n care SPSS va crea o nou baz de date, nesalvat, n care va include doar unitile selectate n eantion sau putem crea o nou baz de date cu salvare (External file), caz similar celui anterior, singura deosebire fiind aceea c SPSS va crea un nou fiier pe disc i va salva eantionul. n cele dou situaii , va trebui s precizm numele bazei de date, respectiv numele i calea ctre fiierul de date.

297

Statistic aplicat n tiinele socio-umane

Figura 8.12 Pasul 5: Crearea eantionului. Opiuni de salvare

n aceast fereastr se mai afl un numr de dou elemente: Fiierul n care vor fi salvate probabilitile cumulate (Joint probabilities), n cazul n care se folosesc eantioane proporionale cu mrimea i fr introducerea bilei n urn. Regulile de selecie ale cazurilor (Case selection rules), n cazul n care se genereaz un singur stadiu la un moment dat i se dorete salvarea regulilor de selecie a cazurilor ntr-un fiier separat. Opiunea este util la construirea sub-stadiilor.

n situaia noastr, am ales salvarea eantionului n aceeai baz de date, pentru a putea urmri mai uor procesul de selecie. Apsarea butonului Next permite trecerea la ultima etap a crerii eantionului.

298

Cristian Opariuc-Dan Ultima fereastr ne ntreab dac dorim s salvm designul realizat n planul de eantionare i s crem efectiv eantionul (opiunea Save the design to a plan and draw the sample) sau dorim s copiem ntr-un fiier de sintax comenzile SPSS generate n urma prelucrrilor noastre (opiunea Paste de syntax generated by the Wizard into a syntax window). Evident, vom alege prima opiune i vom apsa apoi butonul Finish.

Figura 8.13 Pasul 6: Crearea eantionului

Dup cteva fraciuni de secund, SPSS procedeaz la crearea eantionului i ne ofer o serie de informaii n fereastra de rezultate (Output). Primul tabel din fereastra de rezultate se refer la informaii despre planul de eantionare. Observm c avem un singur stadiu, metoda de selecie este simplu aleatorie fr reintroducerea bilei n urn, iar eantionul coni-

299

Statistic aplicat n tiinele socio-umane

ne un numr de 930 de cazuri. n acest tabel regsim informaii despre noile variabile create n baza de date i, de asemenea, ne este furnizat fiierul care conine planul de eantionare. Tabelul planului de eantionare prezint i o serie de date utile n proiectarea planului de analiz a eantionului pe care-l vom discuta n urmtorul subcapitol. O variabil foarte important la acest nivel este variabila SampleWeight_Final_, folosit n general la proiectarea planului de analiz a eantionului ca variabil caracteristic a reprezentativitii cazurilor n eantion.
Summary Sample Inf ormation Selection Method Number of Units Sampled Variables Created or Modif ied Stagewise Inclusion (Selection) Probability Stagewise Cumulativ e Sample Weight Stagewise Population Size Stagewise Sample Size Stagewise Sampling Rate Stagewise Sample Weight Stage 1 Simple random sampling without replacement 930 InclusionProbability _1_ SampleWeight Cumulativ e_1_ PopulationSize_1_ SampleSize_1_ SamplingRate_1_ SampleWeight_1_ Equal probability sampling without replacement Obtained from v ariable InclusionProbability _1_

Analy sis Inf ormation

Estimator Assumption

Inclusion Probability Plan File: C:\Test.csplan Weight Variable: SampleWeight_Final_

Figura 8.14 Planul de eantionare


Summary for Stage 1 Number of Units Sampled Request ed Actual 930 930 Plan File: C:\Test. csplan Proport ion of Units Sampled Request ed Actual 61,3% 61,3%

Urmtorul tabel generat se refer la sumarul stadiului. Pentru fiecare sta-

Figura 8.15 Sumarul stadiului

300

Cristian Opariuc-Dan diu al eantionrii va fi generat un asemenea tabel, n care regsim informaii despre unitile i proporiile selectate. Observm din nou numele i calea fiierului de tip plan de eantionare. n cazul nostru, am solicitat includerea unui numr de 930 de cazuri n eantion (Requested), iar SPSS a reuit selectarea tuturor subiecilor (Actual). Procentul solicitat a fost de 61,3%, procent atins n final de ctre SPSS.

Figura 8.16 Noile variabile incluse n baza de date

Trecnd la baza de date, observm la sfritul acesteia variabilele nou create. Vom constata i selecia eantionului fcut de SPSS. Programul a ales n eantion primii apte subieci, pe urmtorii ase nu i-a selectat, a selectat apoi un subiect, urmtorul nefiind selectat i aa mai departe. Lund fiecare subiect n parte, observm o probabilitate de includere egal de 0,61, dintr-o populaie de 1517 la mrimea unui eantion de 930. Variabila SampleWeight este generat automat i corespunde oarecum frecvenei cu care fiecare caz selectat n eantion este reprezentat n p opulaia general. Suma acestor valori se apropie foarte mult de dimensiunea populaiei. ntr-adevr, avem 930 de cazuri, fiecare avnd valoarea 1,63 la

301

Statistic aplicat n tiinele socio-umane

aceast variabil. Prin urmare, 930 1,63 = 1515,9 valoare apropiat de mrimea populaiei. Aceast variabil este foarte important n procesul de analiz a eantionului. Iat c, urmnd aceti pai, ai reuit crearea unui eantion. Realizarea acestuia nu ofer ns informaii legate de caracteristicile pe care le poate avea. Dup selectarea subiecilor n eantion, urmeaz etapa de analiz a eantionului n vederea identificrii proprietilor sale statistice.

VIII.4.2

Analiza eantionului

Crearea unui plan de analiz reprezint prima etap n studiul proprietilor unui eantion. Vom folosi din nou meniul Analyze, apoi submeniul Complex Samples i n final vom efectua click pe opiunea Prepare for Analysis Accesarea acestei comenzi determin lansarea n execuie a unui nou asistent (Wizard), specializat n proiectarea planului de analiz, al doilea plan ca importan n studiul eantionului. Planul de analiz, similar planului de Figura 8.17 Meniul planului de analiz eantionare, reprezint o succesiune de pai, prin intermediul crora se creeaz premisele studiului proprietilor unui eantion. Dup crearea unui eantion, este important analiza acestuia n vederea determinrii caracteristicilor sale. Primul pas este reprezentat de specificarea fiierului n care va fi salvat planul de analiz. Opiunea Create a plan file ne permite alegerea locului i stabilirea numelui sub care va fi salvat planul de analiz. Putei tasta

302

Cristian Opariuc-Dan calea complet sau putei folosi butonul Browse, prin intermediul cruia vei alege locaia acestui fiier. Evident, va trebui s furnizai i un nume. n cazul nostru, fiierul plan de analiz se numete Analiza.csaplan i a fost salvat direct n directorul C:\. Observai diferena de extensie. Dac planurile de eantionare aveau extensia .csplan, planul de analiz are extensia .csaplan.

Figura 8.18 Pasul 1. Salvarea planului de analiz

Opiunea Edit a plan file v permite modificarea configuraiei unui plan de analiz salvat anterior. Apsarea butonului Next determin trecerea la urmtoarea etap. Noua fereastr conine mai multe elemente. n primul rnd va trebui s specificm variabila caracteristic reprezentativitii eantionului. Am accentuat deja asupra importanei variabilei Sample Weight, tocmai n ideea de a fi familiarizai cu aceasta. Dei n cazul unor eantioane complexe

303

Statistic aplicat n tiinele socio-umane

aceast variabil poate lua diferite forme, n planul de analiz vom include, de obicei, forma final a acesteia, forma n care SPSS pondereaz de fapt toate stadiile. V recomand introducerea n seciunea Sample Weight a variabilei de tipul Final Sample Weight, variabil care, de obicei, caracterizeaz cel mai bine eantionul. n cazul planurilor complexe, s-ar putea include i alte variabile pariale de acest tip, dac se dorete investigarea la nivelul stadiilor, a straturilor ori a clusterilor.

Figura 8.19 Pasul 2. Stabilirea variabilelor

Alte posibiliti cuprinse la acest nivel pot fi reprezentate de: Variabilele de stratificare (Strata) va fi inclus variabila de stratificare n condiiile unui eantion stratificat. Eantionul total va fi reprezentat din ponderile pe care le au cazurile particulare din fiecare strat; Variabilele cluster (Clusters) se include variabila care definete clusterii, grupuri de uniti de observaie n cazul n care se analizeaz un eantion pe clusteri; 304

Cristian Opariuc-Dan Stage Label permite definirea unei etichete a stadiului de analiz, similar procesului de creare a planului de eantionare.

Apsarea butonului Next determin trecerea la alegerea metodei de estimare.

Figura 8.20 Pasul 2. Alegerea metodei de estimare

Alegerea metodei de estimare permite specificarea doar a tipului de selecie utilizat. n funcie de modul de proiectare a eantionului , putei opta pentru metoda cu introducerea bilei n urn (WR), n care nu vor fi incluse corecii pentru eantioane provenite din populaii finite la estimarea varianei. Forarea includerii acestor corecii se realizeaz prin bifarea casetei FPC care se activeaz la alegerea acestei opiuni. Metoda cu includerea bilei n urn (WOR) poate fi selectat n cazul eantioanelor cu probabilitate egal de selecie i fr nlocuire. Aceast metod include coreciile pentru populaii finite i pleac de la supoziia conform creia unitile au fost selectate cu o probabilitate egal.

305

Statistic aplicat n tiinele socio-umane

Metoda cu includerea bilei n urn (WOR) i cu probabilitate inegal folosete i ea coreciile de populaie finit, dar pleac de la supoziia c selecia unitilor din populaie s-a realizat cu o probabilitate inegal. n general, metoda se folosete n cazul unor eantioane nealeatorii. Eantionul nostru a fost creat fr includerea bilei n urn i cu o probabilitate egal, prin urmare vom alege opiunea a doua.

Figura 8.21 Pasul 2. Alegerea dimensiunii

Apsarea butonului Next v permite s specificai probabilitile de includere sau mrimea populaiei la nivelul stadiului curent. Aceste dimensiuni pot fi fixe sau pot varia la nivelul straturilor. Aceast etap este valabil doar dac anterior ai ales opiunea WOR cu probabiliti egale. Folosind caseta de derulare Units putei preciza dimensiunea exact a populaiei sau probabilitatea cu care elementele au fost extrase. n primul caz, putem introduce n caseta de text Value cifra 1517, valoare ce repre-

306

Cristian Opariuc-Dan zint dimensiunea exact a populaiei sau 0,61, probabilitatea de includere. Am preferat, n exemplul nostru, prima variant. Utilizarea acestei seciuni presupune o singur valoare aplicat tuturor straturilor. O alt variant o reprezint opiunea Unequal values for strata, care se activeaz numai n situaia definirii anterioare a unei variabile de str atificare. Caseta care se deschide la apsarea butonului Define permite stabilirea valorilor pentru fiecare strat. Ultima opiune, Read values from variable, ne permite includerea unei variabile numerice care conine valorile pentru fiecare strat.

Figura 8.22 Pasul 2. Sumarul planului

Similar planului de eantionare, urmtoarea fereastr prezint un sumar al planului de analiz i ne permite construirea unor noi stadii. Nu vom intra n detalii referitoare la aceast seciune, deoarece am tratat complet problema n cadrul capitolului referitor la planul de eantionare.

307

Statistic aplicat n tiinele socio-umane

Ultimul ecran ne invit s salvm planul de analiz creat sau s copiem sintaxa ntr-o fereastr de comenzi SPSS, ntr-un mod identic cu planul de eantionare.

Figura 8.23 Pasul 3. Salvarea planului de analiz

Un plan de analiz salvat va putea fi utilizat n vederea investigrii proprietilor eantionului. La apsarea butonului Finish, planul de analiz va fi salvat, iar n fereastra de rezultate va fi redat structura acestuia.

VIII.4.3

Investigarea proprietilor eantionului


Odat stabilite planul de eantionare i planul de analiz, se poate trece la etapa final a eantionrii, i anume investigarea proprietilor eantionului. SPSS pune la dispoziie mai multe metode de investigare a unui eantion. Deoarece

Figura 8.24 Analiza eantionului

nu dispunem nc de toate informaiile necesa-

308

Cristian Opariuc-Dan re studiului exhaustiv al acestor proceduri, vom limita expunerea doar la dou proceduri ce implic statistici univariate, dup cum urmeaz: Meniul Frequencies determin constituirea tabelelor de frecvene pentru variabilele selectate i afiarea statisticilor de tip univariat. Procedura estimeaz frecvenele eantionului i erorile standard, intervalele de ncredere, coeficienii de variaie i alte statistici utile studiului unui eantion; Meniul Descriptives produce de asemenea statistici univariate de tipul celor menionate, existnd i posibilitatea analizei dup subgrupuri.

Accesarea primului meniu, Frequencies, determin afiarea primului ecran necesar analizei prin care urmeaz s alegem planul de eantionare dorit.

Figura 8.25 Alegerea planului de eantionare

309

Statistic aplicat n tiinele socio-umane

Toate operaiile din aceast etap impun anumite specificaii de analiz, specificaii coninute n planul de eantionare, dup cum am vzut n subcapitolul anterior. n seciunea Plan, caseta de text File, vom putea tasta calea ctre planul de eantionare sau vom putea utiliza butonul Browse n vederea navigrii ctre locaia ce conine acest fiier. n cazul n care probabilitile de includere ale elementelor n eantion nu sunt egale, situaie des ntlnit n cadrul eantionrii stratificate sau al eantionrii pe clusteri, va trebui s specificm fiierul n care s-au precizat aceste probabiliti, utiliznd seciunea Joint Probabilities. Astfel, putem alege aceste probabiliti dintr-o variabil din baza de date, dintr-o alt baz de date sau dintr-un alt tip de fiier. Trecerea la analiza efectiv se face prin apsarea butonului Continue.

Figura 8.26 Stabilirea variabilelor de interes

Va aprea, iat, o fereastr pe care o cunoatei destul de bine. Acest ecran permite stabilirea variabilei pe care dorim s o analizm. Se impune o

310

Cristian Opariuc-Dan meniune la acest nivel: variabilele folosite pot fi doar variabile categoriale, situate la un nivel de msur nominal sau ordinal. n partea stng a ferestrei se afl seciunea Variables, o list care conine toate variabilele din baza de date. Lista Frequency Tables permite includerea variabilelor pentru care dorim s calculm tabele de frecven. Cu ale cuvinte, variabilele pe care dorim s le analizm. n exemplul nostru, vom dori analiza eantionului sub aspectul sexului (al genului biologic). Vom transfera, aadar, aceast variabil n lista Frequency Tables, prin utilizarea butonului de transfer. Lista Subpopulations permite includerea unei alte variabile categoriale, n condiiile n care am realizat, spre exemplu, un eantion stratificat. Nu este cazul nostru, ns, dac am fi dorit s analizm reprezentativitatea genului biologic n funcie de mediul de provenien (rural vs. urban), am fi inclus aceast ultim variabil n lista Subpopulations. n aceast situaie, SPSS ar fi analizat separat brbaii i femeile, n funcie de mediul lor de provenien. Un buton deosebit de important este butonul Statistics.... Apsarea acestuia determin posibilitatea stabilirii indicatorilor statistici ce vor fi calculai.

Figura 8.27 Stabilirea indicatorilor statistici

311

Statistic aplicat n tiinele socio-umane

Exist destul de multe opiuni n cadrul acestei noi ferestre, unele dintre ele fiindu-v necunoscute, deoarece nu avei nc informaiile necesare referitoare la anumite teste statistice. Noi le vom prezenta pe toate, studiind aici, n detaliu, doar cteva, celelalte urmnd s le analizm n volumele ulterioare. Seciunea Cells permite afiarea informaiilor legate de populaia int din care a fost extras eantionul. Vor fi afiate date referitoare la dimensiunea populaiei sub form de frecvene absolute, prin bifarea casetei Population size i sub form de frecvene relative (procente), bifnd caseta Table percent. Seciunea Statistics permite configurarea indicatorilor statistici asociai dimensiunii populaiei sau a procentului din populaie, astfel: Prin bifarea casetei Standard error, vom calcula eroarea standard a estimrii; Caseta Confidence interval permite stabilirea intervalului de ncredere a estimrii n baza nivelului specificat. n mod normal, intervalul de ncredere l vom stabili la 95%, dup cum observai c am procedat i n exemplul nostru (caseta de text Level%); Caseta Coefficient of variation comunic programului calculul coeficientului de variaie a estimrii, sub form de proporii; Caseta Unweighted count permite afiarea numrului de elemente folosit n realizarea estimrii. Cu alte cuvinte, dimensiunea eantionului extras; Caseta Design effect permite calculul varianei estimrii. Indicatorul exprim proporia de varian a eantionului comparat cu variana unui eantion simplu randomizat. Coeficien312

Cristian Opariuc-Dan tul nu este folosit n cazul eantioanelor simplu randomizate n acest caz fiind ntotdeauna 1 , ci doar n cazul eantioanelor mai complexe. Cu ct valoarea este mai deprtat de unu, cu att efectul este mai mare i deci variana este mai mare; Caseta Square root of design effect reprezint rdcina ptrat din variana estimrii (un fel de abatere standard dac v mai aducei aminte), fiind o msur standard a efectului i avnd acelai mod de interpretare; Caseta Cumulative values calculeaz frecvena cumulat a populaiei int, avnd aceeai semnificaie ca orice frecven cumulat. Caseta Test of equal cell proportions permite calculul a dou teste statistice pe care nu le-am studiat: testul 2 i testul de probabilitate a proporiilor. Fr a intra n amnunte, menionm c ambele teste pornesc de la ipoteza nul c toate categoriile unei variabile au frecvene egale. Testele ne permit s verificm dac exist diferene semnificative ntre frecvenele categoriilor variabilei (n cazul nostru, dac frecvena brbailor este semnificativ mai mare sau semnificativ mai mic n comparaie cu frecvena femeilor).

Pentru exerciiul nostru am comunicat programului SPSS s afieze frecvena absolut i relativ a populaiei int (casetele Population size i Table percent), s calculeze eroarea standard a estimrii, intervalul de ncredere i doar demonstrativ mrimea efectului i s afieze mrimea eantionului (casetele Standard error, Confidence interval la un nivel de 95%, Unweighted count i Design effect). Apsnd butonul Continue, revenim la fereastra iniial.

313

Statistic aplicat n tiinele socio-umane

Un alt buton prezent este butonul Missing Values, prin apsarea cruia vom putea stabili modul de tratare a cazurilor lips.

Figura 8.28 Tratarea cazurilor lips

n seciunea Tables, putem stabili ce cazuri vor fi incluse n analiz. Opiunea implicit este Use all variable data n care vor fi analizate doar valorile valide la nivelul fiecrei variabile. Spre exemplu, dac analizm variabila gen biologic, SPSS va urmri s existe valori valide doar la niv elul acestei variabile, fr a fi preocupat dac exist valori valide la alte variabile. Opiunea Use consistent case base este ns mult mai restrictiv. Va trebui s existe valori la nivelul tuturor variabilelor analizate pentru ca subiectul respectiv s fie luat n considerare. De exemplu, dac analizm variabilele gen biologic i mediu de provenien, un subiect va trebui s aib scoruri valide la ambele variabile, chiar dac este analizat doar variab ila gen biologic. Un subiect care are un scor valid la gen biologic, dar nu are date la mediul de provenien, va fi exclus din analiz.

314

Cristian Opariuc-Dan Seciunea Categorical design variables determin, n cazul variabilelor categoriale, dac valorile lips vor fi tratate ca fiind sau ca nefiind valide. Practic, nu este nevoie s intervenim n aceast fereastr dect extrem de rar i n cazul unor planuri de eantionare complexe. Apsarea butonului Continue va determina, i n acest caz, ntoarcerea la fereastra iniial. Lansarea efectiv a analizei datelor se face prin apsarea butonului OK. n cteva fraciuni de secund, va fi afiat un tabel n fereastra de rezultate, tabel care va conine exact datele solicitate.
Respondent's Sex 95% Conf idence Interv al Lower Upper 632,126 692,395 824,605 884,874 1517,000 1517,000 41,7% 45,7% 54,3% 58,3% 100,0% 100,0%

Population Size

% of Total

Male Female Total Male Female Total

Estimate 662,260 854,740 1517,000 43,7% 56,3% 100,0%

St andard Error 15,355 15,355 ,000 1,0% 1,0% ,0%

Design Ef f ect 1,000 1,000 . 1,000 1,000 .

Unweighted Count 406 524 930 406 524 930

Figura 8.29 Rezultatele analizei eantionului

Capul de tabel conine numele variabilei de interes i denumirea indicatorilor calculai. Primul rnd se refer la frecvenele absolute ale populaiei int, iar al doilea rnd - la frecvenele relative. Observm c datele noastre au fost mprite pe cele dou categorii ale variabilei de interes brbai i femei. A doua coloan (Estimate) exprim frecvenele absolute i relative ale populaiei int, estimat n baza eantionului. Aceste elemente nu reprezint date reale, ci date estimate din eantion. Nu putem avea un numr de 662,26 brbai i 854,74 femei. Un brbat sau o femeie este un ntreg, nu are zecimale. Observm ns c dimensiunea total a populaiei int estimate (1517 subieci) este egal cu populaia int real. Exprimat procentual, ean315

Statistic aplicat n tiinele socio-umane

tionul nostru estimeaz o populaie compus din 43,7% brbai i 56,3% femei. Urmtoarea coloan (Standard Error) se refer la eroarea standard a estimrii, exprimat att n form brut, ct i n form procentual. Eantionul nostru estimeaz populaia int cu o eroare standard de 15,35 brbai i 15,35 femei (aproximativ 15 subieci pentru fiecare categorie, cifrele reprezentnd din nou o abstraciune). Acest indicator devine mai clar dac urmrim forma procentual. Iat c eroarea estimrii este de 1% att n cazul brbailor, ct i n cazul femeilor, care, la un nivel de ncredere de 95%, ne poate determina s afirmm c avem un eantion reprezentativ sub aspectul sexului. Urmeaz dou coloane ale intervalului de ncredere. n baza erorii standard, eantionul estimeaz practic o populaie int format dintr-un numr de 632,12 pn la 692,39 brbai i de la 824,60 pn la 8 84,87 femei. Cu alte cuvinte, compoziia populaiei int estimat de eantion este format din 41,7% pn la 45,7% brbai i 54,3% pn la 58,3% femei. Undeva ntre aceste limite putem gsi populaia int real estimat de eantion. Coloana Design Effect are evident valoarea 1, deoarece am lucrat cu un eantion simplu randomizat, fapt tratat mai sus. Ultima coloan indic dimensiunea i compoziia eantionului ( Unweighted Count). Dup cum tiam deja, eantionul are un numr de 930 de cazuri, iar din punctul de vedere al sexului avem 406 brbai i 524 femei. Iat c acest eantion estimeaz reprezentativ populaia int la o eroare de doar 1% i la un nivel de ncredere de 95%. Suntem n faa unui eantion reprezentativ, acest lucru fiind demonstrat prin analiza efectuat. Am analizat o variabil de interes situat la nivel nominal (sexul). Cum procedm ns, dac avem o variabil de interes la un nivel scalar, de exemplu vrsta? Analiza frecvenelor nu ne ajut prea mult. Este timpul s

316

Cristian Opariuc-Dan abordm cea de-a doua metod propus i anume analiza descriptiv. Paii sunt identici, astfel nct nu vom insista asupra lor. Exist ns o serie de metode statistice uor diferite, pe care vom ncerca s le lmurim.

Figura 8.30 Analiza variabilei de interes de tip scalar

Dup lansarea procedeului de analiz i alegerea planului de eantionare prin apelarea meniului Descriptives, va trebui s includem, similar procesului anterior, variabila de interes. n cazul nostru, am ales o variabil scalar, vrsta subiecilor. Apsarea butonului Statistics determin apariia unui ecran uor diferit n comparaie cu analiza frecvenelor.

Figura 8.31 Stabilirea indicatorilor statistici

317

Statistic aplicat n tiinele socio-umane

Diferena rezid n seciunea Summaries prin intermediul creia putem estima mediile i sumele variabilelor int. n cazul n care media p opulaiei este cunoscut (uneori se folosete media teoretic), putem folosi testele t Student de comparaie ntre media populaiei i media unui eantion pentru verificarea existenei unei diferene semnificative ntre medii. Despre aceste teste vom discuta ns n volumul urmtor. Celelalte opiuni ale acestei ferestre au fost discutate i nu este cazul s le relum. Executarea procedurii de analiz determin afiarea n fereastra de rezultate a unui alt tabel:
Univariate Statistics 95% Conf idence Interv al Lower Upper 45,60 47,05

Mean

Age of Respondent

Estimate 46,33

Standard Error ,369

Coef f icient of Variation ,008

Population Size 1517,000

Unweighted Count 930

Figura 8.32 Rezultatele analizei eantionului

n acest caz, nu mai avem de a face cu estimri ale frecvenelor, ci cu estimri ale mediilor, variabila analizat fiind o variabil continu. Iat c eantionul nostru estimeaz o medie a populaiei de 46,33 de ani cu o eroare standard de 0,36 ani. Media real a populaiei se gsete undeva ntre 45,60 i 47,05 ani. Eantionul este foarte omogen sub aspectul vrstei, dup cum rezult din coeficientul de variaie de 0,008, eterogenitatea fiind n jurul valorii de 0,8%. ntr-adevr, eantionul de 930 de persoane estimeaz populaia int de 1517 persoane, ns. cu o eroare standard mare. nsui intervalul de ncredere de 1,45 ani (47,05 45,60) este edificator n acest sens. Este greu s vorbim despre o reprezentativitate a acestui eantion sub aspectul vrstei su biecilor.

318