Sunteți pe pagina 1din 13

IX.

Operaiuni executate asupra variabilelor i bazelor de date Complexitatea i varietatea calculelor statistice din programu SPSS sunt amplificate de numeroasele faciliti de lucru n cadrul bazelor de date. O parte din ele sunt ntlnite i n diverse programe, altele sunt specifice. Pentru a trece n revist aceste faciliti ni s-a prut mai simplu de a prezenta meniuri ntregi de comenzi cu precizarea c nu vom detalia toate utilitile specifice; vom detalia doar acele aspecte pe care le considerm fundamentale sau oricum sunt mai des ntlnite. Vom ncepe cu meniul Data care este compus din urmtoarele submeniuri: Fig 1. Meniul Data 1. Define Variable Properties- ajut la schimbri de nume sau atribute ale variabilelor din Data Editor. Dup ce am trecut o variabil din coloana din stnga n dreapta se va deschide fereastra care poart chiar numele submeniului, fereastr n care avem o descriere amnunit a variabilei. Aici putem face i schimbrile pe care le considerm necesare. Dac Data Editor nu conine o baz de date submeniul nu poate fi activ. 2. Copy Data Properties- ajut la transferul datelor ntre diverse baze de date 3. Define Dates-ajut la definirea datelor calendaristice mai ales pentru lucrul cu serii de timp 4. Insert Variable-ajut la inserarea unei noi variabile n baza de date. S presupunem c celula activ dintr-o baz de date este poziionalt pe o coloan (variabil): ca n situaia de mai jos. Dup activarea comenzii n partea dreapt va apare o nou variabil care trebuie definit (aceeai operaie putea fi setat dac ne opream cu mausul pe numele variabilei maritalclic dreapta i alegeam Insert Variable sau direct de pe bara de instrumente cu butonul ): Fig 2. Inserarea unei variabile

5. Insert Cases-ajut la inserarea unor noi cazuri (linii orizontale). Dac celula activ este plasat pe un anumit rnd atunci va apare un nou rnd imediat deasupra acestuia. Se poate

apela i la plasarea mausului pe rndul respectiv i clic dreapta sau direct de pa bara su instrumente acionnd butonul . 6. Go to Case- se poate indica un anumit caz din baz pentru a se ajunge imediat la acesta. 7. Sort Cases-ajut la sortarea (ordonarea) valorilor seriei dup valorile dintr-una sau mai multe variabile. Aici un exemplu de reordonare a bazei dup valorile cresctoare din variabila age:

Fig. 3 Sortarea bazei dup o variabil 8. Transpose-ajut la inversarea coloanelor cu liniile din baza de date. Variabilele neselectate vor fi pierdute! 9. Restructure-ajut la transformri complexe n interiorul bazelor de date. Sunt trei opiuni: restructurarea anumitor variabile n cazuri, restructurarea unor cazuri n variabile sau inversarea ntrecazuri i variabile tuturor datelor. 10. Merge files-ajut la unirea mai multor date din baze diferite. S presupunem c am aplicat un chestionar n oraul X i apoi acelai chestionar n oraul Z. Datele respective sunt n baze diferite dei au acelai numr de variabile. Reunirea ntr-o singur baz se face plecnd de la una dintre ele (baza1) la care se adaug cea de a doua baz . S presupunem c am construit o baz cu doar zece cazuri la care vom aduga alte 10 cazuri din cealalt baz :

Vom aciona comenzile DataMerge Files Add Cases iar dup ce vom selecta noua baz se va deschide urmtoarea fereastr. S presupunem c in noua baz variabila religie a fost scris greit relig.

n aceast fereastr variabilele cu semnul (*) fac parte din baza iniial iar cele cu semnul (+) din baza adugat. Numele celei de-a doua variabile poate fi schimbat din butonul Rename sau pot fi selectate ambele i trecute n partea dreapt cu butonul Pair. Butonul Paste este consevarea lucrului n limbaj sintaxa. Dup OK rezult:

Noua baz (baza2) cuprinde acum toate cele 20 de cazuri iar numele acesteia este cel al primei baze de la care s-a plecat. O putem salva n aceast form FileSave as...

Comanda Merge Files ajut i la conectarea cu alte baze de date care au variabile diferite. S presupunem c avem prima baz cu cele 10 cazuri i n alt baz de date avem situaia respectivilor subieci privind numrul de copii. Se observ c subiecii au aceleai numere de identificare dar nu sunt n ordine. Aplnd la Sort Cases dup variabila id rezult:

Dup ce am salvat noua baz (sortat!) am formulat comenzile DataMerge FileAdd Variables i dup OK observm c noua variabil a intrat n prima baz. S presupunem c n cea de a doua baz aveam numai cinci observaii dup cum urmeaz: Aceast nou baz va trebui s fie sortat ascendent dup variabila id deoarece cazurile nu sunt n ordine. Dup sortare, salvm fiierul. Baza de date de la care se va pleca este baza1 din exemplul precedent. Dup ce am deschis aceast baz vom parcurge DataMerge FilesAdd Variable i va apare urmtoarea feereastr:

Iniial variabila id se afla n coloana din stnga (Excluded Variables) dar a fost desemnat drept key variable dup setarea opiunii Match Case....Both files provide cases. Se observ c valorile din baza extern s-au ataat n baza de plecare pentru cazurile corespunztoare.

Practic au aprut n final toate varibilele dar acolo unde au fost mai puine observaii s-au salvat doar acele date. Obs. 1. Dup ce au fost luate toate setrile nainte de OK se poate da comanda Paste care salveaz n limbaj sintax comenzile de pn acum ntr-un fiier separat care poate fi salvat i folosit alt dat.

Obs. 2. Exist i alte dou opiuni n fereastra de mai nainte: External file is keyed table i Working Data File is keyed table. S presupunem c n localitatea X n funcie de religie cetenii trebuie s plteasc o tax anual exprimat n sute de mii de lei astfel: Se cere ca n baza2 unde sunt nregistrai 20 de subieci s se ataeze fiecruia dup religia proprie taxa pe care o va plti. Practic trebuie s reunim baza2 cu aceasta din urm. Pentru nceput ambele baze vor fi sortate ascendent dup variabila religie i vor fi salvate n aceast form. Apoi vom deschide baza2 i vom urma comenzile Data Merge File Add Variable dup care vom seta opiunea External file is keyed table, iar variabila cheie este religia:

Se observ c n baza iniil a aprut o nou variabil care atribuie fiecrei categorii valoarea taxelor respective. Practic apar toate variabilele din cele dou fiiere iar criteriul de alipire rmne alocare unor valori-perechi. Obs. 3. Opiunea Working Data File is keyed table o vom alege dac drumul parcurs este invers: de la ultima baz cu cele trei cazuri la baza mare: deci baza de plecare (Working Data File) va da criteriul de alipire a bazelor. Obs. 4. Operaiile de alipire a bazelor de date trebuie s respecte condiiile: trebuie s existe n ambele baze o variabil comun dup care se face alipirea; trebuie o atenie sporit la variabilele care au acelai nume i care nu sunt criterii de alipire; variabilele trebui8e sortate ambele n acelai sens nainte de a fi alipite. 8. Agregarea datelor Uneori este nevoie de a sintetiza anumite informaii despre valorile dintr-o baz de date grupndu-le dup o serie de categorii care sunt specifice unei variabile alese. S lum de exemplu baza de date Cars.sav:

n aceast baz de date sunt diverse informaii despre autoturisme: cilindree (variabila engine) puterea motorului (horse), greutate (weight), acceleraie (accel), an de fabricaie (year). Plecnd de la aceast baz de date dorim s obinem pentru toate aceste caracteristici mrimi medii sau alte mrimi, grupate dup anii de fabricaie. Pentru aceasta vom apela comenzile DataAggregate dup care va apare fereastra urmtoare:

Se impun unele precizri privind aceast fereastr: -variabila n funcie de care se vor face calcule separate o trecem n rubrica Break Variable -variabilele asupra crora se vor face calculele se trec n cea de a doua rubric iar operaiile n sine sunt opionale i se pot alege din butonul Function: Dup cum se vede pot fi alese diverse modaliti de calcul de la principalele valori statistice la specificarea anumitor valori statistice (prima, ultima etc.), la numrul de cazuri, la precizarea procentajelor mai mari/mai mici fa de o anumit valoare sau cele dintr-un interval sau dinafara acestuia, la precizare unui fragment din date ntre anumite limite precizate. -opiunea Save number of cases...va introduce o nou variabil care contorizeaz numrul de cazuri din fiecare categorie -opiunea Create new data file va indica o nou baz de date care va fi salvat de program i n care vom avea rezultatele agregrii. Din butonul File putem s denumim baza respectiv! Pentru acest caz vom lsa denumirea aggr.sav

-opiunea Replace Working data file va elimina datele din baza curent! Dup ce vom da OK trebuie s cutm i s deschidem noul fiier creat de ctre program i care se afl de obicei n Program filesSPSS. Noua baz de date este urmtoarea: Se observ categoriile generate de ctre variabila year i pentru fiecare categorie (an de fabricaie) sunt calculate mediile respective. Pentru accel sunt specificate doar valorile maxime. Ultima variabil conine numrul de cazuri din fiecare categorie. Se pot apoi face analize plecnd de la aceste date.

9. Split File-comand des utilizat care permite analizarea diverselor valori statistice pentru grupuri ntregi de subieci generate tocmai de categoriile din variabile. S presupunem c n baza GSS93 subset.sav dorim s cunoatem n care dintre regiunile americane respondenii au n medie, un nivel de educaie mai mare. Conform variabilei region4 subiecii din anchet sunt divizai n 4 regiuni iar variabila educ reprezint anii de studiu pentru o coal ncheiat. Vom apela la comanda DataSplit file pentru a produce filtrarea bazei conform unui criteriu impus: Variabila dup care vom mpi
subiecii n grupuri disticte region4 este trecut n dreapta iar ca variant de vizualizare a rezultatelor am ales opiunea Compare Groups. Dup OK n Data Editor va apare n colul din dreapta jos meniunea Split File On care ne avertizeaz c baza este filtrat i orice rezultat viitor va fi definit de filtrarea respectiv:

Urmeaz s calculm media anilor de studiu cu comenzile AnalyzeDescriptive StatisticsFrequencies iar din meniul Statistics vom alege doar media (mean). Rezultatul n Output este urmtorul:

Statistics Highest Year of School Completed . N Valid Missing Mean Northeast N Valid Missing Mean Midwest N Valid Missing South Mean N Mean N Mean Valid Missing Valid Missing

West

741 2 13.07 136 0 13.39 221 0 13.18 248 0 12.30 150 2 13.56

Dup cum se observ din tabelul alturat cei ce nu au declarat regiunea au n medie 13.07 ani de coal. Media cea mai mare se ntlnete printre cei din vestul SUA. Restul comparaiilor sunt evidente. Obs. Dac trebuie s facem alte analize statistice care nu privesc mprirea populaiei pe categorii atunci trebuie s eliminm comenzile anterioare astfel: DataSplit FileResetOK sau prin alegerea opiunii Analyze all cases...

Obs: rezultatele pot fi afiate i separat dac setam opiunea Organize output by groups. 10. Select Cases-dintr-o baz de date se pot analiza anumite cazuri selectate dup un criteriu necesar cercetrii statistice. Procedura urmeaz comenzile DataSelect Cases. S presupunem c n baza de date BOP_mai/2003_Gallup.sav dorim s vedem care sunt opiunile persoanelor de sex masculine privind direcia n care se ndreapt Romnia: este vorba de variabilele sex0 (genul respondenilor) i a1 (direcia n care se ndreapt ara noastr). Prima variabil este variabila criteriu cu valorile: 1. masculin, 2.feminin. Vom selecta doar respondenii de sex masculin prin If condition is satisfiedIf:

Se va deschide o nou fereastr n care am pus condiia de selecie: sex0=1. Dup Continue se va reveni n baza de date care are acum, n dreapta jos precizarea Filter On. n baza de date vor apare n partea dreapt o serie de tieturi semn c liniile ce cpurind sexul feminin au fost -pentru moment-eliminate. Din acest moment orice calcule statistice efectuate vor ine cont de selectarea efectuat. La final respectiva setare trebuie anulat dac se intenioneaz alte calcule.

Din acest moment orice calcule statistice efectuate vor ine cont de selectarea efectuat. La final respectiva setare trebuie anulat dac se intenioneaz alte calcule. Rezultatul final este urmtorul:

Statistics Credei c n ara noastr lucrurile merg ntr-o direcie bun sau ntr-o direcie greit? N Valid 970 Missing 0

Numrul de cazuri valide sunt doar respondenii de sex masculin dintr-un eantion de 2100 de persoane. Rezultatele finale sunt urmtoarele:

Credei c n ara noastr lucrurile merg ntr-o direcie bun sau ntr-o direcie greit? Frequency 383 511 69 7 970 Percent 39.5 52.7 7.1 .7 100.0 Valid Percent 39.5 52.7 7.1 .7 100.0 Cumulative Percent 39.5 92.2 99.3 100.0

Valid

direcia este bun direcia este greit NS NR Total

Obs: Metodele de selecie sunt foarte diverse: selectarea unui eantion din baz putndu-se indica n mod precis ct la sut din cazuri vor fi selectate (Random sample of cases), selecie n funcie de o variabil temporal sau dup anumite ranguri care se pot preciza (Based on time or case range), selecie n funcie de o variabil filtru care dac ia valoarea nul atunci cazul respectiv se elimin (Use filtre variable). Exist i posibilitatea ca liniile neselectate s fie terse din baz ns aceast operaie trebuie fcut cu precauie. n cadrul ferestrei Select Cases If se pot folosi butoanele cu cifre sau semne matematice pentru condiiile impuse i chiar o serie de funcii care sunt listate n tabelul din dreapta ferestrei. Acestea pot fi: funcii aritmetice (ABS[modul], LN[log. natural], SQRT [radical], etc,) funcii statistice (MEAN, SUM, VARIANCE, etc.) funcii de lucru cu variabile nominale, funcii pentru date temporale, funcii logice, funcii referitoare la valorile lips etc. O parte din aceste funcii le regsim si n programul Excel. 11. Weight Cases-ajut la ponderarea observaiilor adic la repetarea unei observaii de un anumit numr de ori. Aceast operaie este necesar n cazurile n care anumite subgrupuri din populaie nu sunt bine reprezentate n eantion. De exemplu proporia de tineri ntre 18-25 de ani este de 30% n eantion iar n populaia mare este de 25%. Eantionarea poate introduce distorsiuni i de aceea se cere ponderarea acelor cazuri care sunt supra/sub-evaluate. Se definete o variabil de ponderare conform creia se vor aplica respectivele ponderri.

Procedura impus de ctre program pleac de la o ponderare egal a fiecrui caz ca i cum ansele de intra n eantion sunt egale (eantionare simpl aleatoare). Aceste anse sunt ns inegale atunci cnd eantionul ine cont de o anumit stratificare. Folosirea comenzii Weight Cases se dovedete foarte util atunci cnd ponderm subgrupuri dintr-un eantion deoarece acestea nu reflect proporiile dintr-o populaie extins. De exemplu T. Rotariu i P. Ilu (1997; 191-192) propun dou strategii: eliminarea aleatorie a unor chestionare din grupul supra-reprezentat n eantion sau duplicare unui anumit numr de chestionare n grupul mai puin reprezentat n eantion. Evident, autorii atrag atenia asupra riscului ca aceste operaiuni s introduc n mod nepermis alte erori pe lng cele provenite din neconcordanele dintre statisticile oficiale i populaia real. Prudena n acest caz trebuie combinat cu verificri suplimentare din perspectiva altor variabile. O alt surs de eroare pe cae au constatat-o cei doi autori se refer la modalitile de alegere a unei persoane din cadrul unei gospodrii n cazul unei anchete prin chestionar (op. cit., 147-148). ntr-adevr ansele de a fi ales n eantion pentru un adult de exemplu scad odat cu mrimea familiei: dac familia e format dintr-o singur persoan ansa de a fi aleas este 100% iar dac sunt dou persoane ansa scade la 50% etc. Se recomand n acest caz ca familia cu dou persoane s aib o ans dubl de a fi extras, apoi familia cu trei persoane s aib o ans tripl etc. Atorii recomad n acest caz ca la final s se fac o ponderare dup mrimea familiei din care provine respondentul. Iat un exemplu a unei astfel de ponderri dat de ctre M. Rteiu et al. (2003, vol. 2; 132-134). Analiza autorilor se oprete la baza de date gss98.sav i care se poate gsi pe Internet. n respectiva baz de date se pot identifica variabila adults (care reprezint numrul de persoane cu vrsta de peste 18 ani din familie). Simpla analiz statistic a acestei variabile d urmtoarea configuraie:
HOUSEHOLD MEMBERS 18 YRS AND OLDER Cumulative Percent 34.2 87.5 97.2 99.5 99.9 100.0 100.0

Frequency Valid 1 2 3 4 5 6 7 Total Missing Total NA 967 1510 275 64 13 1 1 2831 1 2832

Percent 34.1 53.3 9.7 2.3 .5 .0 .0 100.0 .0 100.0

Valid Percent 34.2 53.3 9.7 2.3 .5 .0 .0 100.0

HOUSEHOLD MEMBERS 18 YRS AND OLDER Valid 1 967 967 2 1510 3020 3 275 825 4 64 256 5 13 65 6 1 6 7 1 7 Total 2831 5146 Missing NA 1 Total 2832

1.81773225

n acest context se pune problema acordrii unor anse mai mari de apariie a persoanelor din familii mai mari. Pentru aceasta se calculeaz un anumit coeficient de multiplicare i a crui valoare este n acest caz egal cu 1,818. Aceast valoare s-a obinut conform algoritmului din tabelul de mai jos. Se observ c se caut un eantion n care se cumuleaz produsele de genul 1x967, 2x1510, 3x275 etc., care justific ansele acordate dup aprecierile de mai nainte. La final suma de 5146 a fost mprit la 2831 i a rezultat coeficientul de 1,818 (rotunjit). n continuare autorii introduc o nou variabil numit wadults creat cu ajutorul submeniului Compute prin ponderarea variabilei adults cu acest coeficient:

Ca de obicei noua variabil se va gsi n baz pe ultima poziie:

Abia acum poate fi apelat procedura weight cases cu variabila wadults drept criteriu: Odat activat butonul OK se va observa c pe bara de jos va apare specificarea de rigoare:

La final distribuia persoanelor cu vrste de peste 18 ani va fi urmtoarea:


HOUSEHOLD MEMBERS 18 YRS AND OLDER Cumulative Percent 18.8 77.5 93.5 98.5 99.7 99.9 100.0

Frequency Valid 1 2 3 4 5 6 7 Total 532 1661 454 141 36 3 4 2831

Percent 18.8 58.7 16.0 5.0 1.3 .1 .1 100.0

Valid Percent 18.8 58.7 16.0 5.0 1.3 .1 .1 100.0

Obs. Se poate reveni la situaia iniial a bazei de date alegndu-se opiunea Do not weight cases. Obs. Am folosit pentru afiarea n Output un alt model pentru tabele. Acest model se poate seta urmnd meniul

EditOptionPivot Tables:

S-ar putea să vă placă și