Sunteți pe pagina 1din 23

I. 1.

Introducere n SPSS Necesitatea prelucrrii unui volum din ce n ce mai mare de date, a unor cercetri de teren ct mai rapide etc., a impus dezvoltarea unor pachete statistice performante. Au aprut astfel de-a lungul timpului diverse programe : SAS, SPSS, SPAD, STATA etc., majoritatea oferind alternative de calcul pentru aceleai proceduri statistice de baz. n acest curs vom trece n revist o serie de proceduri pe care le utilizeaz programul SPSS for Windows, varianta 11.5., program care a fost lansat de ctre SPSS Inc. Chicago (alte informaii putei afla pe site-ul www.spss.com). Traducerea liber a acestor iniiale este Statistical Package for Social Sciences . Odat lansat programul Windows, dac SPSS 11.5 este instalat, programul se poate deschide apelnd la pictograma* specific sau cutnd fiierul executabil dup comenzile StartPrograms SPSS for Windows SPSS 11.5 for Windows :

Dup executarea acestor comenzi va apare fereastra general a programului SPSS:

Datorit specificului acestui demers explicativ am renunat n aceste capitole la numirea i numerotarea figurilor sau tabelelor.

n imaginea de mai nainte, n partea superioar se pot observa, ca i n programele Word sau Excel trei bare: -Bara de titlu care poate include numele fiierului dup ce va fi salvat -Bara de meniuri (File, Edit, View, Data etc.) -Bara cu instrumente (anumite pictograme care sunt de fapt scurtturi ale unor comenzi care se gsesc de fapt i n meniuri). Mai jos putem identifica un tablou format din linii i din coloane, tablou numit editor de date (Data Editor). Pe ecran apare doar o mic parte din acest tablou foarte mare. n acest tabel identificm: -coloanele (care reprezint variabile statistice) -liniile (care reprezint cazuri, persoane supuse cercetrii, observaii) n partea inferioar de pe ecran apar dou etichete care au funcii apropiate de nominalizarea foilor de lucru din programul Excel:

Data View- compartimentul rezervat datelor introduse n Data Editor Variable view-compartimentul rezervat variabilelor introduse. n continuare vom explicita pe scurt bara de meniuri:

File- conine comenzi pentru citirea, scrierea sau imprimarea tuturor tipurilor de fiiere cu care opereaz programul. Edit- conine comenzile pentru editarea, modificarea, copierea, cutarea textelor Data- conine comenzi pentru definirea variabilelor, inserarea de noi variabile sau cazuri, sortarea, alipirea, inversarea, agregarea, selectarea bazelor de date Transform- conine comenzi pentru transformri ale variabilelor i ale valorilor lor. Statistics- meniu cu procedurile statistice disponibile n program Graphs- conine procedurile pentru reprezentri grafice diverse Utilities- conine comenzi care pot da informaii despre variabile, pot desemna un set redus de variabile, organizarea meniurilor. Window- conine comenzi care permit lucrul cu ferestrele SPSS Help- conine informaii despre program i despre procedurile statistice folosite.

I. 2. Lucrul cu programul SPSS. Deschiderea unei baze de date Obiectul de studiu l reprezint bazele de date, fie c ele sunt create sau aduse din alte surse de ctre utilizator fie c sunt cele existente deja n cadrul programului. Dac intenionm s deschidem o astfel de baz de date este necesar s urmm paii urmtori: FileOpenData dup care apar toate bazele de date din program: Dup cum se observ bazele de date sunt ordonate alfabetic iar din ultimul rnd se deduce c bazele de date sunt fiierele de tipul *.sav!

Obs: nafar de fiierele de tip *.sav care desemneaz bazele de date, SPSS utilizeaz i fiiere de tip *.sps (care conin varianta scriptic a comenzilor sau fiiere sintax) precum i fiiere de tip *.spo n care sunt incluse rezultatele cercetrii statistice). Dac deschidem ns rubrica Files of type apar urmtoarele specificaii: Deducem de aici c SPSS poate citi i multe alte tipuri de fiiere. De exemplu se pot citi fiiere de tip Spreadsheet (Excel, Lotus), de tip dBase, Ascii sau fiiere din diverse alte programe statistice. Pentru precizri suplimentare se poate consulta Help-ul programului sau Tutorialul acestuia!

Toate tipurile de fiiere de mai nainte apar i n cazul n care un fiier spss dorim s fie salvat dup comenzile File Save As; putem deci hotr formatul n care va fi salvat. De asemenea cu comenzile FileOpen Database putem s transferm diverse fiiere iar cu comezile FileRead Text Data putem transfera n SPSS chiar texte din fiiere tip ASCII Data..

*** Dac vom alege una din bazele incluse n program i vom executa dublu clic pe numele acesteia atunci va apare pe ecran o imagine de tipul urmtor:

Se observ mai nti c este afiat numele bazei respective GSS93 subset apoi putem observa dispunerea pe coloan a unor variabile cum ar fi: id (numr de identificare a individului care intr n baza de date), wrkstat (statusul ocupaional), marital (situaia marital), agewed (vrsta la prima cstorie) etc. Dup cum se vede fiecare variabil are un nume prescurtat care poate include maximum 8 caractere (fr spaii i fr anumite semne speciale) iar dac vom opri cursorul mausului pe numele unei variabile va apare instantaneu numele pe lung al acesteia (care se poate extinde pn la 256 de caractere). Pentru a obine informaii amnunite despre variabile putem alege opiunea Variable view din partea de jos a ferestrei Data Editor. Recomandm de asemenea submeniul File Display Data Info. Pentru nelegerea informaiilor astfel obinute sau pentru construirea de noi baze de date trebuie cunoscut n amnunt problematica variabilelor statistice. 3. Variabile. Elemente de statistic descriptiv

Relum aici unele consideraii fcute ntr-un curs anterior de statistic descriptiv datorit utilitii acestora n cazul de fa. Aminteam cu acel prilej c n orice cercetare statistic se obin date asupra unor caracteristici bine precizate ale unitilor statistice. Dac aceste uniti au unele caracteristici considerate n cadrul cercetrii ca fiind fixe altele sunt considerate ca variind de la o unitate la alta de unde i denumirea de variabil. De exemplu dac unitile statistice sunt reprezentate de cetenii romni cu drept de vot, ntre acetia apar diferenieri dup sex, venit, apartenen religioas, profesie, nivelul de educaie, numr de copii, opiunea politic etc. Toate acestea din urm sunt caracteristici sau variabile statistice. Fiecare din aceste variabile se distinge prin mulimea valorilor pe care le ia. Dup cum se vede i din enumerarea de mai sus aceste variabile se exprim prin mrimi total diferite ceea ce a impus clasificarea lor de o manier precis. Astfel, pentru Michle Colin et al. (1995; 32) variabilele sunt de dou feluri:

-calitative (desemneaz feluri de a fi: sex, culoarea ochilor, opiniile etc.) -cantitative (provin dintr-o msurare: talia, greutatea, vrsta etc.) n ce privete variabilele calitative, acestea pot fi ordonate atunci cnd iau anumite valori pe dou tipuri de scale: 1). Scal nominal (ex. Sexul poate fi masculin/ feminin; starea civil poate fi doar ntruna din situaiile: necstorit, cstorit, vduv, divorat) 2). Scal ordinal (ex. Rspunsul la ntrebarea Ct de mulumit suntei de eful dv. direct?, rspuns: a). absolut de loc; b). puin ; c) nici mulumit, nici nemulumit d). mult e).foarte mult. Diferena dintre cele dou scale este evident. Astfel, n cazul primului tip nu exist o relaie de ordine iar valorile variabilei sunt exprimate prin cuvinte (de unde i denumirea de scal nominal!), cuvinte care nu fac dect s mpart colectivitatea statistic n mai multe grupe sau categorii. n cel de al doilea caz subiectul care rspunde este rugat s se plaseze singur pe o treapt a unei scale care poate fi ascendent sau descendent, dar n orice caz este presupus aici o relaie de ordine (fiecare din variantele a, b, c, este plasat pe un continuum cresctor, din care trebuie aleas una). Din moment ce ele semnific o ordine atunci ele pot fi notate i cu numere naturale ca n exemplul urmtor: ntrebare: De cte ori mergei la biserica din confesiunea dumneavoastr? Rspuns: 1). Cel puin o dat pe sptmn ; 2). Cel puin o dat pe lun; 3). Destul de rar ; 4). Practic niciodat. Acest exemplu l-am dat pentru a aminti, odat cu T. Rotariu [1999; 28] c scala utilizat se distinge prin folosirea variantelor 1,2,3 dar numai n sens ordinal i nu pur numeric, cantitativ. Variantele 1,2,3 genereaz de fapt tot clase sau categorii de rspunsuri! Precizrile acestea sunt foarte importante pentru a nu se confunda acest tip de variabile cu cele cantitative! n concluzie se poate face distincia ntre variabile calitative nominale i variabile calitative ordinale. Ct privete variabilele cantitative, acestea provin dintr-o msurare efectiv, exprimat printr-un numr cardinal i se mpart i ele n dou categorii: -variabile cantitative continui (ex. nlimea unei persoane adulte poate fi orice valoare din intervalul [140, 220] cm.) -variabile cantitative discrete (ex: o familie poate avea 0, 1, 2, 3, 4,.copii, dar nu i un numr exprimat printr-o valoare intermediar ex. 1,5 ; 2,3 etc.) Obs: intuitiv diferena dintre cele dou tipuri ar putea fi dat de modul cum parcurgem, n matematic mulimea R (a numerelor reale) i mulimea N (a numerelor naturale)! Variabilele cantitative uzeaz de dou tipuri de scale: 1). Scal de intervale (ex. gradaia unui termometru, anul naterii etc.) 2). Scal de rapoarte (ex. greutatea, salariile, vrsta etc.) Obs : n literatura de specialitate le ntlnim uneori cu nume n limba englez (interval scale respectiv ratio scale). Diferena dintre cele dou scale este important. Astfel, n cazul scalei de intervale gradaia de nceput (ex. 00 Celsius) este convenional pe cnd n cazul scalei de raporturi gradaia de nceput este real (ex. venitul de 0 lei desemneaz lipsa oricrei surse financiare). O alt diferen provine din faptul c scala de intervale nu ne permite s stabilim raporturi ntre valorile unei variabile (de ex. nu putem spune c la temperatura de 40 0 Celsius este de 40 de ori mai cald dect la temperatura de 10 Celsius). n cazul celei de-a doua scale se pot stabili aceste raporturi (de ex. un individ de 100 de Kg. este ce dou ori mai greu dect unul de 50 Kg.). Avnd n vedere c diferenele dintre aceste scale sunt imediat percepute rareori pot apare anumite confuzii. Se impune totui precizarea c unii indicatori statistici nu au sens prin folosirea de scale de intervale.

ncercnd o recapitulare iat cum arat o tabelare a variabilelor dup M. Colin et al. [1995; 34]:

Clasificarea variabilelor dup tip Tip de varibil Scala Calitativ Cantitativ (discret sau continu) Nominal Ordinal De intervale De rapoarte

Exemple Sex, profesiune Opinie Discret: anul de natere Continu: temperatur Discret: nr. de copii, vrsta Continu: nlime, greutate

S precizm n final c diferenierea dintre variabile (caracteristici) duce n fapt la distingerea a dou direcii n analiza statistic: statistica non-parametric (pentru variabilele calitative) i cea parametric (pentru variabilele cantitative). S mai amintim c n literatura de specialitate se ntlnete noiunea de variabil categorial uneori cu sens calitativ alteori cu sens cantitativ. Generaliznd, variabilele pot fi de dou feluri : cantitative sau calitative iar dintr-un alt punct de vedere pot fi continue sau discrete (categoriale). Aceste precizri sunt importante pentru c procedurile statistice alese din cadrul programului SPSS depind de tipul de variabile i de tipul scalelor. De exemplu pentru scale nominale sau ordinale sunt obligatorii proceduri sau teste nonparametrice n timp ce pentru scalele de interval sau de raport se vor folosi proceduri sau teste parametrice. De asemenea este important de precizat c variabilele trebuie s ndeplineasc anumite condiii nainte de a fi supuse cercetrii. De exemplu se cere ca o variabil cantitativ s respecte condiiil : distribuirea normal a valorilor n esantionul prelevat i apropierea acestei distribuii de distribuia din populaia mare din care a fost extras eantionul. Obs. : Exist uneori tendina de a trata scalele ordinale ca i scale de intervale. Din cauz c distanele ntre valorile acestor tipuri de scale sunt diferite pot apare ns confuzii. De exemplu dac ne referim la o scal ordinal dat de ntrebarea Suntei mulumit de eful direct ? cu rspunsurile posibile : 1. Foarte mulumit 2. Mulumit 3. Deloc mulumit 4. Nu am o prere format, se pune problema dac este legitim s calculm media aritmetic a valorilor 1-4 ca i pe o scal de intervale. Se pune deci problema dac o medie de 1,75 ne poate ndrepti s declarm c suntem aproape mulumii de eful direct ? Fr doar i poate c o astfel de valoare are o reprezentare intuitiv ns n sens strict statistic ea poate fi imprecis. S presupunem c avem alt scal ordinal ataat ntrebrii Cte cri de literatur citii pe lun ? : 0. Niciuna 1. O carte 2. Dou cri 3. Trei cri 4. Patru sau mai multe cri. n acest caz o astfel de scal poate fi tratat ca i o scal de interval i deci o medie de, s spunem, 1,5 cri ni se pare plauzibil. Diferena de interpretare apare din faptul c cea de a doua scal ordinal are intervale egale. n fiecare caz rmne la latitudinea cercettorului de a decide interpretarea corect a datelor.

O distincie important este i aceea dintre variabile independente i variabile dependente. Iat cteva exemple :

Variabila independent Stilul managerului Sexul respondenilor Virsta

Variabila dependent Productivitatea muncii Opiuni electorale Preferine muzicale

Dup cum se observ sensul legturii dintre aceste variabile este univoc relaia invers neputnd fi impus (de exemplu opiunile electorale nu pot influena sexul subiecilor). Modul cum sunt desemnate aceste tipuri de variabile difer de la o cercetare la alta. Prin definiie variabilele independente sunt cele care influeneaz pe cele dependente, fiind stabilite sau introduse de ctre cercettor. n cercetrile prin chestionar de obicei se introduce un set de astfel de variabile cu caracter demografic sau economic n funcie de care se vor face analize privind celelalte variabile (ntrebri). Legturile dintre astfel de variabile sunt mai des puse n eviden n experimentele sociologice.

4. Definirea variabilelor n SPSS S presupunem c dorim s construim o nou baz de date. Pentru aceasta vom urma comenzile FileNewData dup care apare tabloul gol Data Editor. Vom da apoi dublu clic pe numele sav care apare n capul primei coloane. Automat se va deschide cel de-al doilea registru numit Variable view n care putem defini variabilele:

n prima coloan ncepnd din colul din stnga sus putem introduce numele variabilelor. Este vorba de numele pe scurt al acestora cu pn la opt caractere. Apoi vom caracteriza respectivele variabile conform indicaiilor care urmeaz : Type, Width, Decimals, Label etc. De data aceasta tabelul conine pe fiecare linie orizontal cte o variabil iar pe fiecare coloan putem caracteriza n amnunt fiecare variabil. Vom identifica rolul fiecrei coloane:

Obs. Name- include numele pe scurt al variabilei de maximum 8 caractere (nu se folosesc spaiile goale sau anumite semne speciale : !, ?, *, ). Se accept totui simbolul _ numit i underscore. Dup ce am introdus numele n prima csu vom da clic n partea dreapt a celulei corespunztoare unei variabile i care este n coloana cu titulatura Type. Va apare urmtoarea fereastr :

Aceast ferestr conine tipurile de variabile posibile mai precis tipurile de variabile dup valorile pe care le pot lua acestea : -Numeric-opiunea pentru valori numerice; se poate stabili cte cifre au aceste numere, maximum 40 (Width) dar i cifrele pentru partea zecimal, maximum 16 (Decimal Places). Opiunile alese vor apare n urmtoarele dou coloane ale tabloului ! -Comma- sau virgul folosit uneori la separarea cifrelor de ordinul miilor, milioanelor etc. ; n acest caz separatorul zecimal este un punct -Dot- sau punct folosit uneori la separarea cifrelor de ordinul miilor, milioanelor etc. ; n acest caz separatorul zecimal este un virgula -Scientific notation- notaii speciale de tipul 1,2E3 ceea ce nseamn 1,2*103 -Date-notaii pentru date calendaristice (conform unui format care poate fi ales). -Dollar-simbolul monedei americane -Custom currency- variabil numeric cu date dispuse dup formatul din EditOptionsCurrency -String- configureaz variabile alfanumerice care pot conine iruri de caractere (litere sau numere). Odat aleas aceast opiune poate fi indicat numarul de caractere ales. Obs : cele mai des folosite tipuri sunt Numeric i String ! -Label- putem desemna numele pe lung al variabilei cu pn la 256 caractere -Values- pot fi numite valorile i etichetele ataate acestor valori pentru cazul variabilelor ordinale sau categoriale. Dup un clic n partea dreapt a celulei corespunztoare din coloana cu acest titlu va apare fereastra de dialog urmtoare :

Value d valoarea numeric a unei etichete iar Value Label va da numele etichetei respective. Dup aceste operaii se apas pe butonul Add . Opiunile pot fi apoi schimbate (Change) sau chiar terse (Remove). Iata cum va arta dup aceste operaii variabila sex cu cele dou alternative 1. masculin, 2. feminin:

Nu uitai: la finalul unor operaiuni de acest tip se alege invariabil OK sau Continue, altfel setrile dorite nu vor fi preluate de ctre program!

- Missing poate permite operatorului de a desemna valorile lips (Missing Values) din cadrul unei variabile. Pentru inceput, programul are setat opiunea fr valori lips dup cum apare n fereastra urmtoare :

Se poate opta totui pentru dverse variante:

n aceste cazuri operatorul poate decide ca n analizele ulterioare valorile de tipul 97 (Nu tiu), 98 (Nu rspund) 99 (Nu s-a aplicat) s fie considerate lips (missing). De asemenea se poate decide ca pe lng valorile cuprinse ntre 97-99 s mai fie adugat o valoare din baza de date. Necesitatea unor astfel de operaii este imediat : se pot face analize eliminnd pe moment anumite valori spaciale iar apoi se pot analiza separat chiar valorile considerate lips. n cazul variabilelor alfanumerice trebuie consemnat un spaiu liber n csua Discrete missing values deoarece programul consider valide chiar i celulele goale ! - Columns- se poate decide asupra formatului coloanelor n funcie de mrimea datelor variabilei - Align- se poate decide asupra modului cum vor fi aliniate valorile variabilei pe coloane - Measure- opiune deosebit de important n urma creia decidem asupra modalitii de msurare a variabilei. Astfel exist trei opiuni : Scale- opiune pentru variabile numerice fie ele msurate pe scale de interval sau de rapoarte (ratio) ; asociem aceast modalitate cu un numr mare de valori ale variabilei - Ordinal- de obicei este o opiune pentru variabile ordinale care au categorii bine precizate prin etichete numerice i care pot fi ordonate. - Nominal- opiune pentru variabile alfanumerice n care nu exist nici o relaie de ordine ntre valori (care pot fi cuvinte dar i numere). Obs : precizarea corect a opiunii measurement este important deoarece o serie de proceduri statistice se refer doar la anumite tipuru de variabile sau valori. Astfel pentru variabile nominale dintre mrimile tendinei centrale (media, mediana, modul) nu are sens s calculm media ! 5. Introducerea variabilelor i a datelor n SPSS Odat fcute precizrile de pn acum putem introduce datele n Data Editor tiind c fiecare coloan reprezint o variabil iar fiecare rnd reprezint un caz sau o persoan. S presupunem c ntr-un chestionar avem n ordine urmtorii itemi : -Codul chestionarului : Q1. Cum trii n prezent fa de acum 3 ani? 1. Mult mai bine 2. Mai bine 3. La fel 4. Mai ru 5. Mult mai ru 9. NS/NR Q2. Care este principala problem din localitate pe care fostul primar nu a rezolvat-o? .............................................................. -

Vom ncerca s introducem itemii de mai nainte ca i variabile n baza de date apoi vom insera valorile pentru primii zece subieci interogai. Se observ c primul item reprezint o variabil cantitativ, Q1 reprezint o variabil ordinal iar cea de a treia este o variabil nominal. nainte de a introduce valorile n baz vom intra n opiunea Variable View i vom defini variabilele cod, q1_trai, q2_probl. Pentru prima variabil putem face urmtoarele opiuni:

Se observ c am optat pentru tipul numeric variabila avnd drept valori numere cu pn la trei cifre (Width=3) considernd c au fost interogate de exemplu 800 de persoane. Codul chestionarului este un numr ntreg fr zecimale (Decimals=0), numele pe lung al variabilei este Cod chestionar, msurarea este de tip Scale. Definirea variabilei q1_trai trebuie s in cont de specificul acesteia prin precizarea etichetelor respective (se scrie Value: 1, apoi Value Label : Mult mai bine apoi Add etc.).

La final noua variabil din rndul al doilea va avea urmtorii parametri :

Se observ c valorile rmn numerice dar cu precizarea c acele numere se refer la valorile etichetelor : 1, 2, 3, 4, 5, 9. Aceste numere sunt compuse dintr-o singur cifr (Width=1). Numele pe lung al variabilei este chiar ntrebarea din chestionar : Cum trii n prezent fa de acum 3 ani?.Modalitatea de msurare este Ordinal.

Cea de a treia variabil q2_probl este una nominal rspunsurile fiind consemnate ca variante pentru o ntrebare deschis. Dac n cazul anterior se vor introduce n baza de date doar numerele valori ale etichetelor n acest caz trebuie introduse rspunsurile subiecilor ca atare. Referitor la valorile variabilei tipul acesteia este String:

Odat cu alegerea opiunii String se impune precizarea numrului de caractere pe care il poate avea rspunsul subiecilor (n acest caz 100 de caractere). n final aceast variabil va avea caracteristicile de pe poziia a treia :

Cea de a treia variabil este de tip String cu variante de pn la 100 de caractere nominale sau numerice. Modalitatea de msurare este Nominal. Dup aceste operaii putem salva baza de date cu comenzile FileSave As i noua baz o putem numi bazaexemplu. Numele bazei va apare n bara de titlu :

n acest moment putem reveni n fereastra Data View pentru a introduce datele culese din chestionare. Valorile se introduc n tabel acolo unde celula este activ (apare un chenar n jurul celulei) apoi se apas tasta Enter. S presupunem c am introdus primii zece subieci chestionai.

Pentru a vedea i care sunt etichetele ataate valorilor din coloana a doua putem urma comenzile View Value Label sau putem da clic pe butonul de pe bara cu instrumente. Dup o astfel de operaie vor apare n baz i etichetele respective : Se observ c n cea de a doua coloan apar doar valorile numerice ale etichetelor (fapt ce ne arat c introducerea datelor n acest caz este mult facilitat). n stnga sus se poate vedea i poziionarea celulei active : coloana 2, rndul 11.

Obs. din moment ce bazele de date au fost constituite putem incepe analizele statistice necesare ! Obs. Toate comenzile de pn acum pot fi executate i ntr-un editor de texte sau fiier sintax. Acest fiier care are termninaia .sps este foarte util cnd se lucreaz frecvent cu baze mari de date pentru c respectivele instruciuni (comenzi) pot fi salvate i apoi reiterate de cte ori este nevoie. Ceea ce am ntreprins pn acum de exemplu putem s regsim ntr-un jurnal al aplicaiilor

care poate fi gsit n fiierul spss.jnl din WindowsTemp, fiier care poate fi deschis i ca document Word. Accesnd acest document gsim urmtoarele specificaii care rezum de fapt construcia bazei de date anterioare: Thu Dec 25 13:42:07 2003 :journaling started GET FILE='C:\Documents and Settings\Adrian\My Documents\spss curs'+ ' Id\bazaexemplu.sav'. SAVE OUTFILE='C:\Documents and Settings\Adrian\My Documents\spss curs Id\bazaexemplu.sav' /COMPRESSED. Un fiier sintax poate fi iniiat dup comenzile FileNewSyntax. Chiar dac nu lucrm n limbaj sintax atunci putem salva comenzile folosite fie alegnd comanda Paste n loc de OK n diverse aplicaii pe care le efectum sau putem sa le salvm n outputul aplicaiilor efectund comenzile EditOptionViewerDisplay Commands in the log. S dm un exemplu de astfel de comenzi salvate n Output (fiier de rezutate) de exemplu pentru calcularea mediei vrstei respondenilor din baza de date GSS93 Subset: FREQUENCIES VARIABLES=age /STATISTICS=MEAN /ORDER= ANALYSIS . n acest volum nu vom insista pe aspecte legate de limbajul sintax ns recomandm pentru cei interesai de exemplu volumul M. Norusis, SPSSx Advanced Statistics Guide, McGraw Hill, 1995. De asemenea se poate apela la site-ul creatorilor i proprietarilor programului www.spss.com sau la Help-ul programului.

6. Elemente de statistic univariat n SPSS Vom analiza n acest capitol cteva din procedurile statistice elementare pe care le putem aplica datelor statistice. S deschidem una din bazele programului anume GSS93 subset (obinut n urma unei anchete pe un eantion de 1500 de subieci):

Ne oprim atenia asupra variabilei educ (Highest year of school completed) ale crei caracteristici de baz le putem identifica n fereastra Variable View:

Variabila este considerat avnd valori numerice cu maximum dou cifre, sunt consemnate trei valori speciale: 97 (NAP, neaplicat) 98 (DK, dont know ; nu tiu) i 99 (NA, no answer, non-rspuns). n cazul valorilor lips (missing values) sunt consemnate valorile 97, 98, 99. Variabila este considerat ordinal dar din cele spuse mai nainte ea poate fi la fel de bine considerate variabil cantitativ discret. Pentru aceast variabil vom ncerca s calculm principalele valori statistice. Pentru aceasta vom apela comenzile urmtoare: AnalyseDescriptive StatisticsFrequencies:
Se va deschide o nou fereastr de dialog care conine dou compartimente. Pentru ca o varibil s poate fi analizat trebuie trecut din coloana din stnga n cea din dreapta cu ajutorul sgeii din mijloc (sau dublu clic) dup selectare. Sgeata se poate aciona i invers!

Se observ n aceast fereastr i alte elemente: - Display frequency tables- opiune pentru afiarea tabelului frecvenelor variabilei; uneori putem renuna la acest tabel (prin deselectarea opiunii) - OK-comand final dup ce am ales toate opiunile de calcul - Paste- comand pentru salvarea comenzilor n modul sintax - Reset- comand pentru anularea setrilor n curs - Statistics- comand pentru calculul principalelor valori statistice - Charts-comand pentru reprezentri grafice - Format- opiuni privind modaliti de afiare ale rezultatelor - Help- comand de ajutor Prin acionarea butonului Statistics se va deschide o nou fereastr de dialog : Se obsev mprirea acestei ferestre pe o serie de blocuri distincte referitoare la percentile, dispersie, mrimile tendinei centrale i mrimi legate de forma distribuiei statistice. Pentru calcularea acestor valori este necesar s selectm procedurile care ne intereseaz cu un clic al mausului n ptrelele din fa lor. Pentru deselectare vom da un clic n aceleai ptrele! Vom discuta pe larg opiunile acestei ferestre n cele ce urmeaz. I. Percentile Values- comand care mparte mulimea valorilor statistice n mai multe grupe de date. Exist mai multe variante: Quartiles (mprim mulimea valorilor n patru pri egale fiecare cte 25%) Cut points for 10 equal groups (mpire n 10 pri dar pot fi alese mrimi ntre 2 i 100) Percntile(s)- se poate specifica o centil anume.

II. Dispersion- include comenzi pentru calcule privind analiza variaiei Se poate opta pentru Standard Deviation, sau deviaia standard sau abaterea medie ptratic, mrime care ne arat cu ct se abat n medie valorile seriei de la media lor. Formula de calcul pentru serii cu frecvene este cea cunoscut din statistica descriptiv deja parcurs:
SD =

(x x ) f
i i

fi

Obs: n cazul unei serii cu distribuie normal sau care se apropie de o astfel de distribuie valorile seriei sunt cuprinse n proporie de 99% n intervalul [x 3SD, x + 3SD] . -Variance-o notm SD2 este mrimea din care am obinut deviaia standard prin extragerea radicalului. Formula de calcul este sugerat de ridicarea la ptrat a formulei anterioare: SD
2

(x x ) = f
i i

fi

-Range- sau amplitudinea absolut se calculeaz cu formula:

A = x max x min , valori notate Minimum, Maximum.


S.E. Mean-sau standard error of mean (eroarea standard a mediei) ne poate arat limitele ntre care variz media eantionului () n cadrul unei populaii de eantioane. Se tie c un astfel de interval este foarte util atunci cnd aproximm valoarea mediei dintr-o populaie. Aceast valoare nu este cunoscut dect n urma unor cercetri exhaustive care sunt deosebit de complexe i costisitoare. n practic majoritatea estimrilor statistice se fac pe eantioane iar rezultatele, sub condiia reprezentativitii, sunt apoi inferate (extinse) la populaia mare din care a fost extras eantionul. Dac notm media din populaia mare cu , S.E.Mean cu SE i eroarea limit admis cu x (x=t.SE) putem conchide c, cu o anumit probabilitate, [x x , x + x ] , interval n care x este media din eantion. Atragem atenia c n majoritatea tratatelor de statistic valorile care se refer la o populaie statistic sunt notate cu litere greceti iar cele referitoare la eantioane se vor nota cu litere latine.

III. Central Tendency-grup de valori care poart denumirea de mrimile tendinei centrale (acele mrimi care caracterizeaz m medie ntreaga mulime a valorilor statistice). Se calculeaz de obicei urmtoarele valori: Mean- media aritmetic ( x ); este calculate cu formulele: x=

x
n

, pentru serii simple i x =

x f f
i i

, pentru serii cu frecvene

intervalului median, d mrimea acelui interval, f ia este frecvena cumulat anterioar intervalului median, iar fm este frecvena corespunztoare acelui interval.

-Median-sau mediana (Me) reprezint valoarea ataat individului sau cazului care mparte milimea statistic n dou pri egale. Se citete astfel: 50% din valorile seriei sunt mai mici dect Me, iar restul de 50% au valori care depesc Me. Dup cum se tie aceast mrime se identific uor ntr-o serie simpl, la mijlocul acesteia, dup ce am ordonat valorile respective. Pentru o serie cu intervale se folosete formula: U me f ia , formul n care x0 este limita inferioar a Me = x0 + d fm

-Mode-sau modul (dominanta), notat Mo, reprezint cea mai des ntlnit valoare dintr-o serie statistic sau valoarea care are cea mai mare frecven. Pentru o serie simpl este uor de identificat iar pentru serii cu frecvene se folosete formula: 1 Mo = x0 + d , formula n care x0 este limita inferioar a intervalului 1 + 2 modal (corespunztor celei mai mari frecvene), d este mrimea respectivului interval, 1 i 2 sunt diferenele obinute prin scderea din frecvena intervalului modal a frecvenelor anterioar i posterioar acesteia. -Sum-reprezint suma valorilor seriei IV. Distribution- valori care se refer la forma distribuiei statistice. Cuprinde du tipuri de valori: skewness (asimetria) i kurtosis (aplatizarea). Asimetria se refer la msura n care graficul (distribuia) valorilor este asimetric spre stnga sau spre dreapta fa de valoarea medie. Pentru un coefficient, s l notm sk (de fapt coeficientul Pearson de oblicitate) putem avea valorile: Sk>0, asimetrie la dreapta (graphic alungit spre dreapta) Sk<0, asimetrie la stnga (graphic alungit spre stnga) Sk0, distribuie simetric Aplatizarea sau boltirea se refer la compararea distribuiei cu o curb normal. Se poate calcula un coeficient de aplatizare (l notm cu k) iar valorile acestuia pot fi interpretate astfel: k>0, distribuie leptocurtic (peste o curb normal) k<0, distribuie platicurtic (sub o curb normal) k0, distribuie mezocurtic (tinde la o curbnormal) Obs1. Valorile sk i k sunt considerate normale dac se ncadreaz n intervalul [-1,96; 1,96]. Obs2. Precizm c o curb normal este binecunoscuta distribuie gaussian, n form de clopot, perfect simetric i care se bucur de o serie de proprieti fundamentale pentru cercetarea statistic. Recomand i parcurgerea bibliografiei de la sfritul cursului pentru alte informaii. V. Values are group midpoints-opiune utilizat cnd valorile seriei sunt grupate simetric n jurul unei valori anumite.

7. Calcule statistice n SPSS Toate mrimile precizate pot fi calculate n cazul unei variabile cantitative numerice. Vom seta toate variantele repective vom da OK i vom obine rezultatele ntr-o alt fereastr Output1 (specific afirii rezultatelor i care poate fi salvat ca i un fiier de tip *.spo):
Statistics Highest Year of School Completed N Mean Median Mode Std. Deviation Variance Skewness Std. Error of Skewness Kurtosis Std. Error of Kurtosis Range Minimum Maximum Sum Percentiles 25 50 75 Valid Missing 1496 4 13.04 12.00 12 3.074 9.450 -.309 .063 .708 .126 20 0 20 19504 12.00 12.00 15.75

Din aceste date deducem c sunt valide 1496 de cazuri iar 4 sunt considerate lips (acele valori 97,98 i 99). Media anilor de studii-coal ncheiat din eantion este de 13,04 ani iar SE of Mean= 0,079. Jumtate dintre subieci au media anilor de studiu de pn n 12 ani, restul de peste 12. Modul este unic i este Mo=12, cea mai des ntlnit valoare. Abaterea standard este de 3,074 ani. Coeficientul de asimetrie este de 0,309 deci distribuia este alungit uor spre stnga iar coeficientul boltirii este de 0,708 deci distribuia este leptocurtic. Amplitudinea este de 20 ca rezultat din diferena MaximumMinimum. Suma tuturor valorilor este de 19504 ani. Primii 255 dintre respondeni au pn n 123 ani de coal, primii 50% au tot pn n 12 ani, primii 75% au pn n 15,75 ani de scoala.

Dac apelm la butonul Charts din aceeai fereastr putem reprezenta graphic seria dup ce am ales setrile care se potrivesc seriei noastre, din fereastra urmtoare:
Se observ c am ales Graficul de tip Histogram care este specific variabilelor cantitative. Am ales i varianta With normal curve deoarece prin comparaie se poate stabili i tendina distribuiei spre o curb normal. Se pot alege i alte tipuri de grafice: Bar Charts (grafic cu bare) sau Pie charts (grafic de tip placint). Ultimele dou tipuri de grafice sunt recomandate atunci cnd variabilele sunt categoriale pentru o mai bun vizualizare a acestora (se recomand ca numrul categoriilor s nu fie foarte mare pentru a se pstra lizibilitatea). Pentru aceste grafice exist i dou opiuni: Frequencies i Percentages.

Dup apelarea butonului Continue graficul va apare tot n fereastra de rezultate Output1:

Highest Year of School Completed


700 600

500

400

300

200

100 0 0.0 2.5 5.0 7.5 10.0 12.5 15.0 17.5 20.0

Std. Dev = 3.07 Mean = 13.0 N = 1496.00

Se observ n acest grafic constatrile din primul tabel: distribuia se apropie de o curb normal avnd o uoar alungire spre stnga (sk<0) iar din punctul de vedere al boltirii existnd o tendin leptocurtic (k>0) adic dac am uni mijloacele dreptunghiurilor histogramei tendina este de a depi o curb normal.

Frequency

Highest Year of School Completed

n aceeai fereastr Output1 vom gsi i tabelul frecvenelor dup cum urmeaz:
Highest Year of School Completed Cumulative Percent .1 .4 .9 1.3 2.7 4.4 8.4 11.4 15.0 20.5 50.2 59.2 70.3 75.0 88.9 92.0 96.7 98.3 100.0

Frequency Valid 0 2 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Total Missing DK Total 2 4 7 7 20 26 59 45 55 81 445 135 166 70 208 46 71 24 25 1496 4 1500

Percent Valid Percent .1 .3 .5 .5 1.3 1.7 3.9 3.0 3.7 5.4 29.7 9.0 11.1 4.7 13.9 3.1 4.7 1.6 1.7 99.7 .3 100.0 .1 .3 .5 .5 1.3 1.7 3.9 3.0 3.7 5.4 29.7 9.0 11.1 4.7 13.9 3.1 4.7 1.6 1.7 100.0

Prima coloan conine valorile seriei respectiv anii de studii cu cifre cuprinse intre 0 i 20 de ani de studiu. Cea de a doua coloan cuprinde frecvenele absolute la final adugndu-se i numrul celor care au rspuns dont know (DK). Cea de a treia coloan conine frecvenele relative (procentuale). Cea de a patra coloan conine frecvenele procentuale valide adic acele frecvene recalculate n condiiile n care valorile speciale de tip 97, 98, 99 sau altele sunt declarate missing sau lips. Diferenele dintre coloanele a treia i a patra nu exist datorit numrului foarte mic de valori missing. Dac numrul lor era mai mare diferena era vizibil. Ultima coloan conine frecvenele cumulate calculate dup coloana din stnga. Algoritmul de calcul este simplu: se scrie prima frecven 0,1 i se adun cu urmtoarea 0,3, rezult 0,4 .a.m.d.

Ultima coloan ajut la lectura mai rapid a datelor statistice. De exemplu putem citi c 70% dintre respondenii cu rspunsuri valide au pn n 14 ani de coal.

Vom cuta s calculm principalele valori statistice i pentru o variabil categorial (fie ea ordinal sau nominal). Pentru acest exerciiu vom apela la o alt baz de date BOP_mai2003_Gallup FINAL.sav baz constituit n urma anchetei la nivel naional intitulat Barometru de opinie. Aceast baz poate fi descrcat de pe site-ul www.osf.ro. Iat cum arat o poriune din acast baz:

Variabila a12 este o variabil ordinal i reprezint ntrebarea Cum este viaa dvs. n prezent comparativ cu cea de acum un an?. Aceast ntrebare avea variantele de rspuns: 1. Mult mai bun 2. Mai bun 3. Aproximativ la fel 4. Mai proast 5. Mult mai proast 8. NS 9. NR. S calculm principalele valori statistice i s reprezentm grafic seria. Vom urma comenzile AnalyzeDescriptive statisticsFrequencies:

De data aceasta valorile statistice care ne intereseaz sunt mult mai puine datorit variabilei care este calitativ. Foarte util n acest caz este i tabelul frecvenelor care este setat n prima fereastr. Graficul va fi de tipul Pie charts. Rezultatele le obinem tot n Output1:

Statistics Cum este viaa dvs. n prezent comparativ cu cea de acum un an? N Median Mode Percentiles 25 50 75 Valid Missing 2100 0 3.00 3 3.00 3.00 4.00

Se deduce din acest tabel c sunt 2100 de rspunsuri (chestionare) valide i nu sunt cazuri lips (missing). Mediana este 3 deci jumtate din respondeni au rspunsuri cel mult cu valoarea aproximativ la fel. Cel mai des ntlnit rspunds este tot 3 adic aproximativ la fel. La fel se pot comenta i quartilele. Se observ c n acest caz media aritmetic nu avea nici un sens chiar dac ar fi fost calculat. Mai explicit este ns tabelul frecvenelor:

Cum este viaa dvs. n prezent comparativ cu cea de acum un an? Cumulative Percent 1.0 15.7 60.1 91.3 99.1 99.7 100.0

Frequency Valid mult mai bun mai bun aproximativ la fel mai proast mult mai proast NS NR Total 21 308 933 656 163 12 7 2100

Percent 1.0 14.7 44.4 31.2 7.8 .6 .3 100.0

Valid Percent 1.0 14.7 44.4 31.2 7.8 .6 .3 100.0

Observm n acest tabel semnificaiile coloanelor dup observaiile fcute anterior. Procentele pentru NS, NR sunt indentice n coloanele a treia i a patra pentru c respectivele valori nu au fost considerate ca valori lips. Graficul de tip Pie Charts va apare n Output, apoi putem da dublu clic pe acest grafic i se va deschide o nou fereatr intitulat Chart1:

Fereastra Chart1 este special constituit pentru a face diverse modificri n graficul respectiv. Aici nu vom aplica dect comenzile ChartOptionsPercent iar dup eliminarea titlului din fereastra anterioar graficul final va fi urmtorul:
NR .3% NS .6% mult mai proast 7.8% mai proast 31.2% mult mai bun 1.0% mai bun 14.7%

aproximativ la fel 44.4%

Din bara cu meniuri a ferestrei Chart1 se pot selecta multe alte faciliti pentru reprezentrile grafice. De exemplu pot fi eliminate ponderile foarte mici cum ar fi NS, NR pentru o mai bun vizualizare a categoriilor variabilei! De asemenea pot fi adugate/eliminate texte, pot fi fcute diverse modificri etc.Dup nchiderea ferestrei rezultatul este salvat n Output. Meniul Help poate fi de ajutor n acest sens!

Obs: o bun parte dn valorile statistice calculate pentru o variabil sau mai multe se pot obine i dac apelm la comenzile AnalyzeDescriptive StatisticsDescriptives iar valorile respective le putem alege din meniul Options.