Sunteți pe pagina 1din 24

ANALIZA STATISTICĂ A DATELOR ÎN ŞTIINŢELE SOCIALE

87

88

I. INTRODUCERE ÎN SPSS *

Necesitatea prelucrării unui volum din ce în ce mai mare de date, a unor cercetări de teren cât mai rapide etc., a impus dezvoltarea unor pachete statistice performante. Au apărut astfel de-a lungul timpului diverse programe : SAS, SPSS, SPAD, STATA etc., majoritatea oferind alternative de calcul pentru aceleaşi proceduri statistice de bază. În acest volum vom trece în revistă o serie de proceduri pe care le utilizează programul SPSS for Windows, varianta 11.5 cu unele competări din versiunile superioare, program care a fost lansat de către SPSS Inc. Chicago (alte informaţii puteţi afla pe site-ul www.spss.com). Traducerea liberă a acestor iniţiale este «Statistical Package for Social Sciences ». Odată lansat programul Windows, dacă SPSS 11.5 este instalat, programul se poate deschide apelând la pictograma * specifică sau căutând fişierul executabil după comenzile StartProgramsSPSS for WindowsSPSS 11.5 for Windows :

Programs → SPSS for Windows → SPSS 11.5 for Windows : Dup ă executarea acestor comenzi

După executarea acestor comenzi va apare fereastra generală a programului

SPSS:

comenzi va apare fereastra general ă a programului SPSS : * Acest volum con ţ ine

* Acest volum conţine capitole preluate şi adăugite din volumul autorului

* Datorită specificului acestui demers explicativ ca şi în capitolul precedent am renunţat în această parte la numirea şi numerotarea figurilor sau tabelelor.

89

În imaginea de mai înainte, în partea superioară se pot observa, ca şi în programele Word sau Excel trei bare:

- Bara de titlu care poate include numele fişierului după ce va fi salvat

- Bara de meniuri (File, Edit, View, Data etc.)

- Bara cu instrumente (anumite pictograme care sunt de fapt „scurtături” ale

unor comenzi care se găsesc de fapt şi în meniuri). Mai jos putem identifica un tablou format din linii şi din coloane, tablou numit editor de date (Data Editor). Pe ecran apare doar o mică parte din acest tablou foarte mare. În acest tabel identificăm:

-coloanele (care reprezintă variabile statistice) -liniile (care reprezintă cazuri, persoane supuse cercetării, observaţii) În partea inferioară de pe ecran apar două etichete care au funcţii apropiate de nominalizarea foilor de lucru din programul Excel:

de nominalizarea foilor de lucru din programul Excel : Data View - compartimentul rezervat datelor introduse

Data View- compartimentul rezervat datelor introduse în Data Editor Variable view-compartimentul rezervat variabilelor introduse.

În continuare vom explicita pe scurt bara de meniuri:

File - conţine comenzi pentru citirea, scrierea sau imprimarea tuturor tipurilor de fişiere cu care operează programul. Edit - conţine comenzile pentru editarea, modificarea, copierea, căutarea textelor Data - conţine comenzi pentru definirea variabilelor, inserarea de noi variabile sau cazuri, sortarea, alipirea, inversarea, agregarea, selectarea bazelor de date Transform - conţine comenzi pentru transformări ale variabilelor şi ale valorilor lor. Statistics - meniu cu procedurile statistice disponibile în program Graphs - conţine procedurile pentru reprezentări grafice diverse Utilities - conţine comenzi care pot da informaţii despre variabile, pot desemna un set redus de variabile, organizarea meniurilor. Window - conţine comenzi care permit lucrul cu ferestrele SPSS Help - conţine informaţii despre program şi despre procedurile statistice folosite.

I.1. Lucrul cu programul SPSS. Deschiderea unei baze de date

Obiectul de studiu îl reprezintă bazele de date, fie că ele sunt create sau aduse din alte surse de către utilizator fie că sunt cele existente deja în cadrul programului.

90

Dacă intenţionăm să deschidem o astfel de bază de date este necesar să urmăm paşii următori: FileOpenData după care apar toate bazele de date din program:

Data dup ă care apar toate bazele de date din program: Dup ă cum se observ

După cum se observă bazele de date sunt ordonate alfabetic iar din ultimul rând se deduce că bazele de date sunt fişierele de tipul *.sav!

þ Obs: înafară de fişierele de tip *.sav care desemnează bazele de date, SPSS utilizează şi fişiere de tip *.sps (care conţin varianta scriptică a comenzilor sau fişiere sintaxă) precum şi fişiere de tip *.spo în care sunt incluse rezultatele cercetării statistice).

Dacă deschidem însă rubrica Files of type apar următoarele specificaţii:

rubrica Files of type apar urm ă toarele specifica ţ ii: Deducem de aici c ă

Deducem de aici că SPSS poate citi şi multe alte tipuri de fişiere. De exemplu se pot citi fişiere de tip Spreadsheet (Excel, Lotus), de tip dBase, Ascii sau fişiere din diverse alte programe statistice. Pentru preci- zări suplimentare se poate consulta Help-ul pro- gramului sau Tutorialul acestuia!

Toate tipurile de fişiere de mai înainte apar şi în cazul în care un fişier spss dorim să fie salvat după comenzile File® Save As; putem deci hotărî formatul în care va fi salvat. De asemenea cu comenzile File®Open Database putem să transferăm diverse fişiere iar cu comezile File®Read Text Data putem transfera în SPSS chiar texte din fişiere tip ASCII Data

*

*

*

Dacă vom alege una din bazele incluse în program şi vom executa dublu clic pe numele acesteia atunci va apare pe ecran o imagine de tipul următor:

91

Se observ ă mai întâi c ă este afi ş at numele bazei respective GSS93

Se observă mai întâi că este afişat numele bazei respective GSS93 subset apoi putem observa dispunerea pe coloană a unor variabile cum ar fi: id (număr de identificare a individului care intră în baza de date), wrkstat (statusul ocupaţional), marital (situaţia maritală), agewed (vârsta la prima căsătorie) etc. După cum se vede fiecare variabilă are un nume prescurtat care poate include maximum 8 caractere (fără spaţii şi fără anumite semne speciale) iar dacă vom opri cursorul mausului pe numele unei variabile va apare instantaneu numele pe lung al acesteia (care se poate extinde până la 256 de caractere). Pentru a obţine informaţii amănunţite despre variabile putem alege opţiunea Variable view din partea de jos a ferestrei Data Editor. Recomandăm de asemenea submeniul File® Display Data Info. Pentru înţelegerea informaţiilor astfel obţinute sau pentru construirea de noi baze de date trebuie cunoscută în amănunt problematica variabilelor statistice.

I.2. Variabile. Elemente de statistică descriptivă

Reluăm aici unele consideraţii de statistică descriptivă datorită utilităţii acestora în cazul de faţă. După cum se ştie, în orice cercetare statistică se obţin date asupra unor caracteristici bine precizate ale unităţilor statistice. Dacă aceste unităţi au unele caracteristici considerate în cadrul cercetării ca fiind fixe altele sunt considerate ca variind de la o unitate la alta de unde şi denumirea de variabilă. De exemplu dacă unităţile statistice sunt reprezentate de cetăţenii români cu drept de vot, între aceştia apar diferenţieri după sex, venit, apartenenţă religioasă, profesie, nivelul de educaţie, număr de copii, opţiunea politică etc. Toate acestea din urmă sunt caracteristici sau variabile statistice. Fiecare din aceste variabile se distinge prin mulţimea valorilor pe care le ia. După cum se vede şi din enumerarea de mai sus aceste variabile se exprimă prin mărimi total diferite ceea ce a impus clasificarea lor de o manieră precisă. Astfel, pentru Michèle Colin et al. (1995; 32) variabilele sunt de două feluri:

- calitative (desemnează feluri de a fi: sex, culoarea ochilor, opiniile etc.) - cantitative (provin dintr-o măsurare: talia, greutatea, vârsta etc.)

92

În ce priveşte variabilele calitative, acestea pot fi ordonate atunci când iau anumite valori pe două tipuri de scale:

1). Scală nominală (ex. Sexul poate fi masculin/ feminin; starea civilă poate fi doar într-una din situaţiile: necăsătorit, căsătorit, văduv, divorţat) 2). Scală ordinală (ex. Răspunsul la întrebarea “Cât de mulţumit sunteţi de şeful dv. direct?”, răspuns: a). absolut de loc; b). puţin ; c) nici mulţumit, nici nemulţumit d). mult e).foarte mult. Diferenţa dintre cele două scale este evidentă. Astfel, în cazul primului tip nu există o relaţie de ordine iar valorile variabilei sunt exprimate prin cuvinte (de unde şi

denumirea de scală nominală!), cuvinte care nu fac decât să împartă colectivitatea statistică în mai multe grupe sau categorii. În cel de al doilea caz subiectul care răspunde este rugat să se plaseze singur pe o treaptă a unei scale care poate fi ascendentă sau descendentă, dar în orice caz este presupusă aici o relaţie de ordine (fiecare din variantele a, b, c, … este plasată pe un continuum crescător, din care trebuie aleasă una). Din moment ce ele semnifică o ordine atunci ele pot fi notate şi cu numere naturale ca în exemplul următor:

Întrebare: ”De câte ori mergeţi la biserica din confesiunea dumneavoastră?” Răspuns: 1). Cel puţin o dată pe săptămână ; 2). Cel puţin o dată pe lună; 3). Destul de rar ; 4). Practic niciodată. Acest exemplu l-am dat pentru a aminti, odată cu T. Rotariu [1999; 28] că scala utilizată se distinge prin folosirea variantelor 1,2,3… dar numai în sens ordinal şi nu pur numeric, cantitativ. Variantele 1,2,3… generează de fapt tot clase sau categorii de răspunsuri! Precizările acestea sunt foarte importante pentru a nu se confunda acest tip de variabile cu cele cantitative! În concluzie se poate face distincţia între variabile calitative nominale şi variabile calitative ordinale. Cât priveşte variabilele cantitative, acestea provin dintr-o măsurare efectivă, exprimată printr-un număr cardinal şi se împart şi ele în două categorii:

- variabile cantitative continui (ex. Înlţimea unei persoane adulte poate fi orice valoare din intervalul [140, 220] cm.)

- variabile cantitative discrete (ex: o familie poate avea 0, 1, 2, 3, 4,….copii, dar nu şi un număr exprimat printr-o valoare intermediară ex. 1,5 ; 2,3 etc.)

þ Obs: intuitiv diferenţa dintre cele două tipuri ar putea fi dată de modul cum parcurgem, în matematică mulţimea R (a numerelor reale) şi mulţimea N (a numerelor naturale)!

Variabilele cantitative uzează de două tipuri de scale:

1). Scală de intervale (ex. gradaţia unui termometru, anul naşterii etc.) 2). Scală de rapoarte (ex. greutatea, salariile, vârsta etc.)

þ Obs : în literatura de specialitate le întâlnim uneori cu nume în limba engleză (interval scale

respectiv ratio scale). Diferenţa dintre cele două scale este importantă. Astfel, în cazul scalei de intervale gradaţia de început (ex. 0 0 Celsius) este convenţională pe când în cazul scalei de raporturi gradaţia de început este reală (ex. venitul de 0 lei desemnează lipsa oricărei surse financiare). O altă diferenţă provine din faptul că scala de intervale nu ne permite să stabilim raporturi între valorile unei variabile (de ex. nu putem spune că la temperatura de 40 0 Celsius este de 40 de ori mai cald decât la temperatura de 1 0 Celsius). În cazul celei de-a doua scale se pot stabili aceste raporturi (de ex. un individ de 100 de Kg. este ce două ori mai greu decât unul de 50 Kg.). Având în vedere că diferenţele dintre aceste scale sunt imediat percepute rareori pot apare anumite

93

confuzii. Se impune totuşi precizarea că unii indicatori statistici nu au sens prin folosirea de scale de intervale.

Încercând o recapitulare iată cum arată o tabelare a variabilelor după M. Colin et al. [1995; 34]:

Clasificarea variabilelor după tip

Tip de varibilă

Scala

Exemple

Calitativă

Nominală

Sex, profesiune

Ordinală

Opinie

Cantitativă (discretă sau continuă)

De intervale

Discretă: anul de naştere Continuă: temperatură Discretă: nr. de copii, vârsta Continuă: înălţime, greutate

De rapoarte

Să precizăm în final că diferenţierea dintre variabile (caracteristici) duce în fapt la distingerea a două direcţii în analiza statistică: statistica non-parametrică (pentru variabilele calitative) şi cea parametrică (pentru variabilele cantitative). Să mai amintim că în literatura de specialitate se întâlneşte noţiunea de variabilă categorială uneori cu sens calitativ alteori cu sens cantitativ. Generalizând, variabilele pot fi de două feluri : cantitative sau calitative iar dintr-un alt punct de vedere pot fi continue sau discrete (categoriale). Aceste precizări sunt importante pentru că procedurile statistice alese din cadrul programului SPSS depind de tipul de variabile şi de tipul scalelor. De exemplu pentru scale nominale sau ordinale sunt obligatorii proceduri sau teste non-parametrice în timp ce pentru scalele de interval sau de raport se vor folosi proceduri sau teste parametrice. De asemenea este important de precizat că variabilele trebuie să îndeplinească anumite condiţii înainte de a fi supuse cercetării. De exemplu se cere ca o variabilă cantitativă să respecte condiţiil :

distribuirea normală a valorilor în esantionul prelevat şi apropierea acestei distribuţii de distribuţia din populaţia mare din care a fost extras eşantionul.

þ Obs. : Există uneori tendinţa de a trata scalele ordinale ca şi scale de intervale. Din cauză că distanţele între valorile acestor tipuri de scale sunt diferite pot apare însă confuzii. De exemplu dacă ne referim la o scală ordinală dată de întrebarea « Sunteţi mulţumit de şeful direct ? » cu răspunsurile posibile : 1. Foarte mulţumit 2. Mulţumit 3. Deloc mulţumit 4. Nu am o părere formată, se pune problema dacă este legitim să calculăm media aritmetică a valorilor 1-4 ca şi pe o scală de intervale. Se pune deci problema dacă o medie de 1,75 ne poate îndreptăţi să declarăm că suntem aproape mulţumiţi de şeful direct ? Fără doar şi poate că o astfel de valoare are o reprezentare intuitivă însă în sens strict statistic ea poate fi imprecisă. Să presupunem că avem altă scală ordinală ataşată întrebării « Cîte cărţi de literatură citiţi pe lună ? » : 0. Niciuna 1. O carte 2. Două cărţi 3. Trei cărţi 4. Patru sau mai multe cărţi. În acest caz o astfel de scală poate fi tratată ca şi o scală de interval şi deci o medie de, să spunem, 1,5 cărţi ni se pare plauzibilă. Diferenţa de interpretare apare din faptul că cea de a doua scală ordinală are intervale egale. În fiecare caz rămâne la latitudinea cercetătorului de a decide interpretarea corectă a datelor.

O distincţie importantă este şi aceea dintre variabile independente şi variabile dependente. Iată câteva exemple :

94

Variabila independentă

Variabila dependentă

Stilul managerului Sexul respondenţilor Virsta

Productivitatea muncii Opţiuni electorale Preferinţe muzicale

După cum se observă sensul legăturii dintre aceste variabile este univoc relaţia inversă neputînd fi impusă (de exemplu opţiunile electorale nu pot influenţa sexul subiecţilor). Modul cum sunt desemnate aceste tipuri de variabile diferă de la o cercetare la alta. Prin definiţie variabilele independente sunt cele care influenţează pe cele dependente, fiind stabilite sau introduse de către cercetător. În cercetările prin chestionar de obicei se introduce un set de astfel de variabile cu caracter demografic sau economic în funcţie de care se vor face analize privind celelalte variabile (întrebări). Legăturile dintre astfel de variabile sunt mai des puse în evidenţă în experimentele sociologice.

I.3. Definirea variabilelor în SPSS

Să presupunem că dorim să construim o nouă bază de date. Pentru aceasta vom urma comenzile FileNewData după care apare tabloul gol Data Editor. Vom da apoi dublu clic pe numele sav care apare în capul primei coloane. Automat se va deschide cel de-al doilea registru numit Variable view în care putem defini variabilele:

numit Variable view în care putem defini variabilele: În prima coloan ă începând din col ţ

În prima coloană începând din colţul din stânga sus putem introduce numele variabilelor. Este vorba de numele pe scurt al acestora cu până la opt caractere. Apoi vom caracteriza respectivele variabile conform indicaţiilor care urmează : Type, Width, Decimals, Label etc. De data aceasta tabelul conţine pe fiecare linie orizontală câte o variabilă iar pe fiecare coloană putem caracteriza în amănunt fiecare variabilă. Vom identifica rolul fiecărei coloane:

þ Obs. Name- include numele pe scurt al variabilei de maximum 8 caractere (nu se folosesc spaţiile goale sau anumite semne speciale : !, ?, *, ‘ ). Se acceptă totuşi simbolul «_» numit şi underscore.

95

După ce am introdus numele în prima căsuţă vom da clic în partea dreaptă a celulei corespunzătoare unei variabile şi care este în coloana cu titulatura Type. Va apare următoarea fereastră :

cu titulatura Type . Va apare urm ă toarea fereastr ă : Aceast ă ferestr ă

Această ferestră conţine tipurile de variabile posibile mai precis tipurile de variabile după valorile pe care le pot lua acestea :

- Numeric - opţiunea pentru valori numerice; se poate stabili câte cifre au aceste numere, maximum 40 (Width) dar şi cifrele pentru partea zecimală, maximum 16

(Decimal Places). Opţiunile alese vor apare în următoarele două coloane ale tabloului !

- Comma - sau virgulă folosită uneori la separarea cifrelor de ordinul miilor, milioanelor etc. ; în acest caz separatorul zecimal este un punct

- Dot - sau punct folosit uneori la separarea cifrelor de ordinul miilor, milioanelor etc. ; în acest caz separatorul zecimal este un virgula

- Scientific notation - notaţii speciale de tipul 1,2E3 ceea ce înseamnă 1,2*10 3

- Date - notaţii pentru date calendaristice (conform unui format care poate fi ales).

- Dollar - simbolul monedei americane

- Custom currency - variabilă numerică cu date dispuse după formatul din EditOptionsCurrency

- String- configurează variabile alfanumerice care pot conţine şiruri de caractere (litere sau numere). Odată aleasă această opţiune poate fi indicat numarul de caractere ales.

þ Obs : cele mai des folosite tipuri sunt Numeric şi String !

- Label - putem desemna numele pe lung al variabilei cu până la 256 caractere

- Values - pot fi numite valorile şi etichetele ataşate acestor valori pentru cazul

variabilelor ordinale sau categoriale. După un clic în partea dreaptă a celulei corespun-

zătoare din coloana cu acest titlu va apare fereastra de dialog următoare :

96

Value d ă valoarea numeric ă a unei etichete iar Value Label va da numele

Value dă valoarea numerică a unei etichete iar Value Label va da numele etichetei respective. După aceste operaţii se apasă pe butonul Add. Opţiunile pot fi apoi schimbate (Change) sau chiar şterse (Remove). Iata cum va arăta după aceste operaţii variabila sex cu cele două alternative 1. masculin, 2. feminin:

Nu uitaţi: la finalul unor operaţiuni de acest tip se alege invariabil OK sau Continue, altfel setările dorite nu vor fi preluate de către program!

- Missing - poate permite operatorului de a desemna valorile lipsă (Missing Values) din cadrul unei variabile. Pentru inceput, programul are setată opţiunea fără valori lipsă după cum apare în fereastra următoare :

Se poate opta totuşi pentru diverse variante:
Se poate
opta totuşi
pentru
diverse
variante:

97

r ă valori lips ă dup ă cum apare în fereastra urm ă toare : Se

În aceste cazuri operatorul poate decide ca în analizele ulterioare valorile de tipul 97 (Nu ştiu), 98 (Nu răspund) 99 (Nu s-a aplicat) să fie considerate lipsă (missing). De asemenea se poate decide ca pe lângă valorile cuprinse între 97-99 să mai fie adăugată o valoare din baza de date. Necesitatea unor astfel de operaţii este imediată : se pot face analize eliminând pe moment anumite valori spaciale iar apoi se pot analiza separat chiar valorile considerate lipsă. În cazul variabilelor alfanumerice trebuie consemnat un spaţiu liber în căsuţa Discrete missing values deoarece programul consideră valide chiar şi celulele goale !

- Columns- se poate decide asupra formatului coloanelor în funcţie de mărimea datelor variabilei

- Align- se poate decide asupra modului cum vor fi aliniate valorile variabilei pe coloane

- Measure- opţiune deosebit de importantă în urma căreia decidem asupra modalităţii de măsurare a variabilei. Astfel există trei opţiuni :

Scale - opţiune pentru variabile numerice fie ele măsurate pe scale de interval sau de rapoarte (ratio) ; asociem această modalitate cu un număr mare de valori ale variabilei

Ordinal - de obicei este o opţiune pentru variabile ordinale care au categorii

bine precizate prin etichete numerice şi care pot fi ordonate. Nominal - opţiune pentru variabile alfanumerice în care nu există nici o relaţie de ordine între valori (care pot fi cuvinte dar şi numere).

þ Obs : precizarea corectă a opţiunii measurement este importantă deoarece o serie de proceduri statistice se referă doar la anumite tipuru de variabile sau valori. Astfel pentru variabile nominale dintre mărimile tendinţei centrale (media, mediana, modul) nu are sens să calculăm media !

I.4. Introducerea variabilelor şi a datelor în SPSS

Odată făcute precizările de până acum putem introduce datele în Data Editor ştiind că fiecare coloană reprezintă o variabilă iar fiecare rînd reprezintă un caz sau o persoană. Să presupunem că într-un chestionar avem în ordine următorii itemi :

- Codul chestionarului :……………… Q1. Cum trăiţi în prezent faţă de acum 3 ani? 1. Mult mai bine 2. Mai bine 3. La fel 4. Mai rău 5. Mult mai rău 9. NS/NR Q2. Care este principala problemă din localitate pe care fostul primar nu a rezolvat-o?

Vom încerca să introducem itemii de mai înainte ca şi variabile în baza de date apoi vom insera valorile pentru primii zece subiecţi interogaţi. Se observă că primul item reprezintă o variabilă cantitativă, Q1 reprezintă o variabilă ordinală iar cea de a treia este o variabilă nominală. Înainte de a introduce valorile în bază vom intra în opţiunea Variable View şi vom defini variabilele cod, q1_trai, q2_probl. Pentru prima variabilă putem face următoarele opţiuni:

98

Se observ ă c ă am optat pentru tipul numeric variabila având drept valori numere

Se observă că am optat pentru tipul numeric variabila având drept valori numere cu până la trei cifre (Width=3) considerând că au fost interogate de exemplu 800 de persoane. Codul chestionarului este un număr întreg fără zecimale (Decimals=0), numele pe lung al variabilei este „Cod chestionar”, măsurarea este de tip Scale. Definirea variabilei q1_trai trebuie să ţină cont de specificul acesteia prin precizarea etichetelor respective (se scrie Value: 1, apoi Value Label : „Mult mai bine” apoi Add etc.).

apoi Value Label : „Mult mai bine” apoi Add etc.). La final noua variabil ă din

La final noua variabilă din rândul al doilea va avea următorii parametri :

ă din rândul al doilea va avea urm ă torii parametri : Se observ ă c

Se observă că valorile rămân numerice dar cu precizarea că acele numere se referă la valorile etichetelor : 1, 2, 3, 4, 5, 9. Aceste numere sunt compuse dintr-o singură cifră (Width=1). Numele pe lung al variabilei este chiar întrebarea din chestionar : „Cum trăiţi în prezent faţă de acum 3 ani?”.Modalitatea de măsurare este Ordinal, dar putea fi lăsată Scale fără să apară nici o confuzie. Cea de a treia variabilă q2_probl este una nominală răspunsurile fiind consemnate ca variante pentru o întrebare deschisă. Dacă în cazul anterior se vor introduce în baza de date doar numerele valori ale etichetelor în acest caz trebuie introduse răspunsurile subiecţilor ca atare. Referitor la valorile variabilei tipul acesteia este String:

99

Odat ă cu alegerea op ţ iunii String se impune precizarea num ă rului de

Odată cu alegerea opţiunii String se impune precizarea numărului de caractere pe care il poate avea răspunsul subiecţilor (în acest caz 100 de caractere). În final această variabilă va avea caracteristicile de pe poziţia a treia :

ă va avea caracteristicile de pe pozi ţ ia a treia : Cea de a treia

Cea de a treia variabilă este de tip String cu variante de până la 100 de caractere nominale sau numerice. Modalitatea de măsurare este Nominal. După aceste operaţii putem salva baza de date cu comenzile FileSave As şi noua bază o putem numi bazaexemplu. Numele bazei va apare în bara de titlu :

bazaexemplu . Numele bazei va apare în bara de titlu : În acest moment putem reveni

În acest moment putem reveni în fereastra Data View pentru a introduce datele culese din chestionare. Valorile se introduc în tabel acolo unde celula este activă (apare un chenar în jurul celulei) apoi se apasă tasta Enter. Să presupunem că am introdus primii zece subiecţi chestionaţi.

100

Se observ ă c ă în cea de a doua coloan ă apar doar valorile

Se observă că în cea de a doua coloană apar doar valorile numerice ale etichetelor (fapt ce ne arată că introducerea datelor în acest caz este mult facilitat). În stânga sus se poate vedea şi poziţionarea celulei active : coloana 2, rândul 11.

Pentru a vedea şi care sunt etichetele ataşate valorilor din coloana a doua putem urma comenzile View Value Label sau putem da clic pe

sunt etichetele ata ş ate valorilor din coloana a doua putem urma comenzile View → Value

butonul

de pe

bara

cu

instrumente.

După

o

astfel

de

operaţie vor apare în bază şi etichetele res- pective :

ţ ie vor apare în baz ă ş i etichetele res- pective : þ Obs. din

þ Obs. din moment ce bazele de date au fost constituite putem incepe analizele statistice necesare !

þ Obs. Toate comenzile de pînă acum pot fi executate şi într-un editor de texte sau fişier sintaxă. Acest fişier care are termninaţia .sps este foarte util când se lucrează frecvent cu baze mari de date pentru că respectivele instrucţiuni (comenzi) pot fi salvate şi apoi reiterate de câte ori este nevoie. Ceea ce am întreprins până acum de exemplu putem să regăsim într-un « jurnal » al aplicaţiilor care poate fi găsit în fişierul spss.jnl din WindowsTemp, fişier care poate fi deschis şi ca document Word.

Accesând acest document găsim următoarele specificaţii care rezumă de fapt construcţia bazei de date anterioare:

101

Thu Dec 25 13:42:07 2003 :journaling started GET FILE='C:\Documents and Settings\Adrian\My Documents\spss curs'+ ' Id\bazaexemplu.sav'. SAVE OUTFILE='C:\Documents and Settings\Adrian\My Documents\spss curs Id\bazaexemplu.sav' /COMPRESSED.

Un fişier sintaxă poate fi iniţiat după comenzile FileNewSyntax. Chiar dacă nu lucrăm în limbaj sintaxă atunci putem salva comenzile folosite fie alegând comanda Paste în loc de OK în diverse aplicaţii pe care le efectuăm sau putem sa le salvăm în outputul aplicaţiilor efectuând comenzile EditOptionViewerDisplay Commands in the log. Să dăm un exemplu de astfel de comenzi salvate în Output (fişier de rezutate) de exemplu pentru calcularea mediei vârstei respondenţilor din baza de date GSS93 Subset:

FREQUENCIES VARIABLES=age /STATISTICS=MEAN /ORDER= ANALYSIS .

În acest volum nu vom insista pe aspecte legate de limbajul sintaxă însă recomandăm pentru cei interesaţi de exemplu volumul M. Norusis, SPSS x Advanced Statistics Guide, McGraw Hill, 1995. De asemenea se poate apela la site-ul creatorilor şi proprietarilor programului www.spss.com sau la Help-ul programului.

I.5. Elemente de statistică univariată în SPSS

Vom analiza în acest capitol câteva din procedurile statistice elementare pe care le putem aplica datelor statistice. Să deschidem una din bazele programului anume GSS93 subset (obţinută în urma unei anchete pe un eşantion de 1500 de subiecţi):

programului anume GSS93 subset (ob ţ inut ă în urma unei anchete pe un e ş

102

Ne oprim atenţia asupra variabilei educ (Highest year of school completed) ale cărei caracteristici de bază le putem identifica în fereastra Variable View:

de baz ă le putem identifica în fereastra Variable View: Variabila este considerat ă având valori

Variabila este considerată având valori numerice cu maximum două cifre, sunt consemnate trei valori speciale: 97 (NAP, neaplicat) 98 (DK, “don’t know “; “nu ştiu”) şi 99 (NA, “no answer”, “non-răspuns”). În cazul valorilor lipsă (missing values) sunt consemnate valorile 97, 98, 99. Variabila este considerată ordinală dar din cele spuse mai înainte ea poate fi la fel de bine considerate variabilă cantitativă discretă. Pentru această variabilă vom încerca să calculăm principalele valori statistice. Pentru aceasta vom apela comenzile următoare: AnalyseDescriptive StatisticsFrequencies:

toare: Analyse → Descriptive Statistics → Frequencies: Se va deschide o nou ă fereastr ă de

Se va deschide o nouă fereastră de dialog care conţine două comparti- mente. Pentru ca o varibilă să poate fi analizată trebuie trecută din coloana din stânga în cea din dreapta cu ajutorul săgeţii din mijloc (sau dublu clic) după selec- tare. Săgeata se poate acţiona şi invers!

selec- tare. S ă geata se poate ac ţ iona ş i invers! Se observ ă

Se observă în această fereastră şi alte elemente:

- Display frequency tables - opţiune pentru afişarea tabelului frecvenţelor variabilei; uneori putem renunţa la acest tabel (prin deselectarea opţiunii)

- OK - comandă finală după ce am ales toate opţiunile de calcul

- Paste - comandă pentru salvarea comenzilor în modul sintaxă

- Reset - comandă pentru anularea setărilor în curs

- Statistics - comandă pentru calculul principalelor valori statistice

- Charts -comandă pentru reprezentări grafice

103

- Format - opţiuni privind modalităţi de afişare ale rezultatelor - Help - comandă de ajutor

Prin acţionarea butonului Statistics se va deschide o nouă fereastră de dialog :

Se obsevă împărţirea acestei ferestre pe o serie de blocuri distincte referitoare la percentile, dispersie, mărimile tendinţei centrale şi mărimi legate de forma distribuţiei statistice. Pentru calcularea acestor valori este necesar să selectăm procedurile care ne interesează cu un clic al mausului în pătrăţelele din faţă lor. Pentru deselectare vom da un clic în aceleaşi pătrăţele! Vom discuta pe larg opţiunile acestei ferestre în cele ce urmează.

larg op ţ iunile acestei ferestre în cele ce urmeaz ă . I. Percentile Values -

I. Percentile Values - comandă care împarte mulţimea valorilor statistice în mai multe grupe de date. Există mai multe variante:

Quartiles (împărţim mulţimea valorilor în patru părţi egale fiecare câte 25%) Cut points for 10 equal groups (împăţire în 10 părţi dar pot fi alese mărimi între 2 şi 100) Percntile(s)- se poate specifica o centilă anume.

II. Dispersion - include comenzi pentru calcule privind analiza variaţiei

Se poate opta pentru Standard Deviation, sau “deviaţia standard” sau “abaterea medie pătratică”, mărime care ne arată cu cît se abat în medie valorile seriei de la media lor. Formula de calcul pentru serii cu frecvenţe este cea cunoscută din statistica descrip- tivă deja parcursă:

SD

=

( 2  x - x ) f i i  f i
(
2
Â
x
-
x
)
f
i
i
Â
f
i

þ Obs: în cazul unei serii cu distribuţie normală sau care se apropie de o astfel de distri- buţie valorile seriei sunt cuprinse în proporţie de 99% în intervalul [x - 3SD, x + 3SD].

- Variance - o notăm SD 2 este mărimea din care am obţinut deviaţia standard prin extragerea radicalului. Formula de calcul este sugerată de ridicarea la pătrat a formulei anterioare:

SD

2

=

Â

(

x

i

-

x

)

2

f

i

Â

f

i

- Range - sau “amplitudinea absolută” se calculează cu formula:

A =

x

max

- x

min

, valori notate Minimum, Maximum.

104

- S.E. Mean - sau “standard error of mean” (eroarea standard a mediei) ne poate arată

limitele între care variză media eşantionului (±) în cadrul unei populaţii de eşantioane. Se ştie că un astfel de interval este foarte util atunci când aproximăm valoarea mediei dintr-o populaţie. Această valoare nu este cunoscută decât în urma unor cercetări exhaustive care sunt deosebit de complexe şi costisitoare. În practică majoritatea estimărilor statistice se fac pe eşantioane iar rezultatele, sub condiţia reprezentativităţii, sunt apoi inferate (extinse) la populaţia mare din care a fost extras eşantionul. Dacă notăm media din populaţia mare cu μ, S.E.Mean cu SE şi eroarea limită admisă cu Δ x

,

(Δ x =t.SE) putem conchide că, cu o anumită probabilitate, [ ]

m Πx - D

x

, x + D

x

interval în care x este media din eşantion. Atragem atenţia că în majoritatea tratatelor de statistică valorile care se referă la o populaţie statistică sunt notate cu litere greceşti iar cele referitoare la eşantioane se vor nota cu litere latine.

III. Central Tendency-grup de valori care poartă denumirea de mărimile tendinţei centrale (acele mărimi care caracterizează îm medie întreaga mulţime a valorilor statistice). Se calculează de obicei următoarele valori:

- Mean - media aritmetică ( x ); este calculate cu formulele:

 x i x =
Â
x
i
x
=

n

, pentru serii simple şi

Â

x f

x

=

i

i

Â

f

i

, pentru serii cu frecvenţe

- Median - sau mediana (Me) reprezintă valoarea ataşată individului sau cazului care

împarte milţimea statistică în două părţi egale. Se citeşte astfel: 50% din valorile seriei sunt mai mici decât Me, iar restul de 50% au valori care depăşesc Me. După cum se ştie această mărime se identifică uşor într-o serie simplă, la mijlocul acesteia, după ce am

ordonat valorile respective. Pentru o serie cu intervale se foloseşte formula:

Me

=

x

0

+

d

U

me

-

 f

ia

f

m

,

formulă

în

care

x 0 este

limita

inferioară

a

intervalului median, d mărimea acelui interval, Â

intervalului median, iar f m este frecvenţa corespunzătoare acelui interval.

f

ia

este frecvenţa cumulată anterioară

- Mode - sau modul (dominanta), notat Mo, reprezintă cea mai des întâlnită valoare

dintr-o serie statistică sau valoarea care are cea mai mare frecvenţă. Pentru o serie simplă este uşor de identificat iar pentru serii cu frecvenţe se foloseşte formula:

D

1

Mo = x + d , formula în care x 0 este limita inferioară a intervalului

0

D

1

+ D

2

modal (corespunzător celei mai mari frecvenţe), d este mărimea respectivului interval, Δ 1 şi Δ 2 sunt diferenţele obţinute prin scăderea din frecvenţa intervalului modal a frecvenţelor anterioară şi posterioară acesteia.

- Sum - reprezintă suma valorilor seriei

IV. Distribution- valori care se referă la forma distribuţiei statistice. Cuprinde două tipuri de valori: skewness (asimetria) şi kurtosis (aplatizarea).

105

Asimetria se referă la măsura în care graficul (distribuţia) valorilor este asimetric spre stînga sau spre dreapta faţă de valoarea medie. Pentru un coeficient, să îl notăm sk (de fapt coeficientul Pearson de oblicitate) putem avea valorile:

Sk>0, asimetrie la dreapta (grafic alungit spre dreapta) Sk<0, asimetrie la stînga (grafic alungit spre stânga) Sk0, distribuţie simetrică

Aplatizarea sau boltirea se referă la compararea distribuţiei cu o curbă normală. Se poate calcula un coeficient de aplatizare (îl notăm cu k) iar valorile acestuia pot fi interpretate astfel:

k>0, distribuţie leptocurtică (peste o curbă normală) k<0, distribuţie platicurtică (sub o curbă normală) k0, distribuţie mezocurtică (tinde la o curbă normală)

þ Obs 1. Valorile sk şi k sunt considerate normale dacă se încadrează în intervalul [-1,96; 1,96].

þ Obs 2. Precizăm că o curbă normală este binecunoscuta distribuţie gaussiană, în formă de

clopot, perfect simetrică şi care se bucură de o serie de proprietăţi fundamentale pentru cercetarea statistică. Recomandăm şi parcurgerea bibliografiei de la sfârşitul cursului pentru alte informaţii.

V. Values are group midpoints-opţiune utilizată când valorile seriei sunt grupate simetric în jurul unei valori anumite.

I.6. Calcule statistice în SPSS

Toate mărimile precizate pot fi calculate în cazul unei variabile cantitative numerice. Vom seta toate variantele repective vom da OK şi vom obţine rezultatele într-o altă fereastră Output1 (specifică afişării rezultatelor şi care poate fi salvată ca şi un fişier de tip *.spo):

 

Statistics

Din aceste date deducem că sunt valide 1496 de cazuri iar 4 sunt considerate lipsă (acele valori

97,98 şi 99). Media anilor de studii-şcoală încheiată

Highest Year of School Completed

 

N

Valid

1496

Missing

4

din eşantion este de 13,04 ani iar SE of Mean= 0,079. Jumătate dintre subiecţi au media anilor de studiu de până în 12 ani, restul de peste 12. Modul este unic şi este Mo=12, cea mai des întâlnită valoare. Abaterea standard este de 3,074 ani. Coeficientul de asimetrie este de -0,309 deci distribuţia este alungită uşor spre stânga iar coeficientul boltirii este de 0,708 deci distribuţia

Mean

13.04

Median

12.00

Mode

12

Std.Deviation

3.074

Variance

9.450

Skewness

-.309

Std. Error of Skewness

.063

Kurtosis

.708

Std. Error of Kurtosis

.126

Range

20

este leptocurtică. Amplitudinea este de 20 ca

Minimum

0

rezultat din diferenţa Maximum-Minimum. Suma

Maximum

20

Sum

19504

tuturor valorilor este de 19504 ani. Primii 255

Percentiles

25

12.00

dintre respondenţi au până în 123 ani de şcoală,

50

12.00

primii 50% au tot până în 12 ani, primii 75% au

până în 15,75 ani de şcoală.

75

15.75

 

106

Dacă apelăm la butonul Charts din aceeaşi fereastră putem reprezenta grafic seria după ce am ales setările care se potrivesc seriei noastre, din fereastra următoare:

se potrivesc seriei noastre, din fereastra urm ă toare: Se observ ă c ă am ales

Se observă că am ales graficul de tip Histogramă care este specific variabilelor cantitative continue. Am ales şi varianta With normal curve deoarece prin comparaţie se poate stabili şi tendinţa distribuţiei spre o curbă normală (dacă este cazul). Se pot alege şi alte tipuri de grafice: Bar Charts (grafic cu bare) sau Pie charts (grafic de tip placintă). Ultimele două tipuri de grafice sunt recomandate atunci când variabilele sunt categoriale pentru o mai bună vizualizare a acestora (se recomandă ca numărul categoriilor să nu fie foarte mare pentru a se păstra lizibilitatea). Pentru aceste grafice există şi două opţiuni: Frequencies

După apelarea butonului Continue graficul va apare tot în fereastra de rezultate Output1:

Highest Year of School Completed 700 600 500 400 300 200 Std. Dev = 3.07
Highest Year of School Completed
700
600
500
400
300
200
Std. Dev = 3.07
100
Mean = 13.0
N = 1496.00
0
0.0
2.5
5.0
7.5
10.0
12.5
15.0
17.5
20.0
Highest Year of School Completed
Frequency
 

Highest Year of School Completed

 
 

Cumulative

 

Fr equency

Pe rcent

Valid Percent

Percent

Valid

0

2

.1

.1

.1

2

4

.3

.3

.4

4

7

.5

.5

.9

5

7

.5

.5

1.3

6

20

1.3

1.3

2.7

7

26

1.7

1.7

4.4

8

59

3.9

3.9

8.4

9

45

3.0

3.0

11.4

10

55

3.7

3.7

15.0

11

81

5.4

5.4

20.5

12

445

29.7

29.7

50.2

13

135

9.0

9.0

59.2

14

166

11.1

11.1

70.3

15

70

4.7

4.7

75.0

16

208

13.9

13.9

88.9

17

46

3.1

3.1

92.0

18

71

4.7

4.7

96.7

19

24

1.6

1.6

98.3

20

25

1.7

1.7

100.0

Total

1496

99.7

100.0

Missing DK

4

.3

Total

1500

100.0

Se observă în acest grafic constatările din

primul tabel: distribuţia se apropie de o curbă

normală având o uşoară alungire spre stânga

(sk<0) iar din punctul de vedere al boltirii

existând o tendinţă leptocurtică (k>0) adică

dacă am uni mijloacele dreptunghiurilor

histogramei tendinţa este de a depăşi o curbă

normală.

În aceeaşi fereastră Output1 vom găsi şi tabelul frecvenţelor după cum urmează:

Prima coloană conţine valorile seriei respectiv anii de studii cu cifre cuprinse intre 0 şi 20 de ani

de studiu. Cea de a doua coloană cuprinde

frecvenţele absolute la final adăugându-se şi

numărul celor care au răspuns „don’t know”

(DK).

Cea de a treia coloană conţine frecvenţele relative

(procentuale). Cea de a patra coloană conţine

frecvenţele procentuale valide adică acele

frecvenţe recalculate în condiţiile în care valorile

speciale de tip 97, 98, 99 sau altele sunt declarate

„missing” sau „lipsă”. Diferenţele dintre

coloanele a treia şi a patra nu există datorită

numărului foarte mic de valori missing. Dacă

numărul lor era mai mare diferenţa era vizibilă.

Ultima coloană conţine frecvenţele cumulate

calculate după coloana din stânga. Algoritmul de calcul este simplu: se scrie prima frecvenţă 0,1 şi

se adună cu următoarea 0,3, rezultă 0,4 ş.a.m.d.

107

Ultima coloană ajută la lectura mai rapidă a datelor statistice. De exemplu putem citi că 70% dintre respondenţii cu răspunsuri valide au până în 14 ani de şcoală.

Vom căuta să calculăm principalele valori statistice şi pentru o variabilă categorială (fie ea ordinală sau nominală). Pentru acest exerciţiu vom apela la o altă bază de date BOP_mai-2003_Gallup FINAL.sav bază constituită în urma anchetei la nivel naţional intitulată Barometru de opinie. Această bază poate fi descărcată de pe site- ul www.osf.ro. Iată cum arată o porţiune din acastă bază:

. Iat ă cum arat ă o por ţ iune din acast ă baz ă :

Variabila a12 este o variabilă ordinală şi reprezintă întrebarea „Cum este viaţa dvs. în prezent comparativ cu cea de acum un an?”. Această întrebare avea variantele de

răspuns: 1. Mult mai bună 2. Mai bună 3. Aproximativ la fel 4. Mai proastă 5. Mult mai proastă 8. NS 9. NR. Să calculăm principalele valori statistice şi să reprezentăm grafic

seria. Vom urma

comenzile AnalyzeDescriptive statisticsFrequencies:

Analyze → Descriptive statistics → Frequencies: De data aceasta valorile statistice care ne intereseaz ă

De data aceasta valorile statistice care ne interesează sunt mult mai puţine datorită variabilei care este calitativă. Foarte util în acest caz este şi tabelul frecvenţelor care este setat în prima fereastră. Graficul va fi de tipul Pie charts. Rezultatele le obţinem tot în Output1:

108

Statistics

Cum este viaţa dvs. în prezent comparativ cu cea de acum un an?

N

Valid

2100

Missing

0

Median

3.00

Mode

3

Percentiles

25

3.00

50

3.00

75

4.00

Se deduce din acest tabel că sunt 2100 de răspunsuri (chestionare) valide şi nu sunt cazuri lipsă (missing). Mediana este 3 deci

jumătate din respondenţi au răspunsuri cel mult

cu valoarea „aproximativ la fel”. Cel mai des

întâlnit răspunds este tot 3 adică „aproximativ

la fel”. La fel se pot comenta şi quartilele. Se

observă că în acest caz media aritmetică nu

avea nici un sens chiar dacă ar fi fost calculată.

Mai explicit este însă tabelul frecvenţelor:

Cum este viaţa dvs. în prezent comparativ cu cea de acum un an?

Cumulative

 

Frequency

Percent

Valid Percent

Percent

Valid

mult mai bunã

21

1.0

1.0

1.0

mai bunã

308

14.7

14.7

15.7

aproximativ la fel

933

44.4

44.4

60.1

mai proastã

656

31.2

31.2

91.3

mult mai proastã

163

7.8

7.8

99.1

NS

12

.6

.6

99.7

NR

7

.3

.3

100.0

Total

2100

100.0

100.0

Observăm în acest tabel semnificaţiile coloanelor după observaţiile făcute anterior. Procentele pentru NS, NR sunt indentice în coloanele a treia şi a patra pentru că respectivele valori nu au fost considerate ca valori lipsă. Graficul de tip Pie Charts va apare în Output, apoi putem da dublu clic pe acest grafic şi se va deschide o nouă fereatră intitulată Chart1:

se va deschide o nou ă fereatr ă intitulat ă Chart1 : Fereastra Chart1 este special

Fereastra Chart1 este special constituită pentru a face diverse modificări în graficul respectiv. Aici nu vom aplica decât comenzile ChartOptionsPercent iar după eliminarea titlului din fereastra anterioară graficul final va fi următorul:

109

NR .3% NS .6% mult mai proastã 7.8% mult mai bunã mai proastã 1.0% 31.2%
NR
.3%
NS
.6%
mult mai proastã
7.8%
mult mai bunã
mai proastã
1.0%
31.2%
mai bunã
14.7%
aproximativ la fel
44.4%

Din bara cu meniuri a ferestrei Chart1 se pot selecta multe alte facilităţi pentru reprezentările grafice. De exemplu pot fi eliminate ponderile foarte mici cum ar fi NS, NR pentru o mai bună vizualizare a categoriilor variabilei! De asemenea pot fi

adăugate/eliminate texte, pot fi făcute diverse modificări etc.După închiderea ferestrei rezultatul este salvat în Output. Meniul Help poate fi de ajutor în acest sens!

þ Obs: o bună parte dn valorile statistice calculate pentru o variabilă sau mai multe se pot obţine şi dacă apelăm la comenzile AnalyzeDescriptive StatisticsDescriptives iar valorile respective le putem alege din meniul Options.

110