Sunteți pe pagina 1din 90

CUPRINS

I. 1. Introducere în SPSS
I. 2. Lucrul cu programul SPSS. Deschiderea unei baze de date
I. 3. Variabile. Elemente de statistică descriptivă
I. 4. Definirea variabilelor în SPSS
I. 5. Introducerea variabilelor şi a datelor în SPSS
I. 6. Elemente de statistică univariată în SPSS
I. 7. Calcule statistice în SPSS
II. Alte proceduri pentru reprezentări grafice în SPSS
III. Notele (cotele) Z
IV. Testarea ipotezelor statistice; praguri de semnificaţie
V. Testarea normalităţii unei distribuţii
VI. Corelaţia dintre două variabile cantitative
VI.1 Coeficientul de variaţie
VI.2 Corelaţie parţială
VI.3 Corelaţia ca metodă neparametrică
VII. Regresia
VII.1. Dreapta de regresie
VIII. Asocierea variabilelor calitative (nominale)
IX. Operaţiuni executate asupra variabilelor şi bazelor de date
X.Teme aplicative
XI. Bibliografie generală
I. 1. Introducere în SPSS

Necesitatea prelucrării unui volum din ce în ce mai mare de date, a unor cercetări de teren
cât mai rapide etc., a impus dezvoltarea unor pachete statistice performante. Au apărut astfel de-a
lungul timpului diverse programe : SAS, SPSS, SPAD, STATA etc., majoritatea oferind
alternative de calcul pentru aceleaşi proceduri statistice de bază. În acest curs vom trece în revistă
o serie de proceduri pe care le utilizează programul SPSS for Windows, varianta 11.5., program
care a fost lansat de către SPSS Inc. Chicago (alte informaţii puteţi afla pe site-ul www.spss.com).
Traducerea liberă a acestor iniţiale este « Statistical Package for Social Sciences ». Odată lansat
programul Windows, dacă SPSS 11.5 este instalat, programul se poate deschide apelând la
pictograma* specifică sau căutând fişierul executabil după comenzile Start→Programs→ SPSS
for Windows→ SPSS 11.5 for Windows :

După executarea acestor comenzi va apare fereastra generală a programului SPSS:

*
Datorită specificului acestui demers explicativ am renunţat în aceste capitole la numirea şi numerotarea figurilor sau
tabelelor.
În imaginea de mai înainte, în partea superioară se pot observa, ca şi în programele Word sau
Excel trei bare:
-Bara de titlu care poate include numele fişierului după ce va fi salvat
-Bara de meniuri (File, Edit, View, Data etc.)
-Bara cu instrumente (anumite pictograme care sunt de fapt „scurtături” ale unor comenzi
care se găsesc de fapt şi în meniuri).
Mai jos putem identifica un tablou format din linii şi din coloane, tablou numit editor de
date (Data Editor). Pe ecran apare doar o mică parte din acest tablou foarte mare. În acest tabel
identificăm:
-coloanele (care reprezintă variabile statistice)
-liniile (care reprezintă cazuri, persoane supuse cercetării, observaţii)
În partea inferioară de pe ecran apar două etichete care au funcţii apropiate de nominalizarea
foilor de lucru din programul Excel:

Data View- compartimentul rezervat datelor introduse în Data Editor


Variable view-compartimentul rezervat variabilelor introduse.

În continuare vom explicita pe scurt bara de meniuri:

File- conţine comenzi pentru citirea, scrierea sau imprimarea tuturor tipurilor de fişiere cu care
operează programul.
Edit- conţine comenzile pentru editarea, modificarea, copierea, căutarea textelor
Data- conţine comenzi pentru definirea variabilelor, inserarea de noi variabile sau cazuri, sortarea,
alipirea, inversarea, agregarea, selectarea bazelor de date
Transform- conţine comenzi pentru transformări ale variabilelor şi ale valorilor lor.
Statistics- meniu cu procedurile statistice disponibile în program
Graphs- conţine procedurile pentru reprezentări grafice diverse
Utilities- conţine comenzi care pot da informaţii despre variabile, pot desemna un set redus de
variabile, organizarea meniurilor.
Window- conţine comenzi care permit lucrul cu ferestrele SPSS
Help- conţine informaţii despre program şi despre procedurile statistice folosite.
I. 2. Lucrul cu programul SPSS. Deschiderea unei baze de date

Obiectul de studiu îl reprezintă bazele de date, fie că ele sunt create sau aduse din alte surse
de către utilizator fie că sunt cele existente deja în cadrul programului. Dacă intenţionăm să
deschidem o astfel de bază de date este necesar să urmăm paşii următori: File→Open→Data după
care apar toate bazele de date din program:

Dupã cum se observã


bazele de date sunt
ordonate alfabetic iar
din ultimul rând se
deduce cã bazele de
date sunt fişierele de
tipul *.sav!

þ Obs: înafară de fişierele de tip *.sav care desemnează bazele de date, SPSS utilizează şi fişiere
de tip *.sps (care conţin varianta scriptică a comenzilor sau fişiere sintaxă) precum şi fişiere de tip
*.spo în care sunt incluse rezultatele cercetării statistice).

Dacă deschidem însă rubrica Files of type apar următoarele specificaţii:

Deducem de aici cã SPSS


poate citi şi multe alte
tipuri de fişiere. De
exemplu se pot citi fişiere
de tip Spreadsheet (Excel,
Lotus), de tip dBase, Ascii
sau fişiere din diverse alte
programe statistice. Pentru
precizãri suplimentare se
poate consulta Help-ul
programului sau
Tutorialul acestuia!

Toate tipurile de fişiere de mai înainte apar şi în cazul în care un fişier spss dorim să fie
salvat după comenzile File→ Save As; putem deci hotărî formatul în care va fi salvat. De asemenea
cu comenzile File→Open Database putem să transferăm diverse fişiere iar cu comezile
File→Read Text Data putem transfera în SPSS chiar texte din fişiere tip ASCII Data..
***
Dacă vom alege una din bazele incluse în program şi vom executa dublu clic pe numele acesteia
atunci va apare pe ecran o imagine de tipul următor:

Se observă mai întâi că este afişat numele bazei respective GSS93 subset apoi putem
observa dispunerea pe coloană a unor variabile cum ar fi: id (număr de identificare a individului
care intră în baza de date), wrkstat (statusul ocupaţional), marital (situaţia maritală), agewed
(vârsta la prima căsătorie) etc. După cum se vede fiecare variabilă are un nume prescurtat care
poate include maximum 8 caractere (fără spaţii şi fără anumite semne speciale) iar dacă vom opri
cursorul mausului pe numele unei variabile va apare instantaneu numele pe lung al acesteia (care
se poate extinde până la 256 de caractere). Pentru a obţine informaţii amănunţite despre variabile
putem alege opţiunea Variable view din partea de jos a ferestrei Data Editor. Recomandăm de
asemenea submeniul File→ Display Data Info. Pentru înţelegerea informaţiilor astfel obţinute
sau pentru construirea de noi baze de date trebuie cunoscută în amănunt problematica variabilelor
statistice.

3. Variabile. Elemente de statistică descriptivă

Reluăm aici unele consideraţii făcute într-un curs anterior de statistică descriptivă datorită
utilităţii acestora în cazul de faţă. Aminteam cu acel prilej că în orice cercetare statistică se obţin
date asupra unor caracteristici bine precizate ale unităţilor statistice. Dacă aceste unităţi au unele
caracteristici considerate în cadrul cercetării ca fiind fixe altele sunt considerate ca variind de la o
unitate la alta de unde şi denumirea de variabilă. De exemplu dacă unităţile statistice sunt
reprezentate de cetăţenii români cu drept de vot, între aceştia apar diferenţieri după sex, venit,
apartenenţă religioasă, profesie, nivelul de educaţie, număr de copii, opţiunea politică etc. Toate
acestea din urmă sunt caracteristici sau variabile statistice. Fiecare din aceste variabile se
distinge prin mulţimea valorilor pe care le ia. După cum se vede şi din enumerarea de mai sus
aceste variabile se exprimă prin mărimi total diferite ceea ce a impus clasificarea lor de o manieră
precisă. Astfel, pentru Michèle Colin et al. (1995; 32) variabilele sunt de două feluri:
-calitative (desemnează feluri de a fi: sex, culoarea ochilor, opiniile etc.)
-cantitative (provin dintr-o măsurare: talia, greutatea, vârsta etc.)
În ce priveşte variabilele calitative, acestea pot fi ordonate atunci când iau anumite valori
pe două tipuri de scale:
1). Scală nominală (ex. Sexul poate fi masculin/ feminin; starea civilă poate fi doar într-
una din situaţiile: necăsătorit, căsătorit, văduv, divorţat)
2). Scală ordinală (ex. Răspunsul la întrebarea “Cât de mulţumit sunteţi de şeful dv.
direct?”, răspuns: a). absolut de loc; b). puţin ; c) nici mulţumit, nici nemulţumit d). mult e).foarte
mult.
Diferenţa dintre cele două scale este evidentă. Astfel, în cazul primului tip nu există o
relaţie de ordine iar valorile variabilei sunt exprimate prin cuvinte (de unde şi denumirea de scală
nominală!), cuvinte care nu fac decât să împartă colectivitatea statistică în mai multe grupe sau
categorii. În cel de al doilea caz subiectul care răspunde este rugat să se plaseze singur pe o treaptă
a unei scale care poate fi ascendentă sau descendentă, dar în orice caz este presupusă aici o relaţie
de ordine (fiecare din variantele a, b, c, … este plasată pe un continuum crescător, din care trebuie
aleasă una). Din moment ce ele semnifică o ordine atunci ele pot fi notate şi cu numere naturale ca
în exemplul următor:
Întrebare: ”De câte ori mergeţi la biserica din confesiunea dumneavoastră?”
Răspuns: 1). Cel puţin o dată pe săptămână ; 2). Cel puţin o dată pe lună; 3). Destul de rar ;
4). Practic niciodată.
Acest exemplu l-am dat pentru a aminti, odată cu T. Rotariu [1999; 28] că scala utilizată
se distinge prin folosirea variantelor 1,2,3… dar numai în sens ordinal şi nu pur numeric,
cantitativ. Variantele 1,2,3… generează de fapt tot clase sau categorii de răspunsuri! Precizările
acestea sunt foarte importante pentru a nu se confunda acest tip de variabile cu cele cantitative!
În concluzie se poate face distincţia între variabile calitative nominale şi variabile
calitative ordinale.
Cât priveşte variabilele cantitative, acestea provin dintr-o măsurare efectivă, exprimată
printr-un număr cardinal şi se împart şi ele în două categorii:
-variabile cantitative continui (ex. Înlţimea unei persoane adulte poate fi orice valoare din
intervalul [140, 220] cm.)
-variabile cantitative discrete (ex: o familie poate avea 0, 1, 2, 3, 4,….copii, dar nu şi un
număr exprimat printr-o valoare intermediară ex. 1,5 ; 2,3 etc.)
þ Obs: intuitiv diferenţa dintre cele două tipuri ar putea fi dată de modul cum parcurgem, în
matematică mulţimea R (a numerelor reale) şi mulţimea N (a numerelor naturale)!
Variabilele cantitative uzează de două tipuri de scale:
1). Scală de intervale (ex. gradaţia unui termometru, anul naşterii etc.)
2). Scală de rapoarte (ex. greutatea, salariile, vârsta etc.)
þ Obs : în literatura de specialitate le întâlnim uneori cu nume în limba engleză (interval scale
respectiv ratio scale).
Diferenţa dintre cele două scale este importantă. Astfel, în cazul scalei de intervale gradaţia
de început (ex. 00 Celsius) este convenţională pe când în cazul scalei de raporturi gradaţia de
început este reală (ex. venitul de 0 lei desemnează lipsa oricărei surse financiare). O altă diferenţă
provine din faptul că scala de intervale nu ne permite să stabilim raporturi între valorile unei
variabile (de ex. nu putem spune că la temperatura de 40 0 Celsius este de 40 de ori mai cald decât
la temperatura de 10 Celsius). În cazul celei de-a doua scale se pot stabili aceste raporturi (de ex.
un individ de 100 de Kg. este ce două ori mai greu decât unul de 50 Kg.). Având în vedere că
diferenţele dintre aceste scale sunt imediat percepute rareori pot apare anumite confuzii. Se impune
totuşi precizarea că unii indicatori statistici nu au sens prin folosirea de scale de intervale.
Încercând o recapitulare iată cum arată o tabelare a variabilelor după M. Colin et al. [1995;
34]:

Clasificarea variabilelor după tip


Tip de varibilă Scala Exemple

Calitativă Nominală Sex, profesiune


Ordinală Opinie
Cantitativă (discretă sau continuă) De intervale Discretă: anul de naştere
Continuă: temperatură
De rapoarte Discretă: nr. de copii, vârsta
Continuă: înălţime, greutate

Să precizăm în final că diferenţierea dintre variabile (caracteristici) duce în fapt la


distingerea a două direcţii în analiza statistică: statistica non-parametrică (pentru variabilele
calitative) şi cea parametrică (pentru variabilele cantitative). Să mai amintim că în literatura de
specialitate se întâlneşte noţiunea de variabilă categorială uneori cu sens calitativ alteori cu sens
cantitativ.
Generalizând, variabilele pot fi de două feluri : cantitative sau calitative iar dintr-un alt
punct de vedere pot fi continue sau discrete (categoriale). Aceste precizări sunt importante pentru
că procedurile statistice alese din cadrul programului SPSS depind de tipul de variabile şi de tipul
scalelor. De exemplu pentru scale nominale sau ordinale sunt obligatorii proceduri sau teste non-
parametrice în timp ce pentru scalele de interval sau de raport se vor folosi proceduri sau teste
parametrice. De asemenea este important de precizat că variabilele trebuie să îndeplinească
anumite condiţii înainte de a fi supuse cercetării. De exemplu se cere ca o variabilă cantitativă să
respecte condiţiil : distribuirea normală a valorilor în esantionul prelevat şi apropierea acestei
distribuţii de distribuţia din populaţia mare din care a fost extras eşantionul.

þ Obs. : Există uneori tendinţa de a trata scalele ordinale ca şi scale de intervale. Din cauză că
distanţele între valorile acestor tipuri de scale sunt diferite pot apare însă confuzii. De exemplu
dacă ne referim la o scală ordinală dată de întrebarea « Sunteţi mulţumit de şeful direct ? » cu
răspunsurile posibile : 1. Foarte mulţumit 2. Mulţumit 3. Deloc mulţumit 4. Nu am o părere
formată, se pune problema dacă este legitim să calculăm media aritmetică a valorilor 1-4 ca şi pe o
scală de intervale. Se pune deci problema dacă o medie de 1,75 ne poate îndreptăţi să declarăm că
suntem aproape mulţumiţi de şeful direct ? Fără doar şi poate că o astfel de valoare are o
reprezentare intuitivă însă în sens strict statistic ea poate fi imprecisă. Să presupunem că avem altă
scală ordinală ataşată întrebării « Cîte cărţi de literatură citiţi pe lună ? » : 0. Niciuna 1. O carte 2.
Două cărţi 3. Trei cărţi 4. Patru sau mai multe cărţi. În acest caz o astfel de scală poate fi tratată ca
şi o scală de interval şi deci o medie de, să spunem, 1,5 cărţi ni se pare plauzibilă. Diferenţa de
interpretare apare din faptul că cea de a doua scală ordinală are intervale egale. În fiecare caz
rămâne la latitudinea cercetătorului de a decide interpretarea corectă a datelor.
O distincţie importantă este şi aceea dintre variabile independente şi variabile dependente. Iată
câteva exemple :

Variabila independentă Variabila dependentă


Stilul managerului Productivitatea muncii
Sexul respondenţilor Opţiuni electorale
Virsta Preferinţe muzicale

După cum se observă sensul legăturii dintre aceste variabile este univoc relaţia inversă
neputînd fi impusă (de exemplu opţiunile electorale nu pot influenţa sexul subiecţilor). Modul cum
sunt desemnate aceste tipuri de variabile diferă de la o cercetare la alta. Prin definiţie variabilele
independente sunt cele care influenţează pe cele dependente, fiind stabilite sau introduse de către
cercetător. În cercetările prin chestionar de obicei se introduce un set de astfel de variabile cu
caracter demografic sau economic în funcţie de care se vor face analize privind celelalte variabile
(întrebări). Legăturile dintre astfel de variabile sunt mai des puse în evidenţă în experimentele
sociologice.

4. Definirea variabilelor în SPSS

Să presupunem că dorim să construim o nouă bază de date. Pentru aceasta vom urma
comenzile File→New→Data după care apare tabloul gol Data Editor. Vom da apoi dublu clic pe
numele sav care apare în capul primei coloane. Automat se va deschide cel de-al doilea registru
numit Variable view în care putem defini variabilele:

În prima coloană începând din colţul din stânga sus putem introduce numele variabilelor.
Este vorba de numele pe scurt al acestora cu până la opt caractere. Apoi vom caracteriza
respectivele variabile conform indicaţiilor care urmează : Type, Width, Decimals, Label etc.
De data aceasta tabelul conţine pe fiecare linie orizontală câte o variabilă iar pe fiecare
coloană putem caracteriza în amănunt fiecare variabilă. Vom identifica rolul fiecărei coloane:
þ Obs. Name- include numele pe scurt al variabilei de maximum 8 caractere (nu se
folosesc spaţiile goale sau anumite semne speciale : !, ?, *, ‘ ). Se acceptă totuşi simbolul «_»
numit şi underscore.

După ce am introdus numele în prima căsuţă vom da clic în partea dreaptă a celulei
corespunzătoare unei variabile şi care este în coloana cu titulatura Type. Va apare următoarea
fereastră :

Această ferestră conţine tipurile de variabile posibile mai precis tipurile de variabile după valorile
pe care le pot lua acestea :

-Numeric-opţiunea pentru valori numerice; se poate stabili câte cifre au aceste numere, maximum
40 (Width) dar şi cifrele pentru partea zecimală, maximum 16 (Decimal Places). Opţiunile alese
vor apare în următoarele două coloane ale tabloului !
-Comma- sau virgulă folosită uneori la separarea cifrelor de ordinul miilor, milioanelor etc. ; în
acest caz separatorul zecimal este un punct
-Dot- sau punct folosit uneori la separarea cifrelor de ordinul miilor, milioanelor etc. ; în acest caz
separatorul zecimal este un virgula
-Scientific notation- notaţii speciale de tipul 1,2E3 ceea ce înseamnă 1,2*103
-Date-notaţii pentru date calendaristice (conform unui format care poate fi ales).
-Dollar-simbolul monedei americane
-Custom currency- variabilă numerică cu date dispuse după formatul din
Edit→Options→Currency
-String- configurează variabile alfanumerice care pot conţine şiruri de caractere (litere sau
numere). Odată aleasă această opţiune poate fi indicat numarul de caractere ales.

þ Obs : cele mai des folosite tipuri sunt Numeric şi String !

-Label- putem desemna numele pe lung al variabilei cu până la 256 caractere

-Values- pot fi numite valorile şi etichetele ataşate acestor valori pentru cazul variabilelor ordinale
sau categoriale. După un clic în partea dreaptă a celulei corespunzătoare din coloana cu acest titlu
va apare fereastra de dialog următoare :
Value dã valoarea numericã a unei
etichete iar Value Label va da
numele etichetei respective. Dupã
aceste operaţii se apasã pe butonul
Add . Opţiunile pot fi apoi schimbate
(Change) sau chiar şterse (Remove).
Iata cum va arãta dupã aceste operaţii
variabila sex cu cele douã alternative
1. masculin, 2. feminin:

Nu uitaţi: la finalul
unor operaţiuni de
acest tip se alege
invariabil OK sau
Continue, altfel
setãrile dorite nu vor
fi preluate de cãtre
program!

- Missing – poate permite operatorului de a desemna valorile lipsă (Missing Values) din cadrul
unei variabile. Pentru inceput, programul are setată opţiunea fără valori lipsă după cum apare în
fereastra următoare :

Se poate
opta
totuşi
pentru
dverse
variante:
În aceste cazuri operatorul poate decide ca în analizele ulterioare valorile de tipul 97 (Nu
ştiu), 98 (Nu răspund) 99 (Nu s-a aplicat) să fie considerate lipsă (missing). De asemenea se poate
decide ca pe lângă valorile cuprinse între 97-99 să mai fie adăugată o valoare din baza de date.
Necesitatea unor astfel de operaţii este imediată : se pot face analize eliminând pe moment anumite
valori spaciale iar apoi se pot analiza separat chiar valorile considerate lipsă. În cazul variabilelor
alfanumerice trebuie consemnat un spaţiu liber în căsuţa Discrete missing values deoarece
programul consideră valide chiar şi celulele goale !

- Columns- se poate decide asupra formatului coloanelor în funcţie de mărimea datelor variabilei

- Align- se poate decide asupra modului cum vor fi aliniate valorile variabilei pe coloane

- Measure- opţiune deosebit de importantă în urma căreia decidem asupra modalităţii de măsurare
a variabilei. Astfel există trei opţiuni :

- Scale- opţiune pentru variabile numerice fie ele măsurate pe scale de interval
sau de rapoarte (ratio) ; asociem această modalitate cu un număr mare de valori
ale variabilei
- Ordinal- de obicei este o opţiune pentru variabile ordinale care au categorii
bine precizate prin etichete numerice şi care pot fi ordonate.
- Nominal- opţiune pentru variabile alfanumerice în care nu există nici o relaţie
de ordine între valori (care pot fi cuvinte dar şi numere).
þ Obs : precizarea corectă a opţiunii measurement este importantă deoarece o serie de proceduri
statistice se referă doar la anumite tipuru de variabile sau valori. Astfel pentru variabile nominale
dintre mărimile tendinţei centrale (media, mediana, modul) nu are sens să calculăm media !

5. Introducerea variabilelor şi a datelor în SPSS

Odată făcute precizările de până acum putem introduce datele în Data Editor ştiind că
fiecare coloană reprezintă o variabilă iar fiecare rînd reprezintă un caz sau o persoană. Să
presupunem că într-un chestionar avem în ordine următorii itemi :

-Codul chestionarului :………………


Q1. Cum trăiţi în prezent faţã de acum 3 ani?
1. Mult mai bine 2. Mai bine 3. La fel 4. Mai rãu 5. Mult mai rău 9. NS/NR
Q2. Care este principala problemă din localitate pe care fostul primar nu a rezolvat-o?
..............................................................
Vom încerca să introducem itemii de mai înainte ca şi variabile în baza de date apoi vom
insera valorile pentru primii zece subiecţi interogaţi. Se observă că primul item reprezintă o
variabilă cantitativă, Q1 reprezintă o variabilă ordinală iar cea de a treia este o variabilă nominală.
Înainte de a introduce valorile în bază vom intra în opţiunea Variable View şi vom defini
variabilele cod, q1_trai, q2_probl. Pentru prima variabilă putem face următoarele opţiuni:

Se observă că am optat pentru tipul numeric variabila având drept valori numere cu până la
trei cifre (Width=3) considerând că au fost interogate de exemplu 800 de persoane. Codul
chestionarului este un număr întreg fără zecimale (Decimals=0), numele pe lung al variabilei este
„Cod chestionar”, măsurarea este de tip Scale.
Definirea variabilei q1_trai trebuie să ţină cont de specificul acesteia prin precizarea etichetelor
respective (se scrie Value: 1, apoi Value Label : „Mult mai bine” apoi Add etc.).

La final noua variabilă din rândul al doilea va avea următorii parametri :

Se observă că valorile rămân numerice dar cu precizarea că acele numere se referă la


valorile etichetelor : 1, 2, 3, 4, 5, 9. Aceste numere sunt compuse dintr-o singură cifră (Width=1).
Numele pe lung al variabilei este chiar întrebarea din chestionar : „Cum trăiţi în prezent faţă de
acum 3 ani?”.Modalitatea de măsurare este Ordinal.
Cea de a treia variabilă q2_probl este una nominală răspunsurile fiind consemnate ca
variante pentru o întrebare deschisă. Dacă în cazul anterior se vor introduce în baza de date doar
numerele valori ale etichetelor în acest caz trebuie introduse răspunsurile subiecţilor ca atare.
Referitor la valorile variabilei tipul acesteia este String:

Odată cu alegerea opţiunii String se impune precizarea numărului de caractere pe care il


poate avea răspunsul subiecţilor (în acest caz 100 de caractere). În final această variabilă va avea
caracteristicile de pe poziţia a treia :

Cea de a treia variabilă este de tip String cu variante de până la 100 de caractere nominale
sau numerice. Modalitatea de măsurare este Nominal.
După aceste operaţii putem salva baza de date cu comenzile File→Save As şi noua bază o
putem numi bazaexemplu. Numele bazei va apare în bara de titlu :

În acest moment putem reveni în fereastra Data View pentru a introduce datele culese din
chestionare. Valorile se introduc în tabel acolo unde celula este activă (apare un chenar în jurul
celulei) apoi se apasă tasta Enter. Să presupunem că am introdus primii zece subiecţi chestionaţi.
Pentru a vedea şi
care sunt etichetele
ataşate valorilor
din coloana a doua
putem urma
comenzile View
Value Label sau
putem da clic pe

butonul de
pe bara cu
instrumente. Dupã
o astfel de operaţie
vor apare în bazã
şi etichetele
respective :

Se observă că în cea de a doua coloană apar doar valorile


numerice ale etichetelor (fapt ce ne arată că introducerea datelor
în acest caz este mult facilitat). În stânga sus se poate vedea şi
poziţionarea celulei active : coloana 2, rândul 11.

þ Obs. din moment ce bazele de date au fost constituite putem incepe analizele statistice
necesare !

þ Obs. Toate comenzile de pînă acum pot fi executate şi într-un editor de texte sau fişier sintaxă.
Acest fişier care are termninaţia .sps este foarte util când se lucrează frecvent cu baze mari de date
pentru că respectivele instrucţiuni (comenzi) pot fi salvate şi apoi reiterate de câte ori este nevoie.
Ceea ce am întreprins până acum de exemplu putem să regăsim într-un « jurnal » al aplicaţiilor
care poate fi găsit în fişierul spss.jnl din Windows→Temp, fişier care poate fi deschis şi ca
document Word.
Accesând acest document găsim următoarele specificaţii care rezumă de fapt construcţia bazei de
date anterioare:

Thu Dec 25 13:42:07 2003 :journaling started


GET
FILE='C:\Documents and Settings\Adrian\My Documents\spss
curs'+
' Id\bazaexemplu.sav'.
SAVE OUTFILE='C:\Documents and Settings\Adrian\My
Documents\spss curs Id\bazaexemplu.sav'
/COMPRESSED.

Un fişier sintaxă poate fi iniţiat după comenzile File→New→Syntax.


Chiar dacă nu lucrăm în limbaj sintaxă atunci putem salva comenzile folosite fie alegând comanda
Paste în loc de OK în diverse aplicaţii pe care le efectuăm sau putem sa le salvăm în outputul
aplicaţiilor efectuând comenzile Edit→Option→Viewer→Display Commands in the log. Să
dăm un exemplu de astfel de comenzi salvate în Output (fişier de rezutate) de exemplu pentru
calcularea mediei vârstei respondenţilor din baza de date GSS93 Subset:

FREQUENCIES
VARIABLES=age
/STATISTICS=MEAN
/ORDER= ANALYSIS .

În acest volum nu vom insista pe aspecte legate de limbajul sintaxă însă recomandăm pentru cei
interesaţi de exemplu volumul M. Norusis, SPSSx Advanced Statistics Guide, McGraw Hill, 1995.
De asemenea se poate apela la site-ul creatorilor şi proprietarilor programului www.spss.com sau
la Help-ul programului.
6. Elemente de statistică univariată în SPSS

Vom analiza în acest capitol câteva din procedurile statistice elementare pe care le putem
aplica datelor statistice. Să deschidem una din bazele programului anume GSS93 subset (obţinută
în urma unei anchete pe un eşantion de 1500 de subiecţi):

Ne oprim atenţia asupra variabilei educ (Highest year of school completed) ale cărei
caracteristici de bază le putem identifica în fereastra Variable View:

Variabila este considerată având valori numerice cu maximum două cifre, sunt consemnate
trei valori speciale: 97 (NAP, neaplicat) 98 (DK, “don’t know “; “nu ştiu”) şi 99 (NA, “no
answer”, “non-răspuns”). În cazul valorilor lipsă (missing values) sunt consemnate valorile 97, 98,
99. Variabila este considerată ordinală dar din cele spuse mai înainte ea poate fi la fel de bine
considerate variabilă cantitativă discretă.
Pentru această variabilă vom încerca să calculăm principalele valori statistice. Pentru
aceasta vom apela comenzile următoare: Analyse→Descriptive Statistics→Frequencies:
Se va deschide o nouã
fereastrã de dialog care conţine
douã compartimente. Pentru ca
o varibilã sã poate fi analizatã
trebuie trecutã din coloana din
stânga în cea din dreapta cu
ajutorul sãgeţii din mijloc (sau
dublu clic) dupã selectare.
Sãgeata se poate acţiona şi
invers!
Se observă în această fereastră şi alte elemente:
- Display frequency tables- opţiune pentru afişarea tabelului frecvenţelor variabilei; uneori putem
renunţa la acest tabel (prin deselectarea opţiunii)
- OK-comandă finală după ce am ales toate opţiunile de calcul
- Paste- comandă pentru salvarea comenzilor în modul sintaxă
- Reset- comandă pentru anularea setărilor în curs
- Statistics- comandă pentru calculul principalelor valori statistice
- Charts-comandă pentru reprezentări grafice
- Format- opţiuni privind modalităţi de afişare ale rezultatelor
- Help- comandă de ajutor

Prin acţionarea butonului Statistics se va deschide o nouă fereastră de dialog :

Se obsevã împãrţirea acestei ferestre


pe o serie de blocuri distincte
referitoare la percentile, dispersie,
mãrimile tendinţei centrale şi mãrimi
legate de forma distribuţiei statistice.
Pentru calcularea acestor valori este
necesar sã selectãm procedurile care
ne intereseazã cu un clic al mausului
în pãtrãţelele din faţã lor. Pentru
deselectare vom da un clic în aceleaşi
pãtrãţele! Vom discuta pe larg
opţiunile acestei ferestre în cele ce
urmeazã.

I. Percentile Values- comandă care împarte mulţimea valorilor statistice în mai multe grupe de
date.
Există mai multe variante:
Quartiles (împărţim mulţimea valorilor în patru părţi egale fiecare câte 25%)
Cut points for 10 equal groups (împăţire în 10 părţi dar pot fi alese mărimi între 2
şi 100)
Percntile(s)- se poate specifica o centilă anume.
II. Dispersion- include comenzi pentru calcule privind analiza variaţiei
Se poate opta pentru Standard Deviation, sau “deviaţia standard” sau “abaterea medie
pătratică”, mărime care ne arată cu cît se abat în medie valorile seriei de la media lor. Formula de
calcul pentru serii cu frecvenţe este cea cunoscută din statistica descriptivă deja parcursă:

∑ (x − x )
2
fi
SD =
i

∑f i

Obs: în cazul unei serii cu distribuţie normală sau care se apropie de o astfel de distribuţie
valorile seriei sunt cuprinse în proporţie de 99% în intervalul [x − 3SD, x + 3SD] .

-Variance-o notăm SD2 este mărimea din care am obţinut deviaţia standard prin extragerea
radicalului. Formula de calcul este sugerată de ridicarea la pătrat a formulei anterioare:

SD 2
=
∑ (x − x )
i
2
fi
∑f i

-Range- sau “amplitudinea absolută” se calculează cu formula:

A = x max − x min , valori notate Minimum, Maximum.

S.E. Mean-sau “standard error of mean” (eroarea standard a mediei) ne poate arată limitele între
care variză media eşantionului (±) în cadrul unei populaţii de eşantioane. Se ştie că un astfel de
interval este foarte util atunci când aproximăm valoarea mediei dintr-o populaţie. Această valoare
nu este cunoscută decât în urma unor cercetări exhaustive care sunt deosebit de complexe şi
costisitoare. În practică majoritatea estimărilor statistice se fac pe eşantioane iar rezultatele, sub
condiţia reprezentativităţii, sunt apoi inferate (extinse) la populaţia mare din care a fost extras
eşantionul. Dacă notăm media din populaţia mare cu μ, S.E.Mean cu SE şi eroarea limită admisă
cu Δx (Δx=t.SE) putem conchide că, cu o anumită probabilitate, µ ∈ [x − ∆ x , x + ∆ x ] , interval în
care x este media din eşantion. Atragem atenţia că în majoritatea tratatelor de statistică valorile
care se referă la o populaţie statistică sunt notate cu litere greceşti iar cele referitoare la eşantioane
se vor nota cu litere latine.

III. Central Tendency-grup de valori care poartă denumirea de mărimile tendinţei centrale (acele
mărimi care caracterizează îm medie întreaga mulţime a valorilor statistice). Se calculează de
obicei următoarele valori:

Mean- media aritmetică ( x ); este calculate cu formulele:

x=
∑x i
, pentru serii simple şi x =
∑x f i i
, pentru serii cu frecvenţe
n ∑f i
-Median-sau mediana (Me) reprezintă valoarea ataşată individului sau cazului care
împarte milţimea statistică în două părţi egale. Se citeşte astfel: 50% din valorile seriei sunt mai
mici decât Me, iar restul de 50% au valori care depăşesc Me. După cum se ştie această mărime se
identifică uşor într-o serie simplă, la mijlocul acesteia, după ce am ordonat valorile respective.
Pentru o serie cu intervale se foloseşte formula:
U me − ∑ f ia
Me = x0 + d , formulă în care x0 este limita inferioară a
fm
intervalului median, d mărimea acelui interval, ∑ f ia este frecvenţa cumulată anterioară
intervalului median, iar fm este frecvenţa corespunzătoare acelui interval.

-Mode-sau modul (dominanta), notat Mo, reprezintă cea mai des întâlnită valoare dintr-o
serie statistică sau valoarea care are cea mai mare frecvenţă. Pentru o serie simplă este uşor de
identificat iar pentru serii cu frecvenţe se foloseşte formula:
∆1
Mo = x0 + d , formula în care x0 este limita inferioară a intervalului
∆1 + ∆ 2
modal (corespunzător celei mai mari frecvenţe), d este mărimea respectivului interval, Δ1 şi Δ2
sunt diferenţele obţinute prin scăderea din frecvenţa intervalului modal a frecvenţelor anterioară şi
posterioară acesteia.

-Sum-reprezintă suma valorilor seriei

IV. Distribution- valori care se referă la forma distribuţiei statistice. Cuprinde duă tipuri de valori:
skewness (asimetria) şi kurtosis (aplatizarea).
Asimetria se referă la măsura în care graficul (distribuţia) valorilor este asimetric spre
stînga sau spre dreapta faţă de valoarea medie. Pentru un coefficient, să îl notăm sk (de fapt
coeficientul Pearson de oblicitate) putem avea valorile:

Sk>0, asimetrie la dreapta (graphic alungit spre dreapta)


Sk<0, asimetrie la stînga (graphic alungit spre stânga)
Sk≈0, distribuţie simetrică

Aplatizarea sau boltirea se referă la compararea distribuţiei cu o curbă normală. Se poate


calcula un coeficient de aplatizare (îl notăm cu k) iar valorile acestuia pot fi interpretate astfel:

k>0, distribuţie leptocurtică (peste o curbă normală)


k<0, distribuţie platicurtică (sub o curbă normală)
k≈0, distribuţie mezocurtică (tinde la o curbănormală)

Obs1. Valorile sk şi k sunt considerate normale dacă se încadrează în intervalul [-1,96; 1,96].
Obs2. Precizăm că o curbă normală este binecunoscuta distribuţie gaussiană, în formă de clopot,
perfect simetrică şi care se bucură de o serie de proprietăţi fundamentale pentru cercetarea
statistică. Recomandă şi parcurgerea bibliografiei de la sfârşitul cursului pentru alte informaţii.

V. Values are group midpoints-opţiune utilizată când valorile seriei sunt grupate simetric în jurul
unei valori anumite.
7. Calcule statistice în SPSS

Toate mărimile precizate pot fi calculate în cazul unei variabile cantitative numerice. Vom seta
toate variantele repective vom da OK şi vom obţine rezultatele într-o altă fereastră Output1
(specifică afişării rezultatelor şi care poate fi salvată ca şi un fişier de tip *.spo):

Statistics Din aceste date deducem cã sunt valide


Highest Year of School Completed
1496 de cazuri iar 4 sunt considerate
N Valid 1496
lipsã (acele valori 97,98 şi 99). Media
anilor de studii-şcoalã încheiatã din
Missing 4
eşantion este de 13,04 ani iar SE of
Mean 13.04
Mean= 0,079. Jumãtate dintre subiecţi au
Median 12.00
media anilor de studiu de pânã în 12 ani,
Mode 12 restul de peste 12. Modul este unic şi
Std. Deviation 3.074 este Mo=12, cea mai des întâlnitã
Variance 9.450 valoare. Abaterea standard este de 3,074
Skewness -.309 ani. Coeficientul de asimetrie este de -
Std. Error of Skewness .063 0,309 deci distribuţia este alungitã uşor
Kurtosis .708 spre stânga iar coeficientul boltirii este
Std. Error of Kurtosis .126 de 0,708 deci distribuţia este
Range 20
leptocurticã. Amplitudinea este de 20 ca
rezultat din diferenţa Maximum-
Minimum 0
Minimum. Suma tuturor valorilor este de
Maximum 20
19504 ani. Primii 255 dintre respondenţi
Sum 19504
au pânã în 123 ani de şcoalã, primii 50%
Percentiles 25 12.00 au tot pânã în 12 ani, primii 75% au pânã
50 12.00 în 15,75 ani de scoala.
75 15.75

Dacă apelăm la butonul Charts din aceeaşi fereastră putem reprezenta graphic seria după ce am
ales setările care se potrivesc seriei noastre, din fereastra următoare:
Se observã cã am ales Graficul de tip Histogramã care
este specific variabilelor cantitative. Am ales şi
varianta With normal curve deoarece prin comparaţie
se poate stabili şi tendinţa distribuţiei spre o curbã
normalã. Se pot alege şi alte tipuri de grafice: Bar
Charts (grafic cu bare) sau Pie charts (grafic de tip
placintã). Ultimele douã tipuri de grafice sunt
recomandate atunci când variabilele sunt categoriale
pentru o mai bunã vizualizare a acestora (se recomandã
ca numãrul categoriilor sã nu fie foarte mare pentru a
se pãstra lizibilitatea). Pentru aceste grafice existã şi
douã opţiuni: Frequencies şi Percentages.

După apelarea butonului Continue graficul va apare tot în fereastra de rezultate Output1:
Highest Year of School Completed
700

600 Se observã în acest grafic


constatãrile din primul tabel:
500 distribuţia se apropie de o curbã
normalã având o uşoarã alungire
400
spre stânga (sk<0) iar din
300 punctul de vedere al boltirii
existând o tendinţã leptocurticã
200 (k>0) adicã dacã am uni
Frequency

Std. Dev = 3.07


mijloacele dreptunghiurilor
100
Mean = 13.0 histogramei tendinţa este de a
0 N = 1496.00 depãşi o curbã normalã.
0.0 2.5 5.0 7.5 10.0 12.5 15.0 17.5 20.0

Highest Year of School Completed

În aceeaşi fereastră Output1 vom găsi şi tabelul frecvenţelor după cum urmează:

Highest Year of School Completed


Prima coloanã conţine valorile
Cumulative seriei respectiv anii de studii cu cifre
Frequency Percent Valid Percent Percent
cuprinse intre 0 şi 20 de ani de studiu. Cea
Valid 0 2 .1 .1 .1
2 4 .3 .3 .4
de a doua coloanã cuprinde frecvenţele
4 7 .5 .5 .9
absolute la final adãugându-se şi numãrul
5 7 .5 .5 1.3 celor care au rãspuns „don’t know” (DK).
6 20 1.3 1.3 2.7 Cea de a treia coloanã conţine frecvenţele
7 26 1.7 1.7 4.4 relative (procentuale). Cea de a patra
8 59 3.9 3.9 8.4 coloanã conţine frecvenţele procentuale
9 45 3.0 3.0 11.4 valide adicã acele frecvenţe recalculate în
10 55 3.7 3.7 15.0 condiţiile în care valorile speciale de tip
11 81 5.4 5.4 20.5 97, 98, 99 sau altele sunt declarate
12 445 29.7 29.7 50.2 „missing” sau „lipsã”. Diferenţele dintre
13 135 9.0 9.0 59.2
coloanele a treia şi a patra nu existã
14 166 11.1 11.1 70.3
datoritã numãrului foarte mic de valori
15 70 4.7 4.7 75.0
missing. Dacã numãrul lor era mai mare
16 208 13.9 13.9 88.9
diferenţa era vizibilã. Ultima coloanã
17 46 3.1 3.1 92.0
18 71 4.7 4.7 96.7
conţine frecvenţele cumulate calculate
19 24 1.6 1.6 98.3
dupã coloana din stânga. Algoritmul de
20 25 1.7 1.7 100.0 calcul este simplu: se scrie prima frecvenţã
Total 1496 99.7 100.0 0,1 şi se adunã cu urmãtoarea 0,3, rezultã
Missing DK 4 .3 0,4 ş.a.m.d.
Total 1500 100.0

Ultima coloană ajută la lectura mai rapidă a datelor statistice. De exemplu putem citi că 70% dintre
respondenţii cu răspunsuri valide au până în 14 ani de şcoală.
Vom căuta să calculăm principalele valori statistice şi pentru o variabilă categorială (fie ea
ordinală sau nominală). Pentru acest exerciţiu vom apela la o altă bază de date BOP_mai-
2003_Gallup FINAL.sav bază constituită în urma anchetei la nivel naţional intitulată Barometru de
opinie. Această bază poate fi descărcată de pe site-ul www.osf.ro. Iată cum arată o porţiune din
acastă bază:

Variabila a12 este o variabilă ordinală şi reprezintă întrebarea „Cum este viaţa dvs. în
prezent comparativ cu cea de acum un an?”. Această întrebare avea variantele de răspuns: 1. Mult
mai bună 2. Mai bună 3. Aproximativ la fel 4. Mai proastă 5. Mult mai proastă 8. NS 9. NR. Să
calculăm principalele valori statistice şi să reprezentăm grafic seria. Vom urma comenzile
Analyze→Descriptive statistics→Frequencies:

De data aceasta valorile statistice care ne interesează sunt mult mai puţine datorită variabilei care
este calitativă. Foarte util în acest caz este şi tabelul frecvenţelor care este setat în prima fereastră.
Graficul va fi de tipul Pie charts. Rezultatele le obţinem tot în Output1:
Statistics Se deduce din acest tabel cã sunt 2100 de rãspunsuri
Cum este viaþa dvs. în prezent (chestionare) valide şi nu sunt cazuri lipsã (missing).
comparativ cu cea de acum un an?
Mediana este 3 deci jumãtate din respondenţi au
N Valid 2100
rãspunsuri cel mult cu valoarea „aproximativ la fel”. Cel
Missing 0
Median 3.00
mai des întâlnit rãspunds este tot 3 adicã „aproximativ la
Mode 3
fel”. La fel se pot comenta şi quartilele. Se observã cã în
Percentiles 25 3.00 acest caz media aritmeticã nu avea nici un sens chiar
50 3.00 dacã ar fi fost calculatã. Mai explicit este însã tabelul
75 4.00 frecvenţelor:

Cum este viaþa dvs. în prezent comparativ cu cea de acum un an?

Cumulative
Frequency Percent Valid Percent Percent
Valid mult mai bunã 21 1.0 1.0 1.0
mai bunã 308 14.7 14.7 15.7
aproximativ la fel 933 44.4 44.4 60.1
mai proastã 656 31.2 31.2 91.3
mult mai proastã 163 7.8 7.8 99.1
NS 12 .6 .6 99.7
NR 7 .3 .3 100.0
Total 2100 100.0 100.0

Observăm în acest tabel semnificaţiile coloanelor după observaţiile făcute anterior.


Procentele pentru NS, NR sunt indentice în coloanele a treia şi a patra pentru că respectivele valori
nu au fost considerate ca valori lipsă. Graficul de tip Pie Charts va apare în Output, apoi putem
da dublu clic pe acest grafic şi se va deschide o nouă fereatră intitulată Chart1:
Fereastra Chart1 este special constituită pentru a face diverse modificări în graficul respectiv. Aici
nu vom aplica decât comenzile Chart→Options→Percent iar după eliminarea titlului din
fereastra anterioară graficul final va fi următorul:
Din bara cu meniuri a
NR ferestrei Chart1 se pot
.3% selecta multe alte facilităţi
NS
pentru reprezentările
grafice. De exemplu pot fi
.6%
eliminate ponderile foarte
mult mai proastã
mici cum ar fi NS, NR
7.8%
mult mai bunã pentru o mai bună
mai proastã vizualizare a categoriilor
1.0%
31.2%
mai bunã
variabilei! De asemenea
14.7%
pot fi adăugate/eliminate
texte, pot fi făcute diverse
modificări etc.După
închiderea ferestrei
rezultatul este salvat în
aproximativ la fel Output.
44.4% Meniul Help poate fi de
ajutor în acest sens!

þ Obs: o bună parte dn valorile statistice calculate pentru o variabilă sau mai multe se pot obţine
şi dacă apelăm la comenzile Analyze→Descriptive Statistics→Descriptives iar valorile
respective le putem alege din meniul Options.
II. Alte proceduri pentru reprezentări grafice în SPSS

Comenzile pentru diverse alte grafice le putem găsi în meniul


Graphs. Din acest meniu vom detalia câteva opţiuni care sunt
mai uzuale. Vom găsi şi aici de exemplu opţiunea Histogram
dar cu o fereastră uşor diferită:

Să presupunem că vrem să facem histograma variabilei loc4 [Care este suprafaţa totală
(în metri pătraţi) a camerelor (fără baie, bucătărie, hol) pe care le ocupă gospodăria
dumneavoastră?].

Vom trece variabila din stânga în dreapta, putem seta opţiunea Display normal curve, de
asemenea putem să căutăm un titlu adecvat graficului:
Suprafata totala
800

600

400

200
Std. Dev = 32.24
Mean = 53.0
0 N = 2100.00
0.

40

80

12

16

20

24

28

32

36

40
0

.0

.0

0.

0.

0.

0.

0.

0.

0.

0.
0

Care este suprafaþa totalã (în metri pãtraþi) a camerelor (fãrã baie, bu
Din acelaşi meniu Graphs putem obţine pentru graficele de
tip Bar Charts o serie de reprezentări mai sugestive. Vom
încerca să reprezentăm grafic altă variabilă scoala0 [Ultima
scoala absolvită?] din baza BOP_mai-2003_Gallup
FINAL.sav. Ne propunem să reprezentăm această variabilă
ţinând cont de venitul respondenţilor. Vom deschide
fereastra necesară după comenzile Graphs→Bar. Din
această fereastră vom păstra opţiunea Simple care este
potrivită situaţiei noastre deoarece există o singură variabilă
independentă scoala0. Din partea de jos vom lăsa setarea
Summaries for groups of cases (barele reprezintă grupuri
de cazuri). Clic pe butonul Define:

Se observă în această fereastră că


am deplasat variabila scoala0 în
rubrica Category Axis (este
variabila independentă care va
defini axa OX) iar în rubrica
Variable am trecut variabila
vensub iar pentru aceasta în grafic
vor apare pe axa OY mediile
veniturilor. De altfel această
opţiune a fost aleasă de program în
mod automat dar ea poate fi
schimbată din butonul Change
Sumary. Pentru exemplul nostru
vom lăsa aceste setări şi vom
continua cu OK!
Obs: Dacă variabila independentă
are „valori lipsă” atunci din
Mean Dar venitul dvs. personal în luna tre

7
butonul Options se va dezactiva
comanda Display groups defined
6
6 by missing values!
5

4 4
4 Valorile de pe axa OY reprezintă
3

3
3
mediile veniturilor în milioane lei
2 2
în luna aprilie 2003. Se observă
1
1
1
1 din grafic modul cum influenţează
1 1
0
variabila independentă „studii”

pr

gi

ºc

tre

lic

ºc

un

un

st

N
R
m

ud

im

oa

oa

variabila dependentă „venit”.


iv

iv
ap

u
na

er

er

ii
ar

la


ºc

ta

(9

po
zi

si

si
oa

pr

po
(1

Id
al

ta

ta

s
of

-4

st

tu
r

r
(

1
es
5

Pentru studii postuniversitare se


- li

de

de

ni
2
lic
cl

-8

ce )
i

ve
on

c
as

eu

sc

lu
la

al

rs
ng
cl

al
e)

ur
ã
(

i
a

e
ã

t
t

manifestă o scădere a mediei


Ultima ºcoalã absolvitã (respondent)
veniturilor!
Să presupunem că dorim să reprezentăm grafic variabila ven (venitul familiei) şi
variabila vensub (venitul respondentului la chestionar). Reprezentarea se alege de data aceasta
după opţiunea Summarise of separate variables. După acţionarea butonului Define va apare
fereastra următoare apoi graficul:

5.5

5.0

4.5

4.0

3.5

3.0

2.5

2.0
Mean

1.5
În luna trecutã (apr Dar venitul dvs. per

Obs: scala folosită pe axa OY poate crea impresia unei disproporţii prea mari între mediile
celor două variabile. Respectiva scală poate fi modificată după ce am dat dublu clic pe grafic şi
am intrat în fereastra Graph1 vom urma comenzile Chart→Axis→Scale după care vom
modifica în opţiunea Range limitele axei OY. Iată cum arată după o astfel de modificare
acelaşi grafic:

3.0

2.5

2.0
Media veniturilor

1.5
În luna trecutã (apr Dar venitul dvs. per
O altă variantă de reprezentare grafică şi care este foarte des uzitată este dată de opţiunea
reprezentării de tip cluster (apar grupuri de bare care se pot compara mai uşor). De exemplu
ne-ar interesa repartiţia din eşantionul folosit în aceeaşi cercetare după variabila scoala0 dar în
funcţie de sexul respondenţilor. Vom alege de data aceasta comenzile Charts→Bar
Charts→Clustered iar opţiunea Summaries for groups of cases rămâne neschimbată. După
Define apare fereastra:
Observăm că pentru axa
OX am ales aceeaşi
variabilă iar variabila care
dictează dispunerea
cluster este varibila sex.
Frecvenţele vor reprezenta
efectiv numărul de
subiecţi (N of cases). Din
Option am deselectat
opţiunea Display groups
defined by missing values!
Graficul este următorul:

400

300

200

Genul (respondent)
100
masculin
Count

0 feminin

pr

gi

ºc

tre

lic

ºc 9

un

un

st

NR
m

ud
r

im

oa
e

ive st-l cl

ive r d
ã

ap
al

u
na

ii
ar

lã 1
ºc

ta

rs

rs

po
zi
o

pr

p
(

ita e alse

ita scu
I d n al
al

1-

al

o 2

st
of
ã

rd
(5

un gã
4

es la

l ic
cla

e
ic a

ive
-8

io

eu

lu
se

rs
n
c

ã)
(

it
)

rt
ã

Ultima ºcoalã absolvitã (respondent)

Revenind la primul exemplu care se referea la variabilele scoala0 şi vensub le vom


reprezenta un nou grafic cu linii după ce vom urma comenzile Graphs→Line.
Procedurile sun asemănătoare cu cele dinainte şi vom obţine următorul grafic(în fapt un
poligon al frecvenţelor!):
Mean Dar venitul dvs. personal în luna tre
7

pr

gi

ºc

tre

lic

ºc

un

un

st

N
R
m

ud

im

oa

oa
eu

iv

iv
ap
na

er

er

ii
ar

la


ºc

ta

(9

po
zi

si

si
oa

pr

po
(1

Id
al

ta

ta

st
of

-4

st

rd

rd
(5

un
12
es

-li
lic
cl

iv
-8

ce
io

cla
as

eu

sc

lu

er
na

al

ng
cla

se
e)

si
ur
ã
(

t
t

ã
)
Ultima ºcoalã absolvitã (respondent)

Un alt tip de graphic este cel numit „box-plot” şi care este foarte util în a depista distribuţia
valorilor seriei dar şi dispunerea valorilor (scorurilor) extreme ale variabilei. Acest tip de
graphic se mai numeşte cutia cu mustăţi şi are următoarea conformaţie:

Mediana
Mustaţi

Lungimea
cutiei Quartila3

Quartila 1

În cazul acestui grafic 50% din date sunt în interiorul cutiei (care are bazele la 25% şi la 75%
din date adică la quartilele 1 şi 3). Mustăţile pot avea o lungime de până la 1,5 lăţimi ale cutiei.
Valorile care cad înafara limitelor (desemnate prin drepte orizontale la capătul „mustăţilor” şi
numite uneori valori adiacente) se numesc valori extreme. Valorile adiacente se obţin scăzând
din Q1 lungimea cutiei înmulţită cu 1,5 şi adunînd la Q3 aceeaşi distanţă. Dacă o valoare
extremă este mai îndepărtată de trei lungimi de cutie atunci este reprezentată printr-o steluţă
marcată şi cu numărul cazului respectiv. Dacă mustăţile sunt egale distribuţia tinde la una
normală. Dacă mustaţă superioară este mai mică distribuşia este alungită spre stânga.
Să reprezentăm grafic variabila babymort din baza de date word95. Vom urma
comenzile Graphs→Boxplot:
În această fereastră vom seta opţiunile Simple şi
Summaries of separate variables. Apoi vom acţiona
butonul Define. În noua fereastră am selectat şi mutat
variabila babymort şi de asemenea am considerat
variabila country prin intermediul căreia se pot eticheta
cazurile speciale (extreme). Din butonul Option putem
alege o variantă referitoare la valorile lipsă.

În cazul graficului obţinut se


observă o singură valoare
extremă: mortalitatea
infantilă cea mai ridicată
este în Afganistan. De altfel
se pot compara reperele
grafice cu principalele valori
statistice obţinute din
Analyze→Descriptive
Statistics→Frequencies:
Statistics

Infant mortality (deaths per 1000 live births)


N 109
200 0
Afghanistan
Mean 42.313
Median 27.700
Std. Deviation 38.0792
Skewness 1.090
100
Std. Error of Skewness .231
Kurtosis .365
Std. Error of Kurtosis .459
Range 164.0
Percentiles 9.250
0
27.700
64.500

-100
N= 109

Infant mortality (de

Obs1: dacă cutia este situată mai jos distribuţia este alungită spre dreapta şi există o
concentrare a valorilor mici în partea stângă.
Obs2: daca linia medianei este exact în mijlocul cutiei atunci distribuţia este normală
O altă analiză grafică importantă se poate face cu ajutorul comenzilor Analyze→Descriptive
Statistics→Explore:
Am
Amtrecut
trecutvariabila
variabilade
deinters
interes
în sectorul Dependent List şi
apoi vom alege anumite
opţiuni din cele două butoane
Statistics şi Plots. Se pot seta
elemente de statistică
descriptivă, intervalul de
încredere pentru medie, lista
cu primele/ultimele valori din
serie, percentilele 5, 10, 25,
50, 75, 90, 95. De asemenea se
pot alege graficele histograma
şi graficul de tip stem-and-
leaf. Acest graphic este expus
mai jos:

Opţiunea Factor levels together ajută la compararea categoriilor variabilei independente iar
opţiunea Dependent together ajută la comparări între mai multe variabile sau între mai multe
situaţii în timp ale aceleeaşi variabile.

Infant mortality (deaths per 1000 live births) Stem-and-Leaf Plot


Frequency Stem & Leaf

28.00 0 . 4455555666666666777778888899
13.00 1 . 0122223467799
16.00 2 . 0001123555577788
8.00 3 . 45567999
6.00 4 . 135679
9.00 5 . 011222347 Acest tip de grafic că şi box plotul a fost
5.00 6 . 03678 propus de către Kohn W. Tukey şi este
7.00 7 . 4556679 asemănător histogramei. În primul rind
1.00 8 . 5
1.00 9 . 4
sunt 28 de ţări care au babymort egal cu
4.00 10 . 1569 4,4,5,5....Pe al doilea rînd sunt valorile 10,
7.00 11 . 0022378 12, 12, 12....Similitudinea cu histograma
2.00 12 . 46 este vizibilă. Dispunerea se face după
1.00 13 . 7 trunchi (stem) cu valorile 0,1,2,3....şi
1.00 Extremes (>=168)
frunzele (leaf) dispuse în partea dreaptă a
Stem width: 10.0 graficului.
Each leaf: 1 case(s)
Un alt grafic deosebit de util în cercetarea statistică este cel denumit Error Bar Chart
şi care e destinat variabilelor numerice. Cu ajutorul acestuia putem reprezenta intervalul de
încredere pe care îl putem estima pentru media dintr-o populaţie. După cum se ştie atunci când
extindem rezultatele de la un eşantion la o populaţie întreagă suntem într-o situaţie de tipul
următor:

Am definit anterior intervalul de


încredere ca fiind tocmai
[ [x − ∆ x ; x + ∆ x ] unde ∆ x este
Media din populatie eroarea standard (adică eroarea dată
de poziţia eşantionului în populaţia
de eşantioane).
Media din eşantion SD
∆x = t unde t=1,96 pentru un
n
nivel de încredere de 95%.
µ x SD şi n-deviaţia standard şi
mărimea eşantionului.
Interval de încredere

Să facem graficul pentru variabila vensub (venitul subiectului) din baza de date
BOP_mai-2003_Gallup. Alegem comenzile Graphs→Error Bar:

Putem observa limitele intervalului de


95% CI Dar venitul dvs. personal în luna trecutã (aprilie

2.4 încredere pentru o probabilitate de 95% (sau un


prag de semnificaţie de 0.05). Spunem că sunt
2.3
5% şanse să ne înşelăm atunci cînd facem
predicţia că media veniturilor din populaţie
este cuprinsă în intervalul respectiv.
2.2

þ Obs: Alte variante de reprezentări grafice


2.1
se pot executa cu opţiunea
Graphs→Interactive din care putem alege
2.0
N= 1871
tipul de grafic necesar.
Dar venitul dvs. per
În final amintim şi de graficul clasic în statistica descriptivă numit şi curba frecvenţelor
cumulate. Acest grafic este posibil în SPSS doar pentru variabile tipul de măsură scale.
Fie o bază de date de exemplu world95.sav şi să presupunem că dorim să facem
graficul respectiv pentru variabila babymort cea care reuneşte cifrele mortalităţii infantile
pentru cele 109 ţări din bază. Vom recurge la şirul de comenzi Graphs→ Interactive→
Histogram… după care a apărut fereastra următoare:

În această fereastră am adus variabila


babymort pe viitoarea axă OX, am
bifat opţiunea Cumulative
histogram, apoi din celelalte ferestre
am ales comenzile
Histogram→Normal Curve şi
Option→Count din indicaţiile
privitoare la modul de definire al axei
OY. Evident că toate aceste comenzi
pot fi salvate şi într-un fişier de tip
sintaxă cu coman da Paste. Duă
toate aceste setări graficul de mai jos.
După cum se ştie, într-un astfel de
grafic apar frecvenţele de la un
moment dat dar cumulate cu valorile
inferioare şi la care se adiţionează
apoi celelalte valori.
100
Dacă trasăm două segmente
de dreaptă paralele cu axele de
coordonate putem trage concluzia că
75
doar un număr de 50 de state au o
mortalitate infantilă mai mică de
Count

50
40‰ (adică 40 de copii cu vârsta de
pînă un an decedaţi la 1000 de
născuţi vii). Oricum şi această cifră
25 este ridicată. Statele dezvoltate din
punct de vedere economic au cifra de
sub 10‰.
0
40.0 80.0 120.0 160.0

Infant mortality (deaths per 1000 live births)


III. Notele (cotele) Z
În acest capiutol vom relua pe scurt câteva precizări din statistica descriptivă şi le vom
aplica apoi în cadrul programului SPSS. Cotele Z ne dau o imagine directă asupra poziţiei pe
care o are un subiect faţă de media colectivităţii respective cât şi faţă de dispersia datelor.
Acest indicator se numeşte măsura standard sau cota Z şi ne arată cu câte deviaţii standard
se abate o valoare de la medie. Nota Z are formula următoare:
x −x x −x
z= i sau îl găsim cu notaţia z= i
SD σ
Pentru a înţelege importanţa acestei mărimi să preluăm un exemplu din A. Novak
[1995]. Astfel, fie cazul unui student care a luat la statistică calificativul 7 iar în grupă media
m =5 şi σ=1. La obiectul psihologie acelaşi student a obţinut nota 9 iar în grupă m = 6 şi σ =2.
Se pune întrebarea la care dintre discipline nota a fost mai bună? Iniţial putem crede că nota a
doua este mai bună. Să calculăm şi cotele Z ale respectivelor calificative:

7−5 9−6
Z1 = =2 Z2 = = 1,5
2 2

Din aceste valori deducem că la prima materie studentul se abate de la media grupei cu
două abateri standard iar la cea de a doua materie se abate de la media grupei cu 1,5 abateri
standard. Înseamnă că el se abate în primul caz cu 2 puncte iar în al doilea cu 3 puncte, de unde
rezultă că la prima materie studentul este mai bine plasat. Deoarece datele provin de la aceeaşi
colectivitate atunci cele două note Z pot fi cumulate: (2+1,5)/2=1,75 care poate da o poziţie în
ansamblu. O aplicaţie importantă a variabilei Z o găsim în diverse probleme care impun totuşi
utilizarea tablei legii normale (afişată în orice carte de statistică).
Pentru a înţelege astfel de aplicaţii să dăm un alt exemplu, după M. Colin et alii [1995]:
într-o universitate rezultatele obţinute la un test se distribuie după o lege normală cu m=75 şi
σ=8. Dacă luăm un student la întâmplare care sunt şansele ca el să aibă un rezultat cuprins între
75 şi 95 ?
Dacă am reprezenta grafic această serie atunci ea ar fi de forma următoare:
m-3σ m-2σ m-σ m m+σ m+2σ m+3σ

51 59 67 75 83 91 99
Fiind o distribuţie normală putem spune că 68,26% din rezultatele la examen se găsesc
între [59; 91] etc. Acest grafic poate fi reprezentat şi în cote Z.
Dacă am reprezenta grafic această serie atunci ea ar fi de forma următoare:

-3 -2 -1 0 1 2 3
Vom calcula cotele Z pentru principalele valori din problemă:
Zm=( 75-75)/8 = 0 Z 1 = (X – 75) / 8 Z2= (95 –75)/ 8= 2,50
Dacă rezumăm pe scurt problema noastră cu enunţul P (75< X < 95) [a se citi
probabilitatea …] atunci în limbajul notelor Z acest enunţ devine P (0< Z < 2,50) .
Căutând în tabelul legii normale [vezi tabelul de pe pagina următoare ; în acest tabel
sunt date doar valorile pozitive, cele negative find simetrice vor fi considerate cu semnul
minus] se găseşte valoarea 0,4938 care reprezintă proporţia din suprafaţa delimitată de către
curba normală, axa OX şi perpendicularele ridicate în punctele 0 şi 2,5. Această valoare se
poate scrie şi 49,38 % şi reprezintă chiar probabilitatea căutată: sunt 49,38 % şanse ca
studentul respectiv să aibă calificativul cuprins între 75 şi 95. Practic s-a făcut următorul
transfer:
făcut următorul transfer:

49,38
49,38

75 95 0 2,5
Obs1 : din tabelul următor atragem atenţia şi asupra valorii corespunzătoare lui z=1.96 care
este de 0,4750 valoare pe care dacă o multiplicăm cu doi rezultă 0.95. Citim că la un nivel de
95% încredere z=1,96. La fel raţionăm şi pentru o altă valoare importanta z=2,58!

Obs2 : în general se consideră că scorurile z trebuie să se înscrie în intervalul [-3,+3]. Dacă z


<-1 sau z.>+1 se consideră că valorile respective sunt mici (respectiv mari) pentru o serie
statistică dată. Dacă z∈ [-1, +1] mărimea respectivă este considerată medie.
Aria de sub curba normală de 0 la x
________________________________________________________________________
X 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
________________________________________________________________________
0.0 0.00000 0.00399 0.00798 0.01197 0.01595 0.01994 0.02392 0.02790 0.03188 0.03586
0.1 0.03983 0.04380 0.04776 0.05172 0.05567 0.05962 0.06356 0.06749 0.07142 0.07535
0.2 0.07926 0.08317 0.08706 0.09095 0.09483 0.09871 0.10257 0.10642 0.11026 0.11409
0.3 0.11791 0.12172 0.12552 0.12930 0.13307 0.13683 0.14058 0.14431 0.14803 0.15173
0.4 0.15542 0.15910 0.16276 0.16640 0.17003 0.17364 0.17724 0.18082 0.18439 0.18793
0.5 0.19146 0.19497 0.19847 0.20194 0.20540 0.20884 0.21226 0.21566 0.21904 0.22240
0.6 0.22575 0.22907 0.23237 0.23565 0.23891 0.24215 0.24537 0.24857 0.25175 0.25490
0.7 0.25804 0.26115 0.26424 0.26730 0.27035 0.27337 0.27637 0.27935 0.28230 0.28524
0.8 0.28814 0.29103 0.29389 0.29673 0.29955 0.30234 0.30511 0.30785 0.31057 0.31327
0.9 0.31594 0.31859 0.32121 0.32381 0.32639 0.32894 0.33147 0.33398 0.33646 0.33891
1.0 0.34134 0.34375 0.34614 0.34849 0.35083 0.35314 0.35543 0.35769 0.35993 0.36214
1.1 0.36433 0.36650 0.36864 0.37076 0.37286 0.37493 0.37698 0.37900 0.38100 0.38298
1.2 0.38493 0.38686 0.38877 0.39065 0.39251 0.39435 0.39617 0.39796 0.39973 0.40147
1.3 0.40320 0.40490 0.40658 0.40824 0.40988 0.41149 0.41308 0.41466 0.41621 0.41774
1.4 0.41924 0.42073 0.42220 0.42364 0.42507 0.42647 0.42785 0.42922 0.43056 0.43189
1.5 0.43319 0.43448 0.43574 0.43699 0.43822 0.43943 0.44062 0.44179 0.44295 0.44408
1.6 0.44520 0.44630 0.44738 0.44845 0.44950 0.45053 0.45154 0.45254 0.45352 0.45449
1.7 0.45543 0.45637 0.45728 0.45818 0.45907 0.45994 0.46080 0.46164 0.46246 0.46327
1.8 0.46407 0.46485 0.46562 0.46638 0.46712 0.46784 0.46856 0.46926 0.46995 0.47062
1.9 0.47128 0.47193 0.47257 0.47320 0.47381 0.47441 0.47500 0.47558 0.47615 0.47670
2.0 0.47725 0.47778 0.47831 0.47882 0.47932 0.47982 0.48030 0.48077 0.48124 0.48169
2.1 0.48214 0.48257 0.48300 0.48341 0.48382 0.48422 0.48461 0.48500 0.48537 0.48574
2.2 0.48610 0.48645 0.48679 0.48713 0.48745 0.48778 0.48809 0.48840 0.48870 0.48899
2.3 0.48928 0.48956 0.48983 0.49010 0.49036 0.49061 0.49086 0.49111 0.49134 0.49158
2.4 0.49180 0.49202 0.49224 0.49245 0.49266 0.49286 0.49305 0.49324 0.49343 0.49361
2.5 0.49379 0.49396 0.49413 0.49430 0.49446 0.49461 0.49477 0.49492 0.49506 0.49520
2.6 0.49534 0.49547 0.49560 0.49573 0.49585 0.49598 0.49609 0.49621 0.49632 0.49643
2.7 0.49653 0.49664 0.49674 0.49683 0.49693 0.49702 0.49711 0.49720 0.49728 0.49736
2.8 0.49744 0.49752 0.49760 0.49767 0.49774 0.49781 0.49788 0.49795 0.49801 0.49807
2.9 0.49813 0.49819 0.49825 0.49831 0.49836 0.49841 0.49846 0.49851 0.49856 0.49861
3.0 0.49865 0.49869 0.49874 0.49878 0.49882 0.49886 0.49889 0.49893 0.49896 0.49900
3.1 0.49903 0.49906 0.49910 0.49913 0.49916 0.49918 0.49921 0.49924 0.49926 0.49929
3.2 0.49931 0.49934 0.49936 0.49938 0.49940 0.49942 0.49944 0.49946 0.49948 0.49950
3.3 0.49952 0.49953 0.49955 0.49957 0.49958 0.49960 0.49961 0.49962 0.49964 0.49965
3.4 0.49966 0.49968 0.49969 0.49970 0.49971 0.49972 0.49973 0.49974 0.49975 0.49976
3.5 0.49977 0.49978 0.49978 0.49979 0.49980 0.49981 0.49981 0.49982 0.49983 0.49983
3.6 0.49984 0.49985 0.49985 0.49986 0.49986 0.49987 0.49987 0.49988 0.49988 0.49989
3.7 0.49989 0.49990 0.49990 0.49990 0.49991 0.49991 0.49992 0.49992 0.49992 0.49992
3.8 0.49993 0.49993 0.49993 0.49994 0.49994 0.49994 0.49994 0.49995 0.49995 0.49995
Ne
3.9propunem
0.49995să0.49995
calculăm cotele0.49996
0.49996 z pentru0.49996
variabila0.49996
salary 0.49996
din baza0.49996
de date0.49997
Employee Data.
0.49997
Pentru aceasta vom urmări comenzile Analyze→ Descriptiv Statistics→Descriptives:
4.0 0.49997 0.49997 0.49997 0.49997 0.49997 0.49997 0.49998 0.49998 0.49998 0.49998
Vom trece în dreapta variabila de
interes şi vom seta opţiunea Save
standardized values as
variables. Din butonul Options
se pot alege diverse valori
generale da statistică descriptivă.
În bază va apare o nouă variabilă:

În cazul variabilei zsalary vom putea să comentăm în ce măsură anumite valori sunt
mici, mari sau medii. De exemplu subiectul nr.1 cu un salar mediu anual de 57.000$ are un
scor z de 1,32 ceea ce semnifică o valoare mare printre valorile seriei. Valoare salariului se
abate 1,32 abateri standard de la media salarială.

Observaţie : în general metodele grafice sunt foarte utile pentru analiza prealabilă a datelor.
Astfel, înainte de a se trece la analiza propriu-zisă a datelor pe care le-am inserat în Data
Editor trebuie să avem mai întâi o imagine generală asupra variabilelor. După cum am văzut în
submeniul Explore putem să obţinem o imagine de ansamblu a variabilelor şi reprezentarea
grafică a acestora. Prin aceste proceduri putem evita greşelile inerente: greşeli de înregistrare,
greşeli date de necunoaşterea distribuţiei variabilei, greşeli generate de cazurile lipsă (există
diverse opţiuni cum ar fi Exclude cases pairwise- când un caz nu are o valoare pentru o
anumită variabilă este exclus din analiză) etc. Informaţii la fel de importante pot fi obţinute şi
din submeniul Descriptive.
IV. Testarea ipotezelor statistice; praguri de semnificaţie

În general majoritatea raţionamentelor umane sunt alcătuite din combinaţii de două sau
mai multe variabile. Este şi cazul ipotezelor statistice care nu sunt altceva decât aserţiuni
privind diverse fenomene naturale sau sociale, aserţiuni pe care la facem în vederea testării lor
ulterioare. O ipoteză statistică este de obicei compusă dintr-un cuplu de două enunţuri:
-H0 (ipoteza de nul) şi
-H1 (ipoteza de lucru).
Primul enunţ H0 descrie, de obicei (dar nu e obligatoriu!) situaţia când o anumită variabilă sau
fenomen nu este prezentă sau nu acţionează (sau că, de exemplu, nu există o diferenţă
semnificativă între două condiţii). Este ca şi cum am spune că un anumit lucru dacă se întâmplă
este doar rodul întâmplării. Ipoteza de nul este tocmai cea care este testată.
Al doilea enunţ H1 descrie situaţia contrară enunţului H0 când o variabilă sau fenomen
acţionează şi are o influenţă semnificativă:
Exemple: H1: sexul respondenţilor influenţează părerea acestora despre impozite.
H0: opinia despre impozite nu este influenţată de sexul respondenţilor.
H1: autoturismul Dacia este mai bun ca unul din import
H0: autoturismul Dacia este la fel de bun ca unul din import.
Din astfel de exemple deducem că în analiza statistică suntem nevoiţi fie să acceptăm H0 fie pe
H1, deoarece ambele sunt disjunctive. Un astfel de raţionament se va face întotdeauna în
termeni de prag de semnificaţie (sau interval de încredere) pentru că în realitate orice
presupoziţie statistică se face cu o anumită marjă de eroare, cu o anumită şansă de a ne înşela.
De exemplu când vorbim de un prag de semnificaţie (notat p) de 0.05 spunem de fapt că sunt
5% şanse să ne înşelăm atunci cînd facem o anumită aserţiune statistică (iar în “oglindă”
spunem că sunt 95% şanse să nu ne înşelăm când facem respectivul raţionament). La fel, când
vorbim de un prag de semnificaţie de 0,01 spunem că sunt 1% şanse să ne înşelăm (sau 99%
şanse să nu ne înşelăm). Evident că în cel de al doilea caz gradul de siguranţă este mai mare.
Şi în cazul testării ipotezelor intervin astfel de precizări. Astfel că vorbim de un prag de
semnificaţie de 0.05 în sensul că “sunt 5% şanse de a ne înşela atunci cînd acceptăm ipoteza de
lucru H1 (sau respingem ipoteza de nul H0)”. În majoritatea cercetărilor este acceptat un prag
maxim de 0.05 sau p ≤ 0.05 dar se întâlnesc şi praguri mai mari decât 0.05 (întotdeauna aceste
praguri trebuie amintite pentru a se clarifica gradul de precizie dorit de cercetător).
Trebuie să precizăm că există posibilitatea să ne înşelăm chiar şi în aceste condiţii.
Adică de exemplu să acceptăm o ipoteză de lucru pentru că toate datele statistice o confirmă
dar, în esenţă, acea ipoteză să fie totuşi falsă. În general se pot comite două feluri de erori:
Eroare de gradul I: respingem ipoteza nulă deşi este adevărată
Eroare de gradul II: ipoteza nulă este acceptată deşi este falsă.
Aceste două tipuri de erori sunt complet diferite: eroarea de gradul I este considerată mai gravă
şi tocmai de aceea se cere să micşorăm pe cât posibil pragul de semnificaţie. Unii cercetători
recomandă aici un prag p ≤ 0.01 cu atât mai mult cu cât influenţa cercetătorului poate fi
importantă. În cel de-al doilea caz gradul de influenţă al cercetătorului este redusă şi se
recomandă un prag p ≤ 0.05. Legat de aceste erori sunt folosite în statistică noţiunile de putere
- sau probabilitatea de a respinge ipoteza nulă când de fapt ea este adevărată ; pentru o analiză
pe larg a acestei problematici a se vedea C.Coman, N. Medianu (2002 ; pp. 144 şi urm).
Ipotezele statistice sunt testate prin teste statistice. De obicei testul statistic desemnează
o comparaţie între o situaţie presupusă şi una rezultată în urma cercetării de teren efective.
Comparaţiile în statistica socială sunt foarte diverse: fie se fac observaţii pe o singură variabilă,
fie se compară valori din două eşantioane, fie se compară valorile dintr-un eşantion cu valorile
unei populaţii mai extinse, fie se analizează diverse situaţii experimentale etc. În general în
testarea ipotezelor se urmăreşte o anumită direcţie, un anumit sens al legăturilor.Din acest
punct de vedere sunt două tipuri de raţionamente: one-tailed (unilateral) şi two-tailed
(bilateral)! One-tailed este utilizat atunci când se cunoaşte dinainte sensul predicţiei statistice
iar varianta two- tailed este preferată atunci când nu se cunoaşte „în avans” sensul predicţiei.
O altă precizare importantă este aceea că sunt două tipuri fundamentale de teste
statistice: parametrice şi non-parametrice. Testele parametrice sunt considerate mai puternice
dar pentru aceasta trebuie să fie îndeplinite mai multe condiţii importante:
- populaţia din care a fost extras eşantionul să aibă o distribuţie normală (distribuţia
normală trebuie să se regăsească şi în eşantion altfel se pot face anumite transformări pentru a
se ajunge la o distribuţie normală)
-regula omogenităţii varianţei (dintre cea din eşantion şi cea din populaţie)
-în majoritatea cazurilor variabilele trebuie să fie măsurate pe scale de interval.
-nu trebuie să existe scoruri extreme (metodele parametrice sunt sensibile în astfel de
situaţii).
Dacă testele parametrice folosesc metode numerice cele ne-parametrice folosesc
poziţiile pe care valorile le au în cadrul variabilelor. Nefiind vulnerabile la valori extreme unii
statisticieni vorbesc de o mai mare stabilitate a acestor teste.
In funcţie de aceste precizări se recomandă folosirea unor teste diverse în funcţie de necesităţi.
Din multele tipuri de clasificări redăm una dintre ele consemnată de Christine P. Dancey şi J.
Reidy (1999) [vezi tabelul următor]. Spaţiul limitat al acestui curs nu permite însă decât
parcurgerea a câtorva proceduri din acest tabel.

Obs: 1.Testele incluse în tabelul respectiv reprezintă modalităţi de analiză a legăturii dintre
variabile. Se disting astfel metode parametrice dar şi neparametrice de studiu a acestor legături.
2. Testarea diferenţei între două condiţii reprezintă o modalitate foarte răspîndită de
analiză. De exemplu putem analiza care este influenţa unei sesiuni de comunicari pentru
studenţii la sociologie. Probabil că cei ce parcurg sesiunea respectivă vor avea cunoştinţe mai
bune. Pentru a testa acest lucru putem dispune de două tehnici principale:
A. Se compară două grupuri diferite de studenţi (alocaţi aleator) unul care parcurge
respectiva sesiune şi unul care nu urmează acea sesiune, apoi se compară rezultatele unei
examinări. Acest tip de analiză se numeşte between participants design (rezultatele vin de la
două grupuri).
B. Se compară un singur grup care trece prin cele două condiţii, odată fără să parcurgă
sesiunea respectivă iar a doua oară după parcurgerea acesteia. Rezultatele unor examinări
succesive vor decide care este influenţa urmării sesiunii. Acest tip de analiză se numeşte
within participant design (rezultatele vin de la acelaşi grup).
In fapt compararea între condiţii înseamnă compararea unor medii şi dacă diferenţa
dintre aceste medii este semnificativă. Testele folosite în aceste cazuri trebuie să răspundă la o
întrebare importantă: este diferenţa dată de erori de eşantionare sau cu adevărat se manifestă
influenţa unei variabile independente cu efecte importante în variaţia variabilei dependente?
Nivel al Tip de statistică descriptivă Tipuri de statistică inferenţială
măsurării
Teste de Teste ale Teste ale diferenţei Teste referitoare la
corelatie/asociere diferentei intre mai mult de două două sau mai multe
două condiţii condiţii var. Independ. Sau
asupra unei var. asupra unei var. var. depend
Independ. independente
Nominal Mode Testul χ 2 pentru
independenţă
Within- Within-
Scala
poate fi NU Mediana participants participants
de /modul TestWilcoxon Friedman
Ordinal
interval? Spearman ( ρ ) ANOVA
Between-
DA participants Between-
DA Mann participants
Whitney U Kruskal-
Test Wallace one
way ANOVA
Within-
Aveţi NU participants
valori Related t-test
extreme? NU Media
Coeficientul lui Between- One way Factorial
Interval/ratio Pearson participants ANOVA ANOVA
Sunt indeplinite Independent t- Multivariate
condiţiile test ANOVA
parametrice?
DA
V. Testarea normalităţii unei distribuţii

Nu de puţine ori asumţia ca un eşantion sau o populaţie să aibă o distribuţie normală


după o variabilă cantitativă este necesară pentru a executa anumite analize statistice. O primă
impresie poate fi dată de histograma seriei dar nu este suficient acest lucru. Un test care poate
susţine această analiză este testul Kolmogorov-Smirnov şi care de fapt compară distribuţia din
eşantion cu o altă distribuţie (normală) care are aceeaşi medie şi abatere standard. Să
presupunem că dorim să verificăm normalitatea variabilei horsepower (puterea motorului) din
baza de date Cars din programul SPSS. Vom urma comenzile Analyze→Descrtiptive
Statistics→Explore:

În rubrica Dependent list


am trecut variabila care
urmează să fie analizată. Din
butonul Statistics putem
selecta principalele valori de
statistică descriptivă iar din
butonul Plots nu trebuie
uitată setarea Normality
plots with tests.

Rezultatul testului este următorul:

Interpretarea testului este următoarea: dacă


pragul de semnificaţie este p<0.05 atunci
Tests of Normality
a
testul este semnificativ în sensul că
Kolmogorov-Smirnov
Statistic df Sig.
distribuţia din eşantion este semnificativ
Horsepower .160 400 .000 diferită de o distribuţie normală. Este şi
a. Lilliefors Significance Correction
aici cazul pt. Sig.=0.000.
Normal Q-Q Plot of Horsepower Această concluzie apare simplu şi din
3
graficul de tip Q-Q plots. În figura
alăturată linia oblică reprezintă valorile
2
teoretice (aşteptate) ale distribuţiei
normale. Linia curbă reprezintă
1
valorile observate ale variabilei
studiate. Cu cât diferenţa faţă de linia
0
dreaptă este mai mare cu atât deviaţia
de la normalitate este mai mare.
Situaţia de normalitate ar însemna
Expected Normal

-1
coincidenţa perfectă dintre cele două
-2
grafice. În concluzie se recomandă în
astfel de cazuri folosirea testelor non-
-3 parametrice.
-100 0 100 200 300

Observed Value

þ Obs: În aplicarea testului de mai sus am ţinut seama şi de mărimea eşantionului. Astfel se
consideră că testul K.-Smirnov este valabil când eşantionul>50 de subiecţi. Dacă eşantionul
este mai mic atunci se aplică testul W al lui Shapiro-Wilks. Programul SPSS calculează oricum
automat ambele teste. Formularea în sensul ipotezelor statistice ar fi următoarea: Ho: “între
distribuţia variabilei şi cea teoretică nu este o diferenţă semnificativă” iar H1: “între cele două
distribuţii există o diferenţă semnificativă”. Dacă p<0.05 atunci respingem ipoteza de nul şi o
admitem pe cea de lucru.
VI. Corelaţia dintre două variabile cantitative

Se pune deseori problema de a analiza legătura dintre două variabile cantitative în


sensul de a vedea în ce măsură valorile respective co-variază (de exemplu valorile mari dintr-o
variabilă corelează cu valorile mari din cealaltă variabilă). Corelaţia măsoară relaţia liniară
dintre variabile şi se măsoară cu coeficientul de corelaţie Pearson (r). Acest coeficient are o
formulă simplă şi care sugerează modul cum este calculat:

r=
∑ (x i − x )( yi − y )
.
nSD x SD y

Din formulă se vede că la numitor avem suma tuturor produselor distanţelor valorilor din cele
două serii de la mediile respective iar la numitor produsul dintre numărul de cazuri (n) şi cele
două abateri standard din cele două serii. Fiind aşadar un test parametric (luând în calcul în
mod direct toate valorile seriilor) calcularea acestui coeficient trebuie să ţină seama de
condiţiile din acest caz [A. Field, 2000; 37]:
1.Asumţia distribuţiei normale [datele trebuie să provină din populaţii normal
distribuite (se poate verifica acest lucru cu testul K.-Smirnov)],
2. Asumţia omogenităţii varianţei [varianţele din cele două variabile trebuie să fie
stabile la orice nivel],
3. Asumţia scalei de măsurare (scala de măsurare trebuie să fie cea de interval)
4. Asumţia independenţei (subiecţii de la care s-au obţinut valorile respective să fie
independenţi unul de altul).
Coeficientul de corelaţie este întotdeauna cuprins în intervalul [-1, +1] înţelegând prin aceasta
toate valorile reale din acest interval. Interpretarea valorilor este următoarea:

1. r tinde sau este foarte aproape de ± 1 atunci corelaţia este puternică


(de acelaşi sens sau de sens contrar)
2. r tinde la 0 atunci corelaţia nu există
3. r tinde la ± 0,5 corelaţia este de intensitate medie.

Se impun aici o serie de observaţii:


1. Relaţia de corelaţie nu trebuie privită ca şi o relaţie cauză- efect, de la o variabilă
independentă la una dependentă, deşi de multe ori se face un astfel de raţionament.
Interpretarea nu priveşte decât faptul că valorile ambelor variabile co-variază într-un anume
sens!
2. In general dacă variabilele sunt independente atunci coeficientul r se anulează. Dar reciproca
nu este adevărată: nu este sigur că dacă r se anulează atunci şi variabilele sunt independente [a
se vedea T. Rotariu, 1999; 173]. Aici se impune o observaţie importantă: când r=0 suntem
siguri doar că nu există o corelaţie liniară a celor două variabile dar poate exista o corelaţie de
alt fel (curbilinie). Când vorbim de corelaţie liniară înţelegem faptul că dacă reprezentăm
grafic corelaţia cu ambele variabile axe de coordonate vom obţine un „nor de puncte” care se
poate alinia după o dreaptă (întotdeauna este recomandat să verificăm şi grafic corelaţia
deoarece ea este valabilă doar ca şi corelaţie liniară). Situaţiile pot fi următoarele:
))
)
)
) ) )

) )
) )
)

r→1 r→ -1 r→0

3. Coeficientul de corelaţie dă două rezultate importante: puterea asocierii dintre variabile şi


sensul acestei asocieri. În general valorile din jurul valorilor ± 1 sugerează o corelaţie foarte
puternică, aproape perfectă. Valorile între ± 0,6 şi ± 0,8 denotă o corelaţie puternică, valorile
din jurul valorilor de ± 0,5 dau o corelaţie de intensitate medie iar cele mărimea ± 0,1 ± 0,4
sugerează corelaţii slabe. Sensul corelaţiilor este dat de semnul acestora: semnul +sugerează că
variabilele cresc sau scad în acelaşi timp iar semnul – sugerează faptul că valorile unei
variabile cresc în acelaşi timp ce valorile celeilalte variabile scad.

Să dă un exemplu clasic din literatura de specialitate: corelaţia dintre variabilele


salbegin şi salary din baza de date Employee Data. Mai întâi vom face analiza asumţiilor
destinate metodelor parametrice. Apoi este recomandată vizualizarea grafică a corelaţiei
urmând comenzile Graphs→Scatter şi vom alege varianta Simple apoi Define:

Cele două variabile vor defini chiar


axele de coordonate. Opţiunea Set
Markers by ajută la analiza corelaţiei
după diferite categorii de subiecţi.
Label Cases by ajută la identificarea
cazurilor după o anumită variabilă (din
care putem ataşa etichete sau numere
de ordine). Graficul este următorul:
140000

120000

Se observă gruparea punctelor din


100000 plan după o dreaptă înclinată la
aproximativ 450 faţă de axa OX.
80000
Putem fi deci siguri privind
60000
linearitatea legăturii iar ca şi
intensitate se prefigurează o
40000 legătură puternică de acelaşi sens.
Current Salary

20000

0
0 20000 40000 60000 80000 100000

Beginning Salary

Acestea fiind spuse putem calcula coeficientul de corelaţie după alegerea comenzilor:
Analyze→Correlate→Bivariate:
Varibilele de interes le-am trecut din
coloana din stânga în dreapta.
Coeficientul de corelaţie Pearson este
setat prin definiţie ceilalţi doi
coeficienţi fiind metode neparametrice
de calcul. Testele de semnificaţie
implicate sunt de două feluri: two-
tailed (este folosit atunci când nu
putem prezice natura legăturii dintre
variabile şi este recomandat pentru mai
multă siguranţă); one-tailed (este
folosit când avem o ipoteză
direcţională sau putem prezice sensul
legăturii). Opţiunea Flag... va asigura
prezentarea datelor legate de pragul de
semnificaţie. Din butonul Option
putem alege elemente de statistică
descriptivă dar şi modalităţi de lucru în
cazul valorilor lipsă:
Exclude cases pairwise- elimină
perechile de rezultate pentru care una
din valori lipseşte. Această opţiune
este mai des întâlnită.
Exclude cases listwise- elimină din
analiză un rând întreg dacă lipseşte
doar una dintre valori. După Continue
obţinem rezultatul următor:
Correlations

Beginning
Salary Current Salary
Beginning Salary Pearson Correlation 1 .880**
Sig. (2-tailed) . .000
N 474 474
Current Salary Pearson Correlation .880** 1
Sig. (2-tailed) .000 .
N 474 474
**. Correlation is significant at the 0.01 level (2-tailed).

În partea dreaptă a tabelului se intersectează cele două variabile. Vedem că corelaţia


dintre Beginning Salary şi ea însăşi este perfecta (r=1). Corelaţia dintre Beginning Salary şi
Current Salary se dovedeşte a fi foarte puternică şi de acelaşi sens (r=0.880). Pragul de
semnificaţie Sig. (2-tailed) este de 0.000 valoare care nu este un zero absolut ci în realitate doar
o valoare foarte mică. Corelaţia cuprinde în studiu un număr de 474 perechi de valori sau 474
cazuri. Pe diagonală observăm în matrice aceleaşi rezultate. Sub tabel este specificat faptul că
corelaţia calculată este semnificativă la un prag de p= 0.01. În primul rand se observă că acest
prag are proprietatea p<0.05 ceea ce ne arată că legătura dintre variabile este semnificativă*. În
termeni de probabilitate putem spune că sunt 1% şanse să ne înşelăm atunci când predicţionăm
legătura dintre cele două variabile (sau mărimea şi sensul corelaţiei). În termenii testării
statistice spunem că dacă H0 este enunţul “variabilele nu sunt corelate” iar H1 este enunţul
“există corelaţie între cele două variabile” atunci sunt 1% şanse să ne înşelăm atunci când
respingem ipoteza de nul.
þ Obs. Se pot obţine şi matrici de corelaţie. De exemplu adăugând o a treia variabilă educ
(nivel educaţional în ani de zile):

Correlations

Beginning Educational
Salary Current Salary Level (years)
Beginning Salary Pearson Correlation 1 .880** .633**
Sig. (2-tailed) . .000 .000
N 474 474 474
Current Salary Pearson Correlation .880** 1 .661**
Sig. (2-tailed) .000 . .000
N 474 474 474
Educational Level (years) Pearson Correlation .633** .661** 1
Sig. (2-tailed) .000 .000 .
N 474 474 474
**. Correlation is significant at the 0.01 level (2-tailed).

*
O analiză deosebit de importantă priveşte limitele de încredere pentru coeficientul de corelaţie (sau a estimării
corelaţiei la nivelul întregii populaţii din care provine eşantionul studiat !). A se vedea pe larg în M. Popa,
Statistică psihologică, Ed. Universităţii Bucureşti, 2004, pp. 100-102
Rezultatele se interpretează două câte două excluzând prima diagonală unde corelaţiile sunt
perfecte! În unele analize nu este prezentată decât partea de deasupra sau de dedesuptul acestei
diagonale!

VI.1 Coeficientul de variaţie

După cum am spus mai înainte corelaţia nu se interpretează ca şi o relaţie cauzală


deoarece nu se poate dovedi statistic care dintre variabile o influenţează pe alta chiar dacă
uneori noi raţionăm în acest sens. Pe de altă parte în evoluţia unei variabile pot interveni şi alte
variabile decât cele considerate în calculul corelaţiei. Imaginea dependenţei dintre două
variabile putem să o avem după ce am analizat varianţa comun împărtăşită de acestea. Dacă am
avea două variabile şi am reprezenta grafic varianţele lor prin două diagrame circulare putem
spune că partea din intersecţia comună este varianţă comun împărtăşită:

70%
15%

15%

Variabila 1 Variabila 2 Varianţă comun împărăşită

Cu cât suprafaţă intersecţiei este mai mare cu atât varianţa comun împărtăşită este mai mare. In
cazul nostru dacă am nota suprafaţă intersecţiei cu 100% putem deduce că aproximativ 70%
este varianţă comună restul de 30% nefiind comună. Varianţa comună ne dă o informaţie
despre dependenţa dintre variabile: putem spune că 70% din varianţa unei variabile depinde de
varianţa celeilalte (altfel spus cât la sută din variaţia unei variabile se explică prin variaţia
celeilalte) iar 15% nu este varianţă împărtăşită sau este datorată influenţei altor variabile. În
general varianţa comună este calculată prin ridicarea la pătrat a coeficientului de corelaţie dar
se interpretează procentual. Se obţin astfel valorile următoare [adaptat după Ch. P. Dancey şi J.
Reidy (1999)]:
Coeficientul de Pătratul coeficientului Procentul varianţei
corelaţie r2 comun împărtăşite Se observă că de exemplu o
r corelaţie care este foarte
0.0 0.00 0% puternică de 0,8 desemnează
0.1 0.01 1% doar 64% din varianţă
0.2 0.04 4% comună. De asemenea se
0.3 0.09 5% observă că o corelaţie de 0.8
0.4 0.16 16% este în realitate de patru ori
0.5 0.25 25% mai puternică decât o
0.6 0.36 36% corelaţie de 0.4 (varianţa
0.7 0.49 49% comună creşte de la 16% la
0.8 0.64 64% 64%). Aceste interpretări nu
0.9 0.81 81% trebuie însă văzute ca
1.0 1.00 100% relaţii de tip cauză-efect!
VI.2 Corelaţie parţială

Din consideraţiile de până acum se deduce faptul că atunci când studiem corelaţia
dintre două variabile poate exista şi influenţa altor variabile care vor explica evoluţia, variaţia
unei variabile. De exemplu o bună parte din mărimea salariului actual se poate explica prin
mărimea salariului de debut dar pot exista şi alte variabile care să influenţeze remuneraţia:
nivel de motivaţie, performanţa în muncă, numărul de inovaţii aduse procesului muncii etc. Se
pune însă şi problema relaţiilor false dintre două variabile când o corelaţie puternică dintre
două variabile să depindă în primul rând de evoluţia unei a treia variabile. De exemplu P.
Lazarsfeld amintea de legătura care se făcea cândva între numărul mare de berze apărute
undeva în nordul Franţei şi numărul de naşteri în creştere. Cu alte cuvinte se putea obţine o
corelaţie puternică între cele două variabile, ceea ce ar fi explicat mitul berzelor aducătoare de
copii! Numai că relaţia dintre variabile controlată de o a treia (denumită mediu) a arătat că
dacă rata natalităţii se păstra relativ ridicată în mediul rural, ea scădea semnificativ în mediul
urban. Un alt exemplu, cunoscut în literatura de specialitate se referea la corelaţia dintre
apariţia unui număr crescut de furnici în căutare de hrană şi numărul turiştilor care au venit la
mare pe plajă. Corelaţia dintre fenomene se dovedeşte falsă din moment ce ele sunt controlate
de o a treia variabilă căldura care va explica în final co-evoluţia primelor două.
Vom calcula o corelaţie parţială plecând de la baza de date World95 [pe larg şi în
SPSS Base 9.0 Application guide]. Vom analiza mai întâi variabilele urban (People living in
cities %) şi birth_rt (Birth rate per 1000 people). Pentru început vom calcula corelaţia simplă
între cele două variabile:
Correlations

People living Birth rate per


in cities (%) 1000 people
People living in cities (%) Pearson Correlation 1 -.629**
Sig. (2-tailed) . .000
N 108 108
Birth rate per 1000 people Pearson Correlation -.629** 1
Sig. (2-tailed) .000 .
N 108 109
**. Correlation is significant at the 0.01 level (2-tailed).

Rezultatul ne arată o corelaţie puternică de sens contrar (r = - 0.629) la un prag de


semnificaţie de 0.01. Ceea ce însemnă că cifrele înalte ale urbanizării sunt însoţite de cifre
scăzute ale ratei natalităţii. Se pune problema dacă această corelaţie rămâne validă dacă o
controlăm cu o a treia variabilă. Am ales pentru control variabila log_gdp (logaritm zecimal
din produsul intern brut/locuitor). Această variabilă a fost obţinută prin logaritmare din
variabila gdp_cap dar sensul acesteia este acelaşi: gradul de prosperitate al unei ţări oarecare.
Această operaţie a fost necesară pentru a normaliza distribuţia variabilei şi astfel pentru a putea
intra în calculele de tip parametric!
Pentru a genera o corelaţie parţială vom urma comenzile următoare: Analyze→
Correlate→Partial după care a va apare fereastra următoare:

În această fereastră am trecut în


dreapta variabilele de studiat iar
în rubrica Controlling for am
trecut variabila de control. Din
butonul Option pot fi selectate şi
alte elemente de statistică
descriptivă şi chiar matricea
corelaţiilor dintre toate cel trei
variabile. Rezultatul corelaţiei
parţiale este vizibil în
următoarea situaţia de mai jos.
Se observă că corelaţia dintre
variabilele urban şi birth_rt
scade semnificativ la -0.11
aproape de zero ceea ce face ca
relaţia dintre variabile să se
anuleze. Dacă se întâmplă acest
lucru spunem că influenţa
variabilei de control este
semnificativă şi că fosta
corelaţie nu se mai păstrează.
Este ca şi cum am spune că rata
natalităţii se va menţine ridicată
în zonele cu o populaţie urbană
mai puţin prosperă. Dacă
coeficientul de corelaţie rămânea
aproximativ la fel atunci se
considera că influenţa variabilei
de control este neglijabilă.

Obs: situaţia de până acum descrie corelaţia parţială de prim ordin. Se pot face însă şi corelaţii
parţiale de al doilea ordin atunci când introducem două variabile de control. Pot urma chiar mai
multe variabile de control.

VI.3 Corelaţia ca metodă neparametrică

După cum am observat corelaţia se leagă de variabile exprimate cantitativ (prin


numere). Aceste variabile pentru a putea fi tratate prin metode parametrice trebuie să
îndeplinească o serie de condiţii (asumţii). Dacă aceste condiţii nu sunt îndeplinite se
recomandă folosirea metodelor neparametrice deoarece în acest caz se va lucra cu poziţiile
valorilor respective şi nu cu valorile în sine. Apelăm la astfel de tehnici atunci cînd, de
exemplu, variabilele de interes nu provin dintr-o populaţie normal distribuită sau când anumite
valori extreme (outliers) pot vicia rezultatele statistice. Practic se produce o trasnsformare a
unor date numerice oarecare într-o variabilă ordinală dar în care distanţele dintre valori sunt
egale. De exemplu dacă într-o serie avem 5 subiecţi cu salariile de 1,5; 2,3; 4,8; 3,9 şi 25,4
milioane de lei, având în vedere distribuţia seriei putem să le dăm poziţii acestora după salariul
respectiv: 5, 4, 2,3, 1. Aceste valori nu sunt cantitative dar generează o ordine exact ca şi pe o
scară de interval cu intervale egale.
Pentru exemplificare să alegem variabilele age şi educ din baza de date GSS93 subset.

Vom observa că cele două variabile sunt definite ca ordinale şi vor împărţi populaţia în mai
multe categorii. De exemplu când un subiect primeşte eticheta 10 pentru variabila educ asta
inseamnă că el intră în clasa celor cu 10 ani de studii. La fel se procedează şi în variabila age.
În acest caz este mai recomandat coeficientul Spearman ( ρ ) care are aceleaşi valori ca şi
coeficientul Pearson. După aceleaşi etape şi după setarea coeficientului Spearman obţinem
rezultatul următor:

Correlations

Highest Year
Age of of School
Respondent Completed
Spearman's rho Age of RespondentCorrelation Coefficient 1.000 -.203**
Sig. (2-tailed) . .000
N 1495 1491
Highest Year of Correlation Coefficient -.203** 1.000
School Completed Sig. (2-tailed) .000 .
N 1491 1496
**. Correlation is significant at the 0.01 level (2-tailed).

Se observă că corelaţia este ρ = -0.203 şi este semnificativă (p=0.01). Corelaţia este slabă şi de
sens contrar.
În astfel de cazuri se recomandă chiar folosirea unui al treilea coeficient Kendall (τ ).
El este util mai ales când există foarte multe valori care că aibă acelaşi rang. În cazul nostru de
exemplu 55 de subiecţi au poziţia 10 (ani de studiu) în timp ce poziţia 12 (12 ani de studiu)
este destinată la 445 de subiecţi dintr-un eşantion de 1500. Se poate deci calcula şi acest
coeficient:
Correlations

Highest Year
Age of of School
Respondent Completed
Kendall's tau_b Age of RespondentCorrelation Coefficient 1.000 -.142**
Sig. (2-tailed) . .000
N 1495 1491
Highest Year of Correlation Coefficient -.142** 1.000
School Completed Sig. (2-tailed) .000 .
N 1491 1496
**. Correlation is significant at the 0.01 level (2-tailed).

Se observă că corelaţia este τ = -0.142 şi este semnificativă (p=0.01). Corelaţia este slabă de
sens contrar. Având în vedere condiţiile de aplicare se poate spune că acest coeficient este mai
fidel în a reflecta corelaţia dintre variabile. Este deci important de a analiza atent variabilele
pentru a aplica mai apoi testarea corelaţiei.

VII. Regresia

După cum am văzut analiza corelaţiei dintre variabile dispune şi de metode grafice. Se
pleacă de la ideea că, de exemplu un subiect statistic, din moment ce are valoarea xi pentru
variabila X şi valoarea yi pentru variabila Y, atunci acestea se pot reprezenta în plan, într-un
sistem de coordonate, rezultând astfel un nor de puncte. S-a pus apoi problema de a se găsi
ecuaţia unei drepte sau a unei curbe care să aproximeze cât mai bine acest nor sau să treacă cât
mai aproape de acest nor. Grafic se consideră că axa OX este a variabilei independente iar axa
OY a celei dependente. Dacă luăm un exemplu de lucru din programul SPSS atunci am văzut
că există posibilitatea vizualizării dreptei de « corelaţie » mai precis a dreptei de regresie. Fie
baza de date World95 şi să calculăm corelaţia dintre variabilele lifeexpf şi lifeexpm. Se obţine
foarte uşor un coeficient de corelaţie r = 0,982 ceea ce denotă o corelaţie foarte puternică şi de
acelaşi sens pentru p=0.01. Pentru reprezentarea grafică putem apela la comenzile deja
cunoscute Graphs→ Scatter→ Simple→ Define etc. După ce am obţinut graficul se poate
intra în Chart→ Options după care apare fereastra următoare în care este setată opţiunea Fit
Line Total :

90

80
Average female life expectancy

70

60

50

40
40 50 60 70 80

Average male life expectancy

După cum se observă dreapta din imagine traversează norul de puncte aproximând
destul de bine întreaga mulţime a punctelor respective fiind o imagine a relaţionării
(dependenţei) dintre variabile.
Metoda folosită pentru a analiza dependenţa dintre variabile în acest mod poartă
denumirea de regresie iar curba (dreapta) respectivă se numeşte curbă de regresie. În funcţie
de numărul factorilor care influenţează variabila dependentă se disting: regresia simplă
(unifactorială) şi regresia multiplă (multifactorială). În cadrul acestui capitol ne vom mărgini
doar la regresia unifactorială. Iată două exemple de legături exprimate grafic:
yi*

yi

xi

Din aceste grafice se observă că o dreaptă sau o curbă poate aproxima destul de bine un nor de
puncte şi bineînţeles măsura în care cele două variabile sunt corelate. De asemenea trebuie
precizat că pentru fiecare xi din seria statistică corespunde un yi, cel real dar şi un yi* adică
valoarea care corespunde pe dreapta sau curba de regresie. Scopul măsurărilor în cazul
regresiei este acela de a găsi ecuaţia dreptei (curbei) pentru care suma distanţelor yi –yi* este
minimă ( se poate demonstra de fapt că acea dreaptă sau curbă este unică).

VII.1. Dreapta de regresie

După cum am spus, ne vom ocupa aici doar de regresia simplă liniară urmând ca
lectorii interesaţi să parcurgă în continuare în volumele de specialitate regresia multiliniară cât
şi regresia non-liniară (graficul nu este o dreaptă). Amănunte despre aceste teme se pot găsi în
capitolele 8 şi 9 din T. Rotariu [1999].
După cum am spus, principiul aflării ecuaţiei dreptei de regresie pleacă de la
minimizarea unei expresii de tipul R = Σ ( yi – yi*)2, această expresie reprezentând suma
tuturor diferenţelor dintre valorile reale ale seriei şi cele aşteptate (de pe dreapta de regresie),
ridicarea la pătrat făcându-se pentru a nu apare în plus problema semnului acestor diferenţe. O
altă problemă este aceea a determinării ecuaţiei unei drepte de tipul y* = a + bx , determinare
care înseamnă în fapt calcularea celor doi parametri a şi b. În acest moment putem înlocui în
prima relaţie expresia lui y*. Va rezulta relaţia:

R = Σ ( yi – a – bxi )2

S-a obţinut practic o ecuaţie cu două necunoscute al cărei minim înseamnă anularea
celor două derivate parţiale după a şi b. Se obţin astfel două ecuaţii care formează un sistem:

na + b Σ x = Σ y
a Σ x +b Σ x2 = Σ xy
Evident că determinând a şi b ecuaţia dreptei respective este complet determinată: y* =
a + bx, formulă în care coeficientul a (pozitiv sau negativ) reprezintă valoarea ecuaţiei când
x=0 sau punctul prin care este intersectată axa OY. Coeficientul b (coeficient de regresie)
semnificã cum se modifică în medie variabila dependentă în cazul în care variabila
independentã variazã cu o unitate, evident admiţând că între cele două variabile există o relaţie
de dependenţă. Dacă coeficientul b > 0 sau b< 0 corelaţia este fie directă fie inversă (când
valorile unei variabile cresc valorile celeilalte descresc) iar când b =0 variabilele sunt
independente între ele. Aceste cazuri se pot reprezenta grafic foarte simplu ca şi în cazul
corelaţiei:

b> 0 b<0

Exemplu:
X Y x2 xy
1 3,8 1 3,8
2 4,6 4 8
3 5,7 9 27
4 6,9 16 64
5 8,0 25 40
6 9,0 36 216
21 38 91 396,8

În tabelul de mai sus observăm că am calculat mărimile care apar chiar în sistemul de ecuaţii
stabilit anterior. Le înlocuim şi obţinem:
a + b 21 = 38
a 21 + b 91 = 396,8 de unde a= 61,9 şi b = -1,14
Ecuaţia de regresie este y = 61,9- 1,14x
Se pune problema în ce măsură ajustarea dată de această ecuaţie este fidelă pentru că
dacă înlocuim valorile lui x în această ecuaţie obţinem cu totul alte valori care constituie
practic o serie ajustată, teoretică:

x = 1 ⇒ y = 60,76 x = 3 ⇒ y = 58,48 x = 5 ⇒ y = 56,2


x = 2 ⇒ y = 59,62 x = 4 ⇒ y = 57,34 x=6 ⇒ y = 55,06
Se poate verifica fidelitatea ajustării prin calcularea coeficientului de variaţie a ajustării
care se exprimă în procente şi nu trebuie să depăşească 5% pentru ca ajustarea să fie optimă.

Sy 1
• ∑ ( y − y* )
2
cv = • 100 Sy =
y n

Y y* y – y* (y – y *) 2
3,8 60,76 -56,96 3244.4
4,6 59,62 -55.02 3027.2
5,7 58,48 -52.78 5812.9
6,9 57,34 -50.44 2544.1
8,0 56,20 -48.20 2323.2
9,0 55,06 -46.06 2121.5
Media=6,3

Cu ajutorul acestui tabel putem calcula Sy şi Cv pentru a vedea valoarea acestuia şi a-l
compara cu pragul de 5% !
þ Obs1. În calculele de mai sus Sy reprezintă abarea medie a valorilor măsurate faţă de
valorile indicate prin dreapta de regresie. Însă statisticienii s-au întrebat dacă se poate face o
legătură cu abaterea medie pătratică în general a seriei respective! După cum vom observa şi în
T. Rotariu [1991; 183-184] s-a ajuns la o formulă foarte simplă care face legătura de care
vorbeam :
σ 2 = S y2 + r 2σ y2

În această formulă abaterea medie pătratică generală care trebuie explicată este egală cu
abaterea medie a valorilor seriei faţă de cele ale dreptei de regresie (aceasta fiind varianţa
neexplicată) la care se adaugă un termen ce sintetizează varianţa punctelor de pe dreapta de
regresie în jurul mediei şi care reprezintă partea din varianţa variabilei dependente explicată
de variabila independentă). Reprezentarea grafică a acestor mărimi simplifică modul lor de
înţelegere (a se vedea în E. Jaba, 2004; 237):
Se observă şi notaţiile aferente : VT= varianţa totală, VE=varianţa explicată,
VR=varianţa reziduală. Suma ultimelor două apare clar în cea de a patra figură. Se observă că
pentru un punct oarecare al seriei (yi) există un corespondent în variabila independentă (xi).
Punctul respectiv din plan (xi , yi ) are o abatere totală compusă din abaterea faţă de medie şi
abaterea faţă de dreapta de regresie. Extras din formula de mai sus coeficientul r2 (notat
deseori şi R2) se mai numeşte coeficient de determinaţie, ia valori între 0 şi +1 iar în termeni
procentuali el şi denotă cât la sută din varianţa variabilei dependente se explică prin varianţa
variabilei independente. Restul până la 100% este reprezentat de varianţa neexplicată.

þ Obs.2 : în cazul acestei ajustări se observă că b< 0 deci există o corelaţie inversã între
variabile.
þ Obs. 3 : numeroşi autori atrag atenţia asupra faptului că studiul corelaţiei şi regresiei trebuie
să fie foarte judicios interpretat deoarece două variabile pot fi corelate dar nu este obligatoriu
să avem imediat o semnificaţie explicativă sau cauzală. Există deci şi ceea ce s-a numit
corelaţie aparentă atunci cînd de exemplu o variabilă se modifică de fapt sub influenţa unei alte
variabile necunoscute (variabilă test). Numai analiza de regresie poate sugera o eventuală
relaţie de cauzalitate.
þ Obs. 4 : Calcularea coeficienţilor de regresie de mai sus se face întotdeauna cu o anumită
probabilitate deoarece se pleacă îndeobşte de la eşantioane. Putem spune, deci, că aceste valori
sunt estimări punctuale ale unui model general de regresie de tipul: Y = α + βX + ε , formulă
în care ά şi β au aceleaşi semnificaţii ca şi coeficienţii a şi b iar ε nu reprezintă altceva decât o
variabilă aleatoare de eroare sau reziduu (explicat prin influenţa altor variabile decât cele
introduse în model). Generalizarea trebuie să ţină cont de faptul că ά şi β se găsesc în
următoarele intervale de încredere :
α ∈ (a − t p SDa ; a + t p SDa ) ; β ∈ (b − t p SDb ; b + t p SDb ) .
Limitele acestor intervale pleacă de la valorile a şi b la care se adaugă sau se scad
produsul dintre valorile tp (care sunt de fapt valorile din distribuţia teoretică t-Student pentru un
prag 2p de semnificaţie şi un număr n-2 de grade de libertate) şi SDa,b erori standard ale
coeficienţilor a şi b. La rândul lui şi coeficientul de corelaţie r poate fi de ajutor pentru a estima
un coeficient general de corelaţie.
Prin astfel de calcule se caută un interval de încredere pentru β şi se urmăreşte dacă
originea este inclusă în interval (în cazul în care β=0 se ştie că variabilele sunt independente) ;
dacă intervalul nu conţine şi originea atunci se trage concluzia că pentru un anumit prag de
semnificaţie variabila dependentă este semnificativ influenţată de variabila independentă.
þ Obs. 5 Distanţele de la punctele din plan la dreapta de regresie (de fapt segmentele care
intersectează dreapta de regresie şi sunt perpendiculare pe axa OX) se mai numesc reziduuri
şi reprezintă ceea ce nu este explicat în model prin variabilele alese. Se cere imperios ca aceste
reziduuri să fie analizate grafic cu toată atenţia.

***

Pentru a calcula elementele dreptei de regresie prin intermediul programului SPSS vom
recurge la comenzile Analize→Regression→Linear după care vom considera două variabile
consacrate în manualele de profil şi anume cele numite salary şi salbegin din baza de date
Employee Data. După parcurgerea comenzilor Statistics→Regression→Linear se obţine
fereastra următoare :

Se observă în această fereastră cele două variabile importante ale analizei specificate
fiecare ca fiind dependentă sau independentă. Metoda de analiză este Enter (o variantă
generală de studiu a regresiei) după care putem să alegem şi alte instrumente de lucru din
ultimile butoane orizontale. Există şi opţiunea de a restricţiona cercetarea de exemplu doar
pentru subiecţii care au cel puţin 12 ani de şcoală (se trece variabila Educational Level în
rubrica Selection Variable şi apoi se pune condiţia respectivă din butonul Rule).

Prin apăsarea pe butonul Statistics obţinem fereastra următoare:


Cele mai uzuale setări în această
fereastră sunt: Estimates (se estimează
coeficienţii din regresie ai variabilei
independente), Confidence interval (la
un prag de semnificaţie de 0.05 se
estimează intervalele între care
coeficienţii de regresie sunt valizi),
Model Fit (estimează coeficienţii R, R2
etc. şi spune dacă modelul propus este
viabil ; dacă modelul nu este viabil
orice altă analiză nu este acceptabilă)
iar Descriptives (calculează Mean,
Standard Deviation etc. pentru
variabile).
Dacă se aleg setările de mai înainte se poate acţiona butonul Continue apoi vom alege butonul
Plots rezultând fereastra următoare :
Se observă că am ales în această
fereastră o serie de reprezentări grafice
utile: zpred şi zresid, două opţiuni
pentru valorile normalizate predictive
şi pentru valorile reziduale normalizate
şi care pot da informaţii preţioase
privind eficienţa modelului (se cere de
exemplu ca distribuţia reziduurilor să
fie normală etc.). Nu vom insista însă
în acest volum pe semnificaţia acestor
grafice.

Cât priveşte comanda Regression →


Save va apare fereastra din imagine
în care dacă sunt setate variantele
Unstandardized Predicted Values
(se referă la valorile predicţionate de
către modelul statistic pentru fiecare
caz în parte) şi Unstandardized
Reziduals (se afişează valoarea
efectivă din cadrul variabilei
dependente din care s-a scăzut
valoare predicţionată de către
modelul de regresie) vom observa că
în baza de date apar noi variabile cu
semnificaţiile specificate mai înainte.
Prediction interval se referă la
limitele intervalelor în care sunt
predicţionate media şi valorile
individuale la un interval de încredere
de 95%.
Iată cum vor arăta noile variabile din baza de date aici numite pre_1 şi res_1 :

Rezultatele din Output se prezintă ca în imaginile următoare şi plecând de la acestea să


adoptăm apoi interpretările asupra modelului.
Variables Entered/Removedb Se vede din prima configuraţie care sunt
variabilele intrate în model: beginning şi
Variables Variables current salary.
Model Entered Removed Method
Urmează să citim valoarea lui Sig. din
1 Beginning
a . Enter tabelul ANOVA de mai jos. Din moment
Salary
ce valoarea este mai mică de 0.05 atunci
a. All requested variables entered.
modelul propus este bun în sensul că putem
b. Dependent Variable: Current Salary presupune doar cu o şansă de a ne înşela de
maximul 0.05 că variabila dependentă este
în mod semnificativ explicată de către
variabila independentă.

Model Summaryb În exemplul nostru p=0.000 ceea ce


ne asigură de potrivirea (goodness of
Adjusted Std. Error of
Model R R Square R Square the Estimate fit) a modelului. În tabelul alăturat
1 .880a .775 .774 $8,115.356 Model Summary revedem precizat
a. Predictors: (Constant), Beginning Salary tipul de variabile care intră în model .
b. Dependent Variable: Current Salary

De asemenea vom depista valorile R Square= 0.775 şi Adjusted R Square= 0.774 (care ne
arată proporţia din varianţa variabilei dependente explicată de varianţa din variabila
independentă) precum şi dispersia în cadrul variabilei dependente (estimată).

ANOVA b

Sum of
Model Squares df Mean Square F Sig.
1 Regression 1.07E+11 1 1.068E+11 1622.118 .000a
Residual 3.11E+10 472 65858997.22
Total 1.38E+11 473
a. Predictors: (Constant), Beginning Salary
b. Dependent Variable: Current Salary

Coefficients a

Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 1928.206 888.680 2.170 .031
Beginning Salary 1.909 .047 .880 40.276 .000
a. Dependent Variable: Current Salary

În tabelul Coefficients vom putea identifica coloana B unde este specificată influenţa
variabilei independente cu un anumit grad de încredere a acestei influenţe (a se vedea coloana
Sig.). Ca de obicei valoarea respectivă trebuie să fie mai mică de 0.05 (unii analişti oferă totuşi
o marjă de până la 0.1 prag peste care nu se poate admite estimarea respectivă).
Valoarea de 1.909 este de fapt coeficientul de regresie în timp ce valoarea de 0.880
(Standardized coefficient) reprezintă coeficientul de corelaţie Pearson. Valorile din coloana B
sunt de ajutor pentru a scrie ecuaţia de regresie :

Current sallary = 1928.2+1.9* beginning salary

În acest moment putem trage următoarea concluzie: modelul propus urmăreşte predicţia
salariului actual în funcţie de salariul de început. Rezultatul obţinut este semnificativ statistic
deoarece F=1622 la un prag de semnificaţie p< 0.001. Ecuaţia relaţiei dintre variabile este
sallary = 1928.2+1.9* salbegin. Se mai observă că Adjusted R Square= 0.774 ceea ce justifică
faptul că o mare parte a varianţei variabilei dependente este explicată de varianţa variabilei
dependente.

þ Obs6. Atragem atenţia că restul varianţei variabilei dependente este datorat altor variabile.
De asemenea precizăm că valoarea de 1.9 reprezintă sporul valoric în variabila dependentă
dacă variabila independentă ar creşte cu o unitate. Din modelul prezentat deducem că salariul
iniţial este un bun predictor al salariului actual însă nu este singurul. Putem deduce că şi alte
variabile precum nivel de interes, număr de inovaţii etc. pot justifica şi ele creşterea salarială.
Cu toate acestea ponderea cea mai mare o are salariul de început.

þ Obs7. Revenind la o imagine anterioară în care am precizat noile variabile care apar în bază
acum putem preciza că variabila pre_1 este valoarea prezisă prin intermediul ecuaţiei de
regresie în timp ce variabila res_1 nu conţine decât valorile diferenţelor dintre cele ale
variabilei salary şi pre_1 (sau reziduurile) :

þ Obs. 7. Principiile de lucru enunţate pînă acum se păstrează şi în cazul regresiei multiple
atunci când variabilele independente sunt mai multe. Vom dezvolta şi această problematică
într-un viitor volum. Alte precizări pe această temă se găsesc şi în bibliografia indicată în acest
volum.
VIII. Asocierea variabilelor calitative (nominale)

Dacă pentru variabilele cantitative vorbim de corelaţie atunci pentru variabile


categoriale (calitative) vorbim de asociere. Exemple de astfel de variabie sunt foarte frecvente
în analizele sociale: sexul respondenţilor, religia respondenţilor, statut marital, aprecierea
despre şeful direct (1. foarte bună, 2. bună, 3.proastă, 4. foarte proastă, 5. ns/nr), etc. În toate
aceste variabile subiecţii sunt împărţiţi în mai multe categorii după o caracteristică sau răspuns
dat cu precizarea că fiecare subiect va intra într-o singură categorie. Se pune deci problema de
a vedea în ce măsură două variabile de acest fel sunt asociate. De exemplu dacă sexul
respondenţilor influenţează opinia despre şeful direct. Datele obţinute în urma anchetelor sau
cercetărilor se introduc în ceea ce se numeşte tabel de contingenţă asemănător cu o matrice în
care pe linie intră categoriile unei variabile iar pe coloană categoriile celeilalte variabile. În
aceste condiţii fiecare celulă este la intersecţia a două variante de răspuns din cele două
variabile. În general se disting mai multe căi de a studia asocierea:
-cînd ne referim doar la o singură variabilă
-cînd ne referim la două variabile dihotomice
-când ne referim la asocierea dintre variabile cu mai mult de două categorii.
Ne propunem în continuare să ne ocupăm de problematica asocierii dar numai pentru
variabile categoriale nominale cei interesaţi putând urmări tematica pentru variabile ordinale şi
din bibliografia anexată cursului.
Când ne referim doar la o singură variabilă analizăm practic o grupare de subiecţi după
diverse valori nominale sau ordinale ale unei variabile. Ideea este de a compara frecvenţele
observate cu o serie de valori impuse de cercetător şi care sunt considerate valori teoretice. Să
analizăm un exemplu din baza de date GSS 93 subset. Una din variabile este opera şi
reprezintă răspunsurile subiecţilor privitoare la acest gen muzical. Se pune întrebarea dacă
respondenţii au o părere formată despre acest gen muzical. Se va apela la comenzile
Analyze→Nonparametric Tests→ Chi-Square Test:

După ce am trecut variabila


de interes în dreapta putem
alege variante privind
valorile teoretice. Astfel
vom alege opţiunea All
categories equal care ar fi
situaţia teoretică în care
toate variantele de răspuns
sunt egale cantitativ. Pot fi
alese şi alte cofiguraţii
teoretice prin opţiunea
Values→Add sau date de
anumute ranguri (Use
specified ranges).

Facem precizarea că situaţia teoretică descrie în fapt situaţia de independenţă cînd toate
variantele de răspuns ar fi indicate de acelaşi număr de subiecţi. Faptul că frecvenţele
observate (cele din teren) nu coincid cu cele teoretice ne poate da o sugestie privind preferinţa
pentru acest gen muzical. Rezultatele sunt următoarele:

Se observă variaţiile scorurilor


Opera
obţinute faţă de situaţia teoretică:
Observed N Expected N Residual cei ce declară „Like Very Much”
Like Very Much 66 282.0 -216.0 sunt cei mai puţini iar cei mai
Like It 239 282.0 -43.0 mulţi declară contrariul ( „Dislike
Mixed Feelings 332 282.0 50.0 Very Much”). Frecvenţele
Dislike It 480 282.0 198.0 teoretice se distribuie în mod egal
Dislike Very Much 293 282.0 11.0 prin împărţirea celor 1410 de
Total 1410 variante de răspuns la 5 posibile
răspunsuri în mod egal. În partea
a doua se observă că pragul de
Test Statistics semnificaţie este foarte mic
Opera
(Asymp. Sig. =0.000) ceea ce
Chi-Square a 320.319 denotă că valoarea testului este
df 4 semnificativă deci respondenţii au
Asymp. Sig. .000 o părere formată despre muzica
a. 0 cells (.0%) have expected frequencies less than de operă. Din păcate cei mai
5. The minimum expected cell frequency is 282.0. mulţi resping acest gen muzical.

Cazul a două variabile dihotomice (ambele cu câte două valori) este tratat pe larg în T. Rotariu
(1999; 121-133) şi de aceea vom face doar câteva precizări sumare. Să construim un tabel de
contingenţă plecând de la variabilele a1 (Credeţi că în ţara noastră lucrurile merg într-o direcţie
bună sau într-o direcţie greşită?) şi sex0 (sexul respondenţilor) din baza de date BOP_mai-
2003_Gallup. sav. Tabelul respectiv se obţine după comenzile Analyze→ Descriptive
Statistics→Crosstabs după ce în prealabil am considerat valorile care nu sunt principalele
două variante de răspuns ca fiind valori lipsă:
După ce trecem cele două variabile în
dreapta ca definind liniile (rows) şi
colooanele (columns) vom apela la
butonul Cells pentru o serie de opţiuni
suplimentare:
Se observă că am selectat apoi opţiunile Observed, Expected precum şi procentajele pe linii
(Percentages Rows). Se mai pot alege opţiuni privind reziduurile care nu sunt altceva decât
diferenţele între frecvenţele observate şi cel aşteptate. După Continue→OK tabelul este
următorul:

Credeþi cã în þara noastrã lucrurile merg într-o direcþie bunã sau într-o direcþie greºitã? * Genul
(respondent) Crosstabulation

Genul (respondent)
masculin feminin Total
Credeþi cã în þara direcþia este bunã Count 383 367 750
noastrã lucrurile merg Expected Count 358.9 391.1 750.0
într-o direcþie bunã sau % within Credeþi cã în
într-o direcþie greºitã? 51.1% 48.9% 100.0%
þara noastrã...
direcþia este greºitã Count 511 607 1118
Expected Count 535.1 582.9 1118.0
% within Credeþi cã în
45.7% 54.3% 100.0%
þara noastrã...
Total Count 894 974 1868
Expected Count 894.0 974.0 1868.0
% within Credeþi cã în
47.9% 52.1% 100.0%
þara noastrã...

Datele din astfel de tablouri sunt relativ simplu de interpretat. Astfel 389 (51%) dintre
respondenţii care cred că direcţia este bună sunt de gen masculin şi la fel 511 (45,7%) dintre
cei ce cred că direcţia este greşită. Se observă că totalul cazurilor valide este de 1868 persoane
din care 894 bărbaţi şi 974 femei. În fiecare celulă se găsesc şi valorile numite Expected,
valori teoretice care corespund situaţiei când cele două variabile sunt independente.
Atunci când analizăm problematica asocierii de fapt urmăm raţionamentul unei ipoteze
statistice:
H0: variabilele calitative nu sunt asociate
H1: variabilele sunt asociate.
Pentru măsurarea asocierii dintre cele două variabile se foloseşte testul χ 2 . Acest test
se bazează pe diferenţele calculate dintre două tipuri de date: cele aşteptate (teoretice) care
reprezintă situaţia de independenţă dintre variabile şi cele observate (obţinute în urma
cercetării efective). Conform formulei de calcul χ 2 este o mărime care se obţine din suma
pătratelor diferenţelor dintre frecvenţele observate (fo) şi şi cele teoretice (ft) împărţite la
( f − f )2
frecvenţele teoretice: χ 2 = ∑ o t . Se pleacă de la ideea că cu cât acest coeficient este
ft
mai mic cu atât cresc şansele ca variabilele să fie independente şi cu cât coeficientul este mai
mare cu atât mai sigur variabilele sunt asociate. Pentru că aceste aprecieri au nevoie de
intervale precise de fapt se impune compararea valorilor coeficientului cu alte valori,
considerate teoretice şi care se găsesc în tabele statistice speciale. De fapt se ajunge la
reformularea ipotezei statistice de care vorbeam:
1. Dacă χ 2 calculat < χ 2 teoretic atunci resping H0 şi admit H1
2. Dacă χ 2 calculat > χ 2 teoretic atunci resping H1 şi admit H0.
Aceste raţionamente trebuie să ţină seama de următoarele condiţii:
a. relaţiile de mai sus se specifică pentru un anumit prag de semnificaţie
b. trebuie avute în vedere gradele de libertate ale tabelului de contingenţă. Se notează cu df
(degree of freedom) şi se calculează cu formula: df= (n-1)(m-1), unde n este numărul de linii
ale tabloului iar m numărul de coloane.
c. În tabloul de contingenţă trebuie să nu existe celule în care valoarea frecvenţelor aşteptate
(Expected Count) să fie mai mici de 5. În unele calcule se cere ca numărul acestor cazuri să fie
mai mic de 20%. Reducerea numărului de cazuri este însă foarte importantă: dacă creşte
mărimea tabelului de contingenţă şi invariabil creşte şi coeficientul ϕ 2 !
d. valorile teoretice (sau critice) ale coeficientului sunt cele din următoarea listă:

Df\ Praguri semnif .10 .05 .02 .01 .001 Se obsevă în acest tabel pe prima
1 2.71 3.84 5.41 6.64 10.83 linie orizontală pragurile de
2 4.60 5.99 7.82 9.21 13.82 semnificaţie de las 0.1 la 0.001. Pe
3 6.25 7.82 9.84 11.34 16.27 prima coloană se găsesc gradele de
4 7.78 9.49 11.67 13.28 18.46 libertate. Valoarea critică a lui
5 9.24 11.07 13.39 15.09 20.52 χ 2 se citeşte la intersecţia unui
6 10.64 12.59 15.03 16.81 22.46 prag de semnificaţie şi a unui
7 12.02 14.07 16.62 18.48 24.32 anumit număr de grade de
libertate. Se compară apoi valoarea
8 13.36 15.51 18.17 20.09 26.12 coeficientului cu valoarea calculată
9 14.68 16.92 19.68 21.67 27.88 (de către computer) şi se urmăreşte
10 15.99 18.31 21.16 23.21 29.59 raţionamentul de mai sus.
11 17.28 19.68 22.62 24.72 31.26 Pentru a calcula coeficientul χ 2
12 18.55 21.03 24.05 26.22 32.91 vom apela în fereastra de mai sus
13 19.81 22.36 25.47 27.69 34.53 la butonul Statistics şi vom alege
14 21.06 23.68 26.87 29.14 36.12 doar varianta Chi-Square din
15 22.31 25.00 28.26 30.58 37.70 colţul din stânga sus apoi
16 23.54 26.30 29.63 32.00 39.25 Continue→OK:
17 24.77 27.59 31.00 33.41 40.79
18 25.99 28.87 32.35 34.80 42.31
19 27.20 30.14 33.69 36.19 43.82
20 28.41 31.41 35.02 37.57 45.32
21 29.62 32.67 36.34 38.93 46.80
22 30.81 33.92 37.66 40.29 48.27
23 32.01 35.17 38.97 41.64 49.73
24 33.20 36.42 40.27 42.98 51.18
25 34.38 37.65 41.57 44.31 52.62
26 35.56 38.88 42.86 45.64 54.05
27 36.74 40.11 44.14 46.96 55.48
28 37.92 41.34 45.42 48.28 .56.89
29 39.09 42.56 46.69 49.59 58.30
30 40.26 43.77 47.96 50.89 59.70
Chi-Square Tests

Asymp. Sig. Exact Sig. Exact Sig.


Value df (2-sided) (2-sided) (1-sided)
Pearson Chi-Square 5.168b 1 .023
Continuity Correction a 4.955 1 .026
Likelihood Ratio 5.168 1 .023
Fisher's Exact Test .023 .013
Linear-by-Linear
5.165 1 .023
Association
N of Valid Cases 1868
a. Computed only for a 2x2 table
b. 0 cells (.0%) have expected count less than 5. The minimum expected count is
358.94.

Rezultatul se interpretează din acest tabel. Coeficientul χ 2 =5,168 pentru 1 grad de


libertate şi un prag de semnificaţie de 0.023 (Asymp. Sig). Programul mai calculează un
coeficient de corecţie care se aplică de obicei când există celule cu valori teoretice mai mici
decât 5; un coeficient echivalent cu primul (Likelihood Ratio) apoi un gen de corelaţie care nu
este semnificativă aici (Linear-by-Linear Association). Distingem valorile testului Fisher ϕ
(ale cărui valori le vom detalia în continuare) care confirmă lipsa asocierii. Sunt precizate
numărul de cazuri valide (aici 1868) iar la final se precizează câte celule au valori aşteptate în
număr mai mic decât 5. Valoarea lui χ 2 =5,168 se compară cu cea din tabelul de mai înainte şi
anume cu valoarea 5,41 (pentru df=1 şi p=0.02). Deducem următoarele:

χ 2 calculat=5,168< χ 2 teoretic=5,41 din care cauză vom respinge H1 şi admitem H0.


În concluzie nu există o asociere între sexul respondenţilor şi aprecierea privind direcţia
de dezvoltare a ţării sau altfel spus nu avem diferenţe majore în răspunsurile respondenţilor
diferenţiate după sexul acestora.

13.1. Sensul şi intensitatea asocierii

Coeficientul χ 2 poate atesta prezenţa asocierii dar nu şi intensitatea sau sensul acesteia.
Tocmai de aceea se folosesc şi alţi coeficienţi pentru o astfel de analiză. Iată pentru început
unii coeficienţi utili pentru cazul a două variabile dihotomice nominale:
nk − k k
1. Coeficientul ϕ = 11 1. .1 în care k11 este frecvenţa observată din celula 11 iar
k1. k 2. k.1 k.2
celelalte sunt frecvenţe marginale (cele ce sunt sumele pe linii şi pe coloane ale frecvenţelor
χ2
din tabel). Acelaşi coeficient se mai calculează cu formula ϕ = ± . În această ultimă
n
formulă χ 2 este o mărime care se obţine din suma pătratelor diferenţelor dintre frecvenţele
( f o− f t )2
observate (fo) şi şi cele teoretice (ft) împărţite la frecvenţele teoretice: χ = ∑ . 2

ft
Dacă ϕ >0 tendinţa datelor este să se grupeze pe diagonala principală caz în care există o
asociere pozitivă între variabile. Asocierea este negativă dacă ϕ <0.
k11 k 22 − k12 k 21
2. Coeficientul Q al lui Yule are formula următoare: Q= şi ia valori în
k11 k 22 + k12 k 21
intervalul [-1, +1]. Interpretarea este asemănătoare cu aceea de la corelaţie (pentru Q=0 situaţia
este de independenţă).
3. Coeficientul Y al lui Yule, pe care nu îl mai detaliem aici şi care are valori tot între
[-1,+1].

Pentru variabile categoriale cu mai mult de două variante se impun şi alţi coeficienţi:

1. Coeficientul de contingenţă (C) ia valori în intervalul [0,1] şi are formula:

χ2
C= , formula în care n este volumul eşantionului.
χ2 +n
Acest coeficient dacă e aplicat în cazul a două variabile dihotomice are valoarea
maxima de 0,707. Această valoare creşte apoi odată cu creşterea tabelului de contingenţă darn
u va atinge niciodată valoare 1 deoarece fracţia de sub radical este subunitară. T. Rotariu
[1999;135] recomandă folosirea acestui coefficient pentru tabele mari. Oricum dacă C→1
atunci asocierea dintre variabile este puternică iar dacă C→0 asocierea este slabă.

2. Coeficientul V (Cramer) ia valori tot în intervalul [0,1] interpretarea fiind aceeaşi.


Formula de calcul este următoarea:

χ2
, formula în care s*=min (n,m) adică minimul din nr. de linii/coloane.
n(s − 1)
V= ∗

3. Coeficientul λ (Goodman şi Kruskal) ia valori în intervalul [0,1] dar interpretarea


lui este diferită: el urmăreşte proporţia cu care se reduc erorile prin introducerea variabilei
independente. Dacă λ tinde la 0 atunci variabila independentă nu are un aport în predicţia
variabilei dependente. Dacă λ tinde la 1 atunci aportul în predicţie este mare. O variantă este
coeficientul τ cu interpretări apropiate.
4. Coeficientul de incertitudine U se mai numeşte coeficientul de entropie şi ia
valori în intervalul [0,1]. El reprezintă procentul de reducere a a erorilor de interpretare a
variaţiei variabilei dependente când acţionează variabila independentă (varianţa este definită
în termeni de entropie sau grad de nedeterminare dat de plasarea subiecţilor în categoriile din
tabelul de contingenţă) . dacă U→0 variabila independentă nu explică varianţa celei
dependente situaţia fiind opusă dacă U→1.
Vom încerca să aplicăm şi aceşti din urmă coeficienţi la o analiză pentru variabile
nominale cu mai mult de două categorii. Din baza de date GSS93 subset vom analiza asocierea
dintre variabilele marital status şi life: ne interesează dacă rasa respondenţilor influenţează
opinia despre viaţă în general. Marital status are cinci categorii iar variabila life [“Is life
exciting or dull?”] are şi ea trei variante principale (exciting, routine şi dull). Vom urma
aceleaşi comenzi: Analyze→ Descriptive Statistics→Crosstabs şi vom opta şi pentru cei
patru coeficienţi din fereastra Statistics: Contingency Coefficient, Phi and Cramer’s V,
Lambda şi Uncertainty coefficient. Rezultatele sunt următoarele:
Case Processing Summary

Cases
Valid Missing Total Se observă că au fost procesate
N Percent N Percent N Percent un număr de 995 cazuri valide
Marital Status * Is iar 504 au fost considerate lipsă.
996 66.4% 504 33.6% 1500 100.0%
Life Exciting or Dull

Marital Status * Is Life Exciting or Dull Crosstabulation

Is Life Exciting or Dull


Dull Routine Exciting Total
Marital married Count 21 241 251 513
Status Expected Count 33.5 236.4 243.1 513.0
% within Marital Status 4.1% 47.0% 48.9% 100.0%
widowed Count 17 54 40 111
Expected Count 7.2 51.2 52.6 111.0
% within Marital Status 15.3% 48.6% 36.0% 100.0%
divorced Count 10 74 65 149
Expected Count 9.7 68.7 70.6 149.0
% within Marital Status 6.7% 49.7% 43.6% 100.0%
separated Count 6 11 8 25
Expected Count 1.6 11.5 11.8 25.0
% within Marital Status 24.0% 44.0% 32.0% 100.0%
never married Count 11 79 108 198
Expected Count 12.9 91.2 93.8 198.0
% within Marital Status 5.6% 39.9% 54.5% 100.0%
Total Count 65 459 472 996
Expected Count 65.0 459.0 472.0 996.0
% within Marital Status 6.5% 46.1% 47.4% 100.0%

Chi-Square Tests Symmetric Measures

Asymp. Sig.
Value df (2-sided) Value Approx. Sig.
Pearson Chi-Square 39.220a 8 .000 Nominal by Phi .198 .000
Nominal Cramer's V .140 .000
Likelihood Ratio 31.911 8 .000
Contingency Coefficient .195 .000
Linear-by-Linear
.034 1 .854 N of Valid Cases 996
Association
N of Valid Cases 996 a. Not assuming the null hypothesis.
b. Using the asymptotic standard error assuming the null
a. 1 cells (6.7%) have expected count less than 5. The
hypothesis.
minimum expected count is 1.63.

Directional Measures

Asymp.
a b
Value Std. Error Approx. T Approx. Sig.
Nominal by Lambda Symmetric .026 .016 1.640 .101
Nominal Marital Status Dependent .000 .000 .c .c
Is Life Exciting or Dull
.050 .030 1.640 .101
Dependent
Goodman and Marital Status Dependent .009 .004 .000d
Kruskal tau Is Life Exciting or Dull d
.011 .005 .004
Dependent
Uncertainty Coefficient Symmetric .015 .006 2.639 .000e
Marital Status Dependent .012 .005 2.639 .000e
Is Life Exciting or Dull e
.018 .007 2.639 .000
Dependent
a. Not assuming the null hypothesis.
b. Using the asymptotic standard error assuming the null hypothesis.
c. Cannot be computed because the asymptotic standard error equals zero.
d. Based on chi-square approximation
e. Likelihood ratio chi-square probability.
Observăm χ calculat=32,2> χ teoretic=26,1 pentru
2 2
Symmetric Measures
8 grade de libertate şi p=0.000. Acceptăm ipoteza
Value Approx. Sig. H1 deci variabilele sunt asociate. Intensitatea
Nominal by Phi .198 .000 asocierii este totuşi slabă (C=0.190;V=0.140) iar
Nominal Cramer's V .140 .000 direcţia presupusă de var independentă marital
Contingency Coefficient .195 .000 status explicând var. dependentă life este mai
N of Valid Cases 996 plauzibilă ( λ =0.05> λ =0.00 sau
a. Not assuming the null hypothesis. τ =0.011> τ =0.009). Se observă de asemenea
b. Using the asymptotic standard error assuming the null valorile mici pentru coeficientul U.
hypothesis.

13.2 Asocierea şi raporturile de şanse (odds ratio)

Cu ajutorul tabelului de contingenţă se poate analiza şansa (probabilitatea) ca un anumit


fenomen să se petreacă. Dacă un fenomen, să spunem, are o probabilitate p de apariţie atunci
prin şansă se înţelege raportul p/ (1-p). Dintr-un exemplu anterior vom spune că există
probabilitatea de 0.511 ca subiecţii care cred că “direcţia este bună” să fie bărbaţi. Altfel şansa
ca un intervievat să fie bărbat a fost 511/(1-0.511)= 1.04.
Să analizăm această problematică plecând de la baza de date GSS93 subset şi de la
două variabile sex şi gunlaw (acordul sau dezacordul portului armei). După ce am transferat
variabilele pe linie şi coloană din fereastra statistics alegem doar Chi-square şi Risk:

Respondent's Sex * Favor or Oppose Gun Permits Crosstabulation

Favor or Oppose Gun


Permits
Favor Oppose Total
Respondent's Male Count 314 111 425
Sex Expected Count 350.3 74.7 425.0
% within
73.9% 26.1% 100.0%
Respondent's Sex
Female Count 497 62 559
Expected Count 460.7 98.3 559.0
% within
88.9% 11.1% 100.0%
Respondent's Sex
Total Count 811 173 984
Expected Count 811.0 173.0 984.0
% within
82.4% 17.6% 100.0%
Respondent's Sex

Risk Estimate
Chi-Square Tests
95% Confidence
Asymp. Sig. Exact Sig. Exact Sig.
Value df (2-sided) (2-sided) (1-sided)
Interval
Pearson Chi-Square37.622b 1 .000 Value Lower Upper
a 36.592
Continuity Correction 1 .000 Odds Ratio for Favor or
Likelihood Ratio 37.417 1 .000 Oppose Gun Permits .353 .251 .496
Fisher's Exact Test .000 .000
(Favor / Oppose)
Linear-by-Linear
37.584 1 .000 For cohort Respondent's
Association
.603 .524 .695
N of Valid Cases 984 Sex = Male
a. Computed only for a 2x2 table For cohort Respondent's
b. 0 cells (.0%) have expected count less than 5. The minimum expected countSex 1.710 1.391 2.103
is = Female
74.72.
N of Valid Cases 984
Din rezultatele obţinute se observă că cele două variabile sunt asociate
[deoarece χ 2 calculat=37,6> χ 2 teoretic=10,83 pentru 1 grad de libertate şi p=0.000 deci vom
accepta H1]. Cu alte cuvinte sexul respondenţilor influenţează opinia despre portul armei.
Şansa ca un respondent să fie de acord este diferită pentru bărbaţi şi pentru femei. Pentru
bărbaţi este de 314/111=2,82 iar pentru femei este de 497/62= 8.01 valoare semnificativ mai
mare. Raportul de şanse dintre femei şi bărbaţi este de 8.01/2.82= 2,84 cu alte cuvinte sunt 2,8
şanse ca o femeie să fie de acord faţă de un bărbat. Această valoare cu cât este mai mare decât
1 cu atât sunt mai pronunţate diferenţele dintre grupuri. Pentru cei ce sunt de acord
coeficientul de risc este de 1.20 iar pentru cei ce nu sunt de acord 0,42.
IX. Operaţiuni executate asupra variabilelor şi bazelor de date

Complexitatea şi varietatea calculelor statistice din programu SPSS sunt amplificate de


numeroasele facilitãţi de lucru în cadrul bazelor de date. O parte din ele sunt întâlnite şi în
diverse programe, altele sunt specifice. Pentru a trece în revistã aceste facilitãţi ni s-a pãrut mai
simplu de a prezenta meniuri întregi de comenzi cu precizarea cã nu vom detalia toate
utilitãţile specifice; vom detalia doar acele aspecte pe care le considerãm fundamentale sau
oricum sunt mai des întâlnite. Vom începe cu meniul Data care este compus din urmãtoarele
submeniuri:
Fig 1. Meniul Data

1. Define Variable Properties- ajutã la schimbãri de nume


sau atribute ale variabilelor din Data Editor. Dupã ce am
trecut o variabilã din coloana din stânga în dreapta se va
deschide fereastra care poartã chiar numele submeniului,
fereastrã în care avem o descriere amãnunţitã a variabilei.
Aici putem face şi schimbãrile pe care le considerãm
necesare. Dacã Data Editor nu conţine o bazã de date
submeniul nu poate fi activ.
2. Copy Data Properties- ajutã la transferul datelor între
diverse baze de date
3. Define Dates-ajutã la definirea datelor calendaristice mai
ales pentru lucrul cu serii de timp
4. Insert Variable-ajutã la inserarea unei noi variabile în
baza de date. Sã presupunem cã celula activã dintr-o bazã de
date este poziţionaltã pe o coloanã (variabilã):
ca în situaţia de mai jos. Dupã activarea comenzii în partea dreaptã va apare o nouã variabilã
care trebuie definitã (aceeaşi operaţie putea fi setatã dacã ne opream cu mausul pe numele
variabilei marital→clic dreapta şi alegeam Insert Variable sau direct de pe bara de
instrumente cu butonul ):
Fig 2. Inserarea unei variabile

5. Insert Cases-ajutã la inserarea unor noi cazuri (linii orizontale). Dacã celula activã este
plasatã pe un anumit rând atunci va apare un nou rând imediat deasupra acestuia. Se poate
apela şi la plasarea mausului pe rîndul respectiv şi clic dreapta sau direct de pa bara su
instrumente acţionând butonul .
6. Go to Case- se poate indica un anumit caz din bazã pentru a se ajunge imediat la acesta.

7. Sort Cases-ajutã la sortarea (ordonarea) valorilor seriei dupã valorile dintr-una sau mai
multe variabile. Aici un exemplu de reordonare a bazei dupã valorile crescãtoare din variabila
age:

Fig. 3 Sortarea bazei după o variabilă

8. Transpose-ajutã la inversarea coloanelor cu liniile din baza de date. Variabilele neselectate


vor fi pierdute!

9. Restructure-ajutã la transformãri complexe în interiorul bazelor de date. Sunt trei opţiuni:


restructurarea anumitor variabile în cazuri, restructurarea unor cazuri în variabile sau
inversarea întrecazuri şi variabile tuturor datelor.

10. Merge files-ajutã la unirea mai multor date din baze diferite. Sã presupunem cã am aplicat
un chestionar în oraşul X şi apoi acelaşi chestionar în oraşul Z. Datele respective sunt în baze
diferite deşi au acelaşi numãr de variabile. Reunirea într-o singurã bazã se face plecând de la
una dintre ele (baza1) la care se adaugã cea de a doua bazã . Sã presupunem cã am construit o
bazã cu doar zece cazuri la care vom adãuga alte 10 cazuri din cealaltã bazã :
Vom acţiona comenzile
Data→Merge Files→
Add Cases iar dupã ce
vom selecta noua bazã se
va deschide urmãtoarea
fereastrã. Sã presupunem
cã in noua bazã variabila
religie a fost scrisã greşit
relig.

În aceastã fereastrã
variabilele cu semnul (*) fac
parte din baza iniţialã iar
cele cu semnul (+) din baza
adãugatã. Numele celei de-a
doua variabile poate fi
schimbat din butonul
Rename sau pot fi selectate
ambele şi trecute în partea
dreaptã cu butonul Pair.
Butonul Paste este
consevarea lucrului în limbaj
sintaxa. Dupã OK rezultã:

Noua bazã (baza2)


cuprinde acum toate
cele 20 de cazuri iar
numele acesteia este
cel al primei baze de
la care s-a plecat. O
putem salva în
aceastã formã
File→Save as...
Comanda Merge Files ajutã şi la
conectarea cu alte baze de date care
au variabile diferite. Sã presupunem
cã avem prima bazã cu cele 10
cazuri şi în altã bazã de date avem
situaţia respectivilor subiecţi
privind numãrul de copii. Se
observã cã subiecţii au aceleaşi
numere de identificare dar nu sunt
în ordine. Aplând la Sort Cases
dupã variabila id rezultã:

Dupã ce am salvat
noua bazã (sortatã!)
am formulat
comenzile
Data→Merge
File→Add
Variables şi dupã
OK observãm cã
noua variabilã a
intrat în prima bazã.
Sã presupunem cã în cea de a doua bazã aveam numai cinci observaţii dupã cum urmeazã:

Aceastã nouã bazã va trebui sã fie sortatã ascendent dupã


variabila id deoarece cazurile nu sunt în ordine. Dupã
sortare, salvãm fişierul. Baza de date de la care se va pleca
este baza1 din exemplul precedent. Dupã ce am deschis
aceastã bazã vom parcurge Data→Merge Files→Add
Variable şi va apare urmãtoarea feereastrã:
Iniţial variabila id se afla în
coloana din stânga
(Excluded Variables) dar a
fost desemnatã drept key
variable dupã setarea opţiunii
Match Case....→Both files
provide cases. Se observã cã
valorile din baza externã s-au
ataşat în baza de plecare
pentru cazurile
corespunzãtoare.

Practic au apãrut în final toate


varibilele dar acolo unde au fost mai
puţine observaţii s-au salvat doar acele
date.
þ Obs. 1. Dupã ce au fost luate toate
setãrile înainte de OK se poate da
comanda Paste care salveazã în limbaj
sintaxã comenzile de pânã acum într-un
fişier separat care poate fi salvat şi
folosit altã datã.

þ Obs. 2. Existã şi alte douã opţiuni în fereastra de mai înainte: External file is keyed table
şi Working Data File is keyed table.

Sã presupunem cã în localitatea X în funcţie de religie cetãţenii trebuie sã plãteascã o taxã


anualã exprimatã în sute de mii de lei astfel:

Se cere ca în baza2 unde sunt înregistraţi 20 de subiecţi sã se


ataşeze fiecãruia dupã religia proprie taxa pe care o va plãti.
Practic trebuie sã reunim baza2 cu aceasta din urmã. Pentru
început ambele baze vor fi sortate ascendent dupã variabila
religie şi vor fi salvate în aceastã formã. Apoi vom deschide
baza2 şi vom urma comenzile Data→ Merge File→ Add
Variable dupã care vom seta opţiunea External file is keyed
table, iar variabila cheie este religia:
Se observã cã în baza iniţilã a apãrut o nouã variabilã care atribuie fiecãrei categorii valoarea
taxelor respective. Practic apar toate variabilele din cele douã fişiere iar criteriul de alipire
rãmâne alocare unor valori-perechi.

þ Obs. 3. Opţiunea Working Data File is keyed table o vom alege dacã drumul parcurs este
invers: de la ultima bazã cu cele trei cazuri la baza mare: deci baza de plecare (Working Data
File) va da criteriul de alipire a bazelor.

þ Obs. 4. Operaţiile de alipire a bazelor de date trebuie sã respecte condiţiile: trebuie sã existe
în ambele baze o variabilã comunã dupã care se face alipirea; trebuie o atenţie sporitã la
variabilele care au acelaşi nume şi care nu sunt criterii de alipire; variabilele trebui8e sortate
ambele în acelaşi sens înainte de a fi alipite.

8. Agregarea datelor

Uneori este nevoie de a sintetiza anumite informaţii despre valorile dintr-o bazã de date
grupându-le dupã o serie de categorii care sunt specifice unei variabile alese. Sã luãm de
exemplu baza de date Cars.sav:
În aceastã bazã de date sunt diverse informaţii despre autoturisme: cilindree (variabila engine)
puterea motorului (horse), greutate (weight), acceleraţie (accel), an de fabricaţie (year).
Plecând de la aceastã bazã de date dorim sã obţinem pentru toate aceste caracteristici mãrimi
medii sau alte mãrimi, grupate dupã anii de fabricaţie. Pentru aceasta vom apela comenzile
Data→Aggregate dupã care va apare fereastra urmãtoare:

Se impun unele precizãri privind aceastã fereastrã:


-variabila în funcţie de care se vor face calcule separate o trecem în rubrica Break Variable
-variabilele asupra cãrora se vor face calculele se trec în cea de a doua rubricã iar operaţiile în
sine sunt opţionale şi se pot alege din butonul Function:

Dupã cum se vede pot fi alese


diverse modalitãţi de calcul de la
principalele valori statistice la
specificarea anumitor valori
statistice (prima, ultima etc.), la
numãrul de cazuri, la precizarea
procentajelor mai mari/mai mici
faţã de o anumitã valoare sau cele
dintr-un interval sau dinafara
acestuia, la precizare unui
fragment din date între anumite
limite precizate.

-opţiunea Save number of cases...va introduce o nouã variabilã care contorizeazã numãrul de
cazuri din fiecare categorie
-opţiunea Create new data file va indica o nouã bazã de date care va fi salvatã de program şi
în care vom avea rezultatele agregãrii. Din butonul File putem sã denumim baza respectivã!
Pentru acest caz vom lãsa denumirea aggr.sav
-opţiunea Replace Working data file va elimina datele din baza curentã!
Dupã ce vom da OK trebuie sã cãutãm şi sã deschidem noul fişier creat de cãtre program şi
care se aflã de obicei în Program files→SPSS. Noua bazã de date este urmãtoarea:

Se observã categoriile
generate de cãtre
variabila year şi pentru
fiecare categorie (an de
fabricaţie) sunt calculate
mediile respective.
Pentru accel sunt
specificate doar valorile
maxime. Ultima
variabilã conţine
numãrul de cazuri din
fiecare categorie. Se pot
apoi face analize
plecând de la aceste
date.

9. Split File-comandã des utilizatã care permite analizarea diverselor valori statistice pentru
grupuri întregi de subiecţi generate tocmai de categoriile din variabile. Sã presupunem cã în
baza GSS93 subset.sav dorim sã cunoaştem în care dintre regiunile americane respondenţii au
în medie, un nivel de educaţie mai mare. Conform variabilei region4 subiecţii din anchetã sunt
divizaţi în 4 regiuni iar variabila educ reprezintã anii de studiu pentru o şcoalã încheiatã. Vom
apela la comanda Data→Split file pentru a produce filtrarea bazei conform unui criteriu
impus: Variabila dupã care vom împãţi
subiecţii în grupuri disticte
region4 este trecutã în dreapta iar
ca variantã de vizualizare a
rezultatelor am ales opţiunea
Compare Groups. Dupã OK în
Data Editor va apare în colţul din
dreapta jos menţiunea Split File
On care ne avertizeazã cã baza
este filtratã şi orice rezultat viitor
va fi definit de filtrarea respectivã:

Urmeazã sã calculãm media anilor de studiu cu comenzile Analyze→Descriptive


Statistics→Frequencies iar din meniul Statistics vom alege doar media (mean). Rezultatul în
Output este urmãtorul:
Statistics
Dupã cum se observã din tabelul
Highest Year of School Completed
. N Valid 741
alãturat cei ce nu au declaratã
Missing 2 regiunea au în medie 13.07 ani de
Mean 13.07 şcoalã. Media cea mai mare se
Northeast N Valid 136 întâlneşte printre cei din vestul SUA.
Missing 0 Restul comparaţiilor sunt evidente.
Mean 13.39
Midwest N Valid
Obs. Dacã trebuie sã facem alte
221
Missing 0 analize statistice care nu privesc
Mean 13.18 împãrţirea populaţiei pe categorii
South N Valid 248 atunci trebuie sã eliminãm comenzile
Missing 0 anterioare astfel: Data→Split
Mean 12.30
File→Reset→OK sau prin alegerea
West N Valid 150
Missing 2
opţiunii Analyze all cases...
Mean 13.56

þ Obs: rezultatele pot fi afişate şi separat dacã setam opţiunea Organize output by groups.

10. Select Cases-dintr-o bazã de date se pot analiza anumite cazuri selectate dupã un criteriu
necesar cercetãrii statistice. Procedura urmeazã comenzile Data→Select Cases. Sã
presupunem cã în baza de date BOP_mai/2003_Gallup.sav dorim sã vedem care sunt
opţiunile persoanelor de sex masculine privind direcţia în care se îndreaptã România: este
vorba de variabilele sex0 (genul respondenţilor) şi a1 (direcţia în care se îndreaptã ţara
noastrã). Prima variabilã este variabila criteriu cu valorile: 1. masculin, 2.feminin. Vom selecta
doar respondenţii de sex masculin prin If condition is satisfied→If:

Se va deschide o nouã fereastrã în care am pus condiţia de selecţie: sex0=1. Dupã


Continue se va reveni în baza de date care are acum, în dreapta jos precizarea Filter On. În
baza de date vor apare în partea dreaptã o serie de „tãieturi” semn cã liniile ce cpurind sexul
feminin au fost -pentru moment-eliminate. Din acest moment orice calcule statistice efectuate
vor ţine cont de selectarea efectuatã. La final respectiva setare trebuie anulatã dacã se
intenţioneazã alte calcule.
Din acest moment orice calcule
statistice efectuate vor ţine cont
de selectarea efectuatã. La final
respectiva setare trebuie anulatã
dacã se intenţioneazã alte
calcule. Rezultatul final este
urmãtorul:

Statistics Numãrul de cazuri valide sunt doar


Credeþi cã în þara noastrã lucrurile merg într-o respondenţii de sex masculin dintr-un
direcþie bunã sau într-o direcþie greºitã? eşantion de 2100 de persoane.
N Valid 970 Rezultatele finale sunt urmãtoarele:
Missing 0

Credeþi cã în þara noastrã lucrurile merg într-o direcþie bunã sau într-o direcþie
greºitã?

Cumulative
Frequency Percent Valid Percent Percent
Valid direcþia este bunã 383 39.5 39.5 39.5
direcþia este greºitã 511 52.7 52.7 92.2
NS 69 7.1 7.1 99.3
NR 7 .7 .7 100.0
Total 970 100.0 100.0

þ Obs: Metodele de selecţie sunt foarte diverse: selectarea unui eşantion din bazã putându-se
indica în mod precis cât la sută din cazuri vor fi selectate (Random sample of cases), selecţie
în funcţie de o variabilă temporală sau după anumite ranguri care se pot preciza (Based on
time or case range), selecţie în funcţie de o variabilã filtru care dacă ia valoarea nulă atunci
cazul respectiv se elimină (Use filtre variable). Există şi posibilitatea ca liniile neselectate să
fie şterse din bază însă această operaţie trebuie făcută cu precauţie. În cadrul ferestrei Select
Cases If se pot folosi butoanele cu cifre sau semne matematice pentru condiţiile impuse şi
chiar o serie de funcţii care sunt listate în tabelul din dreapta ferestrei. Acestea pot fi: funcţii
aritmetice (ABS[modul], LN[log. natural], SQRT [radical], etc,) funcţii statistice (MEAN,
SUM, VARIANCE, etc.) funcţii de lucru cu variabile nominale, funcţii pentru date temporale,
funcţii logice, funcţii referitoare la valorile lipsã etc. O parte din aceste funcţii le regãsim si în
programul Excel.

11. Weight Cases-ajutã la ponderarea observaţiilor adicã la repetarea unei observaţii de un


anumit numãr de ori. Aceastã operaţie este necesarã în cazurile în care anumite subgrupuri din
populaţie nu sunt bine reprezentate în eşantion. De exemplu proporţia de tineri între 18-25 de
ani este de 30% în eşantion iar în populaţia mare este de 25%. Eşantionarea poate introduce
distorsiuni şi de aceea se cere ponderarea acelor cazuri care sunt supra/sub-evaluate. Se
defineşte o variabilă de ponderare conform căreia se vor aplica respectivele ponderări.
Procedura impusă de către program pleacă de la o ponderare egală a fiecărui caz ca şi cum
şansele de intra în eşantion sunt egale (eşantionare simplă aleatoare). Aceste şanse sunt însă
inegale atunci când eşantionul ţine cont de o anumită stratificare.
Folosirea comenzii Weight Cases se dovedeşte foarte utilă atunci când ponderăm
subgrupuri dintr-un eşantion deoarece acestea nu reflectă proporţiile dintr-o populaţie extinsă.
De exemplu T. Rotariu şi P. Iluţ (1997; 191-192) propun două strategii: eliminarea aleatorie a
unor chestionare din grupul supra-reprezentat în eşantion sau duplicare unui anumit număr de
chestionare în grupul mai puţin reprezentat în eşantion. Evident, autorii atrag atenţia asupra
riscului ca aceste operaţiuni să introducă în mod nepermis alte erori pe lângă cele provenite din
neconcordanţele dintre statisticile oficiale şi populaţia reală. Prudenţa în acest caz trebuie
combinată cu verificări suplimentare din perspectiva altor variabile. O altă sursă de eroare pe
cae au constatat-o cei doi autori se referă la modalităţile de alegere a unei persoane din cadrul
unei gospodării în cazul unei anchete prin chestionar (op. cit., 147-148). Într-adevăr şansele de
a fi ales în eşantion pentru un adult de exemplu scad odată cu mărimea familiei: dacă familia e
formată dintr-o singură persoană şansa de a fi aleasă este 100% iar dacă sunt două persoane
şansa scade la 50% etc. Se recomandă în acest caz ca familia cu două persoane să aibă o şansă
dublă de a fi extrasă, apoi familia cu trei persoane să aibă o şansă triplă etc. Atorii recomadă în
acest caz ca la final să se facă o ponderare după mărimea familiei din care provine
respondentul. Iată un exemplu a unei astfel de ponderări dat de către M. Rîşteiu et al. (2003,
vol. 2; 132-134). Analiza autorilor se opreşte la baza de date gss98.sav şi care se poate găsi pe
Internet. În respectiva bază de date se pot identifica variabila adults (care reprezintă numărul
de persoane cu vârsta de peste 18 ani din familie). Simpla analiză statistică a acestei variabile
dă următoarea configuraţie:

HOUSEHOLD MEMBERS 18 YRS AND OLDER În acest context se pune problema


Cumulative acordării unor şanse mai mari de
Frequency Percent Valid Percent Percent
Valid 1 967 34.1 34.2 34.2 apariţie a persoanelor din familii
2 1510 53.3 53.3 87.5
mai mari. Pentru aceasta se
3 275 9.7 9.7 97.2
4 64 2.3 2.3 99.5 calculează un anumit coeficient
5 13 .5 .5 99.9 de multiplicare şi a cărui valoare
6 1 .0 .0 100.0
7 1 .0 .0 100.0
este în acest caz egal cu 1,818.
Total 2831 100.0 100.0 Această valoare s-a obţinut
Missing NA 1 .0
conform algoritmului din tabelul
Total 2832 100.0
de mai jos. Se observă că se caută
un eşantion în care se cumulează
HOUSEHOLD MEMBERS 18 YRS produsele de genul 1x967,
AND OLDER
2x1510, 3x275 etc., care justifică
Valid 1 967 967
şansele acordate după aprecierile
2 1510 3020
3 275 825
de mai înainte. La final suma de
4 64 256 5146 a fost împărţită la 2831 şi a
5 13 65 rezultat coeficientul de 1,818
6 1 6 (rotunjit). În continuare autorii
7 1 7 introduc o nouă variabilă numită
Total 2831 5146 1.81773225 wadults creată cu ajutorul sub-
Missing NA 1 meniului Compute prin
Total 2832 ponderarea variabilei adults cu
acest coeficient:
Ca de obicei noua variabilă se va
găsi în bază pe ultima poziţie:

Abia acum poate fi apelată procedura weight cases cu variabila wadults drept criteriu:

Odată activat butonul OK se va


observa că pe bara de jos va apare
specificarea de rigoare:

La final distribuţia persoanelor cu vârste de peste 18 ani va fi următoarea:

HOUSEHOLD MEMBERS 18 YRS AND OLDER þ Obs. Se poate reveni la


Cumulative situaţia iniţială a bazei de date
Frequency Percent Valid Percent Percent
Valid 1 532 18.8 18.8 18.8 alegându-se opţiunea Do not
2 1661 58.7 58.7 77.5 weight cases.
3 454 16.0 16.0 93.5
4
5
141
36
5.0
1.3
5.0
1.3
98.5
99.7
þ Obs. Am folosit pentru
6 3 .1 .1 99.9 afişarea în Output un alt model
7 4 .1 .1 100.0
pentru tabele. Acest model se
Total 2831 100.0 100.0
poate seta urmând meniul
Edit→Option→Pivot Tables:
Vom face acum referiri la meniul Transform care cuprinde următoarele submeniuri :

O primă comandă foarte des utilizată este Compute care


permite crearea de noi variabile prin impunerea unor calcule
diverse. Să presupunem de exemplu că în baza2 de mai
înainte dorim să creăm o nouă variabilă venit care sa fie în
fapt suma veniturilor din cele două variabile venit1 si
venit2. Pentru aceasta vom deschide fereastra următoare :

Se observă că am
definit variabila ţintă
venit ca suma
venit1+venit2. În baza
de date va apare o
noua variabilă :

Pot fi folosite funcţiile


pentru diverse calcule.
De exemplu suma de
mai înainte putea fi
calculată şi cu Sum
(v1,v2). Pot fi puse si
anumite condiţii din
butonul If.

þ Obs1. : Se pot folosi direct semnele unor operaţii din butoanele aflate în fereastra Compute
variables. Astfel observăm prezenţa unor operatori logici precum &, | , ~ (care semnifică
simbolurile şi, sau, nu logice) ; semnele matematice < > (mai mic, mai mare), < = => (mai
mic sau egal, mai mare sau egal), ~= (diferit de) şi ** (ridicarea la putere) ; semnele uzuale
pentru diferite operaţii matematice etc.
þObs2. : dacă în variabila venit1 sau venit2 există o valoare lipsă atunci şi în variabila finală
va apare o valoare lipsă !
þObs3. : funcţia ANY seamănă cu comanda Select Cases. De exemplu dacă formulăm
expresia ANY (vârsta, 21,23) atunci într-o variabilă separată vor apare valorile 1 pentru
cazurile care respectă condiţia pusă şi 0 pentru cele care nu respectă condiţia.
Comanda Count ajută la cuantificări diverse. De exemplu să folosim baza de date Bop 2003
Gallup. Am ales din această bază următoarele variabile:
Ws1 (Aveţi relaţii / cunoştinţe pe care vă puteţi baza în caz de boală pentru consultaţie,
tratament, intervenţie chirurgicală?)
Ws2 (Aveţi relaţii / cunoştinţe pe care vă puteţi baza la tribunal, notar, avocat?)
Ws3 (Aveţi relaţii / cunoştinţe pe care vă puteţi baza la primarie?)
Ws4 (Aveţi relaţii / cunoştinţe pe care vă puteţi baza la poliţie?).
Aceste variabile sunt dihotomice (valori 1=da ; 0=nu) şi pe baza lor s=ar putea construi un
indice al « reţelei de sprijin » care reprezintă de fapt însumarea valorilor 1 din toate
variabilele considerate (vom considera missing valorile 9=nu ştiu/nu răspund). Apelăm apoi
fereastra după Transform Count :

In această fereastră am definit


variabila ţintă reţea (reţea de
sprijin) ca o combinaţie de
cele patru variabile amintite
mai înainte. Din butonul
Define Values putem indica
valoarea care este cuantificată
(în cazul nostru 1=da). Noua
varibilă va fi inclusă în bază şi
putem să obţinem tabelul
frecvenţelor:

retea de sprijin
Dintr-un total de 2100 de subiecţi mai
Cumulative bine de jumătate (1143) nu au nici o
Frequency Percent Valid Percent Percent persoană în reţeaua de sprijin. 531
Valid ,00 1143 54,4 54,4 54,4
dintre respondenţi găsesc un sprijin
1,00 531 25,3 25,3 79,7
2,00 188 9,0 9,0 88,7
doar într-un nod al reţelei şi numai
3,00 134 6,4 6,4 95,0
104 (adică 5%) se pot baza pe reţele
4,00 104 5,0 5,0 100,0 complete de sprijin.
Total 2100 100,0 100,0

O altă opţiune din meniul Transform se referă la recodificarea variabilelor. Această opţiune
are două variante : recodificarea în variabila de lucru sau recodificarea într-o altă variabilă.

Vom detalia în cele ce urmează doar


opţiunea Into Different Variables…

Să presupunem că în aceeaşi bază de mai sus dorim să aflăm situaţia răspunsurilor privind
direcţia în care se îndreaptă România dar în funcţie de următoarele segmente de vârstă : 18-
25 ani; 26-40 ani ; 41-60 ; 61 şi peste. În bază există deja variabila vârsta0 în care sunt
consemnate vârstele respondenţilor dar acestea trebuie regrupate în cele patru categorii de mai
sus:
În această fereastră am trecut
variabila vârsta0 în dreapta şi
pentru că vrem să obţinem o
altă variabilă numită virsta1
vom da clic pe Change pentru a
se consemna noul nume.
Recodificarea efectivă se face
din butonul Old and New
Values…
Se va deschide o nouă
fereastră :

Această fereastră se compune din


două coloane distincte : una
referitoare la vechile valori (Old
Values) şi cealaltă la noile valori
(New Values). Prima indicaţie se
referă la faptul că vechile valori
cuprinse între 18 şi 25 vor primi în
noua variabilă valoarea 1. Vom da
apoi Add pentru a fi consemnată
schimbarea.Se continuă la fel cu
celelalte cazuri. La ultima
indicaţie fereastra arată astfel :

Pentru ultima opţiune se


selectează varianta 61 through
highest. Se observă că în această
fereastră sunt multe alte opţiuni
de transformare de exemplu când
sunt valori lipsă sau când
variabilele sunt nominale. După
continue şi OK va apare în bază
la sfârşitul acesteia noua
variabilă pe care o putem
eticheta şi defini ca şi o variabilă
ordinală.
Evident subiecţii etichetaţi cu 1 sunt cei cu vârste cuprinse între
18 şi 25 de ani etc .

Revenind la întrebarea de start putem analiza răspunsurile la întrebarea privind


direcţia spre care se îndreaptă România după ce vom filtra baza după această
nouă variabilă cu comenzile cunoscute Data Split file Compare groups
variabila de filtrare fiind virsta1. Rezultatele finale sunt următoarele:

Credeþi cã în þara noastrã lucrurile merg într-o direcþie bunã


Se observă o
sau într-o direcþie greºitã?
constanţă a
VIRSTA1
1,00 Valid direcþia este bunã
Frequency
140
Percent
36,9
procentelor celor
direcþia este greºitã 202 53,3 care cred că
NS 36 9,5
NR 1 ,3 direcţia este
2,00 Valid
Total
direcþia este bunã
379
155
100,0
35,9
greşită : 53,3%
direcþia este greºitã 240 55,6 dintre cei cu vârste
NS 31 7,2
NR 6 1,4 între 18-25 ani
Total 432 100,0
3,00 Valid direcþia este bunã 269 36,7
apoi 55,6% dintre
direcþia
NS
este greºitã 404
57
55,1
7,8
cei cu vârste între
NR 3 ,4 26 şi 40 de ani…
Total 733 100,0
4,00 Valid direcþia este bunã 186 33,5
direcþia este greºitã 272 48,9
NS 91 16,4
NR 7 1,3
Total 556 100,0

þ Obs1 : spre deosebire de comanda Recode into different variable cealaltă opţiune Recode
into same variable produce transformări în variabila însăşi fără a creea o nouă variabilă.
Tocmai de aceea odată salvate respectivele transformări, se pot pierde definitiv valorile din
bază.

þ Obs2 : o operaţie asemănătoare se poate realiza cu comanda Transform→Categorize


Variables. Se poate alege numărul de categorii (în cazul nostru am ales tot 4) dar programul
va selecta cazurile după cuartile : distribuţia a 25%, 50%,75% din cazuri. Rezultatele sunt
următoarele :

NTILES of VARSTA0
De data aceasta programul a
Cumulative
Frequency Percent Valid Percent Percent stabilit alte categorii de
Valid 1 518 24,7 24,7 24,7 vârste : 1=18-31 ani ; 2=32-46
2 530 25,2 25,2 49,9
3 518 24,7 24,7 74,6 ani ; 3=47-61 ;4= peste 61.
4 534 25,4 25,4 100,0
Total 2100 100,0 100,0
þ Obs3 : uneori se poate utiliza recodarea automată a datelor (Transform→Automatic
recode). Se recomandă mai ales când categoriile nu sunt numeroase iar dacă sunt
alfanumerice trebuie ţinut cont de ordinea lor alfabetică. Se înţelege de aici că foarte utilă
poate fi recodarea automată a unor variabile calitative cu valori alfanumerice. Să presupunem
că am făcut o cercetare în mai multe firme, din diverse domenii de activitate din marile oraşe
ale ţării :

În această bază variabila oras este alfanumerică şi


putem hotărî să o recodificăm în sensul că fiecare
localitate va primi un cod numeric, în ordine
crescătoare sau descrescătoare prin apelarea
comenzilor Transform→Automatic recode. Se
va obţine astfel o nouă variabilă numită oras1 iar
ordinea codurilor va fi ascendentă:

þ Obs4 : meniul Transform mai conţine proceduri legate de înlocuirea valorilor lipsă
(Replace Missing Values) proceduri legate de generarea numerelor aleatoare (Random
number seed) care ne ajută atunci când selectăm aleator cazuri pentru sub-eşantioane. Aceste
proceduri sunt legate de condiţiile pe care le impunem şi în submeniul Data Select cases
Random sample of cases. O altă comandă utilă este şi Rank cases prin intermediul căreia
putem ordona valorile dintr-o variabilă eventual după valori din alte variabile. Să
presupunem că într-o firmă oarecare situaţia veniturilor este următoarea:

Observăm că avem un număr de 10 angajaţi cu


sexul 1. masculin şi 2. feminin iar în coloana a
treia este specificat venitul fiecăruia în RON. Se
cere atribuirea unui nivel anumit (rank) fiecărui
angajat şi eventual ordonarea acestora după
variabilele sex şi venit. Vom alege comenzile
Transform→Rank Cases iar ca şi criteriu de
categorizare variabila sex după cum urmează:

Se observă că ordinea de
acordare a rangurilor este
crescătoare (se începe cu
smallest value) iar opţiunea
Display summary table dacă
este activată vor apare în
output precizări privind
operaţiunea efectuată. Se
obţine după OK situaţia din
stânga după care putem aplica
o dublă sortare după sex şi
venit:

Se observă ordonarea veniturilor în noua variabilă rvenit dându-se rangurile specifice. Doi
subiecţi cu valori identice au rangul obţinut ca medie aritmetică din două poziţii consecutive.
Un alt meniu este Utilities şi a cărui principală sarcină este aceea de a da informaţii privind
variabilele din baza de date. Astfel prin comenzile Utilities→ Variables sau Utilities→ File
Info putem afla o caracterizare completă a variabilelor. Alte două submeniuri Define Sets şi
Use sets pot fi de ajutor pentru a alege doar un număr restrâns de variabile pentru analiză.
Acest lucru este util mai ales c’nd bayele de date conţin un număr foarte mare de variabile. De
exemplu baza de date gss98.sav conţine peste 3000 de variabile! Iată un exemplu de lucru
plecând de la baza de date bd.bop2004.sav pe care o găsim pe site-ul www.osf.ro:

În acest exemplu variabilele id reprezintă codul chestionarului a1 se referă la direcţia


în care se îndreaptă România, a12 se referă la aprecierea vieţii de către respondenţi faţă de
acum un an, a13 se referă la aprecierea de către respondenţi a modului cum vor trai peste un
an iar a9 se referă la gradul de mulţumire faţă de propria sănătate. Ne propunem să lucrăm
într-o bază separată numai cu aceste variabile. După comennzile Utilities→Define sets vom
numi noua “bază” formată din respectivele variabile cu numele APRECIERI după care e
necesară comanda Add set. Pentru utilizarea noii “baze” este nevoie de comenzile Utilities→
Use sets prilej cu care se trece în partea dreaptă noua bază şi precizarea că vor fi folosite
numai noile variabile:

Toate aceste operaţiuni nu duc la apariţia unei noi baze ci doar la selectarea anumitor
variabile. Dacă dorim să facem analize statistice diverse, de exemplu, meniul
Analyze→Frequencies va reţine doar respectivele variabile:
Pentru a se reveni la
situaţia iniţială este
necesar sa trecem în
partea dreaptă
specificarea
ALLVARIABLES din
fereastra de mai
înainte.
X.Teme aplicative

1.Introduceţi diverse date în programul Excel, salvaţi aplicaţia şi încercaţi să o deschideţi în


cadrul programului SPSS. Observaţi diferenţele.
2.Creaţi o bază de date în care să introduceţi diverse variabile: cantitative, ordinale, nominale.
3.Calculaţi principalele valori statistice pentru variabila cantitativă introdusă. Deprindeţi
itemii din fereastra Statistics.
4. Reprezentaţi grafic variabilele cantitativă şi ordinală pe care le-aţi definit. Cu ajutorul
opţiunilor din fereastra Chart1 modificaţi graficele respective după diverse caracteristici.
5. Calculaţi cotele z pentru o variabilă cantitativă. Comentaţi valorile obţinute.
6. Formulaţi diverse ipoteze statistice. Analizaţi posibilităţile de eroare. Analizaţi posibilitatea
intervenţiei altor variabile.
7. Alegeţi din bazele programului diverse variabile cantitative.Testaţi normalitatea distribuţiei
acestor variabile.
8. Calculaţi corelaţia dintre diverse variabile cantitative. Verificaţi dacă toate condiţiile
impuse sunt îndeplinite.Interpretaţi rezultatele.
9. Calculaţi corelaţia non-parametrică pentru variabile liber alese din diverse baze. Verificaţi
şi interpretaţi rezultatele.
10. Deschideţi baza de date World 95. Calculaţi diverse corelaţii parţiale pentru variabile din
această bază. Comentaţi rezultatele.
11.Deschideţi baza de date GSS 93 subset. Identificaţi variabile nominale şi calculaţi
asocierea acestora. Interpretaţi rezultatele.
12.Deschideţi baza de date GSS93 subset. Selectaţi doar cazurile respondenţilor
« căsătoriţi ». Pentru aceştia calculaţi media anilor de studiu.
13. Folosiţi în diverse aplicaţii comenzile Select Cases şi Split File.
14. Formaţi două baze de date şi apoi încercaţi să le alipiţi într-o singură bază.
15. Folosiţi comanda Aggregate în diverse aplicaţii.
16. Folosiţi comanda Transform→Compute pentru a genera noi variabile.
17. Transformaţi diverse variabile prin cele două opţiuni : Into Different Variables, Into
same variable. Sesizaţi diferenţele dintre cele două proceduri.
18. Selectaţi în diverse baze de date eşantioane de cazuri după dimensiunile dorite. Calculaţi
pentru aceste eşantioane principalele valori statistice şi comparaţi aceste valori cu cele din
eşantioanele de plecare.
19. Cercetaţi şi alte baze de date pe care le găsiţi pe Internet. Analizaţi modul lor de
construcţie şi eventuale analize statistice. Faceţi aplicaţiile de mai sus şi pentru aceste baze.
20. Analizaţi principalele baze de date rezultate din cercetările din România (pe site-ul
www.osf.ro .Faceţi un raport de cercetare plecând de la una din aceste baze.

S-ar putea să vă placă și