Documente Academic
Documente Profesional
Documente Cultură
I. 1. Introducere în SPSS
I. 2. Lucrul cu programul SPSS. Deschiderea unei baze de date
I. 3. Variabile. Elemente de statistică descriptivă
I. 4. Definirea variabilelor în SPSS
I. 5. Introducerea variabilelor şi a datelor în SPSS
I. 6. Elemente de statistică univariată în SPSS
I. 7. Calcule statistice în SPSS
II. Alte proceduri pentru reprezentări grafice în SPSS
III. Notele (cotele) Z
IV. Testarea ipotezelor statistice; praguri de semnificaţie
V. Testarea normalităţii unei distribuţii
VI. Corelaţia dintre două variabile cantitative
VI.1 Coeficientul de variaţie
VI.2 Corelaţie parţială
VI.3 Corelaţia ca metodă neparametrică
VII. Regresia
VII.1. Dreapta de regresie
VIII. Asocierea variabilelor calitative (nominale)
IX. Operaţiuni executate asupra variabilelor şi bazelor de date
X.Teme aplicative
XI. Bibliografie generală
I. 1. Introducere în SPSS
Necesitatea prelucrării unui volum din ce în ce mai mare de date, a unor cercetări de teren
cât mai rapide etc., a impus dezvoltarea unor pachete statistice performante. Au apărut astfel de-a
lungul timpului diverse programe : SAS, SPSS, SPAD, STATA etc., majoritatea oferind
alternative de calcul pentru aceleaşi proceduri statistice de bază. În acest curs vom trece în revistă
o serie de proceduri pe care le utilizează programul SPSS for Windows, varianta 11.5., program
care a fost lansat de către SPSS Inc. Chicago (alte informaţii puteţi afla pe site-ul www.spss.com).
Traducerea liberă a acestor iniţiale este « Statistical Package for Social Sciences ». Odată lansat
programul Windows, dacă SPSS 11.5 este instalat, programul se poate deschide apelând la
pictograma* specifică sau căutând fişierul executabil după comenzile Start→Programs→ SPSS
for Windows→ SPSS 11.5 for Windows :
*
Datorită specificului acestui demers explicativ am renunţat în aceste capitole la numirea şi numerotarea figurilor sau
tabelelor.
În imaginea de mai înainte, în partea superioară se pot observa, ca şi în programele Word sau
Excel trei bare:
-Bara de titlu care poate include numele fişierului după ce va fi salvat
-Bara de meniuri (File, Edit, View, Data etc.)
-Bara cu instrumente (anumite pictograme care sunt de fapt „scurtături” ale unor comenzi
care se găsesc de fapt şi în meniuri).
Mai jos putem identifica un tablou format din linii şi din coloane, tablou numit editor de
date (Data Editor). Pe ecran apare doar o mică parte din acest tablou foarte mare. În acest tabel
identificăm:
-coloanele (care reprezintă variabile statistice)
-liniile (care reprezintă cazuri, persoane supuse cercetării, observaţii)
În partea inferioară de pe ecran apar două etichete care au funcţii apropiate de nominalizarea
foilor de lucru din programul Excel:
File- conţine comenzi pentru citirea, scrierea sau imprimarea tuturor tipurilor de fişiere cu care
operează programul.
Edit- conţine comenzile pentru editarea, modificarea, copierea, căutarea textelor
Data- conţine comenzi pentru definirea variabilelor, inserarea de noi variabile sau cazuri, sortarea,
alipirea, inversarea, agregarea, selectarea bazelor de date
Transform- conţine comenzi pentru transformări ale variabilelor şi ale valorilor lor.
Statistics- meniu cu procedurile statistice disponibile în program
Graphs- conţine procedurile pentru reprezentări grafice diverse
Utilities- conţine comenzi care pot da informaţii despre variabile, pot desemna un set redus de
variabile, organizarea meniurilor.
Window- conţine comenzi care permit lucrul cu ferestrele SPSS
Help- conţine informaţii despre program şi despre procedurile statistice folosite.
I. 2. Lucrul cu programul SPSS. Deschiderea unei baze de date
Obiectul de studiu îl reprezintă bazele de date, fie că ele sunt create sau aduse din alte surse
de către utilizator fie că sunt cele existente deja în cadrul programului. Dacă intenţionăm să
deschidem o astfel de bază de date este necesar să urmăm paşii următori: File→Open→Data după
care apar toate bazele de date din program:
þ Obs: înafară de fişierele de tip *.sav care desemnează bazele de date, SPSS utilizează şi fişiere
de tip *.sps (care conţin varianta scriptică a comenzilor sau fişiere sintaxă) precum şi fişiere de tip
*.spo în care sunt incluse rezultatele cercetării statistice).
Toate tipurile de fişiere de mai înainte apar şi în cazul în care un fişier spss dorim să fie
salvat după comenzile File→ Save As; putem deci hotărî formatul în care va fi salvat. De asemenea
cu comenzile File→Open Database putem să transferăm diverse fişiere iar cu comezile
File→Read Text Data putem transfera în SPSS chiar texte din fişiere tip ASCII Data..
***
Dacă vom alege una din bazele incluse în program şi vom executa dublu clic pe numele acesteia
atunci va apare pe ecran o imagine de tipul următor:
Se observă mai întâi că este afişat numele bazei respective GSS93 subset apoi putem
observa dispunerea pe coloană a unor variabile cum ar fi: id (număr de identificare a individului
care intră în baza de date), wrkstat (statusul ocupaţional), marital (situaţia maritală), agewed
(vârsta la prima căsătorie) etc. După cum se vede fiecare variabilă are un nume prescurtat care
poate include maximum 8 caractere (fără spaţii şi fără anumite semne speciale) iar dacă vom opri
cursorul mausului pe numele unei variabile va apare instantaneu numele pe lung al acesteia (care
se poate extinde până la 256 de caractere). Pentru a obţine informaţii amănunţite despre variabile
putem alege opţiunea Variable view din partea de jos a ferestrei Data Editor. Recomandăm de
asemenea submeniul File→ Display Data Info. Pentru înţelegerea informaţiilor astfel obţinute
sau pentru construirea de noi baze de date trebuie cunoscută în amănunt problematica variabilelor
statistice.
Reluăm aici unele consideraţii făcute într-un curs anterior de statistică descriptivă datorită
utilităţii acestora în cazul de faţă. Aminteam cu acel prilej că în orice cercetare statistică se obţin
date asupra unor caracteristici bine precizate ale unităţilor statistice. Dacă aceste unităţi au unele
caracteristici considerate în cadrul cercetării ca fiind fixe altele sunt considerate ca variind de la o
unitate la alta de unde şi denumirea de variabilă. De exemplu dacă unităţile statistice sunt
reprezentate de cetăţenii români cu drept de vot, între aceştia apar diferenţieri după sex, venit,
apartenenţă religioasă, profesie, nivelul de educaţie, număr de copii, opţiunea politică etc. Toate
acestea din urmă sunt caracteristici sau variabile statistice. Fiecare din aceste variabile se
distinge prin mulţimea valorilor pe care le ia. După cum se vede şi din enumerarea de mai sus
aceste variabile se exprimă prin mărimi total diferite ceea ce a impus clasificarea lor de o manieră
precisă. Astfel, pentru Michèle Colin et al. (1995; 32) variabilele sunt de două feluri:
-calitative (desemnează feluri de a fi: sex, culoarea ochilor, opiniile etc.)
-cantitative (provin dintr-o măsurare: talia, greutatea, vârsta etc.)
În ce priveşte variabilele calitative, acestea pot fi ordonate atunci când iau anumite valori
pe două tipuri de scale:
1). Scală nominală (ex. Sexul poate fi masculin/ feminin; starea civilă poate fi doar într-
una din situaţiile: necăsătorit, căsătorit, văduv, divorţat)
2). Scală ordinală (ex. Răspunsul la întrebarea “Cât de mulţumit sunteţi de şeful dv.
direct?”, răspuns: a). absolut de loc; b). puţin ; c) nici mulţumit, nici nemulţumit d). mult e).foarte
mult.
Diferenţa dintre cele două scale este evidentă. Astfel, în cazul primului tip nu există o
relaţie de ordine iar valorile variabilei sunt exprimate prin cuvinte (de unde şi denumirea de scală
nominală!), cuvinte care nu fac decât să împartă colectivitatea statistică în mai multe grupe sau
categorii. În cel de al doilea caz subiectul care răspunde este rugat să se plaseze singur pe o treaptă
a unei scale care poate fi ascendentă sau descendentă, dar în orice caz este presupusă aici o relaţie
de ordine (fiecare din variantele a, b, c, … este plasată pe un continuum crescător, din care trebuie
aleasă una). Din moment ce ele semnifică o ordine atunci ele pot fi notate şi cu numere naturale ca
în exemplul următor:
Întrebare: ”De câte ori mergeţi la biserica din confesiunea dumneavoastră?”
Răspuns: 1). Cel puţin o dată pe săptămână ; 2). Cel puţin o dată pe lună; 3). Destul de rar ;
4). Practic niciodată.
Acest exemplu l-am dat pentru a aminti, odată cu T. Rotariu [1999; 28] că scala utilizată
se distinge prin folosirea variantelor 1,2,3… dar numai în sens ordinal şi nu pur numeric,
cantitativ. Variantele 1,2,3… generează de fapt tot clase sau categorii de răspunsuri! Precizările
acestea sunt foarte importante pentru a nu se confunda acest tip de variabile cu cele cantitative!
În concluzie se poate face distincţia între variabile calitative nominale şi variabile
calitative ordinale.
Cât priveşte variabilele cantitative, acestea provin dintr-o măsurare efectivă, exprimată
printr-un număr cardinal şi se împart şi ele în două categorii:
-variabile cantitative continui (ex. Înlţimea unei persoane adulte poate fi orice valoare din
intervalul [140, 220] cm.)
-variabile cantitative discrete (ex: o familie poate avea 0, 1, 2, 3, 4,….copii, dar nu şi un
număr exprimat printr-o valoare intermediară ex. 1,5 ; 2,3 etc.)
þ Obs: intuitiv diferenţa dintre cele două tipuri ar putea fi dată de modul cum parcurgem, în
matematică mulţimea R (a numerelor reale) şi mulţimea N (a numerelor naturale)!
Variabilele cantitative uzează de două tipuri de scale:
1). Scală de intervale (ex. gradaţia unui termometru, anul naşterii etc.)
2). Scală de rapoarte (ex. greutatea, salariile, vârsta etc.)
þ Obs : în literatura de specialitate le întâlnim uneori cu nume în limba engleză (interval scale
respectiv ratio scale).
Diferenţa dintre cele două scale este importantă. Astfel, în cazul scalei de intervale gradaţia
de început (ex. 00 Celsius) este convenţională pe când în cazul scalei de raporturi gradaţia de
început este reală (ex. venitul de 0 lei desemnează lipsa oricărei surse financiare). O altă diferenţă
provine din faptul că scala de intervale nu ne permite să stabilim raporturi între valorile unei
variabile (de ex. nu putem spune că la temperatura de 40 0 Celsius este de 40 de ori mai cald decât
la temperatura de 10 Celsius). În cazul celei de-a doua scale se pot stabili aceste raporturi (de ex.
un individ de 100 de Kg. este ce două ori mai greu decât unul de 50 Kg.). Având în vedere că
diferenţele dintre aceste scale sunt imediat percepute rareori pot apare anumite confuzii. Se impune
totuşi precizarea că unii indicatori statistici nu au sens prin folosirea de scale de intervale.
Încercând o recapitulare iată cum arată o tabelare a variabilelor după M. Colin et al. [1995;
34]:
þ Obs. : Există uneori tendinţa de a trata scalele ordinale ca şi scale de intervale. Din cauză că
distanţele între valorile acestor tipuri de scale sunt diferite pot apare însă confuzii. De exemplu
dacă ne referim la o scală ordinală dată de întrebarea « Sunteţi mulţumit de şeful direct ? » cu
răspunsurile posibile : 1. Foarte mulţumit 2. Mulţumit 3. Deloc mulţumit 4. Nu am o părere
formată, se pune problema dacă este legitim să calculăm media aritmetică a valorilor 1-4 ca şi pe o
scală de intervale. Se pune deci problema dacă o medie de 1,75 ne poate îndreptăţi să declarăm că
suntem aproape mulţumiţi de şeful direct ? Fără doar şi poate că o astfel de valoare are o
reprezentare intuitivă însă în sens strict statistic ea poate fi imprecisă. Să presupunem că avem altă
scală ordinală ataşată întrebării « Cîte cărţi de literatură citiţi pe lună ? » : 0. Niciuna 1. O carte 2.
Două cărţi 3. Trei cărţi 4. Patru sau mai multe cărţi. În acest caz o astfel de scală poate fi tratată ca
şi o scală de interval şi deci o medie de, să spunem, 1,5 cărţi ni se pare plauzibilă. Diferenţa de
interpretare apare din faptul că cea de a doua scală ordinală are intervale egale. În fiecare caz
rămâne la latitudinea cercetătorului de a decide interpretarea corectă a datelor.
O distincţie importantă este şi aceea dintre variabile independente şi variabile dependente. Iată
câteva exemple :
După cum se observă sensul legăturii dintre aceste variabile este univoc relaţia inversă
neputînd fi impusă (de exemplu opţiunile electorale nu pot influenţa sexul subiecţilor). Modul cum
sunt desemnate aceste tipuri de variabile diferă de la o cercetare la alta. Prin definiţie variabilele
independente sunt cele care influenţează pe cele dependente, fiind stabilite sau introduse de către
cercetător. În cercetările prin chestionar de obicei se introduce un set de astfel de variabile cu
caracter demografic sau economic în funcţie de care se vor face analize privind celelalte variabile
(întrebări). Legăturile dintre astfel de variabile sunt mai des puse în evidenţă în experimentele
sociologice.
Să presupunem că dorim să construim o nouă bază de date. Pentru aceasta vom urma
comenzile File→New→Data după care apare tabloul gol Data Editor. Vom da apoi dublu clic pe
numele sav care apare în capul primei coloane. Automat se va deschide cel de-al doilea registru
numit Variable view în care putem defini variabilele:
În prima coloană începând din colţul din stânga sus putem introduce numele variabilelor.
Este vorba de numele pe scurt al acestora cu până la opt caractere. Apoi vom caracteriza
respectivele variabile conform indicaţiilor care urmează : Type, Width, Decimals, Label etc.
De data aceasta tabelul conţine pe fiecare linie orizontală câte o variabilă iar pe fiecare
coloană putem caracteriza în amănunt fiecare variabilă. Vom identifica rolul fiecărei coloane:
þ Obs. Name- include numele pe scurt al variabilei de maximum 8 caractere (nu se
folosesc spaţiile goale sau anumite semne speciale : !, ?, *, ‘ ). Se acceptă totuşi simbolul «_»
numit şi underscore.
După ce am introdus numele în prima căsuţă vom da clic în partea dreaptă a celulei
corespunzătoare unei variabile şi care este în coloana cu titulatura Type. Va apare următoarea
fereastră :
Această ferestră conţine tipurile de variabile posibile mai precis tipurile de variabile după valorile
pe care le pot lua acestea :
-Numeric-opţiunea pentru valori numerice; se poate stabili câte cifre au aceste numere, maximum
40 (Width) dar şi cifrele pentru partea zecimală, maximum 16 (Decimal Places). Opţiunile alese
vor apare în următoarele două coloane ale tabloului !
-Comma- sau virgulă folosită uneori la separarea cifrelor de ordinul miilor, milioanelor etc. ; în
acest caz separatorul zecimal este un punct
-Dot- sau punct folosit uneori la separarea cifrelor de ordinul miilor, milioanelor etc. ; în acest caz
separatorul zecimal este un virgula
-Scientific notation- notaţii speciale de tipul 1,2E3 ceea ce înseamnă 1,2*103
-Date-notaţii pentru date calendaristice (conform unui format care poate fi ales).
-Dollar-simbolul monedei americane
-Custom currency- variabilă numerică cu date dispuse după formatul din
Edit→Options→Currency
-String- configurează variabile alfanumerice care pot conţine şiruri de caractere (litere sau
numere). Odată aleasă această opţiune poate fi indicat numarul de caractere ales.
-Values- pot fi numite valorile şi etichetele ataşate acestor valori pentru cazul variabilelor ordinale
sau categoriale. După un clic în partea dreaptă a celulei corespunzătoare din coloana cu acest titlu
va apare fereastra de dialog următoare :
Value dã valoarea numericã a unei
etichete iar Value Label va da
numele etichetei respective. Dupã
aceste operaţii se apasã pe butonul
Add . Opţiunile pot fi apoi schimbate
(Change) sau chiar şterse (Remove).
Iata cum va arãta dupã aceste operaţii
variabila sex cu cele douã alternative
1. masculin, 2. feminin:
Nu uitaţi: la finalul
unor operaţiuni de
acest tip se alege
invariabil OK sau
Continue, altfel
setãrile dorite nu vor
fi preluate de cãtre
program!
- Missing – poate permite operatorului de a desemna valorile lipsă (Missing Values) din cadrul
unei variabile. Pentru inceput, programul are setată opţiunea fără valori lipsă după cum apare în
fereastra următoare :
Se poate
opta
totuşi
pentru
dverse
variante:
În aceste cazuri operatorul poate decide ca în analizele ulterioare valorile de tipul 97 (Nu
ştiu), 98 (Nu răspund) 99 (Nu s-a aplicat) să fie considerate lipsă (missing). De asemenea se poate
decide ca pe lângă valorile cuprinse între 97-99 să mai fie adăugată o valoare din baza de date.
Necesitatea unor astfel de operaţii este imediată : se pot face analize eliminând pe moment anumite
valori spaciale iar apoi se pot analiza separat chiar valorile considerate lipsă. În cazul variabilelor
alfanumerice trebuie consemnat un spaţiu liber în căsuţa Discrete missing values deoarece
programul consideră valide chiar şi celulele goale !
- Columns- se poate decide asupra formatului coloanelor în funcţie de mărimea datelor variabilei
- Align- se poate decide asupra modului cum vor fi aliniate valorile variabilei pe coloane
- Measure- opţiune deosebit de importantă în urma căreia decidem asupra modalităţii de măsurare
a variabilei. Astfel există trei opţiuni :
- Scale- opţiune pentru variabile numerice fie ele măsurate pe scale de interval
sau de rapoarte (ratio) ; asociem această modalitate cu un număr mare de valori
ale variabilei
- Ordinal- de obicei este o opţiune pentru variabile ordinale care au categorii
bine precizate prin etichete numerice şi care pot fi ordonate.
- Nominal- opţiune pentru variabile alfanumerice în care nu există nici o relaţie
de ordine între valori (care pot fi cuvinte dar şi numere).
þ Obs : precizarea corectă a opţiunii measurement este importantă deoarece o serie de proceduri
statistice se referă doar la anumite tipuru de variabile sau valori. Astfel pentru variabile nominale
dintre mărimile tendinţei centrale (media, mediana, modul) nu are sens să calculăm media !
Odată făcute precizările de până acum putem introduce datele în Data Editor ştiind că
fiecare coloană reprezintă o variabilă iar fiecare rînd reprezintă un caz sau o persoană. Să
presupunem că într-un chestionar avem în ordine următorii itemi :
Se observă că am optat pentru tipul numeric variabila având drept valori numere cu până la
trei cifre (Width=3) considerând că au fost interogate de exemplu 800 de persoane. Codul
chestionarului este un număr întreg fără zecimale (Decimals=0), numele pe lung al variabilei este
„Cod chestionar”, măsurarea este de tip Scale.
Definirea variabilei q1_trai trebuie să ţină cont de specificul acesteia prin precizarea etichetelor
respective (se scrie Value: 1, apoi Value Label : „Mult mai bine” apoi Add etc.).
Cea de a treia variabilă este de tip String cu variante de până la 100 de caractere nominale
sau numerice. Modalitatea de măsurare este Nominal.
După aceste operaţii putem salva baza de date cu comenzile File→Save As şi noua bază o
putem numi bazaexemplu. Numele bazei va apare în bara de titlu :
În acest moment putem reveni în fereastra Data View pentru a introduce datele culese din
chestionare. Valorile se introduc în tabel acolo unde celula este activă (apare un chenar în jurul
celulei) apoi se apasă tasta Enter. Să presupunem că am introdus primii zece subiecţi chestionaţi.
Pentru a vedea şi
care sunt etichetele
ataşate valorilor
din coloana a doua
putem urma
comenzile View
Value Label sau
putem da clic pe
butonul de
pe bara cu
instrumente. Dupã
o astfel de operaţie
vor apare în bazã
şi etichetele
respective :
þ Obs. din moment ce bazele de date au fost constituite putem incepe analizele statistice
necesare !
þ Obs. Toate comenzile de pînă acum pot fi executate şi într-un editor de texte sau fişier sintaxă.
Acest fişier care are termninaţia .sps este foarte util când se lucrează frecvent cu baze mari de date
pentru că respectivele instrucţiuni (comenzi) pot fi salvate şi apoi reiterate de câte ori este nevoie.
Ceea ce am întreprins până acum de exemplu putem să regăsim într-un « jurnal » al aplicaţiilor
care poate fi găsit în fişierul spss.jnl din Windows→Temp, fişier care poate fi deschis şi ca
document Word.
Accesând acest document găsim următoarele specificaţii care rezumă de fapt construcţia bazei de
date anterioare:
FREQUENCIES
VARIABLES=age
/STATISTICS=MEAN
/ORDER= ANALYSIS .
În acest volum nu vom insista pe aspecte legate de limbajul sintaxă însă recomandăm pentru cei
interesaţi de exemplu volumul M. Norusis, SPSSx Advanced Statistics Guide, McGraw Hill, 1995.
De asemenea se poate apela la site-ul creatorilor şi proprietarilor programului www.spss.com sau
la Help-ul programului.
6. Elemente de statistică univariată în SPSS
Vom analiza în acest capitol câteva din procedurile statistice elementare pe care le putem
aplica datelor statistice. Să deschidem una din bazele programului anume GSS93 subset (obţinută
în urma unei anchete pe un eşantion de 1500 de subiecţi):
Ne oprim atenţia asupra variabilei educ (Highest year of school completed) ale cărei
caracteristici de bază le putem identifica în fereastra Variable View:
Variabila este considerată având valori numerice cu maximum două cifre, sunt consemnate
trei valori speciale: 97 (NAP, neaplicat) 98 (DK, “don’t know “; “nu ştiu”) şi 99 (NA, “no
answer”, “non-răspuns”). În cazul valorilor lipsă (missing values) sunt consemnate valorile 97, 98,
99. Variabila este considerată ordinală dar din cele spuse mai înainte ea poate fi la fel de bine
considerate variabilă cantitativă discretă.
Pentru această variabilă vom încerca să calculăm principalele valori statistice. Pentru
aceasta vom apela comenzile următoare: Analyse→Descriptive Statistics→Frequencies:
Se va deschide o nouã
fereastrã de dialog care conţine
douã compartimente. Pentru ca
o varibilã sã poate fi analizatã
trebuie trecutã din coloana din
stânga în cea din dreapta cu
ajutorul sãgeţii din mijloc (sau
dublu clic) dupã selectare.
Sãgeata se poate acţiona şi
invers!
Se observă în această fereastră şi alte elemente:
- Display frequency tables- opţiune pentru afişarea tabelului frecvenţelor variabilei; uneori putem
renunţa la acest tabel (prin deselectarea opţiunii)
- OK-comandă finală după ce am ales toate opţiunile de calcul
- Paste- comandă pentru salvarea comenzilor în modul sintaxă
- Reset- comandă pentru anularea setărilor în curs
- Statistics- comandă pentru calculul principalelor valori statistice
- Charts-comandă pentru reprezentări grafice
- Format- opţiuni privind modalităţi de afişare ale rezultatelor
- Help- comandă de ajutor
I. Percentile Values- comandă care împarte mulţimea valorilor statistice în mai multe grupe de
date.
Există mai multe variante:
Quartiles (împărţim mulţimea valorilor în patru părţi egale fiecare câte 25%)
Cut points for 10 equal groups (împăţire în 10 părţi dar pot fi alese mărimi între 2
şi 100)
Percntile(s)- se poate specifica o centilă anume.
II. Dispersion- include comenzi pentru calcule privind analiza variaţiei
Se poate opta pentru Standard Deviation, sau “deviaţia standard” sau “abaterea medie
pătratică”, mărime care ne arată cu cît se abat în medie valorile seriei de la media lor. Formula de
calcul pentru serii cu frecvenţe este cea cunoscută din statistica descriptivă deja parcursă:
∑ (x − x )
2
fi
SD =
i
∑f i
Obs: în cazul unei serii cu distribuţie normală sau care se apropie de o astfel de distribuţie
valorile seriei sunt cuprinse în proporţie de 99% în intervalul [x − 3SD, x + 3SD] .
-Variance-o notăm SD2 este mărimea din care am obţinut deviaţia standard prin extragerea
radicalului. Formula de calcul este sugerată de ridicarea la pătrat a formulei anterioare:
SD 2
=
∑ (x − x )
i
2
fi
∑f i
S.E. Mean-sau “standard error of mean” (eroarea standard a mediei) ne poate arată limitele între
care variză media eşantionului (±) în cadrul unei populaţii de eşantioane. Se ştie că un astfel de
interval este foarte util atunci când aproximăm valoarea mediei dintr-o populaţie. Această valoare
nu este cunoscută decât în urma unor cercetări exhaustive care sunt deosebit de complexe şi
costisitoare. În practică majoritatea estimărilor statistice se fac pe eşantioane iar rezultatele, sub
condiţia reprezentativităţii, sunt apoi inferate (extinse) la populaţia mare din care a fost extras
eşantionul. Dacă notăm media din populaţia mare cu μ, S.E.Mean cu SE şi eroarea limită admisă
cu Δx (Δx=t.SE) putem conchide că, cu o anumită probabilitate, µ ∈ [x − ∆ x , x + ∆ x ] , interval în
care x este media din eşantion. Atragem atenţia că în majoritatea tratatelor de statistică valorile
care se referă la o populaţie statistică sunt notate cu litere greceşti iar cele referitoare la eşantioane
se vor nota cu litere latine.
III. Central Tendency-grup de valori care poartă denumirea de mărimile tendinţei centrale (acele
mărimi care caracterizează îm medie întreaga mulţime a valorilor statistice). Se calculează de
obicei următoarele valori:
x=
∑x i
, pentru serii simple şi x =
∑x f i i
, pentru serii cu frecvenţe
n ∑f i
-Median-sau mediana (Me) reprezintă valoarea ataşată individului sau cazului care
împarte milţimea statistică în două părţi egale. Se citeşte astfel: 50% din valorile seriei sunt mai
mici decât Me, iar restul de 50% au valori care depăşesc Me. După cum se ştie această mărime se
identifică uşor într-o serie simplă, la mijlocul acesteia, după ce am ordonat valorile respective.
Pentru o serie cu intervale se foloseşte formula:
U me − ∑ f ia
Me = x0 + d , formulă în care x0 este limita inferioară a
fm
intervalului median, d mărimea acelui interval, ∑ f ia este frecvenţa cumulată anterioară
intervalului median, iar fm este frecvenţa corespunzătoare acelui interval.
-Mode-sau modul (dominanta), notat Mo, reprezintă cea mai des întâlnită valoare dintr-o
serie statistică sau valoarea care are cea mai mare frecvenţă. Pentru o serie simplă este uşor de
identificat iar pentru serii cu frecvenţe se foloseşte formula:
∆1
Mo = x0 + d , formula în care x0 este limita inferioară a intervalului
∆1 + ∆ 2
modal (corespunzător celei mai mari frecvenţe), d este mărimea respectivului interval, Δ1 şi Δ2
sunt diferenţele obţinute prin scăderea din frecvenţa intervalului modal a frecvenţelor anterioară şi
posterioară acesteia.
IV. Distribution- valori care se referă la forma distribuţiei statistice. Cuprinde duă tipuri de valori:
skewness (asimetria) şi kurtosis (aplatizarea).
Asimetria se referă la măsura în care graficul (distribuţia) valorilor este asimetric spre
stînga sau spre dreapta faţă de valoarea medie. Pentru un coefficient, să îl notăm sk (de fapt
coeficientul Pearson de oblicitate) putem avea valorile:
Obs1. Valorile sk şi k sunt considerate normale dacă se încadrează în intervalul [-1,96; 1,96].
Obs2. Precizăm că o curbă normală este binecunoscuta distribuţie gaussiană, în formă de clopot,
perfect simetrică şi care se bucură de o serie de proprietăţi fundamentale pentru cercetarea
statistică. Recomandă şi parcurgerea bibliografiei de la sfârşitul cursului pentru alte informaţii.
V. Values are group midpoints-opţiune utilizată când valorile seriei sunt grupate simetric în jurul
unei valori anumite.
7. Calcule statistice în SPSS
Toate mărimile precizate pot fi calculate în cazul unei variabile cantitative numerice. Vom seta
toate variantele repective vom da OK şi vom obţine rezultatele într-o altă fereastră Output1
(specifică afişării rezultatelor şi care poate fi salvată ca şi un fişier de tip *.spo):
Dacă apelăm la butonul Charts din aceeaşi fereastră putem reprezenta graphic seria după ce am
ales setările care se potrivesc seriei noastre, din fereastra următoare:
Se observã cã am ales Graficul de tip Histogramã care
este specific variabilelor cantitative. Am ales şi
varianta With normal curve deoarece prin comparaţie
se poate stabili şi tendinţa distribuţiei spre o curbã
normalã. Se pot alege şi alte tipuri de grafice: Bar
Charts (grafic cu bare) sau Pie charts (grafic de tip
placintã). Ultimele douã tipuri de grafice sunt
recomandate atunci când variabilele sunt categoriale
pentru o mai bunã vizualizare a acestora (se recomandã
ca numãrul categoriilor sã nu fie foarte mare pentru a
se pãstra lizibilitatea). Pentru aceste grafice existã şi
douã opţiuni: Frequencies şi Percentages.
După apelarea butonului Continue graficul va apare tot în fereastra de rezultate Output1:
Highest Year of School Completed
700
În aceeaşi fereastră Output1 vom găsi şi tabelul frecvenţelor după cum urmează:
Ultima coloană ajută la lectura mai rapidă a datelor statistice. De exemplu putem citi că 70% dintre
respondenţii cu răspunsuri valide au până în 14 ani de şcoală.
Vom căuta să calculăm principalele valori statistice şi pentru o variabilă categorială (fie ea
ordinală sau nominală). Pentru acest exerciţiu vom apela la o altă bază de date BOP_mai-
2003_Gallup FINAL.sav bază constituită în urma anchetei la nivel naţional intitulată Barometru de
opinie. Această bază poate fi descărcată de pe site-ul www.osf.ro. Iată cum arată o porţiune din
acastă bază:
Variabila a12 este o variabilă ordinală şi reprezintă întrebarea „Cum este viaţa dvs. în
prezent comparativ cu cea de acum un an?”. Această întrebare avea variantele de răspuns: 1. Mult
mai bună 2. Mai bună 3. Aproximativ la fel 4. Mai proastă 5. Mult mai proastă 8. NS 9. NR. Să
calculăm principalele valori statistice şi să reprezentăm grafic seria. Vom urma comenzile
Analyze→Descriptive statistics→Frequencies:
De data aceasta valorile statistice care ne interesează sunt mult mai puţine datorită variabilei care
este calitativă. Foarte util în acest caz este şi tabelul frecvenţelor care este setat în prima fereastră.
Graficul va fi de tipul Pie charts. Rezultatele le obţinem tot în Output1:
Statistics Se deduce din acest tabel cã sunt 2100 de rãspunsuri
Cum este viaþa dvs. în prezent (chestionare) valide şi nu sunt cazuri lipsã (missing).
comparativ cu cea de acum un an?
Mediana este 3 deci jumãtate din respondenţi au
N Valid 2100
rãspunsuri cel mult cu valoarea „aproximativ la fel”. Cel
Missing 0
Median 3.00
mai des întâlnit rãspunds este tot 3 adicã „aproximativ la
Mode 3
fel”. La fel se pot comenta şi quartilele. Se observã cã în
Percentiles 25 3.00 acest caz media aritmeticã nu avea nici un sens chiar
50 3.00 dacã ar fi fost calculatã. Mai explicit este însã tabelul
75 4.00 frecvenţelor:
Cumulative
Frequency Percent Valid Percent Percent
Valid mult mai bunã 21 1.0 1.0 1.0
mai bunã 308 14.7 14.7 15.7
aproximativ la fel 933 44.4 44.4 60.1
mai proastã 656 31.2 31.2 91.3
mult mai proastã 163 7.8 7.8 99.1
NS 12 .6 .6 99.7
NR 7 .3 .3 100.0
Total 2100 100.0 100.0
þ Obs: o bună parte dn valorile statistice calculate pentru o variabilă sau mai multe se pot obţine
şi dacă apelăm la comenzile Analyze→Descriptive Statistics→Descriptives iar valorile
respective le putem alege din meniul Options.
II. Alte proceduri pentru reprezentări grafice în SPSS
Să presupunem că vrem să facem histograma variabilei loc4 [Care este suprafaţa totală
(în metri pătraţi) a camerelor (fără baie, bucătărie, hol) pe care le ocupă gospodăria
dumneavoastră?].
Vom trece variabila din stânga în dreapta, putem seta opţiunea Display normal curve, de
asemenea putem să căutăm un titlu adecvat graficului:
Suprafata totala
800
600
400
200
Std. Dev = 32.24
Mean = 53.0
0 N = 2100.00
0.
40
80
12
16
20
24
28
32
36
40
0
.0
.0
0.
0.
0.
0.
0.
0.
0.
0.
0
Care este suprafaþa totalã (în metri pãtraþi) a camerelor (fãrã baie, bu
Din acelaşi meniu Graphs putem obţine pentru graficele de
tip Bar Charts o serie de reprezentări mai sugestive. Vom
încerca să reprezentăm grafic altă variabilă scoala0 [Ultima
scoala absolvită?] din baza BOP_mai-2003_Gallup
FINAL.sav. Ne propunem să reprezentăm această variabilă
ţinând cont de venitul respondenţilor. Vom deschide
fereastra necesară după comenzile Graphs→Bar. Din
această fereastră vom păstra opţiunea Simple care este
potrivită situaţiei noastre deoarece există o singură variabilă
independentă scoala0. Din partea de jos vom lăsa setarea
Summaries for groups of cases (barele reprezintă grupuri
de cazuri). Clic pe butonul Define:
7
butonul Options se va dezactiva
comanda Display groups defined
6
6 by missing values!
5
4 4
4 Valorile de pe axa OY reprezintă
3
3
3
mediile veniturilor în milioane lei
2 2
în luna aprilie 2003. Se observă
1
1
1
1 din grafic modul cum influenţează
1 1
0
variabila independentă „studii”
fã
pr
gi
ºc
tre
lic
ºc
un
un
st
N
R
m
ud
rã
im
oa
oa
iv
ap
u
na
er
er
ii
ar
la
lã
ºc
ta
(9
po
zi
si
si
oa
pr
po
(1
Id
al
ta
ta
s
of
lã
-4
st
tu
r
r
(
1
es
5
de
de
ni
2
lic
cl
-8
ce )
i
ve
on
c
as
eu
sc
lu
la
al
rs
ng
cl
al
e)
ur
ã
(
i
a
e
ã
t
t
5.5
5.0
4.5
4.0
3.5
3.0
2.5
2.0
Mean
1.5
În luna trecutã (apr Dar venitul dvs. per
Obs: scala folosită pe axa OY poate crea impresia unei disproporţii prea mari între mediile
celor două variabile. Respectiva scală poate fi modificată după ce am dat dublu clic pe grafic şi
am intrat în fereastra Graph1 vom urma comenzile Chart→Axis→Scale după care vom
modifica în opţiunea Range limitele axei OY. Iată cum arată după o astfel de modificare
acelaşi grafic:
3.0
2.5
2.0
Media veniturilor
1.5
În luna trecutã (apr Dar venitul dvs. per
O altă variantă de reprezentare grafică şi care este foarte des uzitată este dată de opţiunea
reprezentării de tip cluster (apar grupuri de bare care se pot compara mai uşor). De exemplu
ne-ar interesa repartiţia din eşantionul folosit în aceeaşi cercetare după variabila scoala0 dar în
funcţie de sexul respondenţilor. Vom alege de data aceasta comenzile Charts→Bar
Charts→Clustered iar opţiunea Summaries for groups of cases rămâne neschimbată. După
Define apare fereastra:
Observăm că pentru axa
OX am ales aceeaşi
variabilă iar variabila care
dictează dispunerea
cluster este varibila sex.
Frecvenţele vor reprezenta
efectiv numărul de
subiecţi (N of cases). Din
Option am deselectat
opţiunea Display groups
defined by missing values!
Graficul este următorul:
400
300
200
Genul (respondent)
100
masculin
Count
0 feminin
fã
pr
gi
ºc
tre
lic
ºc 9
un
un
st
NR
m
ud
r
im
oa
e
ive st-l cl
ive r d
ã
ap
al
u
na
ii
ar
lã 1
ºc
ta
rs
rs
po
zi
o
pr
p
(
ita e alse
ita scu
I d n al
al
1-
al
o 2
st
of
ã
rd
(5
un gã
4
es la
l ic
cla
e
ic a
ive
-8
io
eu
lu
se
rs
n
c
ã)
(
it
)
rt
ã
fã
pr
gi
ºc
tre
lic
ºc
un
un
st
N
R
m
ud
rã
im
oa
oa
eu
iv
iv
ap
na
er
er
ii
ar
la
lã
ºc
ta
(9
po
zi
si
si
oa
pr
po
(1
Id
al
ta
ta
st
of
lã
-4
st
rd
rd
(5
un
12
es
-li
lic
cl
iv
-8
ce
io
cla
as
eu
sc
lu
er
na
al
ng
cla
se
e)
si
ur
ã
(
lã
t
t
ã
)
Ultima ºcoalã absolvitã (respondent)
Un alt tip de graphic este cel numit „box-plot” şi care este foarte util în a depista distribuţia
valorilor seriei dar şi dispunerea valorilor (scorurilor) extreme ale variabilei. Acest tip de
graphic se mai numeşte cutia cu mustăţi şi are următoarea conformaţie:
Mediana
Mustaţi
Lungimea
cutiei Quartila3
Quartila 1
În cazul acestui grafic 50% din date sunt în interiorul cutiei (care are bazele la 25% şi la 75%
din date adică la quartilele 1 şi 3). Mustăţile pot avea o lungime de până la 1,5 lăţimi ale cutiei.
Valorile care cad înafara limitelor (desemnate prin drepte orizontale la capătul „mustăţilor” şi
numite uneori valori adiacente) se numesc valori extreme. Valorile adiacente se obţin scăzând
din Q1 lungimea cutiei înmulţită cu 1,5 şi adunînd la Q3 aceeaşi distanţă. Dacă o valoare
extremă este mai îndepărtată de trei lungimi de cutie atunci este reprezentată printr-o steluţă
marcată şi cu numărul cazului respectiv. Dacă mustăţile sunt egale distribuţia tinde la una
normală. Dacă mustaţă superioară este mai mică distribuşia este alungită spre stânga.
Să reprezentăm grafic variabila babymort din baza de date word95. Vom urma
comenzile Graphs→Boxplot:
În această fereastră vom seta opţiunile Simple şi
Summaries of separate variables. Apoi vom acţiona
butonul Define. În noua fereastră am selectat şi mutat
variabila babymort şi de asemenea am considerat
variabila country prin intermediul căreia se pot eticheta
cazurile speciale (extreme). Din butonul Option putem
alege o variantă referitoare la valorile lipsă.
-100
N= 109
Obs1: dacă cutia este situată mai jos distribuţia este alungită spre dreapta şi există o
concentrare a valorilor mici în partea stângă.
Obs2: daca linia medianei este exact în mijlocul cutiei atunci distribuţia este normală
O altă analiză grafică importantă se poate face cu ajutorul comenzilor Analyze→Descriptive
Statistics→Explore:
Am
Amtrecut
trecutvariabila
variabilade
deinters
interes
în sectorul Dependent List şi
apoi vom alege anumite
opţiuni din cele două butoane
Statistics şi Plots. Se pot seta
elemente de statistică
descriptivă, intervalul de
încredere pentru medie, lista
cu primele/ultimele valori din
serie, percentilele 5, 10, 25,
50, 75, 90, 95. De asemenea se
pot alege graficele histograma
şi graficul de tip stem-and-
leaf. Acest graphic este expus
mai jos:
Opţiunea Factor levels together ajută la compararea categoriilor variabilei independente iar
opţiunea Dependent together ajută la comparări între mai multe variabile sau între mai multe
situaţii în timp ale aceleeaşi variabile.
28.00 0 . 4455555666666666777778888899
13.00 1 . 0122223467799
16.00 2 . 0001123555577788
8.00 3 . 45567999
6.00 4 . 135679
9.00 5 . 011222347 Acest tip de grafic că şi box plotul a fost
5.00 6 . 03678 propus de către Kohn W. Tukey şi este
7.00 7 . 4556679 asemănător histogramei. În primul rind
1.00 8 . 5
1.00 9 . 4
sunt 28 de ţări care au babymort egal cu
4.00 10 . 1569 4,4,5,5....Pe al doilea rînd sunt valorile 10,
7.00 11 . 0022378 12, 12, 12....Similitudinea cu histograma
2.00 12 . 46 este vizibilă. Dispunerea se face după
1.00 13 . 7 trunchi (stem) cu valorile 0,1,2,3....şi
1.00 Extremes (>=168)
frunzele (leaf) dispuse în partea dreaptă a
Stem width: 10.0 graficului.
Each leaf: 1 case(s)
Un alt grafic deosebit de util în cercetarea statistică este cel denumit Error Bar Chart
şi care e destinat variabilelor numerice. Cu ajutorul acestuia putem reprezenta intervalul de
încredere pe care îl putem estima pentru media dintr-o populaţie. După cum se ştie atunci când
extindem rezultatele de la un eşantion la o populaţie întreagă suntem într-o situaţie de tipul
următor:
Să facem graficul pentru variabila vensub (venitul subiectului) din baza de date
BOP_mai-2003_Gallup. Alegem comenzile Graphs→Error Bar:
50
40‰ (adică 40 de copii cu vârsta de
pînă un an decedaţi la 1000 de
născuţi vii). Oricum şi această cifră
25 este ridicată. Statele dezvoltate din
punct de vedere economic au cifra de
sub 10‰.
0
40.0 80.0 120.0 160.0
7−5 9−6
Z1 = =2 Z2 = = 1,5
2 2
Din aceste valori deducem că la prima materie studentul se abate de la media grupei cu
două abateri standard iar la cea de a doua materie se abate de la media grupei cu 1,5 abateri
standard. Înseamnă că el se abate în primul caz cu 2 puncte iar în al doilea cu 3 puncte, de unde
rezultă că la prima materie studentul este mai bine plasat. Deoarece datele provin de la aceeaşi
colectivitate atunci cele două note Z pot fi cumulate: (2+1,5)/2=1,75 care poate da o poziţie în
ansamblu. O aplicaţie importantă a variabilei Z o găsim în diverse probleme care impun totuşi
utilizarea tablei legii normale (afişată în orice carte de statistică).
Pentru a înţelege astfel de aplicaţii să dăm un alt exemplu, după M. Colin et alii [1995]:
într-o universitate rezultatele obţinute la un test se distribuie după o lege normală cu m=75 şi
σ=8. Dacă luăm un student la întâmplare care sunt şansele ca el să aibă un rezultat cuprins între
75 şi 95 ?
Dacă am reprezenta grafic această serie atunci ea ar fi de forma următoare:
m-3σ m-2σ m-σ m m+σ m+2σ m+3σ
51 59 67 75 83 91 99
Fiind o distribuţie normală putem spune că 68,26% din rezultatele la examen se găsesc
între [59; 91] etc. Acest grafic poate fi reprezentat şi în cote Z.
Dacă am reprezenta grafic această serie atunci ea ar fi de forma următoare:
-3 -2 -1 0 1 2 3
Vom calcula cotele Z pentru principalele valori din problemă:
Zm=( 75-75)/8 = 0 Z 1 = (X – 75) / 8 Z2= (95 –75)/ 8= 2,50
Dacă rezumăm pe scurt problema noastră cu enunţul P (75< X < 95) [a se citi
probabilitatea …] atunci în limbajul notelor Z acest enunţ devine P (0< Z < 2,50) .
Căutând în tabelul legii normale [vezi tabelul de pe pagina următoare ; în acest tabel
sunt date doar valorile pozitive, cele negative find simetrice vor fi considerate cu semnul
minus] se găseşte valoarea 0,4938 care reprezintă proporţia din suprafaţa delimitată de către
curba normală, axa OX şi perpendicularele ridicate în punctele 0 şi 2,5. Această valoare se
poate scrie şi 49,38 % şi reprezintă chiar probabilitatea căutată: sunt 49,38 % şanse ca
studentul respectiv să aibă calificativul cuprins între 75 şi 95. Practic s-a făcut următorul
transfer:
făcut următorul transfer:
49,38
49,38
75 95 0 2,5
Obs1 : din tabelul următor atragem atenţia şi asupra valorii corespunzătoare lui z=1.96 care
este de 0,4750 valoare pe care dacă o multiplicăm cu doi rezultă 0.95. Citim că la un nivel de
95% încredere z=1,96. La fel raţionăm şi pentru o altă valoare importanta z=2,58!
În cazul variabilei zsalary vom putea să comentăm în ce măsură anumite valori sunt
mici, mari sau medii. De exemplu subiectul nr.1 cu un salar mediu anual de 57.000$ are un
scor z de 1,32 ceea ce semnifică o valoare mare printre valorile seriei. Valoare salariului se
abate 1,32 abateri standard de la media salarială.
Observaţie : în general metodele grafice sunt foarte utile pentru analiza prealabilă a datelor.
Astfel, înainte de a se trece la analiza propriu-zisă a datelor pe care le-am inserat în Data
Editor trebuie să avem mai întâi o imagine generală asupra variabilelor. După cum am văzut în
submeniul Explore putem să obţinem o imagine de ansamblu a variabilelor şi reprezentarea
grafică a acestora. Prin aceste proceduri putem evita greşelile inerente: greşeli de înregistrare,
greşeli date de necunoaşterea distribuţiei variabilei, greşeli generate de cazurile lipsă (există
diverse opţiuni cum ar fi Exclude cases pairwise- când un caz nu are o valoare pentru o
anumită variabilă este exclus din analiză) etc. Informaţii la fel de importante pot fi obţinute şi
din submeniul Descriptive.
IV. Testarea ipotezelor statistice; praguri de semnificaţie
În general majoritatea raţionamentelor umane sunt alcătuite din combinaţii de două sau
mai multe variabile. Este şi cazul ipotezelor statistice care nu sunt altceva decât aserţiuni
privind diverse fenomene naturale sau sociale, aserţiuni pe care la facem în vederea testării lor
ulterioare. O ipoteză statistică este de obicei compusă dintr-un cuplu de două enunţuri:
-H0 (ipoteza de nul) şi
-H1 (ipoteza de lucru).
Primul enunţ H0 descrie, de obicei (dar nu e obligatoriu!) situaţia când o anumită variabilă sau
fenomen nu este prezentă sau nu acţionează (sau că, de exemplu, nu există o diferenţă
semnificativă între două condiţii). Este ca şi cum am spune că un anumit lucru dacă se întâmplă
este doar rodul întâmplării. Ipoteza de nul este tocmai cea care este testată.
Al doilea enunţ H1 descrie situaţia contrară enunţului H0 când o variabilă sau fenomen
acţionează şi are o influenţă semnificativă:
Exemple: H1: sexul respondenţilor influenţează părerea acestora despre impozite.
H0: opinia despre impozite nu este influenţată de sexul respondenţilor.
H1: autoturismul Dacia este mai bun ca unul din import
H0: autoturismul Dacia este la fel de bun ca unul din import.
Din astfel de exemple deducem că în analiza statistică suntem nevoiţi fie să acceptăm H0 fie pe
H1, deoarece ambele sunt disjunctive. Un astfel de raţionament se va face întotdeauna în
termeni de prag de semnificaţie (sau interval de încredere) pentru că în realitate orice
presupoziţie statistică se face cu o anumită marjă de eroare, cu o anumită şansă de a ne înşela.
De exemplu când vorbim de un prag de semnificaţie (notat p) de 0.05 spunem de fapt că sunt
5% şanse să ne înşelăm atunci cînd facem o anumită aserţiune statistică (iar în “oglindă”
spunem că sunt 95% şanse să nu ne înşelăm când facem respectivul raţionament). La fel, când
vorbim de un prag de semnificaţie de 0,01 spunem că sunt 1% şanse să ne înşelăm (sau 99%
şanse să nu ne înşelăm). Evident că în cel de al doilea caz gradul de siguranţă este mai mare.
Şi în cazul testării ipotezelor intervin astfel de precizări. Astfel că vorbim de un prag de
semnificaţie de 0.05 în sensul că “sunt 5% şanse de a ne înşela atunci cînd acceptăm ipoteza de
lucru H1 (sau respingem ipoteza de nul H0)”. În majoritatea cercetărilor este acceptat un prag
maxim de 0.05 sau p ≤ 0.05 dar se întâlnesc şi praguri mai mari decât 0.05 (întotdeauna aceste
praguri trebuie amintite pentru a se clarifica gradul de precizie dorit de cercetător).
Trebuie să precizăm că există posibilitatea să ne înşelăm chiar şi în aceste condiţii.
Adică de exemplu să acceptăm o ipoteză de lucru pentru că toate datele statistice o confirmă
dar, în esenţă, acea ipoteză să fie totuşi falsă. În general se pot comite două feluri de erori:
Eroare de gradul I: respingem ipoteza nulă deşi este adevărată
Eroare de gradul II: ipoteza nulă este acceptată deşi este falsă.
Aceste două tipuri de erori sunt complet diferite: eroarea de gradul I este considerată mai gravă
şi tocmai de aceea se cere să micşorăm pe cât posibil pragul de semnificaţie. Unii cercetători
recomandă aici un prag p ≤ 0.01 cu atât mai mult cu cât influenţa cercetătorului poate fi
importantă. În cel de-al doilea caz gradul de influenţă al cercetătorului este redusă şi se
recomandă un prag p ≤ 0.05. Legat de aceste erori sunt folosite în statistică noţiunile de putere
- sau probabilitatea de a respinge ipoteza nulă când de fapt ea este adevărată ; pentru o analiză
pe larg a acestei problematici a se vedea C.Coman, N. Medianu (2002 ; pp. 144 şi urm).
Ipotezele statistice sunt testate prin teste statistice. De obicei testul statistic desemnează
o comparaţie între o situaţie presupusă şi una rezultată în urma cercetării de teren efective.
Comparaţiile în statistica socială sunt foarte diverse: fie se fac observaţii pe o singură variabilă,
fie se compară valori din două eşantioane, fie se compară valorile dintr-un eşantion cu valorile
unei populaţii mai extinse, fie se analizează diverse situaţii experimentale etc. În general în
testarea ipotezelor se urmăreşte o anumită direcţie, un anumit sens al legăturilor.Din acest
punct de vedere sunt două tipuri de raţionamente: one-tailed (unilateral) şi two-tailed
(bilateral)! One-tailed este utilizat atunci când se cunoaşte dinainte sensul predicţiei statistice
iar varianta two- tailed este preferată atunci când nu se cunoaşte „în avans” sensul predicţiei.
O altă precizare importantă este aceea că sunt două tipuri fundamentale de teste
statistice: parametrice şi non-parametrice. Testele parametrice sunt considerate mai puternice
dar pentru aceasta trebuie să fie îndeplinite mai multe condiţii importante:
- populaţia din care a fost extras eşantionul să aibă o distribuţie normală (distribuţia
normală trebuie să se regăsească şi în eşantion altfel se pot face anumite transformări pentru a
se ajunge la o distribuţie normală)
-regula omogenităţii varianţei (dintre cea din eşantion şi cea din populaţie)
-în majoritatea cazurilor variabilele trebuie să fie măsurate pe scale de interval.
-nu trebuie să existe scoruri extreme (metodele parametrice sunt sensibile în astfel de
situaţii).
Dacă testele parametrice folosesc metode numerice cele ne-parametrice folosesc
poziţiile pe care valorile le au în cadrul variabilelor. Nefiind vulnerabile la valori extreme unii
statisticieni vorbesc de o mai mare stabilitate a acestor teste.
In funcţie de aceste precizări se recomandă folosirea unor teste diverse în funcţie de necesităţi.
Din multele tipuri de clasificări redăm una dintre ele consemnată de Christine P. Dancey şi J.
Reidy (1999) [vezi tabelul următor]. Spaţiul limitat al acestui curs nu permite însă decât
parcurgerea a câtorva proceduri din acest tabel.
Obs: 1.Testele incluse în tabelul respectiv reprezintă modalităţi de analiză a legăturii dintre
variabile. Se disting astfel metode parametrice dar şi neparametrice de studiu a acestor legături.
2. Testarea diferenţei între două condiţii reprezintă o modalitate foarte răspîndită de
analiză. De exemplu putem analiza care este influenţa unei sesiuni de comunicari pentru
studenţii la sociologie. Probabil că cei ce parcurg sesiunea respectivă vor avea cunoştinţe mai
bune. Pentru a testa acest lucru putem dispune de două tehnici principale:
A. Se compară două grupuri diferite de studenţi (alocaţi aleator) unul care parcurge
respectiva sesiune şi unul care nu urmează acea sesiune, apoi se compară rezultatele unei
examinări. Acest tip de analiză se numeşte between participants design (rezultatele vin de la
două grupuri).
B. Se compară un singur grup care trece prin cele două condiţii, odată fără să parcurgă
sesiunea respectivă iar a doua oară după parcurgerea acesteia. Rezultatele unor examinări
succesive vor decide care este influenţa urmării sesiunii. Acest tip de analiză se numeşte
within participant design (rezultatele vin de la acelaşi grup).
In fapt compararea între condiţii înseamnă compararea unor medii şi dacă diferenţa
dintre aceste medii este semnificativă. Testele folosite în aceste cazuri trebuie să răspundă la o
întrebare importantă: este diferenţa dată de erori de eşantionare sau cu adevărat se manifestă
influenţa unei variabile independente cu efecte importante în variaţia variabilei dependente?
Nivel al Tip de statistică descriptivă Tipuri de statistică inferenţială
măsurării
Teste de Teste ale Teste ale diferenţei Teste referitoare la
corelatie/asociere diferentei intre mai mult de două două sau mai multe
două condiţii condiţii var. Independ. Sau
asupra unei var. asupra unei var. var. depend
Independ. independente
Nominal Mode Testul χ 2 pentru
independenţă
Within- Within-
Scala
poate fi NU Mediana participants participants
de /modul TestWilcoxon Friedman
Ordinal
interval? Spearman ( ρ ) ANOVA
Between-
DA participants Between-
DA Mann participants
Whitney U Kruskal-
Test Wallace one
way ANOVA
Within-
Aveţi NU participants
valori Related t-test
extreme? NU Media
Coeficientul lui Between- One way Factorial
Interval/ratio Pearson participants ANOVA ANOVA
Sunt indeplinite Independent t- Multivariate
condiţiile test ANOVA
parametrice?
DA
V. Testarea normalităţii unei distribuţii
-1
coincidenţa perfectă dintre cele două
-2
grafice. În concluzie se recomandă în
astfel de cazuri folosirea testelor non-
-3 parametrice.
-100 0 100 200 300
Observed Value
þ Obs: În aplicarea testului de mai sus am ţinut seama şi de mărimea eşantionului. Astfel se
consideră că testul K.-Smirnov este valabil când eşantionul>50 de subiecţi. Dacă eşantionul
este mai mic atunci se aplică testul W al lui Shapiro-Wilks. Programul SPSS calculează oricum
automat ambele teste. Formularea în sensul ipotezelor statistice ar fi următoarea: Ho: “între
distribuţia variabilei şi cea teoretică nu este o diferenţă semnificativă” iar H1: “între cele două
distribuţii există o diferenţă semnificativă”. Dacă p<0.05 atunci respingem ipoteza de nul şi o
admitem pe cea de lucru.
VI. Corelaţia dintre două variabile cantitative
r=
∑ (x i − x )( yi − y )
.
nSD x SD y
Din formulă se vede că la numitor avem suma tuturor produselor distanţelor valorilor din cele
două serii de la mediile respective iar la numitor produsul dintre numărul de cazuri (n) şi cele
două abateri standard din cele două serii. Fiind aşadar un test parametric (luând în calcul în
mod direct toate valorile seriilor) calcularea acestui coeficient trebuie să ţină seama de
condiţiile din acest caz [A. Field, 2000; 37]:
1.Asumţia distribuţiei normale [datele trebuie să provină din populaţii normal
distribuite (se poate verifica acest lucru cu testul K.-Smirnov)],
2. Asumţia omogenităţii varianţei [varianţele din cele două variabile trebuie să fie
stabile la orice nivel],
3. Asumţia scalei de măsurare (scala de măsurare trebuie să fie cea de interval)
4. Asumţia independenţei (subiecţii de la care s-au obţinut valorile respective să fie
independenţi unul de altul).
Coeficientul de corelaţie este întotdeauna cuprins în intervalul [-1, +1] înţelegând prin aceasta
toate valorile reale din acest interval. Interpretarea valorilor este următoarea:
) )
) )
)
r→1 r→ -1 r→0
120000
20000
0
0 20000 40000 60000 80000 100000
Beginning Salary
Acestea fiind spuse putem calcula coeficientul de corelaţie după alegerea comenzilor:
Analyze→Correlate→Bivariate:
Varibilele de interes le-am trecut din
coloana din stânga în dreapta.
Coeficientul de corelaţie Pearson este
setat prin definiţie ceilalţi doi
coeficienţi fiind metode neparametrice
de calcul. Testele de semnificaţie
implicate sunt de două feluri: two-
tailed (este folosit atunci când nu
putem prezice natura legăturii dintre
variabile şi este recomandat pentru mai
multă siguranţă); one-tailed (este
folosit când avem o ipoteză
direcţională sau putem prezice sensul
legăturii). Opţiunea Flag... va asigura
prezentarea datelor legate de pragul de
semnificaţie. Din butonul Option
putem alege elemente de statistică
descriptivă dar şi modalităţi de lucru în
cazul valorilor lipsă:
Exclude cases pairwise- elimină
perechile de rezultate pentru care una
din valori lipseşte. Această opţiune
este mai des întâlnită.
Exclude cases listwise- elimină din
analiză un rând întreg dacă lipseşte
doar una dintre valori. După Continue
obţinem rezultatul următor:
Correlations
Beginning
Salary Current Salary
Beginning Salary Pearson Correlation 1 .880**
Sig. (2-tailed) . .000
N 474 474
Current Salary Pearson Correlation .880** 1
Sig. (2-tailed) .000 .
N 474 474
**. Correlation is significant at the 0.01 level (2-tailed).
Correlations
Beginning Educational
Salary Current Salary Level (years)
Beginning Salary Pearson Correlation 1 .880** .633**
Sig. (2-tailed) . .000 .000
N 474 474 474
Current Salary Pearson Correlation .880** 1 .661**
Sig. (2-tailed) .000 . .000
N 474 474 474
Educational Level (years) Pearson Correlation .633** .661** 1
Sig. (2-tailed) .000 .000 .
N 474 474 474
**. Correlation is significant at the 0.01 level (2-tailed).
*
O analiză deosebit de importantă priveşte limitele de încredere pentru coeficientul de corelaţie (sau a estimării
corelaţiei la nivelul întregii populaţii din care provine eşantionul studiat !). A se vedea pe larg în M. Popa,
Statistică psihologică, Ed. Universităţii Bucureşti, 2004, pp. 100-102
Rezultatele se interpretează două câte două excluzând prima diagonală unde corelaţiile sunt
perfecte! În unele analize nu este prezentată decât partea de deasupra sau de dedesuptul acestei
diagonale!
70%
15%
15%
Cu cât suprafaţă intersecţiei este mai mare cu atât varianţa comun împărtăşită este mai mare. In
cazul nostru dacă am nota suprafaţă intersecţiei cu 100% putem deduce că aproximativ 70%
este varianţă comună restul de 30% nefiind comună. Varianţa comună ne dă o informaţie
despre dependenţa dintre variabile: putem spune că 70% din varianţa unei variabile depinde de
varianţa celeilalte (altfel spus cât la sută din variaţia unei variabile se explică prin variaţia
celeilalte) iar 15% nu este varianţă împărtăşită sau este datorată influenţei altor variabile. În
general varianţa comună este calculată prin ridicarea la pătrat a coeficientului de corelaţie dar
se interpretează procentual. Se obţin astfel valorile următoare [adaptat după Ch. P. Dancey şi J.
Reidy (1999)]:
Coeficientul de Pătratul coeficientului Procentul varianţei
corelaţie r2 comun împărtăşite Se observă că de exemplu o
r corelaţie care este foarte
0.0 0.00 0% puternică de 0,8 desemnează
0.1 0.01 1% doar 64% din varianţă
0.2 0.04 4% comună. De asemenea se
0.3 0.09 5% observă că o corelaţie de 0.8
0.4 0.16 16% este în realitate de patru ori
0.5 0.25 25% mai puternică decât o
0.6 0.36 36% corelaţie de 0.4 (varianţa
0.7 0.49 49% comună creşte de la 16% la
0.8 0.64 64% 64%). Aceste interpretări nu
0.9 0.81 81% trebuie însă văzute ca
1.0 1.00 100% relaţii de tip cauză-efect!
VI.2 Corelaţie parţială
Din consideraţiile de până acum se deduce faptul că atunci când studiem corelaţia
dintre două variabile poate exista şi influenţa altor variabile care vor explica evoluţia, variaţia
unei variabile. De exemplu o bună parte din mărimea salariului actual se poate explica prin
mărimea salariului de debut dar pot exista şi alte variabile care să influenţeze remuneraţia:
nivel de motivaţie, performanţa în muncă, numărul de inovaţii aduse procesului muncii etc. Se
pune însă şi problema relaţiilor false dintre două variabile când o corelaţie puternică dintre
două variabile să depindă în primul rând de evoluţia unei a treia variabile. De exemplu P.
Lazarsfeld amintea de legătura care se făcea cândva între numărul mare de berze apărute
undeva în nordul Franţei şi numărul de naşteri în creştere. Cu alte cuvinte se putea obţine o
corelaţie puternică între cele două variabile, ceea ce ar fi explicat mitul berzelor aducătoare de
copii! Numai că relaţia dintre variabile controlată de o a treia (denumită mediu) a arătat că
dacă rata natalităţii se păstra relativ ridicată în mediul rural, ea scădea semnificativ în mediul
urban. Un alt exemplu, cunoscut în literatura de specialitate se referea la corelaţia dintre
apariţia unui număr crescut de furnici în căutare de hrană şi numărul turiştilor care au venit la
mare pe plajă. Corelaţia dintre fenomene se dovedeşte falsă din moment ce ele sunt controlate
de o a treia variabilă căldura care va explica în final co-evoluţia primelor două.
Vom calcula o corelaţie parţială plecând de la baza de date World95 [pe larg şi în
SPSS Base 9.0 Application guide]. Vom analiza mai întâi variabilele urban (People living in
cities %) şi birth_rt (Birth rate per 1000 people). Pentru început vom calcula corelaţia simplă
între cele două variabile:
Correlations
Obs: situaţia de până acum descrie corelaţia parţială de prim ordin. Se pot face însă şi corelaţii
parţiale de al doilea ordin atunci când introducem două variabile de control. Pot urma chiar mai
multe variabile de control.
Vom observa că cele două variabile sunt definite ca ordinale şi vor împărţi populaţia în mai
multe categorii. De exemplu când un subiect primeşte eticheta 10 pentru variabila educ asta
inseamnă că el intră în clasa celor cu 10 ani de studii. La fel se procedează şi în variabila age.
În acest caz este mai recomandat coeficientul Spearman ( ρ ) care are aceleaşi valori ca şi
coeficientul Pearson. După aceleaşi etape şi după setarea coeficientului Spearman obţinem
rezultatul următor:
Correlations
Highest Year
Age of of School
Respondent Completed
Spearman's rho Age of RespondentCorrelation Coefficient 1.000 -.203**
Sig. (2-tailed) . .000
N 1495 1491
Highest Year of Correlation Coefficient -.203** 1.000
School Completed Sig. (2-tailed) .000 .
N 1491 1496
**. Correlation is significant at the 0.01 level (2-tailed).
Se observă că corelaţia este ρ = -0.203 şi este semnificativă (p=0.01). Corelaţia este slabă şi de
sens contrar.
În astfel de cazuri se recomandă chiar folosirea unui al treilea coeficient Kendall (τ ).
El este util mai ales când există foarte multe valori care că aibă acelaşi rang. În cazul nostru de
exemplu 55 de subiecţi au poziţia 10 (ani de studiu) în timp ce poziţia 12 (12 ani de studiu)
este destinată la 445 de subiecţi dintr-un eşantion de 1500. Se poate deci calcula şi acest
coeficient:
Correlations
Highest Year
Age of of School
Respondent Completed
Kendall's tau_b Age of RespondentCorrelation Coefficient 1.000 -.142**
Sig. (2-tailed) . .000
N 1495 1491
Highest Year of Correlation Coefficient -.142** 1.000
School Completed Sig. (2-tailed) .000 .
N 1491 1496
**. Correlation is significant at the 0.01 level (2-tailed).
Se observă că corelaţia este τ = -0.142 şi este semnificativă (p=0.01). Corelaţia este slabă de
sens contrar. Având în vedere condiţiile de aplicare se poate spune că acest coeficient este mai
fidel în a reflecta corelaţia dintre variabile. Este deci important de a analiza atent variabilele
pentru a aplica mai apoi testarea corelaţiei.
VII. Regresia
După cum am văzut analiza corelaţiei dintre variabile dispune şi de metode grafice. Se
pleacă de la ideea că, de exemplu un subiect statistic, din moment ce are valoarea xi pentru
variabila X şi valoarea yi pentru variabila Y, atunci acestea se pot reprezenta în plan, într-un
sistem de coordonate, rezultând astfel un nor de puncte. S-a pus apoi problema de a se găsi
ecuaţia unei drepte sau a unei curbe care să aproximeze cât mai bine acest nor sau să treacă cât
mai aproape de acest nor. Grafic se consideră că axa OX este a variabilei independente iar axa
OY a celei dependente. Dacă luăm un exemplu de lucru din programul SPSS atunci am văzut
că există posibilitatea vizualizării dreptei de « corelaţie » mai precis a dreptei de regresie. Fie
baza de date World95 şi să calculăm corelaţia dintre variabilele lifeexpf şi lifeexpm. Se obţine
foarte uşor un coeficient de corelaţie r = 0,982 ceea ce denotă o corelaţie foarte puternică şi de
acelaşi sens pentru p=0.01. Pentru reprezentarea grafică putem apela la comenzile deja
cunoscute Graphs→ Scatter→ Simple→ Define etc. După ce am obţinut graficul se poate
intra în Chart→ Options după care apare fereastra următoare în care este setată opţiunea Fit
Line Total :
90
80
Average female life expectancy
70
60
50
40
40 50 60 70 80
După cum se observă dreapta din imagine traversează norul de puncte aproximând
destul de bine întreaga mulţime a punctelor respective fiind o imagine a relaţionării
(dependenţei) dintre variabile.
Metoda folosită pentru a analiza dependenţa dintre variabile în acest mod poartă
denumirea de regresie iar curba (dreapta) respectivă se numeşte curbă de regresie. În funcţie
de numărul factorilor care influenţează variabila dependentă se disting: regresia simplă
(unifactorială) şi regresia multiplă (multifactorială). În cadrul acestui capitol ne vom mărgini
doar la regresia unifactorială. Iată două exemple de legături exprimate grafic:
yi*
yi
xi
Din aceste grafice se observă că o dreaptă sau o curbă poate aproxima destul de bine un nor de
puncte şi bineînţeles măsura în care cele două variabile sunt corelate. De asemenea trebuie
precizat că pentru fiecare xi din seria statistică corespunde un yi, cel real dar şi un yi* adică
valoarea care corespunde pe dreapta sau curba de regresie. Scopul măsurărilor în cazul
regresiei este acela de a găsi ecuaţia dreptei (curbei) pentru care suma distanţelor yi –yi* este
minimă ( se poate demonstra de fapt că acea dreaptă sau curbă este unică).
După cum am spus, ne vom ocupa aici doar de regresia simplă liniară urmând ca
lectorii interesaţi să parcurgă în continuare în volumele de specialitate regresia multiliniară cât
şi regresia non-liniară (graficul nu este o dreaptă). Amănunte despre aceste teme se pot găsi în
capitolele 8 şi 9 din T. Rotariu [1999].
După cum am spus, principiul aflării ecuaţiei dreptei de regresie pleacă de la
minimizarea unei expresii de tipul R = Σ ( yi – yi*)2, această expresie reprezentând suma
tuturor diferenţelor dintre valorile reale ale seriei şi cele aşteptate (de pe dreapta de regresie),
ridicarea la pătrat făcându-se pentru a nu apare în plus problema semnului acestor diferenţe. O
altă problemă este aceea a determinării ecuaţiei unei drepte de tipul y* = a + bx , determinare
care înseamnă în fapt calcularea celor doi parametri a şi b. În acest moment putem înlocui în
prima relaţie expresia lui y*. Va rezulta relaţia:
R = Σ ( yi – a – bxi )2
S-a obţinut practic o ecuaţie cu două necunoscute al cărei minim înseamnă anularea
celor două derivate parţiale după a şi b. Se obţin astfel două ecuaţii care formează un sistem:
na + b Σ x = Σ y
a Σ x +b Σ x2 = Σ xy
Evident că determinând a şi b ecuaţia dreptei respective este complet determinată: y* =
a + bx, formulă în care coeficientul a (pozitiv sau negativ) reprezintă valoarea ecuaţiei când
x=0 sau punctul prin care este intersectată axa OY. Coeficientul b (coeficient de regresie)
semnificã cum se modifică în medie variabila dependentă în cazul în care variabila
independentã variazã cu o unitate, evident admiţând că între cele două variabile există o relaţie
de dependenţă. Dacă coeficientul b > 0 sau b< 0 corelaţia este fie directă fie inversă (când
valorile unei variabile cresc valorile celeilalte descresc) iar când b =0 variabilele sunt
independente între ele. Aceste cazuri se pot reprezenta grafic foarte simplu ca şi în cazul
corelaţiei:
b> 0 b<0
Exemplu:
X Y x2 xy
1 3,8 1 3,8
2 4,6 4 8
3 5,7 9 27
4 6,9 16 64
5 8,0 25 40
6 9,0 36 216
21 38 91 396,8
În tabelul de mai sus observăm că am calculat mărimile care apar chiar în sistemul de ecuaţii
stabilit anterior. Le înlocuim şi obţinem:
a + b 21 = 38
a 21 + b 91 = 396,8 de unde a= 61,9 şi b = -1,14
Ecuaţia de regresie este y = 61,9- 1,14x
Se pune problema în ce măsură ajustarea dată de această ecuaţie este fidelă pentru că
dacă înlocuim valorile lui x în această ecuaţie obţinem cu totul alte valori care constituie
practic o serie ajustată, teoretică:
Sy 1
• ∑ ( y − y* )
2
cv = • 100 Sy =
y n
Y y* y – y* (y – y *) 2
3,8 60,76 -56,96 3244.4
4,6 59,62 -55.02 3027.2
5,7 58,48 -52.78 5812.9
6,9 57,34 -50.44 2544.1
8,0 56,20 -48.20 2323.2
9,0 55,06 -46.06 2121.5
Media=6,3
Cu ajutorul acestui tabel putem calcula Sy şi Cv pentru a vedea valoarea acestuia şi a-l
compara cu pragul de 5% !
þ Obs1. În calculele de mai sus Sy reprezintă abarea medie a valorilor măsurate faţă de
valorile indicate prin dreapta de regresie. Însă statisticienii s-au întrebat dacă se poate face o
legătură cu abaterea medie pătratică în general a seriei respective! După cum vom observa şi în
T. Rotariu [1991; 183-184] s-a ajuns la o formulă foarte simplă care face legătura de care
vorbeam :
σ 2 = S y2 + r 2σ y2
În această formulă abaterea medie pătratică generală care trebuie explicată este egală cu
abaterea medie a valorilor seriei faţă de cele ale dreptei de regresie (aceasta fiind varianţa
neexplicată) la care se adaugă un termen ce sintetizează varianţa punctelor de pe dreapta de
regresie în jurul mediei şi care reprezintă partea din varianţa variabilei dependente explicată
de variabila independentă). Reprezentarea grafică a acestor mărimi simplifică modul lor de
înţelegere (a se vedea în E. Jaba, 2004; 237):
Se observă şi notaţiile aferente : VT= varianţa totală, VE=varianţa explicată,
VR=varianţa reziduală. Suma ultimelor două apare clar în cea de a patra figură. Se observă că
pentru un punct oarecare al seriei (yi) există un corespondent în variabila independentă (xi).
Punctul respectiv din plan (xi , yi ) are o abatere totală compusă din abaterea faţă de medie şi
abaterea faţă de dreapta de regresie. Extras din formula de mai sus coeficientul r2 (notat
deseori şi R2) se mai numeşte coeficient de determinaţie, ia valori între 0 şi +1 iar în termeni
procentuali el şi denotă cât la sută din varianţa variabilei dependente se explică prin varianţa
variabilei independente. Restul până la 100% este reprezentat de varianţa neexplicată.
þ Obs.2 : în cazul acestei ajustări se observă că b< 0 deci există o corelaţie inversã între
variabile.
þ Obs. 3 : numeroşi autori atrag atenţia asupra faptului că studiul corelaţiei şi regresiei trebuie
să fie foarte judicios interpretat deoarece două variabile pot fi corelate dar nu este obligatoriu
să avem imediat o semnificaţie explicativă sau cauzală. Există deci şi ceea ce s-a numit
corelaţie aparentă atunci cînd de exemplu o variabilă se modifică de fapt sub influenţa unei alte
variabile necunoscute (variabilă test). Numai analiza de regresie poate sugera o eventuală
relaţie de cauzalitate.
þ Obs. 4 : Calcularea coeficienţilor de regresie de mai sus se face întotdeauna cu o anumită
probabilitate deoarece se pleacă îndeobşte de la eşantioane. Putem spune, deci, că aceste valori
sunt estimări punctuale ale unui model general de regresie de tipul: Y = α + βX + ε , formulă
în care ά şi β au aceleaşi semnificaţii ca şi coeficienţii a şi b iar ε nu reprezintă altceva decât o
variabilă aleatoare de eroare sau reziduu (explicat prin influenţa altor variabile decât cele
introduse în model). Generalizarea trebuie să ţină cont de faptul că ά şi β se găsesc în
următoarele intervale de încredere :
α ∈ (a − t p SDa ; a + t p SDa ) ; β ∈ (b − t p SDb ; b + t p SDb ) .
Limitele acestor intervale pleacă de la valorile a şi b la care se adaugă sau se scad
produsul dintre valorile tp (care sunt de fapt valorile din distribuţia teoretică t-Student pentru un
prag 2p de semnificaţie şi un număr n-2 de grade de libertate) şi SDa,b erori standard ale
coeficienţilor a şi b. La rândul lui şi coeficientul de corelaţie r poate fi de ajutor pentru a estima
un coeficient general de corelaţie.
Prin astfel de calcule se caută un interval de încredere pentru β şi se urmăreşte dacă
originea este inclusă în interval (în cazul în care β=0 se ştie că variabilele sunt independente) ;
dacă intervalul nu conţine şi originea atunci se trage concluzia că pentru un anumit prag de
semnificaţie variabila dependentă este semnificativ influenţată de variabila independentă.
þ Obs. 5 Distanţele de la punctele din plan la dreapta de regresie (de fapt segmentele care
intersectează dreapta de regresie şi sunt perpendiculare pe axa OX) se mai numesc reziduuri
şi reprezintă ceea ce nu este explicat în model prin variabilele alese. Se cere imperios ca aceste
reziduuri să fie analizate grafic cu toată atenţia.
***
Pentru a calcula elementele dreptei de regresie prin intermediul programului SPSS vom
recurge la comenzile Analize→Regression→Linear după care vom considera două variabile
consacrate în manualele de profil şi anume cele numite salary şi salbegin din baza de date
Employee Data. După parcurgerea comenzilor Statistics→Regression→Linear se obţine
fereastra următoare :
Se observă în această fereastră cele două variabile importante ale analizei specificate
fiecare ca fiind dependentă sau independentă. Metoda de analiză este Enter (o variantă
generală de studiu a regresiei) după care putem să alegem şi alte instrumente de lucru din
ultimile butoane orizontale. Există şi opţiunea de a restricţiona cercetarea de exemplu doar
pentru subiecţii care au cel puţin 12 ani de şcoală (se trece variabila Educational Level în
rubrica Selection Variable şi apoi se pune condiţia respectivă din butonul Rule).
De asemenea vom depista valorile R Square= 0.775 şi Adjusted R Square= 0.774 (care ne
arată proporţia din varianţa variabilei dependente explicată de varianţa din variabila
independentă) precum şi dispersia în cadrul variabilei dependente (estimată).
ANOVA b
Sum of
Model Squares df Mean Square F Sig.
1 Regression 1.07E+11 1 1.068E+11 1622.118 .000a
Residual 3.11E+10 472 65858997.22
Total 1.38E+11 473
a. Predictors: (Constant), Beginning Salary
b. Dependent Variable: Current Salary
Coefficients a
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 1928.206 888.680 2.170 .031
Beginning Salary 1.909 .047 .880 40.276 .000
a. Dependent Variable: Current Salary
În tabelul Coefficients vom putea identifica coloana B unde este specificată influenţa
variabilei independente cu un anumit grad de încredere a acestei influenţe (a se vedea coloana
Sig.). Ca de obicei valoarea respectivă trebuie să fie mai mică de 0.05 (unii analişti oferă totuşi
o marjă de până la 0.1 prag peste care nu se poate admite estimarea respectivă).
Valoarea de 1.909 este de fapt coeficientul de regresie în timp ce valoarea de 0.880
(Standardized coefficient) reprezintă coeficientul de corelaţie Pearson. Valorile din coloana B
sunt de ajutor pentru a scrie ecuaţia de regresie :
În acest moment putem trage următoarea concluzie: modelul propus urmăreşte predicţia
salariului actual în funcţie de salariul de început. Rezultatul obţinut este semnificativ statistic
deoarece F=1622 la un prag de semnificaţie p< 0.001. Ecuaţia relaţiei dintre variabile este
sallary = 1928.2+1.9* salbegin. Se mai observă că Adjusted R Square= 0.774 ceea ce justifică
faptul că o mare parte a varianţei variabilei dependente este explicată de varianţa variabilei
dependente.
þ Obs6. Atragem atenţia că restul varianţei variabilei dependente este datorat altor variabile.
De asemenea precizăm că valoarea de 1.9 reprezintă sporul valoric în variabila dependentă
dacă variabila independentă ar creşte cu o unitate. Din modelul prezentat deducem că salariul
iniţial este un bun predictor al salariului actual însă nu este singurul. Putem deduce că şi alte
variabile precum nivel de interes, număr de inovaţii etc. pot justifica şi ele creşterea salarială.
Cu toate acestea ponderea cea mai mare o are salariul de început.
þ Obs7. Revenind la o imagine anterioară în care am precizat noile variabile care apar în bază
acum putem preciza că variabila pre_1 este valoarea prezisă prin intermediul ecuaţiei de
regresie în timp ce variabila res_1 nu conţine decât valorile diferenţelor dintre cele ale
variabilei salary şi pre_1 (sau reziduurile) :
þ Obs. 7. Principiile de lucru enunţate pînă acum se păstrează şi în cazul regresiei multiple
atunci când variabilele independente sunt mai multe. Vom dezvolta şi această problematică
într-un viitor volum. Alte precizări pe această temă se găsesc şi în bibliografia indicată în acest
volum.
VIII. Asocierea variabilelor calitative (nominale)
Facem precizarea că situaţia teoretică descrie în fapt situaţia de independenţă cînd toate
variantele de răspuns ar fi indicate de acelaşi număr de subiecţi. Faptul că frecvenţele
observate (cele din teren) nu coincid cu cele teoretice ne poate da o sugestie privind preferinţa
pentru acest gen muzical. Rezultatele sunt următoarele:
Cazul a două variabile dihotomice (ambele cu câte două valori) este tratat pe larg în T. Rotariu
(1999; 121-133) şi de aceea vom face doar câteva precizări sumare. Să construim un tabel de
contingenţă plecând de la variabilele a1 (Credeţi că în ţara noastră lucrurile merg într-o direcţie
bună sau într-o direcţie greşită?) şi sex0 (sexul respondenţilor) din baza de date BOP_mai-
2003_Gallup. sav. Tabelul respectiv se obţine după comenzile Analyze→ Descriptive
Statistics→Crosstabs după ce în prealabil am considerat valorile care nu sunt principalele
două variante de răspuns ca fiind valori lipsă:
După ce trecem cele două variabile în
dreapta ca definind liniile (rows) şi
colooanele (columns) vom apela la
butonul Cells pentru o serie de opţiuni
suplimentare:
Se observă că am selectat apoi opţiunile Observed, Expected precum şi procentajele pe linii
(Percentages Rows). Se mai pot alege opţiuni privind reziduurile care nu sunt altceva decât
diferenţele între frecvenţele observate şi cel aşteptate. După Continue→OK tabelul este
următorul:
Credeþi cã în þara noastrã lucrurile merg într-o direcþie bunã sau într-o direcþie greºitã? * Genul
(respondent) Crosstabulation
Genul (respondent)
masculin feminin Total
Credeþi cã în þara direcþia este bunã Count 383 367 750
noastrã lucrurile merg Expected Count 358.9 391.1 750.0
într-o direcþie bunã sau % within Credeþi cã în
într-o direcþie greºitã? 51.1% 48.9% 100.0%
þara noastrã...
direcþia este greºitã Count 511 607 1118
Expected Count 535.1 582.9 1118.0
% within Credeþi cã în
45.7% 54.3% 100.0%
þara noastrã...
Total Count 894 974 1868
Expected Count 894.0 974.0 1868.0
% within Credeþi cã în
47.9% 52.1% 100.0%
þara noastrã...
Datele din astfel de tablouri sunt relativ simplu de interpretat. Astfel 389 (51%) dintre
respondenţii care cred că direcţia este bună sunt de gen masculin şi la fel 511 (45,7%) dintre
cei ce cred că direcţia este greşită. Se observă că totalul cazurilor valide este de 1868 persoane
din care 894 bărbaţi şi 974 femei. În fiecare celulă se găsesc şi valorile numite Expected,
valori teoretice care corespund situaţiei când cele două variabile sunt independente.
Atunci când analizăm problematica asocierii de fapt urmăm raţionamentul unei ipoteze
statistice:
H0: variabilele calitative nu sunt asociate
H1: variabilele sunt asociate.
Pentru măsurarea asocierii dintre cele două variabile se foloseşte testul χ 2 . Acest test
se bazează pe diferenţele calculate dintre două tipuri de date: cele aşteptate (teoretice) care
reprezintă situaţia de independenţă dintre variabile şi cele observate (obţinute în urma
cercetării efective). Conform formulei de calcul χ 2 este o mărime care se obţine din suma
pătratelor diferenţelor dintre frecvenţele observate (fo) şi şi cele teoretice (ft) împărţite la
( f − f )2
frecvenţele teoretice: χ 2 = ∑ o t . Se pleacă de la ideea că cu cât acest coeficient este
ft
mai mic cu atât cresc şansele ca variabilele să fie independente şi cu cât coeficientul este mai
mare cu atât mai sigur variabilele sunt asociate. Pentru că aceste aprecieri au nevoie de
intervale precise de fapt se impune compararea valorilor coeficientului cu alte valori,
considerate teoretice şi care se găsesc în tabele statistice speciale. De fapt se ajunge la
reformularea ipotezei statistice de care vorbeam:
1. Dacă χ 2 calculat < χ 2 teoretic atunci resping H0 şi admit H1
2. Dacă χ 2 calculat > χ 2 teoretic atunci resping H1 şi admit H0.
Aceste raţionamente trebuie să ţină seama de următoarele condiţii:
a. relaţiile de mai sus se specifică pentru un anumit prag de semnificaţie
b. trebuie avute în vedere gradele de libertate ale tabelului de contingenţă. Se notează cu df
(degree of freedom) şi se calculează cu formula: df= (n-1)(m-1), unde n este numărul de linii
ale tabloului iar m numărul de coloane.
c. În tabloul de contingenţă trebuie să nu existe celule în care valoarea frecvenţelor aşteptate
(Expected Count) să fie mai mici de 5. În unele calcule se cere ca numărul acestor cazuri să fie
mai mic de 20%. Reducerea numărului de cazuri este însă foarte importantă: dacă creşte
mărimea tabelului de contingenţă şi invariabil creşte şi coeficientul ϕ 2 !
d. valorile teoretice (sau critice) ale coeficientului sunt cele din următoarea listă:
Df\ Praguri semnif .10 .05 .02 .01 .001 Se obsevă în acest tabel pe prima
1 2.71 3.84 5.41 6.64 10.83 linie orizontală pragurile de
2 4.60 5.99 7.82 9.21 13.82 semnificaţie de las 0.1 la 0.001. Pe
3 6.25 7.82 9.84 11.34 16.27 prima coloană se găsesc gradele de
4 7.78 9.49 11.67 13.28 18.46 libertate. Valoarea critică a lui
5 9.24 11.07 13.39 15.09 20.52 χ 2 se citeşte la intersecţia unui
6 10.64 12.59 15.03 16.81 22.46 prag de semnificaţie şi a unui
7 12.02 14.07 16.62 18.48 24.32 anumit număr de grade de
libertate. Se compară apoi valoarea
8 13.36 15.51 18.17 20.09 26.12 coeficientului cu valoarea calculată
9 14.68 16.92 19.68 21.67 27.88 (de către computer) şi se urmăreşte
10 15.99 18.31 21.16 23.21 29.59 raţionamentul de mai sus.
11 17.28 19.68 22.62 24.72 31.26 Pentru a calcula coeficientul χ 2
12 18.55 21.03 24.05 26.22 32.91 vom apela în fereastra de mai sus
13 19.81 22.36 25.47 27.69 34.53 la butonul Statistics şi vom alege
14 21.06 23.68 26.87 29.14 36.12 doar varianta Chi-Square din
15 22.31 25.00 28.26 30.58 37.70 colţul din stânga sus apoi
16 23.54 26.30 29.63 32.00 39.25 Continue→OK:
17 24.77 27.59 31.00 33.41 40.79
18 25.99 28.87 32.35 34.80 42.31
19 27.20 30.14 33.69 36.19 43.82
20 28.41 31.41 35.02 37.57 45.32
21 29.62 32.67 36.34 38.93 46.80
22 30.81 33.92 37.66 40.29 48.27
23 32.01 35.17 38.97 41.64 49.73
24 33.20 36.42 40.27 42.98 51.18
25 34.38 37.65 41.57 44.31 52.62
26 35.56 38.88 42.86 45.64 54.05
27 36.74 40.11 44.14 46.96 55.48
28 37.92 41.34 45.42 48.28 .56.89
29 39.09 42.56 46.69 49.59 58.30
30 40.26 43.77 47.96 50.89 59.70
Chi-Square Tests
Coeficientul χ 2 poate atesta prezenţa asocierii dar nu şi intensitatea sau sensul acesteia.
Tocmai de aceea se folosesc şi alţi coeficienţi pentru o astfel de analiză. Iată pentru început
unii coeficienţi utili pentru cazul a două variabile dihotomice nominale:
nk − k k
1. Coeficientul ϕ = 11 1. .1 în care k11 este frecvenţa observată din celula 11 iar
k1. k 2. k.1 k.2
celelalte sunt frecvenţe marginale (cele ce sunt sumele pe linii şi pe coloane ale frecvenţelor
χ2
din tabel). Acelaşi coeficient se mai calculează cu formula ϕ = ± . În această ultimă
n
formulă χ 2 este o mărime care se obţine din suma pătratelor diferenţelor dintre frecvenţele
( f o− f t )2
observate (fo) şi şi cele teoretice (ft) împărţite la frecvenţele teoretice: χ = ∑ . 2
ft
Dacă ϕ >0 tendinţa datelor este să se grupeze pe diagonala principală caz în care există o
asociere pozitivă între variabile. Asocierea este negativă dacă ϕ <0.
k11 k 22 − k12 k 21
2. Coeficientul Q al lui Yule are formula următoare: Q= şi ia valori în
k11 k 22 + k12 k 21
intervalul [-1, +1]. Interpretarea este asemănătoare cu aceea de la corelaţie (pentru Q=0 situaţia
este de independenţă).
3. Coeficientul Y al lui Yule, pe care nu îl mai detaliem aici şi care are valori tot între
[-1,+1].
Pentru variabile categoriale cu mai mult de două variante se impun şi alţi coeficienţi:
χ2
C= , formula în care n este volumul eşantionului.
χ2 +n
Acest coeficient dacă e aplicat în cazul a două variabile dihotomice are valoarea
maxima de 0,707. Această valoare creşte apoi odată cu creşterea tabelului de contingenţă darn
u va atinge niciodată valoare 1 deoarece fracţia de sub radical este subunitară. T. Rotariu
[1999;135] recomandă folosirea acestui coefficient pentru tabele mari. Oricum dacă C→1
atunci asocierea dintre variabile este puternică iar dacă C→0 asocierea este slabă.
χ2
, formula în care s*=min (n,m) adică minimul din nr. de linii/coloane.
n(s − 1)
V= ∗
Cases
Valid Missing Total Se observă că au fost procesate
N Percent N Percent N Percent un număr de 995 cazuri valide
Marital Status * Is iar 504 au fost considerate lipsă.
996 66.4% 504 33.6% 1500 100.0%
Life Exciting or Dull
Asymp. Sig.
Value df (2-sided) Value Approx. Sig.
Pearson Chi-Square 39.220a 8 .000 Nominal by Phi .198 .000
Nominal Cramer's V .140 .000
Likelihood Ratio 31.911 8 .000
Contingency Coefficient .195 .000
Linear-by-Linear
.034 1 .854 N of Valid Cases 996
Association
N of Valid Cases 996 a. Not assuming the null hypothesis.
b. Using the asymptotic standard error assuming the null
a. 1 cells (6.7%) have expected count less than 5. The
hypothesis.
minimum expected count is 1.63.
Directional Measures
Asymp.
a b
Value Std. Error Approx. T Approx. Sig.
Nominal by Lambda Symmetric .026 .016 1.640 .101
Nominal Marital Status Dependent .000 .000 .c .c
Is Life Exciting or Dull
.050 .030 1.640 .101
Dependent
Goodman and Marital Status Dependent .009 .004 .000d
Kruskal tau Is Life Exciting or Dull d
.011 .005 .004
Dependent
Uncertainty Coefficient Symmetric .015 .006 2.639 .000e
Marital Status Dependent .012 .005 2.639 .000e
Is Life Exciting or Dull e
.018 .007 2.639 .000
Dependent
a. Not assuming the null hypothesis.
b. Using the asymptotic standard error assuming the null hypothesis.
c. Cannot be computed because the asymptotic standard error equals zero.
d. Based on chi-square approximation
e. Likelihood ratio chi-square probability.
Observăm χ calculat=32,2> χ teoretic=26,1 pentru
2 2
Symmetric Measures
8 grade de libertate şi p=0.000. Acceptăm ipoteza
Value Approx. Sig. H1 deci variabilele sunt asociate. Intensitatea
Nominal by Phi .198 .000 asocierii este totuşi slabă (C=0.190;V=0.140) iar
Nominal Cramer's V .140 .000 direcţia presupusă de var independentă marital
Contingency Coefficient .195 .000 status explicând var. dependentă life este mai
N of Valid Cases 996 plauzibilă ( λ =0.05> λ =0.00 sau
a. Not assuming the null hypothesis. τ =0.011> τ =0.009). Se observă de asemenea
b. Using the asymptotic standard error assuming the null valorile mici pentru coeficientul U.
hypothesis.
Risk Estimate
Chi-Square Tests
95% Confidence
Asymp. Sig. Exact Sig. Exact Sig.
Value df (2-sided) (2-sided) (1-sided)
Interval
Pearson Chi-Square37.622b 1 .000 Value Lower Upper
a 36.592
Continuity Correction 1 .000 Odds Ratio for Favor or
Likelihood Ratio 37.417 1 .000 Oppose Gun Permits .353 .251 .496
Fisher's Exact Test .000 .000
(Favor / Oppose)
Linear-by-Linear
37.584 1 .000 For cohort Respondent's
Association
.603 .524 .695
N of Valid Cases 984 Sex = Male
a. Computed only for a 2x2 table For cohort Respondent's
b. 0 cells (.0%) have expected count less than 5. The minimum expected countSex 1.710 1.391 2.103
is = Female
74.72.
N of Valid Cases 984
Din rezultatele obţinute se observă că cele două variabile sunt asociate
[deoarece χ 2 calculat=37,6> χ 2 teoretic=10,83 pentru 1 grad de libertate şi p=0.000 deci vom
accepta H1]. Cu alte cuvinte sexul respondenţilor influenţează opinia despre portul armei.
Şansa ca un respondent să fie de acord este diferită pentru bărbaţi şi pentru femei. Pentru
bărbaţi este de 314/111=2,82 iar pentru femei este de 497/62= 8.01 valoare semnificativ mai
mare. Raportul de şanse dintre femei şi bărbaţi este de 8.01/2.82= 2,84 cu alte cuvinte sunt 2,8
şanse ca o femeie să fie de acord faţă de un bărbat. Această valoare cu cât este mai mare decât
1 cu atât sunt mai pronunţate diferenţele dintre grupuri. Pentru cei ce sunt de acord
coeficientul de risc este de 1.20 iar pentru cei ce nu sunt de acord 0,42.
IX. Operaţiuni executate asupra variabilelor şi bazelor de date
5. Insert Cases-ajutã la inserarea unor noi cazuri (linii orizontale). Dacã celula activã este
plasatã pe un anumit rând atunci va apare un nou rând imediat deasupra acestuia. Se poate
apela şi la plasarea mausului pe rîndul respectiv şi clic dreapta sau direct de pa bara su
instrumente acţionând butonul .
6. Go to Case- se poate indica un anumit caz din bazã pentru a se ajunge imediat la acesta.
7. Sort Cases-ajutã la sortarea (ordonarea) valorilor seriei dupã valorile dintr-una sau mai
multe variabile. Aici un exemplu de reordonare a bazei dupã valorile crescãtoare din variabila
age:
10. Merge files-ajutã la unirea mai multor date din baze diferite. Sã presupunem cã am aplicat
un chestionar în oraşul X şi apoi acelaşi chestionar în oraşul Z. Datele respective sunt în baze
diferite deşi au acelaşi numãr de variabile. Reunirea într-o singurã bazã se face plecând de la
una dintre ele (baza1) la care se adaugã cea de a doua bazã . Sã presupunem cã am construit o
bazã cu doar zece cazuri la care vom adãuga alte 10 cazuri din cealaltã bazã :
Vom acţiona comenzile
Data→Merge Files→
Add Cases iar dupã ce
vom selecta noua bazã se
va deschide urmãtoarea
fereastrã. Sã presupunem
cã in noua bazã variabila
religie a fost scrisã greşit
relig.
În aceastã fereastrã
variabilele cu semnul (*) fac
parte din baza iniţialã iar
cele cu semnul (+) din baza
adãugatã. Numele celei de-a
doua variabile poate fi
schimbat din butonul
Rename sau pot fi selectate
ambele şi trecute în partea
dreaptã cu butonul Pair.
Butonul Paste este
consevarea lucrului în limbaj
sintaxa. Dupã OK rezultã:
Dupã ce am salvat
noua bazã (sortatã!)
am formulat
comenzile
Data→Merge
File→Add
Variables şi dupã
OK observãm cã
noua variabilã a
intrat în prima bazã.
Sã presupunem cã în cea de a doua bazã aveam numai cinci observaţii dupã cum urmeazã:
þ Obs. 2. Existã şi alte douã opţiuni în fereastra de mai înainte: External file is keyed table
şi Working Data File is keyed table.
þ Obs. 3. Opţiunea Working Data File is keyed table o vom alege dacã drumul parcurs este
invers: de la ultima bazã cu cele trei cazuri la baza mare: deci baza de plecare (Working Data
File) va da criteriul de alipire a bazelor.
þ Obs. 4. Operaţiile de alipire a bazelor de date trebuie sã respecte condiţiile: trebuie sã existe
în ambele baze o variabilã comunã dupã care se face alipirea; trebuie o atenţie sporitã la
variabilele care au acelaşi nume şi care nu sunt criterii de alipire; variabilele trebui8e sortate
ambele în acelaşi sens înainte de a fi alipite.
8. Agregarea datelor
Uneori este nevoie de a sintetiza anumite informaţii despre valorile dintr-o bazã de date
grupându-le dupã o serie de categorii care sunt specifice unei variabile alese. Sã luãm de
exemplu baza de date Cars.sav:
În aceastã bazã de date sunt diverse informaţii despre autoturisme: cilindree (variabila engine)
puterea motorului (horse), greutate (weight), acceleraţie (accel), an de fabricaţie (year).
Plecând de la aceastã bazã de date dorim sã obţinem pentru toate aceste caracteristici mãrimi
medii sau alte mãrimi, grupate dupã anii de fabricaţie. Pentru aceasta vom apela comenzile
Data→Aggregate dupã care va apare fereastra urmãtoare:
-opţiunea Save number of cases...va introduce o nouã variabilã care contorizeazã numãrul de
cazuri din fiecare categorie
-opţiunea Create new data file va indica o nouã bazã de date care va fi salvatã de program şi
în care vom avea rezultatele agregãrii. Din butonul File putem sã denumim baza respectivã!
Pentru acest caz vom lãsa denumirea aggr.sav
-opţiunea Replace Working data file va elimina datele din baza curentã!
Dupã ce vom da OK trebuie sã cãutãm şi sã deschidem noul fişier creat de cãtre program şi
care se aflã de obicei în Program files→SPSS. Noua bazã de date este urmãtoarea:
Se observã categoriile
generate de cãtre
variabila year şi pentru
fiecare categorie (an de
fabricaţie) sunt calculate
mediile respective.
Pentru accel sunt
specificate doar valorile
maxime. Ultima
variabilã conţine
numãrul de cazuri din
fiecare categorie. Se pot
apoi face analize
plecând de la aceste
date.
9. Split File-comandã des utilizatã care permite analizarea diverselor valori statistice pentru
grupuri întregi de subiecţi generate tocmai de categoriile din variabile. Sã presupunem cã în
baza GSS93 subset.sav dorim sã cunoaştem în care dintre regiunile americane respondenţii au
în medie, un nivel de educaţie mai mare. Conform variabilei region4 subiecţii din anchetã sunt
divizaţi în 4 regiuni iar variabila educ reprezintã anii de studiu pentru o şcoalã încheiatã. Vom
apela la comanda Data→Split file pentru a produce filtrarea bazei conform unui criteriu
impus: Variabila dupã care vom împãţi
subiecţii în grupuri disticte
region4 este trecutã în dreapta iar
ca variantã de vizualizare a
rezultatelor am ales opţiunea
Compare Groups. Dupã OK în
Data Editor va apare în colţul din
dreapta jos menţiunea Split File
On care ne avertizeazã cã baza
este filtratã şi orice rezultat viitor
va fi definit de filtrarea respectivã:
þ Obs: rezultatele pot fi afişate şi separat dacã setam opţiunea Organize output by groups.
10. Select Cases-dintr-o bazã de date se pot analiza anumite cazuri selectate dupã un criteriu
necesar cercetãrii statistice. Procedura urmeazã comenzile Data→Select Cases. Sã
presupunem cã în baza de date BOP_mai/2003_Gallup.sav dorim sã vedem care sunt
opţiunile persoanelor de sex masculine privind direcţia în care se îndreaptã România: este
vorba de variabilele sex0 (genul respondenţilor) şi a1 (direcţia în care se îndreaptã ţara
noastrã). Prima variabilã este variabila criteriu cu valorile: 1. masculin, 2.feminin. Vom selecta
doar respondenţii de sex masculin prin If condition is satisfied→If:
Credeþi cã în þara noastrã lucrurile merg într-o direcþie bunã sau într-o direcþie
greºitã?
Cumulative
Frequency Percent Valid Percent Percent
Valid direcþia este bunã 383 39.5 39.5 39.5
direcþia este greºitã 511 52.7 52.7 92.2
NS 69 7.1 7.1 99.3
NR 7 .7 .7 100.0
Total 970 100.0 100.0
þ Obs: Metodele de selecţie sunt foarte diverse: selectarea unui eşantion din bazã putându-se
indica în mod precis cât la sută din cazuri vor fi selectate (Random sample of cases), selecţie
în funcţie de o variabilă temporală sau după anumite ranguri care se pot preciza (Based on
time or case range), selecţie în funcţie de o variabilã filtru care dacă ia valoarea nulă atunci
cazul respectiv se elimină (Use filtre variable). Există şi posibilitatea ca liniile neselectate să
fie şterse din bază însă această operaţie trebuie făcută cu precauţie. În cadrul ferestrei Select
Cases If se pot folosi butoanele cu cifre sau semne matematice pentru condiţiile impuse şi
chiar o serie de funcţii care sunt listate în tabelul din dreapta ferestrei. Acestea pot fi: funcţii
aritmetice (ABS[modul], LN[log. natural], SQRT [radical], etc,) funcţii statistice (MEAN,
SUM, VARIANCE, etc.) funcţii de lucru cu variabile nominale, funcţii pentru date temporale,
funcţii logice, funcţii referitoare la valorile lipsã etc. O parte din aceste funcţii le regãsim si în
programul Excel.
Abia acum poate fi apelată procedura weight cases cu variabila wadults drept criteriu:
Se observă că am
definit variabila ţintă
venit ca suma
venit1+venit2. În baza
de date va apare o
noua variabilă :
þ Obs1. : Se pot folosi direct semnele unor operaţii din butoanele aflate în fereastra Compute
variables. Astfel observăm prezenţa unor operatori logici precum &, | , ~ (care semnifică
simbolurile şi, sau, nu logice) ; semnele matematice < > (mai mic, mai mare), < = => (mai
mic sau egal, mai mare sau egal), ~= (diferit de) şi ** (ridicarea la putere) ; semnele uzuale
pentru diferite operaţii matematice etc.
þObs2. : dacă în variabila venit1 sau venit2 există o valoare lipsă atunci şi în variabila finală
va apare o valoare lipsă !
þObs3. : funcţia ANY seamănă cu comanda Select Cases. De exemplu dacă formulăm
expresia ANY (vârsta, 21,23) atunci într-o variabilă separată vor apare valorile 1 pentru
cazurile care respectă condiţia pusă şi 0 pentru cele care nu respectă condiţia.
Comanda Count ajută la cuantificări diverse. De exemplu să folosim baza de date Bop 2003
Gallup. Am ales din această bază următoarele variabile:
Ws1 (Aveţi relaţii / cunoştinţe pe care vă puteţi baza în caz de boală pentru consultaţie,
tratament, intervenţie chirurgicală?)
Ws2 (Aveţi relaţii / cunoştinţe pe care vă puteţi baza la tribunal, notar, avocat?)
Ws3 (Aveţi relaţii / cunoştinţe pe care vă puteţi baza la primarie?)
Ws4 (Aveţi relaţii / cunoştinţe pe care vă puteţi baza la poliţie?).
Aceste variabile sunt dihotomice (valori 1=da ; 0=nu) şi pe baza lor s=ar putea construi un
indice al « reţelei de sprijin » care reprezintă de fapt însumarea valorilor 1 din toate
variabilele considerate (vom considera missing valorile 9=nu ştiu/nu răspund). Apelăm apoi
fereastra după Transform Count :
retea de sprijin
Dintr-un total de 2100 de subiecţi mai
Cumulative bine de jumătate (1143) nu au nici o
Frequency Percent Valid Percent Percent persoană în reţeaua de sprijin. 531
Valid ,00 1143 54,4 54,4 54,4
dintre respondenţi găsesc un sprijin
1,00 531 25,3 25,3 79,7
2,00 188 9,0 9,0 88,7
doar într-un nod al reţelei şi numai
3,00 134 6,4 6,4 95,0
104 (adică 5%) se pot baza pe reţele
4,00 104 5,0 5,0 100,0 complete de sprijin.
Total 2100 100,0 100,0
O altă opţiune din meniul Transform se referă la recodificarea variabilelor. Această opţiune
are două variante : recodificarea în variabila de lucru sau recodificarea într-o altă variabilă.
Să presupunem că în aceeaşi bază de mai sus dorim să aflăm situaţia răspunsurilor privind
direcţia în care se îndreaptă România dar în funcţie de următoarele segmente de vârstă : 18-
25 ani; 26-40 ani ; 41-60 ; 61 şi peste. În bază există deja variabila vârsta0 în care sunt
consemnate vârstele respondenţilor dar acestea trebuie regrupate în cele patru categorii de mai
sus:
În această fereastră am trecut
variabila vârsta0 în dreapta şi
pentru că vrem să obţinem o
altă variabilă numită virsta1
vom da clic pe Change pentru a
se consemna noul nume.
Recodificarea efectivă se face
din butonul Old and New
Values…
Se va deschide o nouă
fereastră :
þ Obs1 : spre deosebire de comanda Recode into different variable cealaltă opţiune Recode
into same variable produce transformări în variabila însăşi fără a creea o nouă variabilă.
Tocmai de aceea odată salvate respectivele transformări, se pot pierde definitiv valorile din
bază.
NTILES of VARSTA0
De data aceasta programul a
Cumulative
Frequency Percent Valid Percent Percent stabilit alte categorii de
Valid 1 518 24,7 24,7 24,7 vârste : 1=18-31 ani ; 2=32-46
2 530 25,2 25,2 49,9
3 518 24,7 24,7 74,6 ani ; 3=47-61 ;4= peste 61.
4 534 25,4 25,4 100,0
Total 2100 100,0 100,0
þ Obs3 : uneori se poate utiliza recodarea automată a datelor (Transform→Automatic
recode). Se recomandă mai ales când categoriile nu sunt numeroase iar dacă sunt
alfanumerice trebuie ţinut cont de ordinea lor alfabetică. Se înţelege de aici că foarte utilă
poate fi recodarea automată a unor variabile calitative cu valori alfanumerice. Să presupunem
că am făcut o cercetare în mai multe firme, din diverse domenii de activitate din marile oraşe
ale ţării :
þ Obs4 : meniul Transform mai conţine proceduri legate de înlocuirea valorilor lipsă
(Replace Missing Values) proceduri legate de generarea numerelor aleatoare (Random
number seed) care ne ajută atunci când selectăm aleator cazuri pentru sub-eşantioane. Aceste
proceduri sunt legate de condiţiile pe care le impunem şi în submeniul Data Select cases
Random sample of cases. O altă comandă utilă este şi Rank cases prin intermediul căreia
putem ordona valorile dintr-o variabilă eventual după valori din alte variabile. Să
presupunem că într-o firmă oarecare situaţia veniturilor este următoarea:
Se observă că ordinea de
acordare a rangurilor este
crescătoare (se începe cu
smallest value) iar opţiunea
Display summary table dacă
este activată vor apare în
output precizări privind
operaţiunea efectuată. Se
obţine după OK situaţia din
stânga după care putem aplica
o dublă sortare după sex şi
venit:
Se observă ordonarea veniturilor în noua variabilă rvenit dându-se rangurile specifice. Doi
subiecţi cu valori identice au rangul obţinut ca medie aritmetică din două poziţii consecutive.
Un alt meniu este Utilities şi a cărui principală sarcină este aceea de a da informaţii privind
variabilele din baza de date. Astfel prin comenzile Utilities→ Variables sau Utilities→ File
Info putem afla o caracterizare completă a variabilelor. Alte două submeniuri Define Sets şi
Use sets pot fi de ajutor pentru a alege doar un număr restrâns de variabile pentru analiză.
Acest lucru este util mai ales c’nd bayele de date conţin un număr foarte mare de variabile. De
exemplu baza de date gss98.sav conţine peste 3000 de variabile! Iată un exemplu de lucru
plecând de la baza de date bd.bop2004.sav pe care o găsim pe site-ul www.osf.ro:
Toate aceste operaţiuni nu duc la apariţia unei noi baze ci doar la selectarea anumitor
variabile. Dacă dorim să facem analize statistice diverse, de exemplu, meniul
Analyze→Frequencies va reţine doar respectivele variabile:
Pentru a se reveni la
situaţia iniţială este
necesar sa trecem în
partea dreaptă
specificarea
ALLVARIABLES din
fereastra de mai
înainte.
X.Teme aplicative