Documente Academic
Documente Profesional
Documente Cultură
Necesitatea prelucrãrii unui volum din ce în ce mai mare de date, a unor cercetãri de teren
cât mai rapide etc., a impus dezvoltarea unor pachete statistice performante. Au apãrut astfel de-a
lungul timpului diverse programe : SAS, SPSS, SPAD, STATA etc., majoritatea oferind alternative
de calcul pentru aceleaşi proceduri statistice de bazã. În acest curs vom trece în revistã o serie de
proceduri pe care le utilizeazã programul SPSS for Windows, varianta 11.5., program care a fost
lansat de cãtre SPSS Inc. Chicago (alte informaţii puteţi afla pe situl www.spss.com). Traducerea
liberã a acestor iniţiale este « Statistical Package for Social Sciences ». Odatã lansat programul
Windows, dacã SPSS 11.5 este instalat se poate deschide apelând la pictograma specificã sau
cãutând fişierul executabil dupã comenzile Start→Programs→ SPSS for Windows→ SPSS 11.5
for Windows :
File- conţine comenzi pentru citirea, scrierea sau imprimarea tuturor tipurilor de fişiere cu care
opereazã programul.
Edit- conţine comenzile pentru editarea, modificarea, copierea, cãutarea textelor
Data- conţine comenzi pentru definirea variabilelor, inserarea de noi variabile sau cazuri, sortarea,
alipirea, inversarea, agregarea, selectarea bazelor de date
Transform- conţine comenzi pentru transformãri ale variabilelor şi ale valorilor lor.
Statistics- meniu cu procedurile statistice disponibile în program
Graphs- conţine procedurile pentru reprezentãri grafice diverse
Utilities- conţine comenzi care pot da informaţii despre variabile, pot desemna un set redus de
variabile, organizarea meniurilor.
Window- conţine comenzi care permit lucrul cu ferestrele SPSS
Help- conţine informaţii despre program şi despre procedurile statistice folosite.
2. Lucrul cu programul SPSS. Elemente introductive
Obiectul de studiu îl reprezintã bazele de date, fie cã ele sunt create de cãtre utilizator fie cã
sunt utilizate cele existente deja în cadrul programului. Dacã intenţionãm sã deschidem o astfel de
bazã de date este necesar sã urmãm paşii urmãtori: File→Open→Data dupã care apar toate bazele
de date din program:
Obs: înafarã de fişierele de tip *.sav care desemneazã bazele de date, SPSS utilizeazã şi fişiere de
tip *.sps (care conţin varianta scripticã a comenzilor sau fişiere sintaxã) precum şi fişiere de tip
*.spo în care sunt incluse rezultatele cercetãrii statistice).
Dacã vom alege una din bazele incluse în program şi vom executa dublu clic pe numele
acesteia atunci va apare pe ecran o imagine de tipul urmãtor:
Se observã mai întâi cã este afişat numele bazei respective GSS93 subset apoi putem
observa dispunerea pe coloanã a unor variabile cum ar fi: id (numãr de identificare a individului
care intrã în baza de date), wrkstat (statusul ocupaţional), marital (situaţia maritalã), agewed
(vârsta la prima cãsãtorie) etc. Dupã cum se vede fiecare variabilã are un nume prescurtat care
poate include maximum 8 caractere (fãrã spaţii şi fãrã anumite semne speciale) iar dacã vom opri
cursorul mausului pe numele unei variabile va apare instantaneu numele pe lung al acesteia (care
se poate extinde pânã la 256 de caractere). Pentru a obţine informaţii amãnunţite despre variabile
putem alege opţiunea Variable view din partea de jos a ferestrei Data Editor. Pentru aceste
informaţii sau pentru construirea de noi baze de date trebuie cunoscutã în amãnunt problematica
variabilelor statistice.
Reluãm aici unele consideraţii fãcute într-un curs anterior de statisticã descriptivã datoritã
utilitãţii acestora în cazul de faţã. Aminteam cu acel prilej cã în orice cercetare statistică se obţin
date asupra unor caracteristici bine precizate ale unităţilor statistice. Dacă aceste unităţi au unele
caracteristici considerate în cadrul cercetării ca fiind fixe altele sunt considerate ca variind de la o
unitate la alta de unde şi denumirea de variabilă. De exemplu dacă unităţile statistice sunt
reprezentate de cetăţenii români cu drept de vot, între aceştia apar diferenţieri după sex, venit,
apartenenţă religioasă, profesie, nivelul de educaţie, număr de copii, opţiunea politică etc. Toate
acestea din urmă sunt caracteristici sau variabile statistice. Fiecare din variabile se distinge prin
mulţimea valorilor pe care le ia. După cum se vede şi din enumerarea de mai sus aceste variabile se
exprimă prin mărimi total diferite ceea ce a impus clasificarea lor de o manieră precisă. Astfel,
pentru Michèle Colin et alii [1995; 32] variabilele sunt de două feluri:
-calitative (desemnează feluri de a fi: sex, culoarea ochilor, opiniile etc. )
-cantitative (provin dintr-o măsurare: talia, greutatea, vârsta etc. )
În ce priveşte variabilele calitative, acestea pot fi ordonate atunci când iau anumite valori pe două
tipuri de scale:
1). Scală nominală (ex. Sexul poate fi masculin/ feminin; starea civilă poate fi doar într-
una din situaţiile: necăsătorit, căsătorit, văduv, divorţat)
2). Scală ordinală (ex. Răspunsul la întrebarea “ Cât de mulţumit sunteţi de şeful dv.
direct?”, răspuns: a). absolut de loc; b). puţin ; c) aşa şi aşa; d). mult e).foarte mult ).
Diferenţa dintre cele două scale este evidentă. Astfel, în cazul primului tip nu există o
relaţie de ordine iar valorile variabilei sunt exprimate prin cuvinte (de unde şi denumirea de scală
nominală!), cuvinte care nu fac decât să împartă colectivitatea statistică în mai multe grupe sau
categorii. În cel de al doilea caz subiectul care răspunde este rugat să se plaseze singur pe o treaptă
a unei scale care poate fi ascendentă sau descendentă, dar în orice caz este presupusă aici o relaţie
de ordine (fiecare din variantele a, b, c, …e este plasatã pe un continuum crescător, din care
trebuie aleasă una). Din moment ce ele semnifică o ordine atunci ele pot fi notate şi cu numere
naturale ca în exemplul următor:
Întrebare: ”De câte ori mergeţi la biserica din confesiunea dumneavoastră?” Răspuns: 1). Cel puţin
o dată pe săptămână ; 2). Cel puţin o dată pe lună; 3). Destul de rar ; 4). Practic niciodată. Acest
exemplu l-am dat pentru a aminti, odată cu T. Rotariu [1999; 28] că scala utilizată se distinge prin
folosirea variantelor 1,2,3… dar numai în sens ordinal şi nu pur numeric, cantitativ. Variantele
1,2,3… generează de fapt tot clase sau categorii de răspunsuri! Precizările acestea sunt foarte
importante pentru a nu se confunda acest tip de variabile cu cele cantitative!
În concluzie se poate face distincţia între variabile calitative nominale şi variabile
calitative ordinale.
Cât priveşte variabilele cantitative, acestea provin dintr-o măsurare efectivă, exprimată
printr-un număr cardinal şi se împart şi ele în două categorii:
-variabile cantitative continui (ex. Înlţimea unei persoane poate fi orice valoare din
intervalul [140, 220] cm.)
-variabile cantitative discrete (ex: o familie poate avea 0, 1, 2, 3, 4,….copii, dar nu şi un
număr exprimat printr-o valoare intermediară ex. 1,5 ; 2,3 etc.)
Obs: intuitiv diferenţa dintre cele două tipuri ar putea fi dată de modul cum parcurgem, în
matematică mulţimea R, a numerelor reale şi mulţimea N, a numerelor naturale!
Variabilele cantitative uzează de două tipuri de scale:
1). Scală de intervale (ex. gradaţia unui termometru, anul naşterii etc. )
2). Scală de rapoarte (ex. greutatea, salariile, vârsta etc. )
Obs : în literatura de specialitate le întâlnim uneori cu nume în limba englezã (interval scale
respectiv ratio scale).
Diferenţa dintre cele două scale este importantă. Astfel, în cazul scalei de intervale gradaţia
de început (ex. 00 Celsius) este convenţională pe când în cazul scalei de raporturi gradaţia de
început este reală (ex. venitul de 0 lei desemnează lipsa oricărei surse financiare). O altă diferenţă
provine din faptul că scala de intervale nu ne permite să stabilim raporturi între valorile unei
variabile (de ex. nu putem spune că la temperatura de 40 0 Celsius este de 40 de ori mai cald decât
la temperatura de 10 Celsius). În cazul celei de-a doua scale se pot stabili aceste raporturi (de ex.
un individ de 100 de Kg. este ce două ori mai greu decât unul de 50 Kg.). Având în vedere că
diferenţele dintre aceste scale sunt imediat percepute rareori pot apare anumite confuzii. Se impune
totuşi precizarea că unii indicatori statistici nu au sens prin folosirea de scale de intervale.
Încercând o recapitulare iată cum arată o tabelare a variabilelor după Michèle Colin
[1995;34]:
Obs. : Existã uneori tendinţa de a trata scalele ordinale ca şi scale de intervale. Din cauzã cã
distanţele între valorile acestor tipuri de scale sunt diferite pot apare însã confuzii. De exemplu
dacã ne referim la o scalã ordinalã datã de întrebarea « Sunteţi mulţumit de şeful direct ? » cu
rãspunsurile posibile : 1. Foarte mulţumit 2. Mulţumit 3. Deloc mulţumit 4. Nu am o pãrere
formatã, se pune problema dacã este legitim sã calculãm media aritmeticã a valorilor 1-4 ca şi pe o
scalã de intervale. Se pune deci problema dacã o medie de 1,75 ne poate îndreptãţi sã declarãm cã
suntem aproape mulţumiţi de şeful direct ? Fãrã doar şi poate cã o astfel de valoare are o
reprezentare intuitivã însã în sens strict statistic ea poate fi imprecisã. Sã presupunem cã avem altã
scalã ordinalã ataşatã întrebãrii « Cîte cãrţi de literaturã citiţi pe lunã ? » : 0. Niciuna 1. O carte 2.
Douã cãrţi 3. Trei cãrţi 4. Patru sau mai multe cãrţi. În acest caz o astfel de scalã poate fi tratatã ca
şi o scalã de interval şi deci o medie de, sã spunem, 1,5 cãrţi ni se pare plauzibilã. Diferenţa de
interpretare apare din faptul cã cea de a doua scalã ordinalã are intervale egale. În fiecare caz
rãmâne la latitudinea cercetãtorului de a decide interpretarea corectã a datelor.
O distincţie importantã este şi aceea dintre variabile independente şi variabile dependente. Iatã
câteva exemple :
Dupã cum se observã sensul legãturii dintre aceste variabile este univoc relaţia inversã
neputînd fi impusã (de exemplu opţiunile electorale nu pot influenţa sexul subiecţilor). Modul cum
sunt desemnate aceste tipuri de variabile diferã de la o cercetare la alta. Prin definiţie variabilele
independente sunt cele care influenţeazã pe cele dependente, fiind stabilite sau introduse de cãtre
cercetãtor. În cercetãrile prin chestionar de obicei se introduce un set de astfel de variabile cu
caracter demografic sau economic în funcţie de care se vor face analize privind celelalte variabile
(întrebãri). Legãturile dintre astfel de variabile sunt fundamentale în experimentele sociologice.
Sã presupunem cã dorim sã construim o nouã bazã de date. Pentru aceasta vom urma
comenzile File→New→Data dupã care apare tabloul gol Data Editor. Vom da apoi dublu clic pe
numele sav care apare în capul primei coloane. Automat se va deschide cel de-al doile registru
numit Variable view în care putem defini variabilele :
În prima coloanã începând din colţul din stânga sus putem introduce numele variabilelor.
Este vorba de numele pe scurt al acestora cu pânã la opt caractere. Apoi vom caracteriza
respectivele variabile conform indicaţiilor care urmeazã : Type, Width, Decimals, Label etc.
De data aceasta tabelul conţine pe fiecare linie orizontalã câte o variabilã iar pe fiecare
coloanã putem caracteriza în amãnunt fiecare variabilã. Vom identifica rolul fiecãrei coloane :
Name- include numele pe scurt al variabilei de maximum 8 caractere (nu se folosesc
spaţiile goale sau anumite semne speciale : !, ?, *, ‘ ).
Dupã ce am introdus numele în prima cãsuţã vom da clic în partea dreaptã a celulei
corespunzãtoare unei variabile şi care este în coloana cu titulatura Type. Va apare urmãtoarea
fereastrã :
Aceastã ferestrã conţine tipurile de variabile posibile mai precis tipurile de variabile dupã valorile
pe care le pot lua acestea :
Numeric-opţiunea pentru valori numerice ; se pot stabili câte cifre au aceste numere, maximum 40
(Width) dar şi cifrele pentru partea zecimalã, maximum 16 (Decimal Places). Opţiunile alese vor
apare în urmãtoarele douã coloane ale tabloului !
Comma- sau virgulã folositã uneori la separarea cifrelor de ordinul miilor, milioanelor etc. ; în
acest caz separatorul zecimal este un punct
Dot- sau punct folosit uneori la separarea cifrelor de ordinul miilor, milioanelor etc. ; în acest caz
separatorul zecimal este un virgula
Scientific notation- notaţii speciale de tipul 1,2E3 ceea ce înseamnã 1,2*103
Date-notaţii pentru date calendaristice (conform unui format care poate fi ales).
Dollar-simbolul monedei americane
Custom currency- variabilã numericã cu date dispuse dupã formatul din
Edit→Options→Currency
String- configureazã variabile alfanumerice care pot conţine şiruri de caractere (litere sau
numere). Odatã aleasã aceastã opţiune poate fi indicat numarul de caractere ales.
Values- pot fi numite valorile şi etichetele ataşate acestor valori pentru cazul variabilelor
ordinale sau categoriale. Dupã un clic în partea dreaptã a celulei corespunzãtoare din coloana cu
acest titlu va apare fereastra de dialog urmãtoare :
Value dã valoarea numericã a unei
etichete iar Value Label va da
numele etichetei respective. Dupã
aceste operaţii se apasã pe butonul
Add . Opţiunile pot fi apoi schimbate
(Change) sau chiar şterse (Remove).
Iata cum va arãta dupã aceste operaţii
variabila sex cu cele douã alternative
1. masculin, 2. feminin:
Nu uitaţi: la finalul
unor operaţiuni de
acest tip se alege
invariabil OK sau
Continue, altfel
setãrile dorite nu vor
fi preluate de cãtre
program!
Missing – poate permite operatorului de a desemna valorile lipsã (Missing Values) din cadrul
unei variabile. Pentru inceput, programul are setatã opţiunea fãrã valori lipsã dupã cum apare în
fereastra urmãtoare :
Se poate
opta
totuşi
pentru
dverse
variante:
În aceste cazuri operatorul poate decide ca în analizele ulterioare valorile de tipul 97 (Nu
ştiu), 98 (Nu rãspund) 99 (Nu s-a aplicat) sã fie considerate lipsã (missing). De asemenea se poate
decide ca pe lângã valorile cuprinse între 97-99 sã mai fie adãugatã o valoare din baza de date.
Necesitatea unor astfel de operaţii este imediatã : se pot face analize eliminând pe moment anumite
valori spaciale iar apoi se pot analiza separat chiar valorile considerate lipsã. În cazul variabilelor
alfanumerice trebuie consemnat un spaţiu liber în cãsuţa Discrete missing values deoarece
programul considerã valide chiar şi celulele goale !
Columns- se poate decide asupra formatului coloanelor în funcţie de mãrimea datelor variabilei
Align- se poate decide asupra modului cum vor fi aliniate valorile variabilei pe coloane
- Scale- opţiune pentru variabile numerice fie ele mãsurate pe scale de interval
sau de rapoarte (ratio)
- Ordinal- de obicei este o opţiune pentru variabile ordinale care au categorii
bine precizate prin etichete numerice şi care pot fi ordonate.
- Nominal- opţiune pentru variabile alfanumerice în care nu existã nici o relaţie
de ordine între valori (care pot fi cuvinte dar şi numere).
Obs : precizarea corectã a opţiunii measurement este importantã deoarece o serie de proceduri
statistice se referã doar la anumite tipuru de variabile sau valori. Astfel pentru variabile nominale
dintre mãrimile tendinţei centrale (media, mediana, modul) nu are sens sã calculãm media !
Odatã fãcute precizãrile de pânã acum putem introduce datele în Data Editor ştiind cã
fiecare coloanã reprezintã o variabilã iar fiecare rînd reprezintã un caz sau o persoanã. Sã
presupunem cã într-un chestionar avem în ordine urmãtorii itemi :
Se observã cã am optat pentru tipul numeric variabila având drept valori numere cu pânã la
trei cifre (Width=3) considerând cã au fost interogate de exemplu 800 de persoane. Codul
chestionarului este un numãr întreg fãrã zecimale (Decimals=0), numele pe lung al variabilei este
„Cod chestionar”, mãsurarea este de tip Scale.
Definirea variabilei q1_trai trebuie sã ţinã cont de specificul acesteia prin precizarea etichetelor
respective (se scrie Value: 1, apoi Value Label : „Mult mai bine” apoi Add etc.).
Cea de a treia variabilã q2_probl este una nominalã rãspunsurile fiind consemnate ca variante
pentru o întrebare deschisã. Dacã în cazul anterior se vor introduce în baza de date doar numerele
valori ale etichetelor în acest caz trebuie introduse rãspunsurile subiecţilor ca atare. Referitor la
valorile variabilei tipul acesteia este String:
Cea de a treia variabilã este de tip String cu variante de pânã la 100 de caractere nominale
sau numerice. Modalitatea de mãsurare este Nominal.
Dupã aceste operaţii putem salva baza de date cu comenzile File→Save As şi noua bazã o putem
numi bazaexemplu. Numele bazei va apare în bara de titlu :
În acest moment putem reveni în fereastra Data View pentru a introduce datele culese din
chestionare. Valorile se introduc în tabel acolo unde celula este activã (apare un chenar în jurul
celulei) apoi se apasã tasta Enter. Sã presupunem cã am introdus primii zece subiecţi chestionaţi.
Pentru a vedea şi
care sunt etichetele
ataşate valorilor
din coloana a doua
putem urma
comenzile View
→ Value Label
sau putem da clic
pe butonul
de pe bara cu
instrumente. Dupã
o astfel de operaţie
vor apare în bazã
şi etichetele
respective :
din moment ce bazele de date au fost constituite putem incepe analizele statistice necesare !
Toate comenzile de pînã acum pot fi executate şi într-un editor de texte sau fişier sintaxã. Acest
fişier care are termninaţia .sps este foarte util când se lucreazã frecvent cu baze mari de date pentru
cã respectivele instrucţiuni (comenzi) pot fi salvate şi apoi reiterate de câte ori este nevoie. Ceea ce
am întreprins pânã acum de exemplu putem sã regãsim într-un « jurnal » al aplicaţiilor care poate
fi gãsit în fişierul spss.jnl din Windows→Temp, fişier care poate fi deschis şi ca document Word.
Accesând acest document gãsim urmãtoarele specificaţii care rezumã de fapt construcţia bazei de
date anterioare:
Thu Dec 25 13:42:07 2003 :journaling started
GET
FILE='C:\Documents and Settings\Adrian\My Documents\spss
curs'+
' Id\bazaexemplu.sav'.
SAVE OUTFILE='C:\Documents and Settings\Adrian\My
Documents\spss curs Id\bazaexemplu.sav'
/COMPRESSED.
FREQUENCIES
VARIABLES=age
/STATISTICS=MEAN
/ORDER= ANALYSIS .
În acest curs nu vom insista pe aspecte legate de limbajul sintaxã însã recomandãm pentru cei
interesaţi de exemplu volumul M. Norusis, SPSSx Advanced Statistics Guide, McGraw Hill, 1995.
De asemenea se poate apela la site-ul creatorilor şi proprietarilor programului www.spss.com sau
la Help-ul programului.
6. Elemente de statisticã univariatã în SPSS
Vom analiza în acest capitol câteva din procedurile statistice elementare pe care le putem
aplica datelor statistice. Sã deschidem una din bazele programului anume GSS93 subset (obţinutã
în urma unei anchete pe un eşantion de 1500 de subiecţi):
Ne oprim atenţia asupra variabilei educ (Highest year of school completed) ale cãrei
caracteristici de bazã le putem identifica în fereastra Variable View:
Variabila este consideratã având valori numerice cu maximum douã cifre, sunt consemnate
trei valori speciale: 97 (NAP, neaplicat) 98 (DK, “don’t know “; “nu ştiu”) şi 99 (NA, “no
answer”, “non-rãspuns”). În cazul valorilor lipsã (missing values) sunt consemnate valorile 97, 98,
99. Variabila este consideratã ordinalã dar din considerentele spuse mai înainte ea poate fi la fel de
bine considerate variabilã cantitativã discretã.
Pentru aceastã variabilã vom încerca sã calculãm principalele valori statistice. Pentru
aceasta vom apela comenzile urmãtoare: Analyse→Descriptive Statistics→Frequencies:
Se va deschide o nouã
fereastrã de dialog care
conţine douã compartimente.
Pentru ca o varibilã sã poate
fi analizatã trebuie trecutã
din coloana din stânga în cea
din dreapta cu ajutorul
sãgeţii din mijloc (sau dublu
clic) dupã selectare. Sãgeata
se poate acţiona şi invers!
x x
2
i fi
SD
f i
Obs: în cazul unei serii cu distribuţie normalã sau care se apropie de o astfel de distribuţie
valorile seriei sunt cuprinse în proporţie de 99% în intervalul x 3SD, x 3SD .
Variance-o notãm SD2 este mãrimea din care am obţinut deviaţia standard prin extragerea
radicalului. Formula de calcul este sugeratã de ridicarea la pãtrat a formulei anterioare:
x x
2
i fi
SD 2
f i
S.E. Mean-sau “standard error of mean” (eroarea standard a mediei) ne poate aratã limitele între
care varizã media eşantionului () în cadrul unei populaţii de eşantioane. Se ştie cã un astfel de
interval este foarte util atunci când aproximãm valoarea mediei dintr-o populaţie. Aceastã valoare
nu este cunoscutã decît în urma unor cercetãri exhaustive care sunt deosebit de complexe şi
costisitoare. În practicã majoritatea estimãrilor statistice se fac pe eşantioane iar rezultatele, sub
condiţia reprezentativitãţii, sunt apoi inferate (extinse) la populaţia mare din care a fost extras
eşantionul. Dacã notãm media din populaţia mare cu μ, S.E.Mean cu SE şi eroarea limitã admisã
cu Δx (Δx=t.SE) putem conchide cã, cu o anumitã probabilitate, x x , x x , interval în
care x este media din eşantion. Atragem atenţia cã în majoritatea tratatelor de statisticã valorile
care se referã la o populaţie statisticã sunt notate cu litere greceşti iar cele referitoare la eşantioane
se vor nota cu litere latine.
III. Central Tendency-grup de valori care poartã denumirea de mãrimile tendinţei centrale (acele
mãrimi care caracterizeazã îm medie întreaga mulţime a valorilor statistice). Se calculeazã de
obicei urmãtoarele valori:
x
x i
, pentru serii simple şi x
x f
i i
, pentru serii cu frecvenţe
n f i
Median-sau mediana (Me) reprezintã valoarea ataşatã individului sau cazului care împarte
milţimea statisticã în douã pãrţi egale. Se citeşte astfel: 50% din valorile seriei sunt mai mici decât
Me, iar restul de 50% au valori care depãşesc Me. Dupã cum se ştie aceastã mãrime se identificã
uşor într-o serie simplã, la mijlocul acesteia, dupã ce am ordonat valorile respective. Pentru o serie
cu intervale se foloseşte formula:
U me f ia
Me x 0 d , formulã în care x0 este limita inferioarã a
fm
intervalului median, d mãrimea acelui interval, f ia este frecvenţa cumulatã anterioarã
intervalului median, iar fm este frecvenţa corespunzãtoare acelui interval.
Mode-sau modul (dominanta), notat Mo, reprezintã cea mai des întâlnitã valoare dintr-o
serie statisticã sau valoarea care are cea mai mare frecvenţã. Pentru o serie simplã este uşor de
identificat iar pentru serii cu frecvenţe se foloseşte formula:
1
Mo x0 d , formula în care x 0 este limita inferioarã a intervalului
1 2
modal (corespunzãtor celei mai mari frecvenţe), d este mãrimea respectivului interval, Δ1 şi Δ2 sunt
diferenţele obţinute prin scãderea din frecvenţa intervalului modal a frecvenţelor anterioarã şi
posterioarã acesteia.
IV. Distribution- valori care se referã la forma distribuţiei statistice. Cuprinde duã tipuri de valori:
skewness (asimetria) şi kurtosis (aplatizarea).
Asimetria se referã la mãsura în care graficul (distribuţia) valorilor este asimetric spre
stînga sau spre dreapta faţã de valoarea medie. Pentru un coefficient, sã îl notãm sk (de fapt
coeficientul Pearson de oblicitate) putem avea valorile:
Obs1. Valorile sk şi k sunt considerate normale dacã se încadreazã în intervalul [-1,96; 1,96].
Obs2. Precizãm cã o curbã normalã este binecunoscuta distribuţie gaussianã, în formã de clopot,
perfect simetricã şi care se bucurã de o serie de proprietãţi fundamentale pentru cercetarea
statisticã. Recomandã şi parcurgerea bibliografiei de la sfârşitul cursului pentru alte informaţii.
V. Values are group midpoints-opţiune utilizatã când valorile seriei sunt grupate simetric în jurul
unei valori anumite.
Toate mãrimile precizate pot fi calculate în cazul unei variabile cantitative numerice. Vom seta
toate variantele repective vom da OK şi vom obţine rezultatele într-o altã fereastrã Output1
(specificã afişãrii rezultatelor şi care poate fi salvatã ca şi un fişier de tip *.spo):
Dupã apelarea butonului Continue graficul va apare tot în fereastra de rezultate Output1:
600
Se observã în acest grafic
constatãrile din primul tabel:
500 distribuţia se apropie de o curbã
normalã având o uşoarã alungire
400
spre stânga (sk<0) iar din
300
punctul de vedere al boltirii
existând o tendinţã leptocurticã
200 (k>0) adicã dacã am uni
mijloacele dreptunghiurilor
Frequency
În aceeaşi fereastrã Output1 vom gãsi şi tabelul frecvenţelor dupã cum urmeazã:
Highest Year of School Completed Prima coloanã conţine valorile seriei
Cumulative respectiv anii de studii cu cifre
Frequency Percent Valid Percent Percent cuprinse intre 0 şi 20 de ani de
Valid 0 2 .1 .1 .1 studiu. Cea de a doua coloanã
2 4 .3 .3 .4 cuprinde frecvenţele absolute la
4 7 .5 .5 .9 final adãugându-se şi numãrul celor
5 7 .5 .5 1.3 care au rãspuns „don’t know” (DK).
6 20 1.3 1.3 2.7 Cea de a treia coloanã conţine
7 26 1.7 1.7 4.4 frecvenţele relative (procentuale).
8 59 3.9 3.9 8.4 Cea de a patra coloanã conţine
9 45 3.0 3.0 11.4 frecvenţele procentuale valide adicã
10 55 3.7 3.7 15.0 acele frecvenţe recalculate în
11 81 5.4 5.4 20.5 condiţiile în care valorile speciale
12 445 29.7 29.7 50.2 de tip 97, 98, 99 sau altele sunt
13 135 9.0 9.0 59.2 declarate „missing” sau „lipsã”.
14 166 11.1 11.1 70.3 Diferenţele dintre coloanele a treia
15 70 4.7 4.7 75.0 şi a patra nu existã datoritã
16 208 13.9 13.9 88.9 numãrului foarte mic de valori
17 46 3.1 3.1 92.0 missing. Dacã numãrul lor era mai
18 71 4.7 4.7 96.7 mare diferenţa era vizibilã. Ultima
19 24 1.6 1.6 98.3 coloanã conţine frecvenţele
20 25 1.7 1.7 100.0 cumulate calculate dupã coloana din
Total 1496 99.7 100.0 stânga. Algoritmul de calcul este
Missing DK 4 .3 simplu: se scrie prima frecvenţã 0,1
Total 1500 100.0 şi se adunã cu urmãtoarea 0,3,
rezultã 0,4 ş.a.m.d.
Ultima coloanã ajutã la lectura mai rapidã a datelor statistice. De exemplu putem citi cã
70% dintre respondenţii cu rãspunsuri valide au pânã în 14 ani de şcoalã.
Vom cãuta sã calculãm principalele valori statistice şi pentru o variabilã categorialã (fie ea ordinalã
sau nominalã). Pentru acest exerciţiu vom apela la o altã bazã de date BOP_mai-2003_Gallup
FINAL.sav bazã constituitã în urma anchetei la nivel naţional intitulatã Barometru de opinie.
Aceastã bazã poate fi descãrcatã de pe site-ul www.osf.ro. Iatã cum aratã o porţiune din acastã
bazã:
Variabila a12 este o variabilã ordinalã şi reprezintã întrebarea „Cum este viaţa dvs. în
prezent comparativ cu cea de acum un an?”. Aceastã întrebare avea variantele de rãspuns: 1. Mult
mai bunã 2. Mai bunã 3. Aproximativ la fel 4. Mai proastã 5. Mult mai proastã 8. NS 9. NR. Sã
calculãm principalele valori statistice şi sã reprezentãm grafic seria. Vom urma comenzile
Analyze→Descriptive statistics→Frequencies:
De data aceasta valorile statistice care ne intereseazã sunt mult mai puţine datoritã variabilei care
este calitativã. Foarte util în acest caz este şi tabelul frecvenţelor care este setat în prima fereastrã.
Graficul va fi de tipul Pie charts. Rezultatele le obţinem tot în Output1:
Cumulative
Frequency Percent Valid Percent Percent
Valid mult mai bunã 21 1.0 1.0 1.0
mai bunã 308 14.7 14.7 15.7
aproximativ la fel 933 44.4 44.4 60.1
mai proastã 656 31.2 31.2 91.3
mult mai proastã 163 7.8 7.8 99.1
NS 12 .6 .6 99.7
NR 7 .3 .3 100.0
Total 2100 100.0 100.0
Fereastra Chart1 este special constituitã pentru a face diverse modificãri în graficul respectiv. Aici
nu vom aplica decât comenzile Chart→Options→Percent iar dupã eliminarea titlului din
fereastra anterioarã graficul final va fi urmãtorul:
Din bara cu meniuri a
NR ferestrei Chart1 se pot
.3%
selecta multe alte facilitãţi
NS
pentru reprezentãrile
grafice. De exemplu pot fi
.6%
eliminate ponderile foarte
mult mai proastã
mici cum ar fi NS, NR
7.8%
mult mai bunã pentru o mai bunã
mai proastã
1.0% vizualizare a categoriilor
31.2%
mai bunã variabilei! De asemenea
14.7%
pot fi adãugate/eliminate
texte, pot fi fãcute diverse
modificãri etc.Dupã
închiderea ferestrei
rezultatul este salvat în
aproximativ la fel Output.
44.4% Meniul Help poate fi de
ajutor în acest sens!
Obs: o bunã parte dn valorile statistice calculate pentru o variabilã sau mai multe se pot obţine şi
dacã apelãm la comenzile Analyze→Descriptive Statistics→Descriptives iar valorile respective
le putem alege din meniul Options.