Sunteți pe pagina 1din 15

Statistic multivariat

Lucrarea nr. 3 Introducere n SPSS


A. Noiuni teoretice
Lucrarea are ca obiectiv introducerea n SPSS i realizarea prelucrrilor uzuale
de statistic descriptiv i de testarea ipoteselor statistice, care au fcut obiectul
primelor dou lucrri realizate n Excel. Prin urmare se pot revedea seciunile A din
primele dou lucrri.

B. SPSS - prezentare i operare


Programul SPSS (Statistical Package for the Social Sciences) este unul
dintre cele mai utilizate n analiza statistic a datelor. Prima versiune a aprut n anul
1968, a evoluat pn la versiunea 15 i aria de aplicabilitate s-a extins de la versiune
la versiune, odat cu modul de operare i cu facilitile oferite. Programul este utilizat
astzi n marketing, cercetare experimental, educaie, sntate etc. n afar de
analizele statistice posibile, programul are componente puternice pentru
managementul datelor (selectare, reconfigurare, creare de date noi) i pentru
documentarea datelor (exist un dicionar metadata, care reine caracteristici ale
datelor). Se mai poate aduga flexibilitatea privind tipurile de date acceptate ca i
modulul de construire a rapoartelor.
Acest document se dorete a fi o introducere n operarea SPSS:
- interfa,
- gestionarea datelor,
- analiza statistic elementar.

Ferestre SPSS
Sunt enumerate tipurile de ferestre disponibile n mediul SPSS i se precizeaz
funcionalitatea lor.
Data Editor
Este fereastra care se deschide automat la pornirea unei sesiuni i care permite
editarea datelor, crearea de noi nregistrri, eliminarea unor nregistrri etc.

Datele pot fi vzute n dou ipostaze:

Activnd tab-ul Data View se vor afia nregistrrile fiierului de date ntr-o
gril, coloanele reprezentnd variabilele, liniile fiind cazurile studiate
(termenul de cazuri provine evident din practica sociologic/medical, sunt
elementele eantionului studiat).
Activnd tab-ul Variable View se vor afia metadatele asociate variabilelor
(numele variabilei, tipul variabilei, indicaii de afiare etc.).
Viewer
Fereastra Viewer este utilizat pentru afiarea rezultatelor: statistici, tabele,
diagrame etc. Dac nu exist o fereastr Viewer deschis, se va crea automat
una la prima comand care produce ieiri. Rezultatele afiate pot fi editate,
deplasate, eliminate etc. ntr-un mediu similar cu cel din Microsoft Explorer.

Pivot Table Editor


Multe dintre tabelele care conin rezultate sunt de fapt tabele pivot (cuburi
OLAP). Acestea pot fi modificate n fereastra Pivot Table Editor (editare
text, reconfigurare tabel etc.) activat prin dublu click pe un tabel. Apar
meniurile corespunztoare care permit editarea.
Chart Editor
Diagramele care pot fi construite, n general prin comenzile meniului Graphs,
pot fi modificate, formatate etc. prin comenzile disponibile n Chart Editor.
O asemenea fereastr este activat la dublu click pe o diagram dintr-un fiier
SPSS de ieire.
Text Output Editor
Textul simplu (neinclus ntr-un tabel pivot) poate fi modificat, la dublu click
pe o intrare text din fiierul de ieire, n fereastra Text Output Editor. Se pot
modifica n acest fel caracteristicile uzuale ale fontului.
Syntax Editor
SPSS poate fi utilizat prin intermediul unei limbaj de comenzi proprii. Acesta
a fost modul iniial de operare, astfel nct o serie de prelucrri foarte
specializate au rmas disponibile, chiar i n ultimele versiuni, doar prin
intermediul comenzilor.
O fereastr Syntax Editor poate fi deschis prin File New/Open
Syntax. Comenzile pot fi scrise direct n fereastra Syntax Editor, dar exist i

posibilitatea de a nregistra aciunile din interfaa utilizator sub form de


comenzi (similar nregistrrii unui macro din Microsoft Office). Comenzile
pot fi salvate ca un fiier de comenzi, n vederea reutilizrii.
Script Editor
SPSS poate fi personalizat/automatizat prin intermediul unui limbaj de
scriptare, Sax Basic (compatibil Visual Basic for Applications). Se va
deschide o fereastr Script Editor prin File New/Open Script.
Pot exista mai multe ferestre de ieire (Viewer), ca i mai multe ferestre de
sintax (Syntax Editor). Fereastra activ dintr-un grup este indicat de semnul !
afiat pe bara de stare a ferestrei active, activarea poate fi modificat prin acionarea
uneltei
din fereastra inactiv

Meniuri SPSS
Ca n orice aplicaie Windows, multe dintre prelucrrile SPSS pot fi executate
prin acionarea comenzilor din meniuri.Fiecare fereastr SPSS are propriile meniuri i
unelte corespunztoare.
Meniuri comune
File
Este utilizat pentru creare, deschidere, export de fiiere diverse: date, rezultate,
comenzi etc.
Edit
Editrile uzuale pentru date numerice, text sau obiecte grafice: copieri, alipiri
etc. n aceeai aplicaie sau nu.
View
Controleaz modul de afiare a uneltelor, a liniaturii, a identificatorilor de
valori (valorile pot avea ataate denumiri explicite).
Analyze
Este meniul care d acces la procedurile statistice.
Graphs
Permite crearea diagramelor. Orice diagram poate fi modificat (reamintim)
prin Chart Editor, afiat la dublu click pe diagram.
Utilities
Permite afisarea informaiilor despre variabile, definirea unor mulimi de
variabile etc.
Window
Operaii asupra ferestrelor.
Help
Deschide o fereastr standard de ajutor.

Data Editor meniuri specifice

Data
Se pot realiza modificri globale cum ar fi transpunerea variabilelor i
cazurilor, filtrarea cazurilor etc. Modificrile sunt temporare dac nu sunt
salvate n fiierul iniial.
Transform
Permite transformarea unor variabile (cum ar fi recodificare) i obinerea unor
noi variabile prin calcule efectuate asupra variabilelor existente. Modificrile
sunt temporare pentru sesiunea curent, dac nu sunt salvate n fiierul iniial.

SPSS - Opiuni
Se poate personaliza mediul SPSS prin selectarea comenzii Edit - Options

Se remarc, pe pagina General, posibilitatea de a menine un jurnal al


aciunilor (Session Journal), de a controla afiarea variabilelor i rezultatelor, de a
stabili folderul temporar. Celelalte pagini permit stabilirea atributelor implicite pentru
diagrame, tablourile pivotante, modul de calcul etc.

Fiierul de rezultate
Rezultatele sunt afiate n fereastra Viewer n ordinea n care sunt apelate
procedurile, fiecare apel producnd o intrare n arborele de navigare din stnga
ferestrei. n aceast fereastr se poate naviga la orice component prin operare n
arborele de navigare i se pot efectua editri care s conduc la o ieire clar, uor de
interpretat, potrivit necesitilor prelucrrii.
Se poate utiliza fereastra Viewer pentru:
Parcurgerea rezultatelor, vizualizarea sau ascunderea unor componente
(tabele, diagrame),
Modificarea ordinii n care sunt afiate componentele,
Accesul la ferestrele Pivot Table Editor, Text Output Editor, Chart Editor,
Copierea/mutarea elementelor ntre SPSS i alte aplicaii (Word, Excel etc.).
Panelul din stnga al ferestrei conine arborele de structur a ieirii. Se pot
extinde sau restrnge ramuri, se pot deplasa elementele prin drag-and-drop, se poate
naviga la un element prin selectarea nodului asociat.
Pentru copiere ntre aplicaii se poate utiliza tehnica uzual Edit Copy urmat
de Edit Paste/Paste Special.
Exist ns i posibilitatea de export a ieirii prin
Se activeaz fereastra Viewer i se d comanda File Export.
Se afieaz dialogul

Se fixeaz n File Type tipul fiierului destinaie; ultimele versiuni accept i


formate .xls, .doc.
Se alege numele i calea fiierului destinaie i ce anume se export (ntreg
documentul cu sau fr diagrame, ce obiecte).

Organizarea datelor
SPSS utilizeaz datele organizate n linii i coloane: liniile reprezint cazurile
(observaiile), coloanele reprezint variabilele cercetrii. Aparent, grila seamn cu o
foaie Excel, dar funcionalitatea nu este aceeai. Deoarece prelucrrile statistice se
aplic variabilelor, acestea au n SPSS o serie de atribute memorate n fiierul de date
i artate n Data Editor - Variable View:
n SPSS, variabilele sunt denumite, cel puin n versiunile mai vechi, cu
identificatori de maxim 8 caractere i care nu se pot termina cu punct (rezervat
pentru comenzi de scriptare). Identificatorii sunt formai dup regulile uzuale
(cele mai restrictive sunt interzicerea spaiilor i a caracterelor speciale &, !, ?,
', *) i nu sunt case sensitive.
Tipul unei variabile poate fi (semnificaia este evident) numeric, comma, dot,
scientific notation, date, custom currency sau string. Variabilele numerice pot
avea cel mult 40 de caractere, dintre care 16 la partea zecimal. Variabilele
string se pot clasifica n short string (pn la 8 caractere) sau long string (pn
la 256 caractere). Variabilele short string suport unele proceduri SPSS.
Se poate defini pentru fiecare variabil care este valoarea lips (missing
value), cu alte cuvinte cum este codificat situaia c un caz nu conine o
valoare pentru variabila respectiv. Valorile lips pot fi separate n system
missing (un spaiu n cazul datelor numerice sau nimic, irul vid, n toate
cazurile) i user missing (cele specificate explicit ca valori lips). Variabilele
long string nu permit valori user-missing.
Pe lng denumire, care apare ca nume al coloanei, o variabil poate avea
ataat o etichet, label, care este un text explicit privind semnificaia
variabilei. De exemplu, variabila Nume poate avea ca label textul Numele i
prenumele candidatului. Aceste etichete vor fi utilizate n raportarea
rezultatelor.
Atributul Width fixeaz numrul maxim de caractere al valorilor string,
Columns precizeaz numrul de caractere afiate.
Deoarece cazul frecvent ntlnit n prelucrrile statistice este acela n care sunt
nscrise n fiierul de date codurile valorilor (de exemplu, 1=elev, 2=student
etc.), SPSS permite definirea i memorarea codificrilor utilizate pentru
fiecare variabil. n fereastra Data Editor, pagina Variable View, activarea
celulei din coloana Values conduce la afiarea dialogului Value Labels:

Fiecare pereche Value Value Label este adugat la lista de coduri prin
activarea butonului Add etc. Etichetele de valori, mpreun cu etichetele de
variabile conduc la o form explicit a rezultatelor.
Ultimul atribut specific al unei variabile este scala de msur utilizat, atribut
reinut n coloana Measure din Variable View. Denumirile SPSS utilizate

sunt scale pentru variabile de interval, ordinal pentru variabile ordinale,


nominal pentru variabile nominale. Fixarea msurii corecte este esenial
deoarece, reamintim, anumite prelucrri statistice se pot aplica doar unor
variabile ordinale, sau de interval etc.
Filtrarea cazurilor
Apare uneori necesitatea de a prelucra doar un subset de nregistrri: pentru a
obine o imagine rapid a unei structuri, pentru a prelucra doar eantionul dintr-o
anumit subpopulaie etc. SPSS ofer n acest scop comanda Data Select Cases
care produce afiarea dialogului urmtor.
Prin opiunile din grupul Select se fixeaz modalitatea de filtrare. Este de
remarcat c prin grupul Unselected Cases Are se poate opta pentru eliminarea
efectiv a cazurilor neselectate (opiune nerecomandat) sau pentru filtrarea lor, adic
eliminarea este doar logic, o nou selectare cu opiunea All cases le va reactiva.

n continuare se prezint doar subdialogul obinut la opiunea If condition


i activarea butonului If.

n zona de formare a condiiei se pot utiliza denumiri de variabile (aduse din


lista din stnga), operatori, funcii. Vor rmne vizibile doar nregistrrile pentru care
condiia este adevrat.
Generarea unei noi variabile
Din diferite motive, de exemplu necesitatea unei recodificri sau cea a
calculrii unei variabile noi ca medie a altor variabile etc., este util posibilitatea de a
genera automat o nou variabil. SPSS are dou comenzi principale destinate acestui

scop: Transform Compute i Transform Recode. Prima permite obinerea unei


variabile n urma unui calcul, a doua este pentru recodificare.
Comanda Compute
Prin Transform Compute se afieaz dialogul Compute Variable (n
versiuni mai noi dialogul este modificat ca aranjare a zonelor):

n zona Target Variable se trece denumirea noii variabile pentru care se poate
preciza tipul i eticheta n subdialogul afiat prin acionarea butonului Type &
Label.
n zona de formare a expresiei de calcul, Numeric Expression, se formeaz
expresia de calcul prin utilizarea butoanelor existente pentru operatori i
funcii sau prin tastare direct. Denumirile variabilelor existente pot fi aduse n
expresie prin selectare n lista variabilelor, dublu click sau butonul X.
Se poate efectua o filtrare a nregistrrilor (cazurilor) pentru care are loc
transformarea dac se acioneaz butonul If. Cazurile neselectate vor avea
valoarea system-missing pentru noua variabil.

Comanda Recode
Recodificarea unei variabile este util n dou situaii principale:
1. se transform o variabil de interval ntr-o variabil ordinal pentru a o
raporta ca date grupate sau pentru a studia asocierea cu alte variabile ordinale,
2. o variabil string trebuie recodificat cu coduri numerice necesare pentru a
putea aplica anumite proceduri SPSS, care cer variabile codificate numeric.
Recodificarea poate fi n aceeai variabil, sau ntr-o nou variabil, cazul
discutat aici.
Prin Transform Recode Into Different Variables se afieaz dialogul

n care se transfer variabila numerica pentru care se realizeaz recodificarea din lista

variabilelor n lista Numeric Variable Output Variable, se completeaz numele


i eventual eticheta noii variabile n Output Variable dup care se acioneaz
Change.
Se pot selecta cazurile pentru care are loc recodificarea prin If. Prin acionarea
Old and New Values se deschide dialogul

Se va selecta n zona Old Value opiunea dorit, se va completa noua valoare


n New Value i prin Add se trece corespondena definit n lista OldNew.
Noile coduri pot fi de tip string doar dac se activeaz checkbox-ul Output
variables are string.

Prelucrri statistice
Prelucrrile statistice din SPSS se realizeaz prin comenzile din meniul
Analyze, sau prin executarea comenzilor scrise n fereastra Syntax Editor. Deoarece
efectuarea unei prelucrri necesit operarea cu un numr de dialoguri specializate,
pentru familiarizarea cu principalele dialoguri care apar la comenzile de prelucrri
statistice se prezint n continuare modul n care se obin statisticile descriptive i o
procedur de testare a egalitii mediilor.
Analyze - Frequencies

Se selecteaz Analyze - Descriptive Statistics - Frequencies...


Apare dialogul urmtor n care se trec variabilele dorite din lista din stnga n
lista din dreapta (prin dublu click sau selectare i X).

Se marcheaz checkbox-ul Display frequency tables dac se doresc i tabelele


de frecvene calculate. In caz contrar trebuie s se opereze cu subdialogurile
Statistics, Charts pentru a obine rezultate.

La acionarea butonului Statistics, se afieaz dialogul Frequencies: Statistics


n care se pot activa opiunile corespunztoare indicatorilor de tendin
central, mprtiere sau de caracterizare a curbei distribuiei (evident c
anumite statistici se pot calcula doar pentru variabile de tipuri adecvate:
interval, ordinal, nominal).

Subdialogul Charts permite construirea unui grafic adecvat pentru un tabel de


frecvene. Opiunea Histograms with normal curve afieaz curba normal
suprapus peste histogram, util pentru aprecierea deprtrii de la
normalitate.

Subdialogul Format gestioneaz modul de afiare a intrrilor tabelului de


frecvene n Order by. n Multiple variables se poate opta ntre un format care
include toate variabilele selectate (pentru comparare trebuie ca variabilele s
fie de acelai tip) i un format n care fiecare variabil este raportat separat.

Prin OK n dialogul iniial se va genera n fereastra Viewer ieirea cerut.

Analyze Descriptives
O comand sintetic pentru statisticile descriptive ale variabilelor continue
este Analyze - Descriptive Statistics - Descriptives. Parametrii prelucrrii se fixeaz
n urmtoarele dou dialoguri.

Analyze Crosstabs
Obinerea tabelelor de frecvene ncruciate, utile la studiul asocierii dintre
variabile, este gestionat de comanda Analyze Descriptive Statistics Crosstabs,
care iniializeaz dialogul urmtor.

Se trec, prin acionarea butoanelor de trecere, variabilele dorite n lista Rows


(tabelele vor avea cte o linie pentru fiecare valoare distinct a variabilelor din aceast
list) i n lista Columns (tabelele vor avea cte o coloan pentru fiecare valoare
distinct a variabilelor din aceast list). Se va calcula i afia cte un tabel de
frecvene ncuciate pentru fiecare combinaie de variabile, cte una din fiecare list.
n cazul n care se doresc frecvene ncruciate pentru trei sau mai multe
variabile, se utilizeaz controlul Layer n care se vor trece variabilele de pe poziia a
treia, se trece la layerul urmtor i se repet procedura.
Subdialogul Statistics permite selectarea statisticilor calculate. Este evident
necesar cunoaterea tipului variabilelor, pentru a alege statisticile adecvate.

Subdialogul Cell permite selectarea statisticilor calculate pentru fiecare celul


a tabelului. Se remarc n grupul Percentages posibilitatea de a calcula frecvene
relative raportate la totalul de pe linie, de pe coloan sau general. De asemenea, prin
Count Expected se pot calcula frecvenele implicate n calculul statisticii 2.

Subdialogul Format gestioneaz doar ordinea liniilor funcie de valorile care


le genereaz.

Analyse - Compare means


Testarea ipotezelor de egalitate a mediilor se realizeaz prin intermediul
comenzilor grupate n Analyze - Compare means. Dintre procedurile existente se
prezint n continuare doar cele care conduc la aplicarea unor teste t..
Prin Analyze - Compare means - Independent Samples T test se iniiaz
testul t de comparare n cazul eantioanelor independente (necorelate). Se realizeaz
calculele att pentru cazul dispersiilor egale, ct i a dispersiilor neegale, utilizatorul
fiind acela care alege situaia adecvat.

Comanda produce afiarea urmtorului dialog.

Se vor selecta variabilele, dup care se compar cele dou grupuri, din lista
variabilelor (continue) i se trec n lista variabilelor de test. Pentru a preciza grupurile
care sunt comparate precizeaz variabila care identific grupurile (Grouping
Variable) i se iniiaz dialogul Define Groups n care, pentru o variabil discret,
se precizeaz valorile etichete ale celor dou grupuri sau, pentru o variabil continu,
valoarea care separ cele dou grupuri.

Prin intermediul dialogului iniiat la Options, se poate fixa pragul de semnificaie i modul de tratare a valorilor lips.

Rezultatele conin un tabel al statisticilor elementare pentru fiecare grup i


variabil de test

Rezultatele numerice utile n efectuarea testului t sunt coninute ntr-un tabel


precum cel care urmeaz.
Independent Samples Test
Levene's Test for
Equality of
Variances

F
Fuel efficiency

Equal
variances
assumed
Equal
variances not
assumed

,004

Sig.
,948

t-test for Equality of Means

df

Sig.
(2-tailed)

Mean
Difference

Std. Error
Difference

95% Confidence
Interval of the
Difference
Lower
Upper

8,664

152

,000

5,597

,646

4,321

6,874

9,356

79,405

,000

5,597

,598

4,407

6,788

Tabelul conine dou linii de rezultate numerice: rndul superior privete testul
t n situaia dispersiilor egale, rndul inferior se refer la cazul dispersiilor neegale.
Alegerea este condus de testul Levene de egalitate a dispersiilor, care este realizat
prin intermediul coloanelor aflate sub antetul Levene's Test. Statistica este F (=0,004
n cazul ilustrat) iar probabilitatea critic este Sig (0,948 n cazul ilustrat). Prin
urmare, la pragul de 0,05, nu se respinge ipoteza egalitii dispersiilor. In acest caz se
vor utiliza valorile din rndul superior al tabelului i se citete valoarea statisticii
testului t = 8,664 i probabilitatea critic bilateral Sig < 0,001. Drept urmare se va
respinge ipoteza egalitii mediilor celor dou grupuri.
Ultimele 4 coloane conin diferena dintre medii, eroarea standard a acestei
diferene i intervalul de ncredere pentru diferena mediilor (faptul c intervalul nu
conine valoarea 0 este echivalent cu respingerea egalitii mediilor).
Alte teste, neparametrice, pot fi aplicate individual prin intermediul
comenzilor grupate n Analyze - Nonparametric Tests.

Testele statistice specifice prelucrrilor diverse de analiz a datelor sunt


aplicate automat sau la cerere la iniierea diverselor prelucrri: analiza varianei,
analiza regresional etc.

C. Lucrarea practic
1. Se va importa n SPSS fiierul de date (utilizat i la lucrarea nr.1)
http://thor.info.uaic.ro/~val/statistica/Admitere.txt
i. Se vor completa, pentru fiecare variabil, atributele specifice:
tipul (nominal, ordinal, interval), denumirea, modul de afiare
(coloane, zecimale etc.), etichetele de valori (acolo unde este
cazul).
ii. Se vor elimina coloanele care poart n fiierul text informaii
auxiliare.
iii. Se va crea o variabil filtru cu valoarea 1 dac proba la alegere
este analiza matematic i valoarea 0 n rest.
iv. Se va recodifica variabila reprezentnd situaia dup examen
astfel nct s poat fi asimilat unei variabile ordinale (ordinea
fiind cea intuitiv - reuit fr tax, cu tax, n ateptare,
respins).
2. Se vor caracteriza variabilele cu ajutorul indicatorilor statistici
adecvai.
3. S se creeze tablourile de frecvene ncruciate dintre variabilele
Opiune i Situaie, incluznd i calculul frecvenelor relative.
4. Se va testa egalitatea mediilor de admitere dup cele trei discipline la
alegere.
5. Se va testa egalitatea mediilor de admitere pentru cei care au ales
analiza matematic i cei care au ales o prob de programare.
6. Se vor crea i edita grafice adecvate ale repartiiilor variabilelor
coninnd proba la alegere, mediile la bacalaureat, scris, final.