Documente Academic
Documente Profesional
Documente Cultură
Lucrarea practică 5
Indicaţii generale:
Programul SPSS (Statistical Package for the Social Sciences) este unul dintre
cele mai utilizate softuri în analiza statistică a datelor. Prima versiune a apărut în anul
1968, a evoluat până la versiunea 23 şi aria de aplicabilitate extinzandu-se de la versiune la
versiune.
Programul SPSS este utilizat astăzi în marketing, cercetare experimentală, educaţie,
sănătate etc. În afară de analizele statistice posibile, programul are componente puternice
pentru managementul datelor (selectare, reconfigurare, creare de date noi) şi pentru
documentarea datelor.
Teme
18: prezentare scurtă soft SPSS
19: importul fişierelor xls în SPSS
20: explorarea datelor în SPSS
21: grafice în SPSS
- 38 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 5 2019/2020
SPSS for Windows" este un pachet de programe destinat analizei statistice a datelor.
Funcţii de bază ale aplicaţiei SPSS:
- editarea datelor: construirea bazelor de date, transformări ale variabilelor
- prelucrarea statistică a datelor: statistici descriptive, teste de semnificaţie
- prezentarea rezultatelor, (numerică sau grafică)
- realizarea unor proceduri proprii de prelucrare sau de modificare a procedurilor
standard SPSS. (pentru utilizatorii avansaţi)
Principalele tipuri de ferestre disponibile în mediul SPSS sunt:
Data Editor: Este fereastra care se deschide automat la pornirea unei sesiuni şi care permite
editarea datelor, crearea de noi înregistrări, eliminarea unor înregistrări etc.
Datele pot fi văzute în două ipostaze:
- Data View (înregistrările sunt prezentate tabular asemănător formatului xls,
coloanele reprezentând variabilele, liniile fiind cazurile studiate).
- Variable View se vor afişa proprietatile asociate variabilelor (numele variabilei,
tipul variabilei, indicaţii de afişare etc.).
Viewer (Output): Este utilizată pentru afişarea rezultatelor: statistici, tabele, diagrame etc.
Dacă această fereastră nu există, se va crea automat la prima comandă care produce ieşiri.
Rezultatele afişate pot fi editate, deplasate, eliminate etc. într-un mediu similar cu cel din
Microsoft Explorer.
- 39 -
MG - Lucrarea practică 5 2019/2020 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
Syntax Editor: SPSS poate fi utilizat prin intermediul unui limbaj de comenzi proprii. Acesta
a fost modul iniţial de operare, astfel încât o serie de prelucrări foarte specializate au rămas
disponibile, chiar şi în ultimele versiuni, doar prin intermediul comenzilor.
O fereastră Syntax Editor poate fi deschisă prin File – New/Open – Syntax. Comenzile pot
fi scrise direct în fereastra Syntax Editor, dar există şi posibilitatea de a înregistra acţiunile
din interfaţa utilizator sub formă de comenzi (similar înregistrării unui macro din Microsoft
Office). Comenzile pot fi salvate ca un fişier de comenzi, în vederea reutilizării.
Script Editor: SPSS poate fi personalizat/automatizat prin intermediul unui limbaj de
scriptare, Sax Basic (compatibil Visual Basic for Applications). Se va deschide o fereastră
Script Editor prin File – New/Open – Script.
- 40 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 5 2019/2020
Pot exista mai multe ferestre de ieşire (Viewer), ca şi mai multe ferestre de sintaxă (Syntax
Editor). Fereastra activă dintr-un grup este indicată de semnul “!” afişat pe bara de stare a
ferestrei active, activarea poate fi modificată prin acţionarea uneltei din fereastra inactivă.
Ca în orice aplicaţie Windows, multe dintre prelucrările SPSS pot fi executate prin acţionarea
comenzilor din meniuri. Fiecare fereastră SPSS are propriile meniuri şi unelte
corespunzătoare.
Meniuri comune:
File: Este utilizat pentru creare, deschidere, export de fişiere diverse: date, rezultate,
comenzi etc.
Edit: Editările uzuale pentru date numerice, text sau obiecte grafice: copieri, lipiri etc. în
aceeaşi aplicaţie sau nu.
View: Controlează modul de afişare a uneltelor, a liniaturii, a identificatorilor de valori
(valorile pot avea ataşate denumiri explicite).
Analyze: Este meniul care dă acces la procedurile statistice.
Graphs: Permite crearea diagramelor. Orice diagramă poate fi modificată prin Chart
Editor, afişată la dublu click pe diagramă.
Utilities: Permite afisarea informaţiilor despre variabile, definirea unor mulţimi de
variabile etc.
Window: Operaţii asupra ferestrelor.
Help: Deschide o fereastră standard de ajutor.
Meniuri specifice:
Data: Se pot realiza modificări globale cum ar fi transpunerea variabilelor şi cazurilor,
filtrarea cazurilor etc. Modificările sunt temporare dacă nu sunt salvate în fişierul iniţial.
Transform: Permite transformarea unor variabile (cum ar fi recodificare) şi obţinerea
unor noi variabile prin calcule efectuate asupra variabilelor existente. Modificările sunt
temporare pentru sesiunea curentă, dacă nu sunt salvate în fişierul iniţial.
sau
- 41 -
MG - Lucrarea practică 5 2019/2020 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
- 42 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 5 2019/2020
acest tip de variabile sunt histogramele care pot fi obţinute folosind butonul Charts…
Chart Type Histograms (cu posibilitatea de a reprezenta şi curba normală care are
aceeaşi parametrii cu cei calculaţi pentru datele explorate).
FREQUENCIES VARIABLES=SECTIA
/ORDER=ANALYSIS.
- 43 -
MG - Lucrarea practică 5 2019/2020 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
Frequencies
[DataSet1]
Statistics
SECTIA
Valid 1416
N
Missing 0
SECTIA
Frequency Percent Valid Percent Cumulative
Percent
C 652 46.0 46.0 46.0
N 693 48.9 48.9 95.0
Valid
T 71 5.0 5.0 100.0
Total 1416 100.0 100.0
- 44 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 5 2019/2020
DESCRIPTIVES VARIABLES=VARSTA
/STATISTICS=MEAN STDDEV MIN MAX KURTOSIS SKEWNESS.
Descriptives
[DataSet1]
Descriptive Statistics
N Minimum Maximum Mean Std. Deviation Skewness Kurtosis
Statistic Statistic Statistic Statistic Statistic Statistic Std. Error Statistic Std. Error
VARSTA 1416 .00 90.00 50.3623 16.27926 -.090 .065 -.683 .130
Valid N (listwise) 1416
- 45 -
MG - Lucrarea practică 5 2019/2020 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
În afară de indicatori statistici, opţiunea Explore… permite obţinerea şi a unor grafice precum
histograma (Histogram) şi boxplot-uri (Boxplots) dar şi teste pentru verificarea normalităţii
variabilei respective (Normality plots with tests): teste grafice (Normal Q-Q Plot şi
respectiv Detrendred Normal Q-Q Plot) şi teste care presupun că datele sunt normal
distribuite (Kolmogorov-Smirnov şi Shapiro-Wilk).
De asemenea, este posibil, ca selectând în caseta “Factor List” a unei variabile de tip calitativ
(Nominal sau Ordinal) să se obţina indicatorii statistici şi graficele specificate pentru
variabila de la “Dependent List” separate pentru fiecare valoare (grup) a variabilei
specificate la “Factor List”.
EXAMINE VARIABLES=VARSTA
/PLOT NONE
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
Explore
Case Processing Summary
Cases
Valid Missing Total
N Percent N Percent N Percent
VARSTA 1416 100.0% 0 .0% 1416 100.0%
Descriptives
Statistic Std. Error
VARSTA Mean 50.3623 .43262
95% Confidence Interval for Mean Lower Bound 49.5136
Upper Bound 51.2109
5% Trimmed Mean 50.4071
Median 51.0000
Variance 265.014
Std. Deviation 16.27926
Minimum .00
Maximum 90.00
Range 90.00
Interquartile Range 25.00
Skewness -.090 .065
Kurtosis -.683 .130
Tests of Normality
a
Kolmogorov-Smirnov Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
VARSTA .044 1416 .000 .988 1416 .000
a. Lilliefors Significance Correction
VARSTA
- 47 -
MG - Lucrarea practică 5 2019/2020 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
Explore
SEX
Case Processing Summary
Cases
Valid Missing Total
SEX N Percent N Percent N Percent
VARSTA F 1073 100.0% 0 .0% 1073 100.0%
M 343 100.0% 0 .0% 343 100.0%
- 48 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 5 2019/2020
Descriptives
SEX Statistic Std. Error
VARSTA F Mean 49.0857 .49579
95% Confidence Interval for Mean Lower Bound 48.1129
Upper Bound 50.0586
5% Trimmed Mean 49.0290
Median 50.0000
Variance 263.754
Std. Deviation 16.24050
Minimum .00
Maximum 90.00
Range 90.00
Interquartile Range 24.00
Skewness -.021 .075
Kurtosis -.677 .149
M Mean 54.3557 .85140
95% Confidence Interval for Mean Lower Bound 52.6810
Upper Bound 56.0303
5% Trimmed Mean 54.7443
Median 56.0000
Variance 248.633
Std. Deviation 15.76811
Minimum 15.00
Maximum 84.00
Range 69.00
Interquartile Range 24.00
Skewness -.308 .132
Kurtosis -.522 .263
Tests of Normality
a
Kolmogorov-Smirnov Shapiro-Wilk
SEX Statistic df Sig. Statistic df Sig.
VARSTA F .046 1073 .000 .989 1073 .000
M .056 343 .012 .981 343 .000
a. Lilliefors Significance Correction
VARSTA
Histograms
- 49 -
MG - Lucrarea practică 5 2019/2020 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
- 50 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 5 2019/2020
*.xlsm) în caseta “Files of type” din fereastra “Open Data”… Open. Se va alege fişierul
“Date_spss.xls”. În caseta “Opening Excel Data Source” trebuie să fie bifat “Read variable
names from first row of data”, Worksheet: urimf4… OK.
Diagrame cu dreptunghiuri
Pentru reprezentarea grafică de tip diagramă cu dreptunghiuri simplă vom folosi variabila sex
şi secvenţa de comenzi Graphs Legacy Dialogs Bar…. În fereastra “Bar Charts” se
alege “Simple”, Define. Pentru construcţia diagramei se va folosi sex pe “Category Axis:”
Rezultatul este de forma:
GRAPH
/BAR(SIMPLE)=COUNT BY SEX
Graph
[DataSet1]
Prin dublu click pe graficul obţinut se deschide fereastra de dialog “Chart Editor” unde se
pot modifica proprietăţile graficului generat. De exemplu pentru afişarea frecvenţelor
- 51 -
MG - Lucrarea practică 5 2019/2020 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
corespunzătoare valorilor variabilei se poate folosi meniul “Elements” unde se alege opţiunea
“Show Data Labels”.
Pentru modificarea culorii celor 2 dreptunghiuri se accesează caseta de dialog “Properties” şi
anume opţiunea “Fill & Border”
- 52 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 5 2019/2020
De asemenea se pot afişa procentele corespunzătoare valorilor variabilelor într-un mod similar
cu cel descris anterior.
Rezultatul este de forma:
GRAPH
/BAR(STACK)=COUNT BY SEX BY EDEME
Graph
[DataSet1]
- 53 -
MG - Lucrarea practică 5 2019/2020 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
Pentru afişarea ecuaţiei de regresie şi a liniei de regresie pe graficul obţinut se foloseşte dublu
click pe grafic. Rezultatul este apariţia unei ferestre de dialog “Chart Editor” în meniul
căreia la “Elements” se alege opţiunea “Fit Line at Total”.
- 54 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 5 2019/2020
Boxplot-uri
Diagramele boxplot sunt utile în afişarea medianei, cuartilelor, valorilor atipice şi a valorilor
extreme pentru o variabilă pe unul sau mai multe grupuri de indivizi.
Pentru reprezentarea grafică de tip diagrame boxplot vom folosi variabilele varsta şi sex şi
secvenţa de comenzi Graphs Legacy Dialogs Boxplot….
În fereastra “Boxplot:” se alege “Simple”.
În noua fereastra“Define Simple Boxplot: Summaries for Groups of Cases” se alege varsta
la “Variable” şi sex la “Category Axis”.
Rezultatul este de forma:
Varsta
Din păcate pe acest tip de diagramă nu se pot afisa valorile medianelor corespunzatoare celor 2 grupuri.
Ca valoare atipică se poate observa în grupul sex=F valoarea 0 (minimul) pentru cazul 406.
Pentru variabilele “varsta” şi “sex” specificate astfel: Varsta” la “Dependent List” şi “sex”
la “Factor List”, rezultatul pentru Explore… (Analyze Descriptive Statistics
Explore…) conţine tabelul cu medianele:
Descriptives
SEX Statistic Std. Error
VARSTA F Mean 49.0857 .49579
95% Confidence Interval for Mean Lower Bound 48.1129
Upper Bound 50.0586
5% Trimmed Mean 49.0290
Median 50.0000
Variance 263.754
Std. Deviation 16.24050
Minimum .00
Maximum 90.00
Range 90.00
Interquartile Range 24.00
Skewness -.021 .075
Kurtosis -.677 .149
M Mean 54.3557 .85140
95% Confidence Interval for Mean Lower Bound 52.6810
Upper Bound 56.0303
5% Trimmed Mean 54.7443
Median 56.0000
Variance 248.633
Std. Deviation 15.76811
Minimum 15.00
Maximum 84.00
Range 69.00
Interquartile Range 24.00
Skewness -.308 .132
Kurtosis -.522 .263
- 56 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 5 2019/2020
Error-Bar-uri
Diagramele boxplot sunt utile în afişarea mediei şi a intervalului de 95% încredere pentru
medie, a erorii standard sau a abaterii standard pentru o variabilă pe unul sau mai multe
grupuri de indivizi.
Pentru reprezentarea grafică de tip diagrame Error-Bar vom folosi variabilele varsta şi sex şi
secvenţa de comenzi Graphs Legacy Dialogs Error Bar…. În fereastra “Error Bar:”
se alege “Simple”.
În noua fereastră “Define Simple Error Bar: Summaries for Groups of Cases” se alege
varsta la “Variable” şi sex la “Category Axis” iar la secţiunea “Bars Represent” vom lasa
opţiunea implicită “Confidence interval for mean” cu Level: 95.
Se pot afişa pe grafic valorile mediilor într-un mod similar cu cel descris anterior.
Rezultatul este de forma:
GRAPH
/ERRORBAR (CI 95)=VARSTA BY SEX
Graph
[DataSet1]
Histograme GRAPH
Histogramele se construiesc doar pentru /HISTOGRAM (BORMAL)=VARSTA.
variabilele cantitative. Graph
Pentru reprezentarea grafică de tip diagrame
de tip Histogram vom folosi variabila varsta [DataSet1]
şi secvenţa de comenzi Graphs Legacy
Dialogs Histogram…. În fereastra
“Histogram” se alege varsta la “Variable”
şi se poate bifa şi opţiunea “Display normal
curve”