Documente Academic
Documente Profesional
Documente Cultură
Introducere
Generaliti despre programul SPSS
SPSS (Statistical Package for the SocialSciences) for Windows este un pachet de
programe destinat analizei statistice a datelor. Pe lng SPSS mai pot fi ntlnite i alte
programe de analiz statistic (SAS, Statistica for Windows, GraphPad, MS Excel, etc.) ns,
prin structura sa complex dar cu o interfa prietenoas i uor utilizabil chiar i de
nceptori, SPSS rmne in topul programelor de analiz statistic.
Ultimele versiuni disponibile sunt SPSS 17 i IBM SPSS Statistics 18, totui cea mai
utilizat versiune rmne deocamdat SPSS 16.
Funciile de baz ale SPSS sunt:
editarea datelor (construirea bazelor de date, transformri ale variabilelor);
prelucrarea statistic a datelor (statistici descriptive, teste de semnificaie);
prezentarea rezultatelor sub form numeric sau grafic
realizarea unor proceduri proprii de prelucrare;
Prezentarea proiectului
n lucrarea de fa este prezentat analiza datelor cu privire la dou variabile i anume
populaia si suprafaa locuibil pentru anul 2007 pe fiecare jude n parte utiliznd programul
SPSS versiunea 16.0.
Sursa de date este Anuarul statistic al Institutului Naional de Statistic. (vezi anexele 1.1
i 1.2)
Scopul lucrrii este analiza datelor, stabilirea legturii dintre date i obinerea de noi
informaii analiznd cele dou variabile i rezultatele obinute n urma prelucrrii i analizrii
lor.
Lucrarea este structurat pe capitole i subcapitole, conform cerinelor din suportul de curs
dup cum urmeaz:
1. Introducerea o prezentare succint a programului SPSS, a scopului lucrrii i a bazei
de date ce urmeaz a fi prelucrat.
2. Analiza indicatorilor medii i ai variaiei folosind cele trei metode de analiz
Descriptives, Frequencies, Case Summaries.
3. Grafice specifice prezentarea grafic a datelor utiliznd opiunea Grahps din program.
4. Analiza bivariat.
5. Analiza legturii dintre variabile.
6. Modele de regresie alegerea celui mai potrivit model de regresie.
7. Anexe n care se regsesc tabelele de unde au fost preluate datele pentru prelucrare.
Baza de date
Se pleac de la centralizarea datelor, ce doresc a fi analizate, ntr-un tabel n programul
MS Excel pe dou coloane, ce vor reprezenta cele dou variabile care vor fi analizate conform
cerinelor din suportul de curs.
Crearea bazei se ncepe prin definirea variabilelor n fereastra Data Editor n foaia de
lucru Variable View (figura 1.1) dup care de introduc datele n celulele corespunztoare din
foaia de lucru Data View (figura 1.3.1).
Tabel nr. 1.1. Populaia i suprafaa locuibil pe judee pentru anul 2007
Nr.
crt.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
Ora
Populaia
ALBA
ARAD
ARGE
BACU
BIHOR
BISTRIA - NSUD
BOTOANI
BRAOV
BRILA
BUZU
CARA - SEVERIN
CLRAI
CLUJ
CONSTANA
COVASNA
DMBOVIA
DOLJ
GALAI
GIURGIU
GORJ
HARGHITA
HUNEDOARA
IALOMIA
IAI
ILFOV
MARAMURE
MEHEDINI
MURE
NEAM
OLT
PRAHOVA
SATU MARE
SLAJ
SIBIU
SUCEAVA
TELEORMAN
TIMI
TULCEA
VLCEA
VASLUI
VRANCEA
376.086
457.713
644.236
719.844
594.131
316.689
454.167
593.928
365.628
488.763
327.579
315.187
692.316
718.330
223.364
533.330
712.187
614.449
283.408
381.643
325.611
472.284
290.563
825.100
294.094
513.000
298.741
581.759
566.059
475.702
821.013
366.270
243.157
423.156
705.878
413.064
666.866
250.641
411.576
455.594
329.619
Suprafaa
locuibil
5.568.829
7.967.085
9.423.021
9.680.485
9.036.698
4.727.425
5.654.800
9.026.837
4.993.613
7.061.181
5.256.009
4.045.910
10.599.070
10.044.574
3.331.027
7.655.357
10.690.487
8.340.937
4.192.515
5.463.761
5.111.176
7.052.612
3.851.786
9.957.530
5.879.415
7.260.251
4.720.492
8.669.402
7.725.900
6.743.485
12.426.882
5.797.322
3.870.253
6.834.478
9.899.612
5.744.285
11.498.029
3.845.408
5.749.767
5.797.254
6.024.138
Etapa II
Se adaug n csua Variable(s) variabila Populaia i se bifeaz n Options: Mean, Std.
Deviation, Variance, Range, Minimum, Maximum, Skewness, ordinea de afiare Variable list
dup care se apas butonul Continue i OK.
Pentru analiza datelor tabelul, aprut n fereastra Output, trebuie transformat ntr-un alt
format (rezultate statistice pe rnduri). Calea care trebuie urmat este drapta click Edit
Content In Separate Window.
Valid N (listwise)
Statistic
41
Range
Statistic
601736
Minimum
Statistic
223364
Maximum
Statistic
825100
Mean
Statistic
476651,83
Std. Deviation
Statistic
167910,228
Variance
Statistic
2,819E10
Skewness
Statistic
,427
Std. Error
,369
41
Etapa III
Interpretarea rezultatelor
Tabel nr. 2.2.1 Indicii Frequencies
Statistics
Populaia
N
Valid
41
Missing
Mean
476652
Median
455594
223364a
Mode
Std. Deviation
167910
Variance
28193844722
Skewness
Range
601736
Minimum
223364
Maximum
825100
Percentiles
25
326595
50
455594
75
604290
Se alege variabila pentru care se vor calcula indicii i din opiunea Statistics se debifeaz
Display cases i se aleg indicii care vor fi calculai respectiv:
- Number of Cases Numrul de cazuri supuse cercetrii
- Mean
- Median
- Minimum
- Maximum
- Standard Deviation
- Variance
- Skewness
- Range
11
Figura nr. 2.3.2 Alegerea variabilei i a indicatorilor
Etapa II
Analiza rezultatelor din Output.
Tabel nr. 2.3.1. Totalitatea cazurilor studiate
Case Processing Summary
Cases
Included
N
Populaia
Excluded
Percent
41
100,0%
Total
Percent
0 ,0%
41
41
Mean
476651,83
Median
455594,00
Minimum
223364
Maximum
825100
Std. Deviation
Variance
Skewness
Range
167910,228
12
Percent
2,819E10
,427
601736
100,0%
13
Figura nr. 2.4.2. Alegerea indicilor
Statistic
41
Range
Statistic
9095855
Minimum
Statistic
3331027
Maximum
Statistic
12426882
Mean
Statistic
7005343,85
Std. Deviation
Statistic
2376015,441
Variance
Statistic
5,645E12
Skewness
Statistic
,448
Std. Error
,369
14
(listwise)
41
15 Alegerea indicilor
Figura nr. 2.5.2.
16
Statistics
Suprafaa_locuibil
N
Valid
41
Missing
Mean
7005344
Median
6743485
3331027a
Mode
Std. Deviation
2376015
Variance
6,E12
Skewness
Range
9095855
Minimum
3331027
Maximum
12426882
Percentiles
25
5183592
50
6743485
75
9031768
17
Figura nr. 2.6.1. Alegerea opiunii de calcul Case Summaries
Etapa II
Excluded
Percent
41
100,0%
Percent
0 ,0%
Total
N
Percent
41
100,0%
Conform abaterii standard se poate observa c 70% din judee dein suprafee locuibile
cuprinse ntre 4629328 m2 i 9381359 m2.
Dotplot;
Histograma arat frecvenele de apariie pentru diferite intervale de
repartiie a variabilei observate;
- Diagrama Kernel;
- Error bar bara de erori, arat media i intervalul de ncredere de
95% pentru media respectiv;
- Boxplot cutia cu musti, folosit la reprezentarea amplitudinii,
intervalului interquartilic i medianei unei distribuii.
B. Grafice bivariate reprezint dou variabile:
a. pentru dou variabile numerice:
- Scatterplot nor de puncte, folosit pentru a reprezenta relaiile ntre
variabile;
- Lineplot.
b. pentru o variabil categorial i una numeric:
- Boxplot;
- Error bar;
- Dotplot;
- Scatterplot.
C. Grafice multivariate care ncearc s reprezinte pe o suprafa bivariat relaiile
dintre mai multe variabile.
n capitolul curent al prezentei lucrri se vor utiliza Boxplot i Histograma pentru a
reprezenta grafic indicii variabilelor Populaie si Suprafa locuibil.
3.1. Distribuia locuitorilor pe judee utiliznd diagrama Boxplot
Etapa I
Se acceseaz calea Analyze Descriptive Statistics - Explore.
20
Etapa III
Etapa IV
22
Figura nr. 3.2.1. Accesarea graficului Histograma
Etapa II
23
Figura nr. 3.2.3. Bifarea curbei distribuiei normale
Etapa IV
Etapa V
24
Figura nr. 3.2.5. Alegerea opiunilor Histogramei
Etapa VI
Etapa VII
Analiza rezultatelor
25
Figura nr. 3.2.7. Graficul Histogramei i al curbei distribuiei
Se poate observa o asimetrie orientat spre stnga unde se gsesc valorile mai mari ale
populaiei.
Etapa VIII
Calculul curbei cumulative a frecvenelor
26
Figura nr. 2.3.9. Alegerea variabilei
Etapa X
Etapa XI
27
Figura nr. 2.3.11. Afiarea graficului n Output
Etapa XII
Interpretarea graficului
28
Figura nr. 3.3.1. Accesarea graficului Boxplot
Etapa II
29
Figura nr. 3.3.3. Vizualizarea graficului n Output
Etapa IV
30
Figura nr. 3.4.1. Accesarea Histogramei
Etapa II
31
Figura nr. 3.4.3. Alegerea variabilei
Etapa IV
Etapa V
32
Figura nr. 3.4.5. Afiarea graficului n Output
Etapa VI
4. Analiza bivariat
4.1. Analiza bivariat a variabilelor Populaie i Suprafaa locuibil
Etapa I
33
Figura nr. 4.1.1. Alegerea opiunii Recode into Different Variables
Alegerea intervalelor.
Se opteaz pentru alegerea a patru intervale i se utilizeaz urmtoarea formul de calcul:
Maximum - Minimum
= Mrimea minim a intervalului
Numrul de intervale
Maximum = 825100
Minimum = 223364
Range
= 601736
825100 223364
150434 deoarece mrimea minim de interval rezultat va genera, prin
4
34
Figura nr. 4.1.1. Alegerea variabilei i introducerea intervalelor
pentru variabila Populaie
Pentru variabila Suprafaa locuibil se vor alege tot un numr de patru intervale i se
vor obine urmtoarele intervale:
[2500000 5000000) = 3750000
[5000000 7500000) = 6250000
[7500000 10000000) = 8750000
[10000000 12500000) = 11250000
35
Figura nr. 4.1.3. Definirea intervalelor pentru variabila Suprafaa locuibil
36
Figura nr. 4.1.5. Etichetarea datelor recodificate ale variabilei Populaia
Figura nr. 4.1.6. Etichetarea datelor recodificate ale variabilei Suprafaa locuibil
37
Figura nr. 4.1.7. Selectarea opiunii de analiz bivariat
38
Figura nr. 4.1.9. Rezultatele afiate n Output
Se observ c ambele valori ale coeficienilor de corelaie Pearson sunt de 0,829 ceea ce
nseamn c ntre variabile exist o corelaie direct i puternic.
Valoarea Sig.(2-tailed) este egal cu 0 i este mai mic dect 0,001, ceea ce nseamn c
sunt anse mai mici de 1% ca ntre cele dou variabile s nu existe o corelaie semnificativ.
39
Figura nr. 4.1.11. Alegerea variabilelor pentru Crosstab
5. Testarea cu ANOVA
40
Figura nr. 5.1. Testarea gruprii folosind ANOVA
Valoarea Sig. = 0,000 (mai mic dect 0,005) arat c testul F a fost validat.
6. Modele de regresie
Modelul Linear
I = a + bx
Modelul Quadratic I = a + bx + cx2
Modelul Cubic
I = a + bx + cx2 + dx3
42
Figura nr. 6.2. Alegerea variabilelor
43
Figura nr. 6.4. Se bifeaz Fit Line n fereastra Spikes
44
Figura nr. 6.6. Se alege din meniu Curve Estimation
45
R Square
,919
Quadratic
,898
Cubic
,920
Exponential
,923
,899
444,959
342,747
218,167
148,160
348,819
df1
df2
39
39
38
37
39
Sig.
Parameter Estimates
Logarithmic
Constant
b1
,000
,000
,000
,000
,000
537953,339
-7,455E7
86308,116
3499693,386
2614945,971
13,568
6267530,247
15,555
-7,241
1,948E-6
-1,945E-6
4,490E-5
b2
b3
-2,996E-11
Modelul Cubic
y = a + bx + cx2 + dx3 unde
a este constanta
46
b totalul
c totalul**2
d totalul**3
Tabel nr. 6.2. Valorile coeficienilor modelului Cubic
Coefficients
Standardized
Unstandardized Coefficients
B
Populaia
Coefficients
Std. Error
-7,241
Beta
18,662
Sig.
-,512
-,388 ,700
Populaia ** 2
4,490E-5 ,000
3,280
1,195 ,240
Populaia ** 3
-2,996E-11 ,000
-1,847
(Constant)
3499693,386
2900228,984
1,207 ,235
Std. Error
15,555
4,244
Populaia ** 2
-1,945E-6 ,000
(Constant)
86308,116
1008214,486
Coefficients
Beta
Sig.
1,099
3,665 ,001
-,142
-,474 ,638
,086
,932
Modelul Linear
47
Coefficients
Std. Error
Beta
13,568 ,643
537953,339
,959
324627,243
Sig.
21,094 ,000
1,657 ,106
y = 537953,339 + 13,568x
Toi termenii ecuaiei au valori peste zero ceea ce nseamn c modelul cel mai potrivit de
regresie este cel Linear
7. Anexe
48
49
NOT: Informaiile din anexe au fost preluate din Anuarul statistic 2008, de pe site-ul
Institutului Naional de Statistic.
50