Documente Academic
Documente Profesional
Documente Cultură
(CHESTIONAR DE GOSPODARIRE)
CUPRINS
CONTENTS
Lista Figuri si Tabele........................................................................................................................... 2
Introducere....................................................................................................................................... 2
Descrierea variabilelor......................................................................................................................... 2
Descrierea unei variabile nominale........................................................................................... 2
Tabele de frecventa................................................................................................................. 2
Grafice de forma Bar sau Pie.................................................................................................. 3
Descrierea unei variabile ordinale.............................................................................................. 4
Descrierea unei variabile de tip scale......................................................................................... 5
Elaborarea intervalului de ncredere a valorii medii...................................................................6
I.
Analize univariate........................................................................................................................ 8
1. Teste de semnificaie..................................................................................................................... 8
1.1. Testarea semnificaiei unei medii....................................................................................8
1.2.
2. Teste de concordan........................................................................................................... 10
2.1. Verificarea normalitii unei distribuii...........................................................................10
2.2. Verificarea uniformitii unei distribuii..........................................................................11
II. Analize bivariate........................................................................................................................... 12
Analiza a 2 variabile nominale.......................................................................................................... 12
Analiza a 2 variabile ordinale............................................................................................................ 12
Analiza a 2 variabile scale................................................................................................................ 12
Analiza unei variabile scale si una nominal...........................................................................................12
Analiza unei variabile scale si una ordinal............................................................................................12
III. Analize multivariate...................................................................................................................... 12
Analiza cluster.............................................................................................................................. 12
Analiza correspondentelor............................................................................................................... 12
Analiza componentelor principale...................................................................................................... 12
Analiza variabilelor cantitative.......................................................................................................... 12
Analiza variatiei ANOVA................................................................................................................ 12
Analiza regresionala....................................................................................................................... 12
Analiza discriminanta..................................................................................................................... 13
INTRODUCERE
DESCRIEREA VARIABILELOR
TABELE
DE FRECVENTA
Judet
Cumulative
Frequency
Valid
ARAD
Percent
Valid Percent
Percent
101
6,7
6,7
6,7
79
5,2
5,2
11,9
BUZAU
105
6,9
6,9
18,9
CALARASI
107
7,1
7,1
25,9
COVASNA
102
6,8
6,8
32,7
DOLJ
119
7,9
7,9
40,6
GALATI
104
6,9
6,9
47,5
HUNEDOARA
100
6,6
6,6
54,1
ILFOV
113
7,5
7,5
61,5
90
6,0
6,0
67,5
OLT
117
7,7
7,7
75,2
PRAHOVA
102
6,8
6,8
82,0
SALAJ
67
4,4
4,4
86,4
SIBIU
96
6,4
6,4
92,8
109
7,2
7,2
100,0
1511
100,0
100,0
BISTRITA NASAUD
NEAMT
VASLUI
Total
Interpretare : Numrul celor care au rspuns la aceast ntrebare este 1511 persoane, numarul nonraspunsurilor este 0, iar volumul eantionului n = 1511 . Dintre acestia sunt din Arad 101, 100 din
Hunedoara si 109 din Vaslui. ( Frequency = frecvene absolute ). Cea de a doua coloan prezint
frecvenele relative, exprimate n procente. Datorita faptului ca nu exista si non-raspunsuri,
frecventele relative sunt aceleasi cu cele din coloana a treia (Valid Percent): 7,9 % din totalul
repondenilor sunt din judetul Dolj spre exemplu .
GRAFICE
DE FORMA
BAR
SAU
PIE.
Valid Percent
Cumulative Percent
DELOC MUL_UMIT
177
11,7
12,0
12,0
NU PREA MUL_UMIT
674
44,6
45,8
57,9
DESTUL DE MUL_UMIT
576
38,1
39,2
97,0
44
2,9
3,0
100,0
1471
97,4
100,0
,5
NR
,5
System
25
1,7
Total
40
2,6
1511
100,0
FOARTE MUL_UMIT
Total
Missing
Percent
Total
Interpretare: Din totalul esantionului nu au raspuns 40 fie nu au stiut fie nu au vrut sa raspunda, iar
177 au spus ca sunt deloc nemultumiti asta inseamna 12%, 674 nu prea multumiti, fiind si cei mai
muti adica 45.85 iar destul de multumiti sunt 39.2% si foarte mulrumiti doar 3%.
Ct de mul_umit(a) sunte_i n general de felul n care
trai_
N
Valid
Missing
Median
40
2,00
Mode
Percentiles
1471
2
25
2,00
50
2,00
75
3,00
Interpretare: variabila este codificata ca avand alternativele 1,2,3,4, observm c 75% dintre cei
chestionati se considera nu prea multumiti, iar ceilalti 25% ramasi sunt destul de multumiti.
Interpretare: graficul arata acelasi lucru , cei mai multi sunt nu prea multumiti, doar o mica parte
ajung sa fie multumiti.
Interpretare: media privind sexul chestionatilor este 1.59 predominant spre 2 adica femei, iar in
ceea ce priveste varsta media este 54 -55 de ani cei mai muli repondeni avand spre 57 ani fiind in
mare parte femei; cu 0.493 se abate n medie sexul fata de media sa, respectiv cu17.78 ani fata de
media de 54.54. ( std. deviation ); n ceea ce privete parametrii formei, se observ c seria este usor
asimetric negativ, (skewness<0) in ambele cazuri si se apropie de - 0.3; n ceea ce privete boltirea
seriei, avem o serie leptocurtic pentru varsta si platocurtica pentru sex. Pentru a stabili n funcie de
aceste dou msuri gradul n care distribuia se abate de la normalitate, valorile acestora se mpart la
eroarea standard corespunztoare: dac rezultatul raportrii este mai mare de 2 atunci putem
concluziona c distribuia se abate semnificativ de la ipoteza de normalitate. n cazul nostru: pentru
skewness rezulta0.63 iar pentru kurtosis 0.126 ambele valori fiind mult mai mici dect 2, iar ipoteza
de normalitate se accepta. Histograma cu curb normal de mai sus arat, de altfel, clar, c distribuia
noastr este normal.
Ultimele trei rnduri ale tabelului prezint valorile quartile, primi 25% sunt majoritar barbati, dar pe
masura ce creste proportia devine majoritar numarul femeilor. Daca studiem varsta primii 25% au o
varsta apropiata de 39 ani iar apoi spre 70% au o vasta de 69 ani.
Vom folosi Explore pentru variabila studiat, avnd posibilitatea de a fixa nivelul de ncredere dorit
(95%).
Descriptives
Statistic
q5_age
Mean
95% Confidence Interval for
Mean
Std. Error
54,54
Lower Bound
53,64
Upper Bound
55,44
5% Trimmed Mean
54,80
Median
57,00
Variance
Std. Deviation
,458
316,389
17,787
Minimum
18
Maximum
95
Range
77
Interquartile Range
30
Skewness
-,263
,063
Kurtosis
-,971
,126
O bun parte din rezultatele descriptive le cunoatem deja din analiza anterioar. La rezultatele
aceste se adaug:
1. Intervalele de ncredere ale estimrii mediei, la pragul de ncredere de 95%. Intervalul
este cuprins ntre 53.64 i 55.44. (Putem afirma cu o probabilitate de 95% c varsta medie la nivelul
populaiei cercetate este ntre 54.64 i 54.44. Sau, dac am efectua studiul de 100 de ori ( 100
eantioane ), n 95 de eantioane media va aparine intervalului, i numai n 5 eantioane valoarea
acesteia ar depi limitele intervalului.)
2. Media ajustat cu 5%: se ordoneaz cazurile i se elimin cele mai mici 5% cazuri i cele
mai mari 5% din cazuri. Cu cele 90% din cazuri rmase se calculeaz media obinuit. Aceast
medie se mai cheam medie robust, fiind eliminate cazurile extreme la care media este sensibil.
Observm c media ajustat este mai mare dect cea obinuit respectiv 54.80.
3. Intervalul interquartil (Interquartile range) diferena dintre valoarea quartilei 30 i
valoarea quartilei 1. Este lungimea intervalului n care se ntlnesc cele 50% din cazuri cuprinse ntre
cele dou quartile.
Obtinem aceleasi limite ale intervalului si daca am face analiza prin Compare means - One t
statistic
One-Sample Test
Test Value = 0
95% Confidence Interval of the
Difference
t
q5_age
df
119,188
Sig. (2-tailed)
1510
Mean Difference
,000
Lower
54,539
Upper
53,64
55,44
Valorile percentile. Pentru valorile extreme SPSS prezint cele mai mici i cele mai mari seturi de 5
cazuri.
Percentiles
Percentiles
5
Weighted Average(Definition 1) q5_age
Tukey's Hinges
10
24,00
29,00
q5_age
Extreme Values
Case Number
q5_age
Highest
Lowest
Value
1382
95
367
90
404
90
509
90
973
89
1327
18
1325
18
1311
18
1296
18
1093
18a
a. Only a partial list of cases with the value 18 are shown in the table
of lower extremes.
25
50
75
39,00
57,00
69,00
39,00
57,00
69,00
90
76,00
95
80,40
I.
ANALIZE UNIVARIATE
1. TESTE DE SEMNIFICAIE
1.1. TESTAREA SEMNIFICAIEI UNEI MEDII
Analyze Compare Means One Sample T Test introducem variabila Ct de mulumit() suntei n
general de felul n care trii? pentru care avem valoarea medie observat egal cu 2.34. Dorim s
verificm dac media raspunsului acordat pentru aceasta intrebare difera senificativ de valoarea 3
(test value=3). Formulm ipoteza nul:
H 0 : X = 3 ( variant medie nu difer semnificativ de varianta 3) cu alternative H 1 : X 3.
One-Sample Test
Test Value = 3
95% Confidence Interval of the
Difference
t
Ct de mul_umit(a) sunte_i n
df
-28,686
Sig. (2-tailed)
1477
Mean Difference
,000
Lower
-,637
Upper
-,68
-,59
Interpretare: valoarea nivelului de semnificaie Sig = 0,000 <0,05 ( confidence interval ), ceea ce
duce la respingerea ipotezei nule. Exist o diferen semnificativ ntre varianta de raspuns medie din
eantion i cea specificat, adica varianta 3.
TESTAREA
H 1 : p 75%.
Binomial Test
Asymp. Sig. (1-
Category
In coala n care nva_a copiii
dvs. s-au nregistrat cazuri
Observed Prop.
Group 1
NU
163
,95
Group 2
DA
,05
172
1,00
Total
a. Based on Z Approximation.
Test Prop.
,75
tailed)
,000a
Interpretare: proporia observat n eantion pentru cei care au raspuns cu nu este 95% proporia
specificat fiind de 75%. Valoarea Sig <0,01, astfel c putem concluziona, cu o ncredere de 99%, c
proporia celor care au raspuns cu nu difer semnificativ de proporia specificat, de 75%.
Daca avem varianta multipla de tip Bernoulli Dummy.
Analyze multiple Responses- Define Set ne formam o variabila care tine cont de toate variantele. In
cazul meu Cum apreciati : Sli de clas, Laboratoare de studiu, Manuale, Calculatoare, Acces la
internet, Profesori ?rezulta variabila $aprecieri., iar semnificatia procentelor este redata in umatoarea
figura.
$aprecieri Frequencies
Responses
N
considerente asupra scoliia
Percent
Percent of Cases
Sali de clasa
34
17,6%
56,7%
Laboratoare de studiu
25
13,0%
41,7%
Manuale
34
17,6%
56,7%
Calculatoare
29
15,0%
48,3%
Acces la internet
23
11,9%
38,3%
Profesori
48
24,9%
80,0%
193
100,0%
321,7%
Total
a. Dichotomy group tabulated at value 1.
Interpretare : printr-un crosstab am reusit sa observam cat din cei care sunt multumiti au apreciat ca
fiind bune salile de clasa, profesorii, laboratoarele si celelalte. De exemplu, dintre cei care nu prea
sunt multumiti, au apreciat ca fiind bune manualele, calculatoarele si laboratoarele de studiu cu
procente de 46,2%, 46.2% si 42.9%.
2. TESTE
DE CONCORDAN
2.1. VERIFICAREA
- TESTUL KOLMOGOROV-SMIRNOV
Varsta
N
1511
Normal Parameters(a,b)
Mean
Std.
Deviation
Most
Differences
Extreme
Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)
Absolute
54,54
17.787
0.074
Positive
0.065
Negative
-0.074
2.873
.000
UNIFORMITII UNEI
- TESTUL 2
Expected N
Residual
1359
295,0
1064,0
35
295,0
-260,0
12
295,0
-283,0
DE CATEVA ORI PE
35
295,0
-260,0
34
295,0
-261,0
SAPTAMANA
ZILNIC
Total
1475
Test Statistics
Ct de des
.Naviga_i pe
internet?
Chi-Square
df
4798,325a
4
Asymp. Sig.
,000
n tabelul urmtor sunt comparate frecvenele observate cu frecvenele teoretice, pe coloana Residual
fiind prezentate diferenele pentru fiecare stare a variabilei.
In acest exemplu se observa ca din 1475 repondenti 1359 au afirmat ca nu nutilizeaza internetul;
potrivit ipotezei de egalitate a proportiilor in fiecare categorie de atitudine ar trebui sa apartina 295
de repondenti. n coloana Residual se observ diferena fa de valorile teoretice (pentru categoria
deloc aceasta diferenta este 1064).
Interpretare: valoarea estimat a statisticii 2 este semnificativ la un nivel de ncredere de 99%,
deoarece Sig <0,01, ceea ce conduce la respingerea ipotezei nule. Cele cinci categorii de atitudini nu
au aceeai proporie; distribuia nu este uniform.
II.
ANALIZA
Dorim s testm dac, la nivelul eantionului observat, gradul de multumire fata de nivelul de trai
acordat de femei este diferit de cel acordat de barbati in ceea ce priveste multumirea fata de mol de
trai actual.
Variabila de grupare va fi n acest caz sexul, n definirea grupelor se ine cont de codificrile fcute
pentru strile acesteia ( 0 feminin, 1 masculin ).
Ipoteza privind egalitatea mediilor se formuleaz astfel:
H0: X
= X
cu alternativa H 1 : X
Group Statistics
q5_sex
Ct de mul_umit(a) sunte_i n 1
general de felul n care trai_
Mean
Std. Deviation
607
2,34
,720
,029
864
2,32
,725
,025
Gradul de multumire acordat de femei pentru nivelul de multumire este 2,32 iar gradul de multumire
acordat de barbati pentru nivelul de multumire este 2,34.
Construcia testului pentru compararea mediilor a dou eantioane presupune testarea n prealabil a
egalitii varianelor la nivelul celor dou grupe. Statistica t se calculeaz diferit dup cum variantele
sunt egale sau nu la nivelul celor dou grupe. Ca urmare, formulm ipoteza nul i alternativa
referitoare la egalitatea variantelor:
H 0 : 12 = 22
H 1 : 12 22
F
Ct
multumit(
Sig.
,000
,984
df
,443
Sig. (2-
Mean
Std. Error
tailed)
Difference
Difference
1469
,658
,017
,038
,443 1309,415
,658
,017
,038
a) sunteti
n general
de felul n
care traiti
Interpretare: probabilitatea de acceptare a ipotezei nule n cazul egalitii varianelor este de 0,984 (
> 0,05 ), varianele la nivelul celor dou grupe sunt egale. Pentru a verifica egalitatea mediilor
folosim statistica t corespunztoare cazului n care variantele sunt egale. n acest caz, testul t este
egal cu 0.443 cu 1469 grade de libertate i un nivel de semnificaie de 0,658 ( Sig.> 0,05 ), deci se
accepat ipoteza ca Femeile nu sunt mai multumite decat barbatii referitor la nivelul de trai.(medile nu
difera semnificativ).
albine? Crosstabulation
albine? Crosstabulation
Count
Count
Ave_i animale n
Ave_i animale n
gospodarie...Stupi de
gospodarie...Stupi de
albine?
albine?
DA, are
judet ARAD
BISTRITA
Nu are
Total
100
101
59
62
DA, are
judet ARAD
BISTRITA
NASAUD
Nu are
Total
100
101
59
62
NASAUD
BUZAU
88
89
BUZAU
88
89
CALARASI
90
92
CALARASI
90
92
COVASNA
99
101
COVASNA
99
101
DOLJ
100
103
DOLJ
100
103
GALATI
101
101
GALATI
101
101
HUNEDOARA
64
66
HUNEDOARA
64
66
ILFOV
103
103
ILFOV
103
103
NEAMT
84
85
NEAMT
84
85
OLT
116
117
OLT
116
117
PRAHOVA
75
75
PRAHOVA
75
75
SALAJ
64
65
SALAJ
64
65
SIBIU
93
94
SIBIU
93
94
VASLUI
100
101
VASLUI
100
101
19
1336
1355
19
1336
1355
Total
Total
albine? Crosstabulation
albine? Crosstabulation
% of Total
% of Total
Ave_i animale n
Ave_i animale n
gospodarie...Stupi de
gospodarie...Stupi de
albine?
albine?
DA, are
judet ARAD
BISTRITA
NASAUD
Nu are
Total
,1%
7,4%
7,5%
,2%
4,4%
4,6%
DA, are
judet ARAD
BISTRITA
NASAUD
Nu are
Total
,1%
7,4%
7,5%
,2%
4,4%
4,6%
Interpretare: tabelul red distribuia chestionatiilor din eantion n raport cu cele dou variabile
judetul si cei ce cresc stupid de albine, fiind construit cu ajutorul frecvenelor absolute. Ultima
coloan i ultimul rnd din tabelul de frecvene corespund repartiiilor marginale. Ex: doar 1 din cele
117 locuitori ai judetului OLT cresc stupi de albine, iar ca total doar 19 persoane din 1355 cresc stupi
de albine, iar in procente in judetul Olt 0.1%din totalul populatiei care a raspuns aceatei intrebari
creste stupid.
Grafice evolutiile celor 2 variabile.
Analiza asocierii dintre cele dou variabile presupune n prima etap verificarea existenei
legturii dintre cele dou variabile cu ajutorul testului 2 i apoi interpretarea coeficientului de
contingen pentru a analiza gradul de asociere dintre variabile. Se formuleaz ipotezele referitoare la
existena legturii:
df
sided)
13,539a
14
,485
Likelihood Ratio
14,682
14
,400
N of Valid Cases
1355
Pearson Chi-Square
a.
Symmetric Measures
Value
Nominal by Nominal
Contingency Coefficient
N of Valid Cases
,099
Approx. Sig.
,485
1355
Interpretare: putem afirma cu o probabilitate de 95% ( Sig.> 0,05 ) c ntre cele dou variabile nu
exist legtur. Valoarea coeficientului de contingen este de 0,099 fiind nediferita de 0,(sig=0.485
>0.05) deci legtura dintre variabile nu este de intensitate medie.
Ct de mul_umit(a) sunte_i n general de felul n care trai_ * Cum aprecia_i veniturile actuale ale gospodariei
dumneavoast Crosstabulation
% of Total
Cum aprecia_i veniturile actuale ale gospodariei dumneavoast
Ajung
Ct de
DELOC
mul_umit(a)
MUL_UMIT
sunte_i n general
de felul n care
trai_
NU PREA
Nu ajung
numai
Ajung pentru un
nici pentru
pentru
strictul
strictul
permit cumpararea
scumpe, dar cu
fara restic_ii
necesar
necesar
unor b
restrnger
de la ceva
Total
7,6%
3,5%
,8%
,1%
,1%
12,0%
23,7%
17,4%
4,3%
,4%
,1%
46,0%
14,2%
17,6%
5,1%
2,0%
,2%
39,2%
,9%
1,4%
,3%
,2%
2,8%
46,4%
39,9%
10,5%
2,8%
,4% 100,0%
MUL_UMIT
DESTUL DE
MUL_UMIT
FOARTE
MUL_UMIT
Total
Interpretare: tabelul red distribuia chestionatiilor din eantion n raport cu cele dou variabile
gradul de multumire si cum sunt appreciate veniturile gospodariei, fiind construit cu ajutorul
frecvenelor relative. Ex: dintre cei ce nu prea sunt multumiti de nivelul de trai adica 46% din
populatie, este pentru ca nu au un venit care sa le acopere cheltuielile nici pentru cele strict necesare.,
adica 23.7% din totalul.Acelasi lucru se va vedea si de pe graficul ce urmeaza, ca cotele cele mai
mari sunt inregistrate la nivelul celor ce nu prea sunt multumiti si care au un venit ce nu acopera
cheltuielile de zi cu zi.
Grafice informaii privind repartiia eantionului n raport cu dou variabile ordinale sunt
disponibile i din vizualizarea graficului adecvat diagrama prin benzi. Modul de obinere a
acestuia este: Graphs Bar Clustered.
Kendall's tau-b
N of Valid Cases
Errora
,181
Approx. Tb
,023
7,673
Approx. Sig.
,000
1412
Valoarea coeficientului lui Kendall de 0,181 indic faptul c ntre variabila cat de multumiti de
nivelul de trai si variabila cum apreciati veniturile actuale, exist o legtur direct, de intensitate
medie. Valoarea coeficientului este semnificativ diferit de 0 cu o probabilitate de 95% ( Sig.= 0,000
< 0,05 ).
Total
Total
16
28
10
15
16
31
Grafice pentru a reda repartiia eantionului folosim n acest caz norul statistic. Graphs Scatter
Simple.
Analiza corelaiei presupune calculul coeficientului lui Pearson, utiliznd meniul Analyze
Correlate Bivariate.
Correlations
Cte;C_i...Cabal
Cte;C_i...Stupi de albine?
Cte;C_i...Stupi
ine (cai,
de albine?
magari) ?
Pearson Correlation
,454*
Sig. (2-tailed)
,010
N
Cte;C_i...Cabaline (cai,
magari) ?
53
31
Pearson Correlation
,454*
Sig. (2-tailed)
,010
31
240
Vom analiza legtura dintre Numarul de Stupi de albine si Nunarul de cabaline din gospodariile
chestionatiilor. Coeficientul lui Pearson ne ofer informaii att despre sensul legturii, ct i despre
intensitatea legturii.
Se obine matricea de corelaie, valorile fiind distribuite simetric fa de diagonala principal.
Valoarea coeficientului lui Pearson este de 0,454, ceea ce sugereaz c ntre variabile exist o
corelaie direct, de intensitate medie.Valoarea acestui coeficient este semnificativ diferit de 0,
ipoteza existenei legturii fiind acceptat cu o probabilitate de 95% ( Sig.=0.01 < 0,05 ).
Correlations
Cte;C_i...Cabal
Cte;C_i...Stupi de albine?
Cte;C_i...Stupi
ine (cai,
de albine?
magari) ?
Pearson Correlation
Sig. (2-tailed)
,010
N
Cte;C_i...Cabaline (cai,
magari) ?
53
31
Pearson Correlation
,454*
Sig. (2-tailed)
,010
31
TESTAREA
,454*
240
Analyze Compare Means One Way Anova. (ANOVA este un procedeu de analiz a unei
variabile numerice sub influena unei variabile de grupare care prezint mai multe stri.) Dorim
s verificm dac modificarea variabilei dependente Y este rezultatul influenei variabilei
explicative X.
De exemplu dorim s verificm dac exist legtur ntre Gradul de multumire fata de
nivelul de trai si Suprafata de teren arabil. In meniul Options avem posibilitatea selectrii graficului
pentru a formula ipoteze cu privire la forma legturii dintre cele dou variabile.
ANOVA
Ct de mul_umit(a) sunte_i n general de felul n care trai_
Sum of Squares
df
Mean Square
Between Groups
15,952
47
,339
Within Groups
63,503
121
,525
Total
79,456
168
Sig.
,647
,955
Cu ct mediile grupelor au valori mai diferite ntre ele, cu att variaia dintre grupe este mai mare; cu
ct variaia n cadrul grupelor este mai mic, cu att statistica F este mai mare (F = media varianei
dintre grupe /media varianei din cadrul grupei ) i gradul de multumire variaza mai mult in raport
cusuprafata de teren arabil.
Se formuleaz ipoteza nul H 0 : F = 0, adic varianta dintre grupe este nul i deci grupele
nu sunt diferite ntre ele, adic suprafata arabila nu influenteaza nu influenteaza gradul de multumire
fata de nivelul de trai.
Interpretare: Deoarece probabilitatea de a grei cnd respingem ipoteza este 0,955 > 0,05,
rezult c ipoteza nul se accepta,adica suprafata arabila nu influenteaza nu influenteaza gradul de
multumire fata de nivelul de trai.
Faptul ca nu exista legatura intre cele doua variabile se observa si din graficul de mai jos.
Missing
Percent
565
37,4
Total
Percent
946
62,6
Percent
1511
100,0
a. Ward Linkage
Agglomeration Schedule
Cluster Combined
Stage
Cluster 1
Cluster 2
Cluster 1
Cluster 2
Next Stage
Agglomeration Schedule
1
1508
1510
,000
1508
,000
1498
1505
,000
1498
,000
1442
1460
,000
1442
,000
Descriptives
C_i copii cu vrsta 15-18 ani... merg la... coala de arte
95% Confidence Interval for Mean
N
Mean
Std. Deviation
Std. Error
Lower Bound
Upper Bound
Minimum
Maximum
529
,00
,000
,000
,00
,00
10
6,70
,949
,300
6,02
7,38
26
1,08
,272
,053
,97
1,19
565
,17
,916
,039
,09
,24
Total
ANOVA
C_i copii cu vrsta 15-18 ani... merg la... coala de arte
Sum of Squares
Between Groups
Within Groups
Total
df
Mean Square
463,080
231,540
9,946
562
,018
473,027
564
F
13083,006
Sig.
,000
B. k-means Cluster
Iteration Historya
Change in Cluster Centers
Iteration
,050
,000
,000
,000
,000
,000
2
0
3
4
3,950
3,950
6,950
6,950
3,000
3,000
ANOVA
Cluster
Mean Square
C_i copii cu vrsta 15-18
221,220
Error
df
Mean Square
2
,054
df
F
562
4064,597
Sig.
,000
555,000
1,000
9,000
Valid
565,000
Missing
946,000
ANALIZA CORRESPONDENTELOR
Variabile cu multe stari:
Y:
Ne punem intrebarea daca exista asocieri intre variabile. Vom vrea sa vedem acest lucru
folosind Crosstab care are pe linie: Cat de multumiti sunteti de nivelul de trai?, iar pe coloana
cum apreciati veniturile actuale?. Printr-un test Chi squere si coef de contingent vom studia
asocierea dintre variabile.
Chi-Square Tests
Asymp. Sig. (2Value
df
sided)
68,600a
12
,000
Likelihood Ratio
69,405
12
,000
Linear-by-Linear Association
51,075
,000
Pearson Chi-Square
N of Valid Cases
1412
Symmetric Measures
Value
Nominal by Nominal
Contingency Coefficient
,215
Ordinal by Ordinal
Kendall's tau-b
,181
N of Valid Cases
Asymp. Std.
1412
Errora
Approx. Tb
Approx. Sig.
,000
,023
7,673
,000
Interpretare: observam ca chi squere este 68.6 deci un sig=0.00<0.05, adica exista asociere intre
variabile.Coef contingentei este 0.215 si arata exiatenta unei contingente de intensitate mica.
Pentru a explica corespondenta vom folosii Analyze-Data Reduction-Correspondent Analyze si vom
avea pe coloana Cat de multumiti sunte-ti de nivelul de trai? Iar pe linie Cum apreciati veniturile
gospodariei?
Vom obtine tabelul corespondentelor care ne arata distributia bidimensionala si reprezinta baza
celorlalte tabele. Apoi se construieste vectorii de structura care dau Matricea profilelor de pe Linie, si
apoi Coloana.
Row Profiles
Cum aprecia_i veniturile actuale ale gospodariei dumneavoast
Ct de mul_umit(a)
necesar
necesar
cumpararea unor b
Se pot cumpara i
ce trebuie, fara
scumpe, dar cu
restic_ii de la
restrnger
Active
ceva
Margin
DELOC MUL_UMIT
,629
,288
,065
,012
,006
1,000
NU PREA
,515
,379
,094
,009
,003
1,000
,363
,450
,130
,051
,005
1,000
FOARTE MUL_UMIT
,325
,500
,100
,075
,000
1,000
Mass
,464
,399
,105
,028
,004
MUL_UMIT
DESTUL DE
MUL_UMIT
Column Profiles
Cum aprecia_i veniturile actuale ale gospodariei dumneavoast
Ct de mul_umit(a)
necesar
necesar
cumpararea unor b
Se pot cumpara i
ce trebuie, fara
scumpe, dar cu
restic_ii de la
restrnger
ceva
Mass
DELOC MUL_UMIT
,163
,087
,074
,051
,167 ,120
NU PREA MUL_UMIT
,510
,436
,412
,154
,333 ,460
DESTUL DE
,307
,441
,486
,718
,500 ,392
,020
,035
,027
,077
,000 ,028
1,000
1,000
1,000
1,000
MUL_UMIT
FOARTE MUL_UMIT
Active Margin
1,000
Unde 0.436 corespunzator nu prea multumit, respectiv ajung pt strictul necesar s-a calculat ca si
246/564(persoane ce au ales combinatia respectiva din 564 persoane ce au raspuns per ansamblu la
ajung pt strictul necesar).
Urmatorul tabel este Summary ce ne spune cat de bine vedem realitatea, sau cat de bine e
fundamentata analiza.
Summary
Proportion of Inertia
Cumulativ
Standard
Deviation
,212
,045
,929
,929
,052
,003
,056
,985
,022
,027
,001
,015
1,000
,022
1,000
1,000
Total
,049
68,600 ,000a
,106
a. 12 degrees of freedom
Avem numar dimensiuni =min(nr variante prima intreb=4 1; nr var a doua intreb= 5 1) =3
Tabelul arata inertia adica partea din informatie pe care o foloseste, si proportia din inertie furnizata
de fiecare dimensiune. Exemplu : dimensiunea 1 are o inertie de 0.045 dint totalul de 0.049, aratand
ca din grupul dimensiunilor ea explica cel mai mult., adica 92.9%.
Urmatoarele 2 tabele ne spun cat aduce punctul in explicarea informatiilor pentru repsectiva
dimensiune.
Overview Row Pointsa
Score in
Dimension
Contribution
Of Point to Inertia of
Of Dimension to Inertia of
Dimension
Point
Ct de mul_umit(a) sunte_i n
general de felul n care trai_
Mass
Inertia
Total
DELOC MUL_UMIT
,014
,271
,592
1,000
NU PREA MUL_UMIT
,009
,186
,325
1,000
DESTUL DE MUL_UMIT
,021
,464
,014
1,000
FOARTE MUL_UMIT
,028
,078
,068
1,000
1,000
,049
1,000
1,000
Active Total
a. Symmetrical normalization
1,000
Foarte multumit i se asociaza dimensiunii 1 pt ca 0.765, iar deloc multumit asociat dimensiuni 2 cu
0.506. la fel si pt coloane. Grafic vom putea observa mai bine.
Contribution
Of Point to Inertia of
Of Dimension to Inertia of
Dimension
Point
Mass
Inertia
Total
,423
,095
1,000
,464 -,440
,007
,153
,171
1,000
,005
,093
,082
1,000
,017
,330
,598
1,000
,000
,001
,054
1,000
,049
1,000
1,000
1,000
1,000
a. Symmetrical normalization
Si aici observam ca varianta nu ajung nici pt stric necesar se apropie mai degraba de dimensiunea 2,
iar ajung pt strict necesar se apropie de dim 1, observabil si de pe graficele ce urmeaza. Ultimele 2
grafice arata atar reprezentarile de pe coloana cat si cele de pe linii, intr-o forma mai compacta.
Amalizand si corespondentelor dintre Cat de multumiti sunte-ti de nivelul de trai si in ce masura v-au
ajutat subventiile primite de la stat? Vom obtine o corelatie existenta intre cele doua variabile care se
vede in graficele de mai jos.
ANALIZA COMPONENTELOR
PRINCIPALE
ACP
varsta
Correlation Matrix
C_i copii
cu vrsta
In total, ce
15-18 ani...
In total, ce
suprafa_a
Distan_a
merg la...
suprafa_a
de...Gradina de
pna la cel
coala de
de...Teren
zarzavaturi,
Cte;C_i...Pasari
arte
arabil?
legume?
de curte?
mai apropiat
VARSTA
ora
1,000
-,006
-,015
-,041
-,005
-,003
-,006
1,000
-,027
,044
,017
,014
-,015
-,027
1,000
,005
-,017
,042
-,041
,044
,005
1,000
-,043
,000
VARSTA
-,005
,017
-,017
-,043
1,000
-,015
-,003
,014
,042
,000
-,015
1,000
Interpretare: intre variabilele luate in calcul nu prea exista corelatii, deci nu se pot asocial,
lega intr-un model liniar.
Correlation matrix ce reda coeficientii de correlatie intre variabile. Acestia trebuie sa fie mai mici
decat 1 in valoare absoluta si mai mari decat 0.5.
Approx. Chi-Square
df
Sig.
,493
2,548
15
1,000
Interpretare: Coef KMO este 0.493 si arata calitatea golobala a analizei, optim sa fi fost peste 0.7.
Compo
nent
Total
% of Variance
Cumulative %
Total
% of Variance
Cumulative %
1,074
17,908
17,908
1,074
17,908
17,908
1,053
17,558
35,466
1,053
17,558
35,466
1,009
16,817
52,283
1,009
16,817
52,283
1,001
16,688
68,971
1,001
16,688
68,971
,947
15,777
84,747
,915
15,253
100,000
Interpretare: Tabelul de mai sus arata o descriere a analizei vectoriale. De exemplu in coloana Total
este redat valorile proprii ale variantei pentru variabila 4este 1.001 , in urmatoarea 16.688 adica
influenta data de varianta, iar apoi varianta cumulata fiind 68.971.
Doi factori explica mai bine,
asta ar rezulta din Scree plot.
Interpretare : In tabela
Communalities la coloana
Extraction valoarea 0.227
arata
cat
retine
din
informatia totala, deci foarte
putin. Observam ca cele
care retin mai mult sunt :
=0.649
1,000
Extraction
,227
In total, ce suprafata
de Teren arabil? =
0.579
In total, ce suprafata
de
gradini
de
zarzavat,
legume?
=0.517
Communalities
In total, ce suprafa_a
1,000
,579
VARSTA
1,000
,649
1,000
,575
1,000
,517
1,000
,589
de...Teren arabil?
apropiat ora
In total, ce suprafa_a
de...Gradina de zarzavaturi,
legume?
Cte;C_i...Pasari de curte?
Component Matrixa
Component
1
Cte;C_i...Pasari de curte?
C_i copii cu vrsta 15-18
,663
-,315
-,225
-,434
,139
-,141
,303
,620
,201
,277
-,563
,430
-,420
-,250
,640
,320
,412
,550
Interpretare:
Observam ca var sat4
este bine explicata de
comp 1la fel si b6-42.
C5-1 trage si ea spre
com1. Celelalte
variabile sunt mai greu
de observat.
Pentru a vedea cum s-a calculat coordonata avem in tabelul de mai jos coeficientii ai de exemplu:
Componenta 1= - 0.404*b6_42 +0.258*c5_1 +0.282*c5_5 +0.617*c11_5 -0.391*varsta +0.298*sat4
Component Score Coefficient Matrix
Component
1
C_i copii cu vrsta 15-18
-,404
,132
-,140
,258
-,535
,427
-,391
-,238
,634
,298
,391
,545
,282
,589
,200
,617
-,299
-,223
Graficul 3 D va fi urmatorul:
Component Matrixa
Component Matrix
Component
1
Cte;C_i...Pasari de curte?
,139
-,420
-,250
2
,663
-,434
-,315
VARSTA
Component Matrixa
In total, ce suprafa_a
,303
,620
de...Gradina de zarzavaturi,
legume?
arte
In total, ce suprafa_a
,277
-,563
de...Teren arabil?
In total, ce suprafa_a
-,404
,132
,258
-,535
-,391
-,238
,298
,391
,282
,589
,617
-,299
de...Teren arabil?
,320
,412
apropiat ora
VARSTA
Distan_a pna la cel mai
apropiat ora
In total, ce suprafa_a
de...Gradina de zarzavaturi,
legume?
Cte;C_i...Pasari de curte?
Ce se poate observa ca daca in varianta cu 2 componente variabila cea mai slaba era suprafata de
teren arabil, in varianta cu 3 componente devine slaba var referitaoare la nr de copii ce se
specializeaza pe meserii, practic a avut loc luarea din informatie a ultimei variabile enuntate si
explicat de variabilele celelalte.
Iar grafic bidimensional va arata
astfel.
Model
R Square
,217a
Adjusted R
Square
Estimate
,047
,013
Durbin-Watson
,681
1,921
a. Predictors: (Constant), Distan_a pna la cel mai apropiat ora, In total, ce suprafa_a
de...Gradina de zarzavaturi, legume?, In total, ce suprafa_a de...Teren arabil?, C_i copii
cu vrsta 15-18 ani... merg la... coala de arte, VARSTA, Cte;C_i...Pasari de curte?
b. Dependent Variable: Ct de mul_umit(a) sunte_i n general de felul n care trai_
Interpretare: un R=0217 si R2=0.047 arata ca gradul de multumire fata de nivelul de trai explicat
prin acest model este de 4,7% ceea ce este foarte putin, deci avem un model care nu se valideaza ca
fiind unul bun. Testul Dubin Watson arata corelatia dintre reziduri si in cazul nostru e de 1.921
apropiat de 2, ceea ce este bine, avem reziduri corelate.
In continuare aplicam testul ANOVA cu mai multe variabile.
Pentru ca Regression este de 3.822 foarte mic fata de Residual 77.01 care arata ca foarte putin din
valoarea informatiei aduse de variabile a fost folosita pt a explica var dependenta. Testul F confirma
acelasi lucru, sig=0.228>0.05 deci modelul nu este unul valid.
ANOVAb
Model
1
Sum of Squares
Regression
df
Mean Square
3,822
,637
Residual
77,010
166
,464
Total
80,832
172
F
1,373
Sig.
,228a
a. Predictors: (Constant), Distan_a pna la cel mai apropiat ora, In total, ce suprafa_a
de...Gradina de zarzavaturi, legume?, In total, ce suprafa_a de...Teren arabil?, C_i copii cu vrsta
15-18 ani... merg la... coala de arte, VARSTA, Cte;C_i...Pasari de curte?
b. Dependent Variable: Ct de mul_umit(a) sunte_i n general de felul n care trai_
Pentru ca din analizele facute am observat ca nu am un model valid, am cautat alte variabile care sa
explice gradul de multumire/nemultumire fata de nivelul de trai. Variabilelel care le-am gasit sunt
urmatoarele;
Credei c n ara noastr lucrurile merg ntr-o direcie bun sau ntr-o direcie greit
Model
Square
Estimate
R Square
,775a
Adjusted R
,600
,441
Durbin-Watson
,513
2,103
Sum of Squares
df
Mean Square
Regression
5,923
,987
Residual
3,941
15
,263
Total
9,864
21
F
3,757
Sig.
,017a
a. Predictors: (Constant), Ce suprafa_a din terenul agricol pe care l ave_i n proprie, Profesori,
Cum crede_i ca ve_i trai peste un an?, Cum aprecia_i veniturile actuale ale gospodariei
dumneavoast, Ct de mul_umit sunte_i dvs. de... Siguran_a dvs. i a bunur, Crede_i ca n _ara
noastra lucrurile merg ntr-o direc_ie bu
b. Dependent Variable: Ct de mul_umit(a) sunte_i n general de felul n care trai_
Interpretare: Varianta rezidurilor 3.941 este mai mica decat cea a regressiei 5.923. Testul F trebuie sa
aiba o valoare cat mai mare in cazul nostru e 3.757 , iar Sig=0.017<0.05 se accepta modelul.
In continuare avem: Analiza semnificatiei parametrilor, coeficientilor.(analiza semnificatiei
parametrilor).
Coefficientsa
Unstandardized
Standardized
95,0% Confidence
Coefficients
Coefficients
Interval for B
Model
Std. Error
1 (Constant)
2,651
1,180
-,091
,189
,268
Beta
Sig.
Lower
Upper
Bound
Bound
2,248
,040
,137
5,165
-,085
-,484
,635
-,493
,311
,168
,324
1,600
,130
-,089
,626
,145
,229
,129
,633
,536
-,343
,633
-,711
,291
-,522
-2,444
,027
-1,330
-,091
Profesori
-,116
,207
-,095
-,559
,585
-,558
,326
-,033
,030
-,223
-1,123
,279
-,096
,030
Sunt acceptati in model doar acele variabile care au sig <0.05, in urma validarii facute cu testul t, iar
variabilel care trec testul raman in model restul sunt eliminati. Cei care nu trec testul sunt urmatorii:
Vom obtine o noua ecuatie cu 3 variabile. Si cu urmatorii coef.care valideaza testul t, nour R2 este
30%, Dobin Watson 1.9 se apropie de 2 , iar analiza Anova va fi valida Sig=0.00<0.05
Coefficientsa
Standardize
Unstandardized
95,0% Confidence
Coefficients
Coefficients
Interval for B
Model
1 (Constant)
1,250
,106
,120
,023
,384
-,178
Std. Error
Beta
Sig.
Lower
Upper
Bound
Bound
11,752
,000
1,041
1,459
,132
5,189
,000
,075
,165
,024
,436
16,205
,000
,338
,431
,030
-,161
-6,007
,000
-,236
-,120
gospodariei dumneavoast
Cum crede_i ca ve_i trai peste un an?
Crede_i ca n _ara noastra lucrurile
merg ntr-o direc_ie bu
a. Dependent Variable: Ct de mul_umit(a) sunte_i n general de felul n care trai_
Interpretare: Observam ca rezidurile urmeaza legea normala, iar punctele rezidurilor se infasoara in
jurul unei diagonale ipoteza fiind confirmate de testul Shapiro-Whilk si Kolmogorov-Smirnov, prin
faptul ca sig=0.00<0.05.
Tests of Normality
Kolmogorov-Smirnova
Statistic
Unstandardized Residual
a. Lilliefors Significance Correction
,097
df
Shapiro-Wilk
Sig.
1114
,000
Statistic
,990
df
Sig.
1114
,000
ANALIZA DISCRIMINANTA
Este o analiza foarte importanta, dar are anumite restrictii. Necesita ca variabilele ce le vom clasa in
grupuri sa fie de tip Scale, iar variabil dup care segrupeaza sa fie una cu 2 stari. Aceasta analiza isi
propune sa:
S determine variabilele explicative care contribuie cel mai mult la diferenierea claselor
definite de variabila de explicat;
S se construiasc un spaiu discriminant;
S repartizeze la o clas existent unitile ce nu au fost clasate .
Am ales ca variabile: SEX, si :
VARSTA
Cti copii merg la coala de arte
In total, ce suprafata de Teren arabil?
In total, ce suprafata de Gradina de zarzavaturi, legume?
Cte Pasari de curte?
Cte Cabaline (cai, magari) ?
Unweighted Cases
Valid
161
10,7
,0
Percent
Unweighted Cases
Valid
932
61,7
,0
579
38,3
,0
579
38,3
1511
100,0
codes
group codes
1350
89,3
discriminating variable
discriminating variable
,0
Total
Total
Percent
1350
89,3
1511
100,0
discriminating variable
Total
Total
Primul tabel din rezultatele analizei arata cata informatie se foloseste pentru aceasta analiza din
variabilele care le-am luat in calcul, in cazul nostru numai 10.7 de accea vom mai scoate din
variabilele care nu explica iar in final raman doar Varsta si suprafata de Teren arabil? Iar procentul
creste la 61.7%.
Al doilea tabel Group Statistics ne arata principalele caracteristici, medie, varianta...
Group Statistics
Valid N (listwise)
SEX
masculin VARSTA
55,7589
16,29484
394
394,000
8,5377
38,89400
394
394,000
56,7509
16,67236
538
538,000
142,65709
538
538,000
56,3315
16,51229
932
932,000
111,40087
932
932,000
Total
VARSTA
VARSTA
Tabelul 3 face referire la Egalitatea Medilor, arata care variabile sunt bune. Avem ipotezele:
H 0 :medile X1 0 = X1 1=X1 2 si alternativa
variabila.
df1
df2
Sig.
VARSTA
,999
,821
930
,365
In total, ce suprafa_a
,997
2,489
930
,115
de...Teren arabil?
Interpretare: sig la ambele variabile este >0.05 deci variabilele nu explica bine, variabile
neimportante.
Urmatorul tabel ne arata Corelatia si covariatia dintre variabile.
Pooled Within-Groups Matricesa
VARSTA In total, ce suprafa_a de...Teren arabil?
Covariance VARSTA
272,708
39,612
39,612
12390,344
1,000
,022
,022
1,000
560,447
Approx.
186,366
df1
df2
7,312E7
,000
Sig.
Din tabelul ce urmeaza vom vedea functia discriminant, insa in cazul nostru nu este importanta de
accea nu o vom lua in calcul.
Eigenvalues
Functio
n
1
Canonical
Eigenvalue
,003a
% of Variance
100,0
Cumulative %
Correlation
100,0
,059