Documente Academic
Documente Profesional
Documente Cultură
Nicoleta PETCU
BRAOV, 2007
ANALIZ BIDIMENSIONAL
RECLAMA
CUMPARA
da
nu
65
15
20
50
85
65
da
nu
Total
Total
80
70
150
n acest tabel s-a obinut distribuia celor 150 de persoane dup cele dou
caracteristici, sub forma frecvenelor absolute.
Dac dorim s obinem profilele linii, adic pentru fiecare modalitate a variabilei
reclama, ponderea celor care cumpr n totalul liniei, bifm n caseta de dialog
Percentages Row.
Profile linii
RECLAMA * CUMPARA Crosstabulation
CUMPARA
da
RECLAMA
da
Count
% wit hin
RECLAMA
nu
T otal
80
81,3%
18,8%
100,0%
20
50
70
28,6%
71,4%
100,0%
85
65
150
56,7%
43,3%
100,0%
Count
% wit hin
RECLAMA
T otal
15
Count
% wit hin
RECLAMA
nu
65
RECLAMA
da
nu
Total
CUMPARA
da
nu
65
15
Count
% within
CUMPARA
Count
% within
CUMPARA
Count
% within
CUMPARA
Total
80
76,5%
23,1%
53,3%
20
50
70
23,5%
76,9%
46,7%
85
65
150
100,0%
100,0%
100,0%
70
60
65
50
50
40
30
C ount
20
20
CUMPARA
15
10
da
nu
da
nu
RECL AMA
i P (Y y1 / X x1 ) P (Y y1 )
ni .
n
sau
n ij
ni .
n. j
n
nt ij
n. j n i .
n
RECLAMA
da
nu
Total
CUMPARA
da
nu
65
15
Count
Expected
Count
Count
Expected
Count
Count
Expected
Count
Total
80
45,3
34,7
80,0
20
50
70
39,7
30,3
70,0
85
65
150
85,0
65,0
150,0
Pentru a verifica dac cele dou variabile sunt independente se calculeaz mrimea
2
calc
cu formula:
p
(n ij nt ij ) 2
2
calc
nt ij
i 1 j 1
2
Valoarea calc
se compar cu valoarea teoretic t2 , extras din tabelul funciei
2 , pentru nivelul de semnificaie ales i ( p 1) (q 1) grade de libertate.
2
Dac valoarea calc
t2 , atunci, se respinge ipoteza H0 i se admite alternativa ei
H1, variabilele sunt dependente.
Metodele de analiz ne permit i msurarea intensitii legturii cu ajutorul
coeficienilor:
n k11 k1. k .1
k1. k 2. k .1 k .2
2:
2
n
1 Rotaru T., Metode statistice aplicate n tiinele sociale, Ed. Polirom, 2000
5
Dac acest coeficient are o valoare pozitiv ne indic o asociere pozitiv (indivizii se
concentreaz pe diagonala principal, cei care rspund DA la prima ntrebare ,
rspund DA i la a doua) iar dac are o valoare negativ ne indic o asociere negativ.
b) Coeficientul Q (al lui Yule). Acest coeficient are un interval fix de variaie [-1,+1], se
anuleaz n cazul n care variabilele sunt statistic independente i se obine cu
formula:
Q
k11 k 22 k12 k 21
k11 k 22 k12 k 21
Pentru exemplul ales, se testeaz existena legturii dintre cele dou variabile cu
testul
iar intensitatea legturii o msurm cu ajutorul coeficienilor menionai mai
sus.
2,
Coeficient 2
Chi-Square Tests
Value
Pearson
Chi-Square
N of Valid
Cases
Asymp.
Sig.
(2-sided)
df
42,191
,000
150
Nominal by
Nominal
Phi
Cramer's V
Contingency
Coefficient
N of Valid Cases
Value
,530
,530
Approx.
Sig.
,000
,000
,469
,000
150
2
Valoarea calc
42,19 i este mai mare dect t2 3,84 pentru nivelul de
semnificaie de 0,05 i un grad de libertate, ceea ce ne ndreptete s respingem
ipotaza H0 i s acceptm alternativa ei H1, adic exist legtur ntre reclam i
atitudinea consumatorilor de a cumpra produsul respectiv. Coeficienii care msoar
intensitatea legturii ne arat o asociere pozitiv de intensitate medie ntre cele dou
variabile.
C max
p 1
p
variabilei independente. Pentru un tabel 22 valoarea maxim a lui C este 0,707, pentru
un tabel 33 este 0,816 i aa mai departe2 .
b) Coeficientul V al lui Cramer. Valoarea acestui coeficient se obine cu relaia:
2
calc
V
nt
nu
nu stiu
Total
da
47
10
23
80
nu
18
32
20
70
65
42
43
150
(47 32) 65
0,165 , ceea ce nseamn (suma frecvenelor maxime pe linii 150 65
47 32 23 80 0,314
150 80
max n max n
n max n
p
i 1
ij
1 j q
1 j q
.j
1 j q
.j
max n max n
q
j 1
ij
1 i p
1 i p
i.
n max n i .
1 i p
Nominal
by Nominal
Lambda
Value
,232
Asymp.
Std. Error a
,072
Approx. T b
2,966
Approx. Sig.
,003
RECLAMA
Dependent
,314
,077
3,533
,000
CUMP
Dependent
,165
,076
2,006
,045
RECLAMA
Dependent
,161
,057
,000
CUMP
Dependent
,084
,032
,000
Symmetric
Goodman
and Kruskal
tau
Valorile obinute sugereaz existenei legturii dintre cele dou variabile, iar
predicia de la CUMP spre RECLAMA este mai bun dect invers.
d) Indice de concordan kappa. Permite compararea aprecierilor a doi observatori
asupra aceluiai grup. Considerm, de exemplu (Bishop 1975), aprecierile a doi
inspectori colari asupra comportamentului pedagogic a 72 cadre didactice (autoritar,
indiferent, ngduitor). Rezultatele evalurilor sunt prezentate n tabelul de mai jos.
Rezultatele evalurilor
Inspector 1
autoritar
indiferent
ngduitor
Total
autoritar
17
5
10
32
44,4
indiferent
4
12
3
19
26,4
Inspector 2
ngduitor
8
13
21
29,2
Total
29
17
26
72
40,3
23,6
36,1
17 12 13
100 58,3.
72
0,583 0,346
0,362
1 0,346
n utilizarea indicelui kappa, cele dou variabile trebuie s aib acelai interval de
variaie.
255
691
575
195
210
358
193
246
11
Cut point: - se utilizeaz dac dorim s specificm o valoare n funcie de care se vor
constitui grupurile, primul va conine valorile mai mici dect cea specificat iar al
doilea valorile mai mari.
Rezultatele oferite de produsul SPSS se prezint astfel:
Indicatori statistici la nivel de eantioane
Group Statistics
Ambalaj
V1
1 - vechi
2 - nou
Std.
Std. Error
Mean Deviation Mean
328,38
194,33
68,71
340,38
190,62
67,39
N
8
8
12
F
AMBALAJ
Equal
variances
assumed
Sig.
,003
,958
Equal
variances
not assumed
Sig.
(2-tailed)
df
Mean
Difference
Std. Error
Difference
Upper
-,125
14
,903
-12,00
96,24
-218,42
194,42
-,125
13,995
,903
-12,00
96,24
-218,43
194,43
sau
t calc 2.145
Mean
3,67
2,90
120
100
Std.
Deviation
,90
1,14
13
Std. Error
Mean
8,23E-02
,11
F
APRECIER
Equal
variances
assumed
8,702
Equal
variances
not assumed
Sig.
,004
Sig.
(2-tailed)
df
Mean
Difference
Std. Error
Difference
Upper
5,565
218
,000
,77
,14
,50
1,04
5,449
186,669
,000
,77
,14
,49
1,04
Puncte2
93
91
95
88
88
87
84
92
83
85
82
83
74
70
77
14
di
-3
0
-2
+1
-3
+2
-1
-4
+1
-3
+1
-2
-2
0
-6
81
85
87
74
73
85
87
87
76
72
d
i 1
28
-4
-2
0
-2
+1
d 1,4
Ipotezele sunt:
H0: = 0 nu exist diferene ntre rezultatele dinainte i dup iniierea pe
calculator ( 1 2 )
H1: 0 exist diferene ntre rezultate
Pentru a efectua acest test selectm:
Analyze
Compare Means
Paired - Samples T Test
15
Pair 1
PUNCT E1
Mean
82,55
PUNCT E2
83,95
20
Std.
Deviation
7,09
Std. Error
Mean
1,59
20
7,01
1,57
Paired Differences
PUNCT E1 PUNCT E2
Mean
Std.
Deviation
Std. Error
Mean
-1,40
2,11
,47
95% Confidence
Interval of the
Difference
Lower
-2,39
Upper
-,41
df
Sig.
(2-tailed)
-2,96
19
,008
16
17
Ranks
N
PUNCTE2 PUNCTE1
Negative
Ranks
Mean Rank
a
Positive Ranks
12
Sum of Ranks
4,10
20,50
11,04
132,50
3c
Ties
Total
20
Test Wilcoxon
PUNCTE2 PUNCTE1
-2,673
Z
Asymp. Sig.
(2-tailed)
,008
Nivelul de semnificaie indicat de test este de 0,008 mai mic dect 0,05, ceea ce ne
ndreptete s respingem ipoteza H0 i s acceptm ipoteza H1.
Analiz dispersional cu un factor (ANOVA)
Colectivitile cu care operm n statistica social-economic dei au un caracter
finit sunt formate de cele mai multe ori dintr-un numr foarte mare de uniti purttoare a
unor variabile cu un grad mare de variaie. Din aceast cauz unitile la care s-a fcut
observarea trebuie mprite n grupe, n funcie de variaia factorilor determinani.
n cazul n care s-a aplicat n prealabil metoda gruprii se pot calcula att medii ct
i indicatori de variaie (dispersii) pe grupe i pe total colectivitate. Media i dispersia pe
ntreaga colectivitate se pot calcula fie fcnd abstracie de faptul c ea este compus din
mai multe grupe, fie lund n calcul indicatorii corespunztori calculai la nivelul
grupelor.
Exemplu: 50 de ageni economici au fost grupai dup numrul mediu de salariai
i mrimea profitului. Pentru nivelul de semnificaie = 0,05 ne propunem s verificm
dac factorul de grupare este semnificativ, altfel spus dac numrul angajailor
influeneaz variaia profitului.
Repartiia agenilor economici din sectorul de activitate A
dup numrul mediu de salariai i profitul obinut
Ageni economici dup
numrul mediu de salariai
Ageni economici dup mrimea profitului (milioane lei)
Total
sub 10
10 - 50
peste 50
Total
12 - 16
5
5
16 - 20
15
10
25
18
20 - 24
5
10
15
peste 24
5
5
25
20
5
50
n fiierul creat n SPSS au fost definite variabilele profit, nr_ang. Pentru a se realiza
gruparea dup numrul angajailor a fost necesar codificarea agenilor economici dup variabila
nr_ang, prin generarea unei noi variabile codang.. n figura 11 se observ selectarea variabilelor:
Dependent List: a fost selectat variabila profit
Factor: a fost selectat variabila dup care se face gruparea codang.
OK
Rezultatele prelucrrilor se prezint astfel:
ANOVA
Sum of
Squares
PROFIT
Between
Groups
Within Groups
Total
df
Mean Square
291,540
145,770
316,640
47
6,737
608,180
49
Sig.
21,637
,000
Valoarea calculat pentru criteriul F este 21,63 iar nivelul de semnificaie este 0,000 mai
mic dect 0,05 , ceea ce ne ndreptete s respingem ipoteza H 0 i acceptm H1, factorul de
grupare, numrul angajailor, este semnificativ pentru variaia profitului.
O analiz mai detaliat o obinem alegnd calea:
Analyze
Compare Means
Means
19
Report
PROFIT
sub 10
Mean
17,92
25
Std. Deviation
10 - 50
3,00
Mean
20,00
20
Std. Deviation
peste 50
2,27
Mean
26,20
Std. Deviation
Total
,84
Mean
19,58
50
Std. Deviation
3,52
Mediile de grp
ANOVA Table
PROFIT *
CODANG
Between Groups
Sum of
Squares
291,540
(Combined)
Within Groups
Total
df
2
Mean Square
145,770
316,640
47
6,737
608,180
49
Eta Squared
,692
,479
REGRESIE I CORELAIE
20
F
21,637
Sig.
,000
Nr.
crt.
1
2
3
4
5
yi
5
6
9
12
18
25
30
35
45
65
Total
x
i 1
50
i 1
25
36
81
144
324
200
x
i 1
2
i
610
125
180
315
540
1170
5
x y
i 1
y i 10 3 x
625
900
1225
2025
4225
25
28
37
46
64
i 1
i 1
Se cere:
a) s se caracterizeze i s se msoare legtura dintre variabile;
b) s se testeze semnificaia coeficienilor pentru un nivel de semnificaie q 0,05 .
Sistemul de ecuaii normale devine:
5a 50b 200
5 2330 50 200
0,995
b0
3
17,23
Sb
0,1741
Se observ c valoarea variabilei t calculat este mai mare dect valoarea teoretic 17,23 >
2,353 ceea ce ne ndreptete s tragem concluzia c acest coeficient de regresie este semnificativ
21
a0
10
5,20
Sa
1,9228
Se observ c valoarea variabilei t calculat este mai mare dect valoarea teoretic 5,20 >
2,353 ceea ce ne ndreptete s tragem concluzia c termenul liber este semnificativ diferit de
zero. Intervalul de ncredere pentru coeficientul este:
10 2,353 1,9228 10 2,353 1,9228
5,47 14,52
0,995
1 0,995 2
5 2 17,23
22
23
24
Descriptive Statistics
Std.
Deviation
15,8114
5,2440
Mean
40,0000
10,0000
INCAS
PUB
N
5
5
Correlations
Pearson
Correlation
INCAS
1,000
,995
,
,000
5
5
INCAS
PUB
INCAS
PUB
INCAS
PUB
Sig.
(1-tailed)
N
PUB
,995
1,000
,000
,
5
5
Variables Entered/Removedb
Variables
Entered
PUBa
Model
1
Variables
Removed
,
Method
Enter
Model Summaryb
Model
1
R
,995a
R Square
,990
Adjusted
R Square
,987
Std. Error
of the
Estimate
1,8257
ANOVAb
Model
1
Regression
Residual
Total
Sum of
Squares
990,000
10,000
1000,000
df
1
3
4
25
Mean
Square
990,000
3,333
F
297,000
Sig.
,000a
Coefficientsa
Unstandardized
Coefficients
Model
1
(Constant)
PUB
B
10,000
3,000
Std. Error
1,923
,174
Standardi
zed
Coefficien
ts
Beta
,995
t
5,201
17,234
Sig.
,014
,000
95% Confidence
Interval for B
Lower
Upper
Bound
Bound
3,881
16,119
2,446
3,554
26
CHELT
4
4
10
12
14
VINZARI
Method.. LINEAR
27
Multiple R
R Square
,85395
,72923
Analysis of Variance:
Regression
Residuals
F=
DF
Sum of Squares
Mean Square
1
8
11,259261
4,180739
11,259261
,522592
21,54502
Signif F = ,0017
VINZARI
(Constant)
-,442581
9,176893
SE B
Beta
,095350 -,853948
,762589
T
-4,642
12,034
Sig T
,0017
,0000
Method.. INVERSE
,95148
,90531
Analysis of Variance:
DF Sum of Squares
Regression
Residuals
F=
1
8
13,978011
1,461989
76,48762
Mean Square
13,978011
,182749
Signif F = ,0000
B
33,109280
1,102268
SE B
3,785769
,553896
Beta
,951479
Sig T
8,746 ,0000
1,990 ,0818
Label
FIT_3
FIT_4
28
CHELT
9
5
Observed
4
Linear
3
Inverse
4
10
12
14
VINZARI
1
, raportul de corelaie R este
x
0,9514, valoarea F = 76,48 pentru care nivelul de semnificaie este 0,0000. ei 1,46 . Din
aceste rezultate deducem c modelul hiperbolic estimeaz mai bine legtura dintre cele dou
variabile.
2
R2(Y,Xj)
29
Fj
Nivel de
semnificaie
X1
.
.
Xp
R2(Y,X1)
.
.
2
R (Y,Xp)
F1
.
.
Fp
1
.
.
p
Se selecioneaz variabila explicativ pentru care criteriul F este cel mai mare i nivelul de
semnificaie este cel mai mic (mai mic dect nivelul de semnificie ales).
n etapa a doua se construiete tabelul R2(Y, Xst-1 ,Xj), n care Xst-1 este variabila explicativ
selecionat la pasul anterior. Se selecioneaz o nou variabil, aplicnd acelai principiu.
Procedura se oprete atunci cnd variabilele rmase au toate nivelul de semnificaie mai
mare dect nivelul .
Criteriul utilizat pentru selecionarea variabilelor const n alegerea la fiecare etap a
variabilei care va avea cel mai mare F parial. Presupunem c la momentul t variabilele X1 ... Xt au
fost selecionate:
F j=
S( X 1 ,..., X t , X j ) - S( X 1 ,..., X t )
( ( y i - y )2 - S( X 1 ,..., X t , X j )) / (n - t - 2)
2
(
Y
)
Yx
i
explicat de
i=1
variabilele X1,...,Xk .
Putem nelege astfel problema multicoliniaritii n regresia multipl. Exist variabile puternic
corelate cu celelalte variabile explicative, ceea ce face ca aportul lor la explicarea variabilei Y
s fie foarte mic. Prin aplicarea acestor modele de selecie variabilele nesemnificative sunt
eliminate.
Valorile variabilelor nregistrate la 32 uniti turistice
Nr. turiti
(mii pers.)
X1
398
369
268
484
394
332
336
383
285
277
456
355
364
320
311
362
Zile - turiti
X2
1080
1180
1290
1110
1460
1400
1360
1040
1050
1350
1280
1310
1200
1470
1430
1450
Pre mediu/zi
(zeci mii lei)
X3
56
59
56
57
59
60
59
60
63
62
64
64
63
65
67
66
Val. investiiilor
(zeci mil. lei)
X4
12
9
28
12
13
11
24
20
8
10
21
23
13
14
22
23
30
Clelt. publicit.
(sute mii lei)
X5
76
88
51
39
51
20
40
31
12
68
52
76
96
47
27
72
Val. ncas.
(mil. lei)
Y
5550
5439
4290
5502
4871
4708
4627
4110
4122
4842
5740
5094
5383
4888
4033
4941
408
433
359
476
415
420
536
432
436
415
462
429
517
328
418
515
1310
1240
1060
1380
1480
1360
1110
1520
1230
1190
1120
1250
1420
1230
1350
1200
66
67
68
71
69
69
73
73
73
74
73
74
74
52
68
78
13
8
27
18
7
10
27
15
32
19
14
11
26
19
34
23
62
24
73
63
28
91
74
16
42
41
92
83
74
87
74
21
5312
5139
5397
5149
5450
4989
5926
4703
5365
4630
5711
5095
6142
4787
5035
5288
Fj
14.645
15.787
14.677
30.203
Nivel de semnificaie
0,717
0,268
0,687
0,000
31
Model
1
2
R
,707a
,822b
R Square
,500
,676
Adjusted
R Square
,484
,653
Std. Error
of the
Estimate
370,47
303,56
ANOVA c
Model
1
Regression
Residual
Total
Regression
Residual
Total
Sum of
Squares
4120838,0
4117531,9
8238369,9
5566130,7
2672239,2
8238369,9
df
1
30
31
2
29
31
Mean
Square
4120838,0
137251,064
2783065,3
92146,180
32
F
30,024
Sig.
,000a
30,203
,000b
Coefficientsa
Standardiz
ed
Coefficients
Unstandardized
Coefficients
Model
1
(Constant)
Nr.turisti
(mii pers.)
(Constant)
Nr.turisti
(mii pers.)
chelt.
publ.(sute
mii lei)
B
3005,872
Std. Error
382,457
5,205
,950
2628,463
327,543
4,948
,781
8,568
2,163
Beta
7,859
Sig.
,000
5,479
,000
3,265
7,145
8,025
,000
1958,562
3298,365
,672
6,334
,000
3,350
6,545
,420
3,960
,000
4,143
12,993
,707
Excluded Variablesc
Model
1
zile-turisti
pret mediu /
zi (zeci mii
lei)
val. invest.
(zeci mil lei)
chelt.
publ.(sute
mii lei)
zile-turisti
pret mediu /
zi (zeci mii
lei)
val. invest.
(zeci mil lei)
Collinearity
Statistics
Tolerance
,986
-,365
Sig.
,717
Partial
Correlation
-,068
-1,129
,268
-,205
,624
-,407
,687
-,075
,978
,420
3,960
,000
,592
,993
,012b
,105
,917
,020
,967
-,807
,426
-,151
,611
-,797
,432
-,149
,972
Beta In
-,048a
a
-,184
-,054
-,110
-,086
33
ANALIZE MULTIDIMENSIONALE
III
6
8
1
3
4
2
I
6
II
5
III
4
3,27
2,38
2,38
Deoarece datele sunt omogene este suficient centrarea lor, astfel nct se
obine tabelul T0.
T0
1
2
3
4
5
6
Centrarea datelor
I
-2
0
2
-6
4
2
II
0
2
-5
1
2
0
III
2
4
-3
-1
0
-2
n care:
T0
V 0
2
0
2
4
2
5
3
6
1
1
4
2
0
35
0
2
T0'
2
2 0
2
4
0
2 5 3
6 1 1
4 2 0
2 0 2
T0
64
V 8
8
34
22
22
34
8
34
22
8
1
22 0
0
34
0
1
0
0
1
Numrul soluiilor este egal cu rangul matricei de date. Se obin n acest caz
trei soluii:
1 72
2 48
3 12
i 1
72 0 0
D 0 48 0
0 0 12
132
72
55%
132
48
36%
132
u1 1
1
1
u 2 1
1
u3 1
1
a
u b este
c
a2 b2 c2
u1 1 / 6
1/ 6
1/ 3
u2 1 / 3
1/ 3
u3 1 / 2
1/ 2
2
2 / 6 1/ 3
2 5 3
1/ 6 1/ 3
6 1 1
4 2 0 1/ 6 1/ 3
2 0 2
u1
u2
2.45
2.45
1/ 2
1 / 2
u3
4.90
4.90
2.45
2.45
1.41
3.46 1.41
3.46 1.41
3.46 1.41
3.46 1.41
0
1.41
2
3
4
5
6
T0
1 / 3 48
1 / 6 72
1 / 3 48
1 / 6 72
1 / 3 48
6.93
1 / 2 12 3.46
3.46
1 / 2 12
2.45
2.45
II
III
37
3
2
1
0
-1
VAR00002
-2
-3
-4
-6
-4
-2
VAR00001
Spircu L., Calciu M., Spircu T., Analiza datelor de marketing, Ed. All, Bucureti 1994, pag. 89
38
Factor
Caracteristici ale automobilelor
Cod
A
C
D
F1
F2
F3
F4
F5
N
O
P1
P2
P3
P4
R1
R2
R3
R4
R5
S1
S2
S3
S4
T1
T2
V
Model
Pre
Cap.cil
12000
13275
14625
13475
25005
17845
13050
21743
998
954
993
999
1301
1302
1117
1597
140
145
145
145
200
165
137
180
12400
988
Opel Corsa
Peugeot 205 XE
Peugeot 205 GL
Peugeot 205 GT
Peugeot 205 GTI
Renault 4 TL
Renault 4 GTL
Renault 5 SL
Renault 5 GTS
Renault GT Turbo
Seat GLX
Seat GL
Suzuki GA
Suzuki GL
Toyota L
Toyota XL
Volkswagen
13050
13260
15780
18965
25175
12981
13806
14156
17250
25319
19283
10970
12115
14655
14000
16850
18045
993
954
1124
1360
1580
956
1108
1108
1397
1397
1461
903
993
1324
999
1295
1272
39
Viteza Cons
Cap.hab
Lung.
6,2
5,6
6,7
6,2
8,9
7,7
7,0
9,3
955
1170
1151
968
968
968
900
973
340
350
361
364
364
364
364
364
Gr./P
.
23,2
19,4
20,8
21,5
11,0
16,0
22,7
12,0
140
6,4
375
364
17,0
143
134
142
170
190
115
120
143
167
200
175
131
145
163
150
170
170
7,2
6,8
5,8
9,2
8,7
6,3
6,3
5,8
7,9
8,7
8,8
7,3
6,4
6,5
6,1
6,8
8,0
845
1200
1200
1200
1200
950
950
915
915
915
1200
1088
400
400
202
202
1040
362
370
370
370
370
367
367
359
359
359
364
347
358
358
370
370
365
22,4
23,8
21,4
13,9
11,2
33,1
28,4
20,6
13,8
10,2
14,7
23,4
18,4
14,0
19,5
15,0
14,0
40
Statistic descriptiv
Mean
Std. Deviation
1172,04
209,44
894,23
311,19
7,177
1,156
18,5154
5,6098
362,31
7,43
16118,38
4229,97
154,81
22,61
Analysis N
26
26
26
26
26
26
26
Correlation Matrixa
Correlation
CAP.CIL
CAP_HAB
CONSUM
GR_P
LUNGIME
PRET
VITEZA
CAP.CIL
1,000
,135
,792
-,775
,305
,849
,829
CAP_HAB
,135
1,000
,320
,088
-,072
,247
,038
CONSUM
,792
,320
1,000
-,680
,218
,809
,778
a. Determinant = 3,179E-04
41
GR_P
-,775
,088
-,680
1,000
-,104
-,765
-,937
LUNGIME
,305
-,072
,218
-,104
1,000
,327
,163
PRET
,849
,247
,809
-,765
,327
1,000
,914
VITEZA
,829
,038
,778
-,937
,163
,914
1,000
Component
1
2
3
4
5
6
7
Initial Eigenvalues
% of
Cumulative
Total
Variance
%
4,354
62,197
62,197
1,133
16,192
78,388
,965
13,787
92,175
,229
3,277
95,452
,176
2,516
97,968
,129
1,850
99,818
1,276E-02
,182
100,000
Primii doi factori exprim 78,4 din variana total, ceea ce nseamn c i
putem utiliza pentru a reprezenta norul de puncte n planul principal.
Scree Plot
5
Eigenvalue
0
1
Component Number
42
Compone nt Ma trixa
Component
1
CAP.CIL
CAP_HAB
CONSUM
GR_P
LUNGIME
PRET
VITEZA
,924
,173
,884
-,882
,305
,951
,956
2
-2,48E-02
,949
,224
,230
-,335
7,321E-02
-,108
Component Plot
cap_hab
1,0
,5
gr_p
consum
pret
cap.cil
viteza
Component 2
0,0
lungime
-,5
-1,0
-1,0
-,5
0,0
,5
1,0
Component 1
43
Cod
A
C
D
F1
F2
F3
F4
F5
N
O
P1
P2
P3
fac1_1
-1,076
-,853
-,500
-,661
1,628
,528
-,553
1,600
-,654
-,600
-,716
-,425
1,118
fac1_1
1,866
-1,397
-,982
-,626
,674
1,681
1,130
-1,044
-,719
,099
-,572
,355
,700
fac2_1
,4591
,4842
,2896
,0545
,0825
,0731
,8272
1,378
-1,30
-1,51
-2,31
-2,43
,2169
44
2
S2
A
1
R1
R2
S1
P3
P1
P4
P2
V
F3 R4
F1
R3
OF4
F5
F2
R5
-1
S3
S4
N
-2
T1
T2
-3
-1,5
-1,0
-,5
0,0
,5
1,0
1,5
2,0
45
SEX
SPORT
1.00000
.19040 1.00000
-.01131 .34082
.06825
.17510
.39625
.46192
1.00000
.65745
.60163
VRSTA
.77286
.58829 -.19978
ARA TRANSP VRSTA
ARA
1.00000
TRANSP .59873 1.00000
VRSTA -.20254 .39162 1.00000
.33210
.53111
.21977
-.09029
Factori
CAZARE
GRUP
MOTIV
PROFESIE
SEX
SPORT
SURSE_IN
ARA
TRANSP
VRSTA
1
2
3
4
5
6
7
8
9
10
Valori proprii
3.48485
34.8
2.82289
28.2
1.09891
11.0
.83836
8.4
.55509
5.6
.37733
3.8
.28967
2.9
.26634
2.7
.18518
1.9
.08138
.8
%
cumulate
34.8
63.1
74.1
82.5
88.0
91.8
94.7
97.3
99.2
100.0
Eigenvalue
0
1
10
Factor Number
46
cazare
virsta
mod calatorie
sex
.5
sport
0.0
transp
profesia
motivatia
surse_inf
tara
Factor 2
-.5
-1.0
-1.0
-.5
0.0
.5
1.0
Factor 1
variabilele sunt apropiate ntre ele dac unghiul format este ascuit,
( de exemplu: practicarea sporturilor de iarn cu profesia, vrsta cu cazarea, sursele
de informare cu ara);
47
variabile sunt opuse (repulsie) dac unghiul format este obtuz,(de
exemplu: cltoria n grup sau individual cu sursele de informare);
X
preul
performanele
tehnice
designul
Categoria de vrst
31-40 ani
41-50 ani
35
33
16-20 ani
17
21-30 ani
15
26
28
19
31
34
28
18
15
Se apeleaz:
Analyze
Data Reduction
48
peste 50
42
Correspondence Analysis
49
1
0,793 iar al doilea factor principal restul de 20,7
1 2
,2
Dimension 2
0,0
design
-,2
pret
-,4
-1,2
-1,0
-,8
-,6
-,4
Dimension 1
Canonical normalization
50
-,2
0,0
,2
,4
16-20 ani
,6
,4
Di
,2
me
nsi 0,0
on
2
-,2
21-30 ani
41-50 ani
peste 50 ani
-,4
31-40 ani
-,6
-,8
-1,0
-,5
0,0
,5
1,0
Dimension 1
,8
16-20 ani
,6
perf.tehn
,4
21-30 ani
,2
41-50 ani
0,0
Dim
ens
ion
2
peste 50 ani
design
-,2
pret
-,4
31-40 ani
-,6
virsta
-,8
criteriu
-1,5
-1,0
-,5
0,0
,5
1,0
Dimension 1
51
ANALIZA DISCRIMINANT
O populaie este divizat n k clase cu ajutorul unui criteriu calitativ Y.
Fiecare individ al populaiei este descris prin p variabile numerice X 1 ,...... X p .
Analiza discriminant utilizeaz mai multe metode ce permit studierea legturii
dintre criteriul Y i variabilele X 1 ,...... X p , plecnd de la un eantion. Analiza
factorial discriminant permite punerea n eviden a diferenelor dintre clase la
nivelul variabilelor X 1 ,...... X p i vizualizarea datelor. Pentru aceasta este nevoie de
utilizarea procedurilor automate pentru selectarea variabilelor discriminante.
Exemplul 1: o firm de soft5 este interesat s-i extind vnzrile de soft de aplicaie de
marketing. Pentru aceasta efectueaz o cercetare n vederea depistrii caracteristicilor ce ar putea
influena decizia de achiziionare a unui asemenea soft. Analiza este realizat la nivelul a 12 firme
la care s-au nregistrat caracteristicile: dotare cu soft de specialitate, numrul salariailor, cifra de
afaceri.
Valorile variabilelor
Notele pe discipline
Nota
Nota
Apreciere matematic statistic
1
8
8
1
5
10
1
7
9
1
7
9
1
8
10
1
8
5
2
6
7
2
6
7
2
7
6
2
5
8
2
5
8
2
7
9
2
10
10
2
9
5
3
5
7
3
7
6
Nota
informatic
5
6
6
8
9
9
7
5
5
6
6
7
10
8
7
6
Nota
marketing
9
9
10
10
8
9
5
7
8
8
5
8
10
8
5
6
Spircu L., Calciu M., Spircu T., Analiza datelor de marketing, Ed. All, Bucureti 1994, pag.166
52
17
Group Statistics
APRECIER
f.bun
bun
slab
Total
Covariance
Correlation
NINFO
NMARK
NMATE
NSTAT
NINFO
NMARK
NMATE
NSTAT
Std.
Deviation
1,72
,75
1,17
1,87
1,67
1,69
1,81
1,60
1,00
,58
1,15
1,00
1,56
1,84
1,52
1,77
Mean
7,17
9,17
7,17
8,50
6,75
7,38
6,88
7,50
6,00
5,33
5,67
6,00
6,76
7,65
6,76
7,59
NINFO
NMARK
NMATE
NSTAT
NINFO
NMARK
NMATE
NSTAT
NINFO
NMARK
NMATE
NSTAT
NINFO
NMARK
NMATE
NSTAT
NINFO
2,595
,542
1,470
,393
1,000
,260
,600
,149
NMARK
,542
1,670
1,110
,357
,260
1,000
,565
,169
NMATE
1,470
1,110
2,313
-,286
,600
,565
1,000
-,115
NSTAT
,393
,357
-,286
2,679
,149
,169
-,115
1,000
Wilks' Lambda
Test of
Function(s)
1 through 2
2
Wilks'
Lambda
,374
,950
Chi-square
12,304
,639
53
df
8
3
Sig.
,138
,887
,081
,818
-,244
,136
-6,190
-,375
-,509
,981
,420
-3,394
Unstandardized coefficients
Casewise Statistics
Statistics
Actual Group
Predicted
Group
Original
Case
Number
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
1
1
1
1
1
1
2
2
2
2
2
2
2
2
3
3
3
54
2**
1
1
1
2**
1
3**
2
2
1**
3**
2
1**
2
3
2**
3
Discriminant Scores
Function 1
Function 2
,718
1,803
1,998
2,160
,498
,635
-2,040
-,566
-,128
,713
-1,742
,443
1,728
-,508
-1,796
-1,683
-2,231
1,358
-1,119
-,087
-,837
1,207
-1,403
,262
-,006
,046
-1,451
,076
,556
1,776
,462
-,719
,689
-,809
13
1,5
1,0
16
7
11
0,0
F unction 2
12
14
,5
APRECIER
Group Centroids
-,5
17
15
slab
-1,0
bun
6
10
-1,5
-3
-2
-1
f .bun
1
Function 1
Se observ din tabelul de mai sus c s-au produs schimbri n ceea ce privete
costituirea grupurilor dup notele obinute la cele patru discipline.
ANALIZ CLUSTER
n multe domenii exist un mare interes pentru dezvoltarea metodelor de
clasificare a obiectelor. Foarte adesea obiectele de clasificat sunt clienii. Obiectivul
urmrit este gruparea clienilor poteniali n grupe omogene destul de mari pentru a
putea fi analizai, utiliznd modaliti de clasificare cum ar fi segmentarea i
tipologia.
Exemplul 1: se consider un set de 8 uniti caracterizate prin valori
nregistrate pentru trei variabile. Aplicarea metodei cluster se realizeaz selectnd:
Analyze
Classify
Hierarchical Cluster . . .
55
56
57
2
1,251
1,251
2,461
12,489
2,902
2,882
,372
16,541
1,104
7,888
1,951
1,637
,390
9,251
3
2,461
1,104
4
12,489
7,888
5,100
5,100
,848
1,059
1,915
12,140
5
2,902
1,951
,848
9,290
9,290
9,795
9,993
15,677
6
2,882
1,637
1,059
9,795
0,09198
0,09198
2,909
12,166
7
,372
,390
1,915
9,993
2,909
2,691
2,691
10,452
8
16,541
9,251
12,140
15,677
12,166
10,452
12,754
12,754
1
1,251
2,461
12,489
2,882
,372
16,541
2
1,251
1,104
7,888
1,637
,390
9,251
3
2,461
1,104
5,100
,848
1,915
12,140
4
12,489
7,888
5,100
9,290
9,993
15,677
(5,6)
2,882
1,637
,848
9,290
2,691
10,452
7
,372
,390
1,915
9,993
2,691
8
16,541
9,251
12,140
15,677
10,452
12,754
12,754
2
,390
3
1,915
58
4
9,993
(5,6)
2,691
8
12,754
2
3
4
(5,6)
8
,390
1,915
9,993
2,691
12,754
Case
1+7+2
3
4
(5,6)
8
1,104
1,104
7,888
1,637
9,251
1+7+2
1,104
7,888
1,637
9,251
Case
1+7+2
4
(5,6)+3
8
5,100
,848
12,140
3
1,104
5,100
,848
12,140
1+7+2
7,888
1,104
9,251
Case
1,7,2+5,6,3
4
8
7,888
5,100
1,637
,848
9,290
9,290
15,677
4
7,888
5,100
9,290
15,677
4
7,888
5,100
15,677
1,7,2+5,6,3
5,100
9,251
9,251
12,140
15,677
10,452
10,452
(5,6)
1,637
,848
9,290
8
9,251
12,140
15,677
10,452
10,452
(5,6)+3
1,104
5,100
8
9,251
15,677
10,452
10,452
4
5,100
8
9,251
15,677
15,677
59
Agglomeration Schedule
Cluster Combined
Cluster 1
Cluster 2
5
6
1
7
1
2
3
5
1
3
1
4
1
8
Stage
1
2
3
4
5
6
7
Coefficients
9,198E-02
,372
,390
,848
1,104
5,100
9,251
Dendrogram
* * * * * * H I E R AR C H I C AL C L U S T E R AN AL Y S I S * * * * * *
-+---+
-+
I
-----+---------------------+
-+
I
I
-+---+
+---------------------+
-+
I
I
---------------------------+
I
-------------------------------------------------+
mediu net lunar, pe activiti ale economiei naionale, anul 2000, zona Centru,
format din judeele Alba, Braov, Covasna, Harghita, Mure, Sibiu. Se urmrete
constituirea grupurilor ce scot n eviden asemnrile dintre salariile pe activiti
ale economiei naionale.
Ctigul salarial nominal mediu net lunar, pe activiti ale economiei naionale,
anul 2000, zona Centru
Judee
AB
BV
CV
Comer
1197136 1407660 1204232
Hotel res.
1248820 1648136 1217915
Transport 1990316 2508140 1769728
Pot
3080666 3371810 3278844
Bnci
4427378 5084607 4360286
Tranz.im.
1433279 2469463 1852821
Administr. 2767425 3300918 2491821
nvm.
1967406 2549858 1777582
Sntate
1409918 1751459 1601269
Sursa datelor: Anuarul Statistic al Romniei 2001
HR
1318291
1296922
1711961
2995325
4505654
1296187
2570497
1725369
1549518
MS
1490653
1263546
1862925
2939668
4715495
1829532
2753103
1905385
1705834
SB
1376971
1283845
2971791
2662131
4191889
1406370
2997957
2073729
1848168
6000000
5000000
4000000
3000000
2000000
1000000
0
Alba
Brasov
comer
posta
administr
Covasna Harghita
hotel rest.
banci
nvm.
Mures
Sibiu
transport
tranz.
sntate
Fig. 17 Ctigul salarial nominal mediu net lunar, pe activiti ale economiei naionale
Stage
1
2
3
4
5
6
7
8
Cluster Combined
Cluster 1
Cluster 2
3
4
3
7
5
8
3
9
3
5
1
6
1
3
1
2
Coefficients
1,2139E+11
6,4291E+11
8,1082E+11
8,5402E+11
9,3273E+11
1,0506E+12
3,2840E+12
1,3692E+13
* * * * * * H I E R A R C H I C A L
N A L Y S I S * * * * * *
Next Stage
2
4
5
5
7
7
8
0
C L U S T E R
C A S E
Label
Num
COMERT
HR
SANATATE
TRANZ
INV
TRANSP
ADM
POSTA
BANCI
3
4
7
9
5
8
1
6
2
0
5
10
15
20
25
+---------+---------+---------+---------+------+
-+
-+-+
-+ I
---+-------+
---+
+----------------------------------+
---+
I
I
---+-------+
I
---+
I
----------------------------------------------+
Din dendrogram rezult cteva grupe: salariile medii nominale lunare sunt
apropiate pentru activitile (comer, hoteluri i restaurante, sntate), (tranzacii
imobiliare, nvmnt), (transporturi, administraie public, pot ) i distinct
sectorul bancar.
Din punct de vedere al unitilor teritoriale, situaia se prezint astfel:
62
Agglomeration Schedule
Stage
1
2
3
4
5
Cluster Combined
Cluster 1
Cluster
1
1
1
1
1
2
4
3
5
6
2
Coefficient
s
3,658
4,549
9,583
17,269
31,884
Next Stage
2
3
4
5
0
0
5
10
15
20
25
+---------+---------+---------+---------+------+
1
-+
4
-+---------+
3
-+
+-------------+
5
-----------+
+--------------------+
6
-------------------------+
I
2
----------------------------------------------+
Din dendrograma de mai sus rezult un grup relativ compact format din
judeele (Alba, Harghita, Covasna) i trei uniti izolate Mure, Sibiu, Braov.
Este dotat
cu soft
da
da
da
da
da
da
nu
nu
nu
nu
nu
nu
Nr.salariai
X1
33
56
25
41
30
57
38
30
20
10
9
40
CA (mil.lei)
X2
4900
6000
4000
6900
5700
7400
5100
2700
3450
2800
1500
4000
63
Classify
Discriminant . . .
64
Interpretarea rezultatelor
Cele 12 firme au fost mprite n dou grupuri de volume egale. n urma aplicrii
metodei discriminante va rezulta o alt clasificare i se vor gsi funciile care au
avut o importan mare n obinerea unor grupuri distincte.
65
Group Statistics
SOFT
da
nu
Total
Valid N (listwise)
X1
Mean
40,33
Std.
Deviation
13,56
Unweighted
6
Weighted
6,000
X2
5816,67
1254,46
6,000
X1
24,50
13,59
6,000
X2
3258,33
1232,24
6,000
X1
32,42
15,36
12
12,000
X2
4537,50
1786,20
12
12,000
Grupul firmelor dotate cu soft are centroidul format din mediile celor dou
caracteristici (40.33, 5816.7), iar grupul firmelor ce nu sunt dotate cu soft are
centroidul (24.5, 3258,3).
Pooled Within-Groups Matrices a
Covariance
Correlation
X1
X1
184,283
X2
13209,167
X2
13209,167
1546041,7
X1
1,000
,783
X2
,783
1,000
n tabelul de mai sus este afiat matricea de covarian din interiorul claselor
W.
Eigenvalues
Function
1
Eigenvalue
1,422 a
% of
Variance
100,0
Cumulative
%
100,0
Canonical
Correlation
,766
66
Wilks' Lambda
Test of
Function(s)
1
Wilks'
Lambda
,413
Chi-square
7,963
df
2
Sig.
,019
-,039
X2
,001
(Constant)
-3,694
-,526
X2
1,356
67
Casewise Statistics
Highest
Group
Original
Case
Number
1
2
3
4
5
6
7
8
9
10
11
12
Actual
Group
Discrimina
nt Scores
Predicted
Group
Function 1
1
,368
1
,788
2**
-,293
1
2,122
1
1,251
1
2,151
1**
,420
2
-1,731
2
-,693
2
-1,047
2
-2,603
2
-,732
1
1
1
1
1
1
2
2
2
2
2
2
1
1,089
nu
-1,089
Unstandardized canonic al
disc riminant functions
evaluated at group means
68
SOFT
da
Count
%
Cross-validated
Count
%
da
nu
Total
nu
da
83,3
16,7
100,0
nu
16,7
83,3
100,0
da
nu
da
83,3
16,7
100,0
nu
16,7
83,3
100,0
a. Cross validation is done only for those cases in the analysis. In cross validation,
each case is classified by the functions derived from all cases other than that case.
b. 83,3% of original grouped cases correctly classified.
c. 83,3% of cross-validated grouped cases correctly classified.
X1
Wilks'
Lambda
,710
F
4,081
X2
,441
12,700
df1
df2
1
10
Sig.
,071
10
,005
Variabila cu puterea cea mai mare de discriminare este X2 - cifra de afaceri, acest
lucru este pus n eviden de cele dou statistici i F.
n tabelul de mai jos sunt prezentai coeficienii de corelaie ntre variabile i
vectorul scorurilor.
Structure Matrix
Func tion
1
X2
,945
X1
,536
69