Analiza Datelor SPSS

UNIVERSITATEA TRANSILVANIA DIN BRAOV
FACULTATEA DE TIINE ECONOMICE
Nicoleta PETCU
ANALIZA DATELOR - aplicaii N SPSS

Analiza bidimensional
Regresie i corelaie
Analiza multidimensional
Pentru studenii programelor de studii - masterat
BRAOV, 2007
ANALIZ BIDIMENSIONAL
Pentru a realiza o distribuie bidimensional s-a luat n considerare un eantion

format din 150 de persoane ce au rspuns unor ntrebri dintr-un chestionar, printre care:
dac au vzut reclama la un produs nou lansat pe pia i dac au cumprat produsul
respectiv. Cele dou ntrebri au devenit variabile statistice pentru fiierul creat n SPSS.
Tabelele de contingen se pot realiza astfel:
Analyze
Descriptive Statistics
Crosstabs
Fig. 1 Realizarea tabelelor de contingen
Cu ajutorul butonului Cells obinem o nou caset de dialog cu ajutorul creia

putem obine tabelele menionate mai sus:
Fig. 2 Selectarea tipului de frecvene

Distribuia persoanelor dup cele dou caracteristici
RECLAMA * CUMPARA Crosstabulation

Count
RECLAMA
CUMPARA
da
nu
65
15
20
50
85
65
da
nu
Total
Total
80
70
150
n acest tabel s-a obinut distribuia celor 150 de persoane dup cele dou
caracteristici, sub forma frecvenelor absolute.
Dac dorim s obinem profilele linii, adic pentru fiecare modalitate a variabilei
reclama, ponderea celor care cumpr n totalul liniei, bifm n caseta de dialog
Percentages Row.
Profile linii
CUMPARA
da
RECLAMA
da
Count
% wit hin
RECLAMA
nu
T otal
80
81,3%
18,8%
100,0%
20
50
70
28,6%
71,4%
100,0%
85
65
150
56,7%
43,3%
100,0%
Count
% wit hin
RECLAMA
T otal
15
Count
% wit hin
RECLAMA
nu
65
Dac dorim s obinem profilele coloane, adic pentru fiecare modalitate a

variabilei cumpr, ponderea celor care au vzut reclama n totalul coloanei, bifm n
caseta de dialog Percentages Column.
Profile coloane
RECLAMA
da
nu
Total
CUMPARA
da
nu
65
15
Count
% within
CUMPARA
Count
% within
CUMPARA
Count
% within
CUMPARA
Total
80
76,5%
23,1%
53,3%
20
50
70
23,5%
76,9%
46,7%
85
65
150
100,0%
100,0%
100,0%
Reprezentarea grafic a distribuiei celor 150 de persoane chestionate, dup cele

dou variabile se realizeaz bifnd n caseta Crosstabs, Display clustered bar charts i
obinem graficul de mai jos.
70
60
65
50
50
40
30
C ount
20
20
CUMPARA
15
10
da
nu
da
nu
RECL AMA
Fig. 3 Grafic cluster
Graficul pune n eviden faptul c, decizia de cumprare a fost influenat de

reclama care s-a fcut la acel produs.
Testarea independenei a dou variabile testul 2
Cu ajutorul testului 2 se poate analiza dac dou variabile sunt dependente sau
independente, garantnd rezultatele cu o probabilitate dinainte stabilit. Pentru a verifica
acest lucru pornim de la ipotezele:
H0: variabile independente ipoteza nul, cu alternativa
H1: variabile dependente.
Dou variabile sunt independente dac sunt ndeplinite condiiile:
P ( X x 1 / Y y1 ) P ( X x 1 )
i P (Y y1 / X x1 ) P (Y y1 )
Testul se poate aplica att n cazul variabilelor dihotomice ct i n cazul

variabilelor calitative cu mai multe modaliti. Revenind la distribuia din tabelul de mai
sus , condiiile de independen se rezum la egalitatea rapoartelor:
n ij
n. j
nt ij
ni .
n
sau
n ij
ni .
n. j
n
Din aceste condiii de independen se determin distribuia teoretic (Expected)

astfel:
nt ij
n. j n i .
n
n cazul exemplului nostru, pentru a obine distribuia teoretic (cum ar fi trebuit

s se distribuie cele 150 de persoane dac variabilele reclama i cumpr ar fi
independente), n caseta Cells se selecteaz opiunea Expected.
Frecvene teoretice
RECLAMA
da
nu
Total
CUMPARA
da
nu
65
15
Count
Expected
Count
Count
Expected
Count
Count
Expected
Count
Total
80
45,3
34,7
80,0
20
50
70
39,7
30,3
70,0
85
65
150
85,0
65,0
150,0
Pentru a verifica dac cele dou variabile sunt independente se calculeaz mrimea
2
calc
cu formula:
p
(n ij nt ij ) 2
2
calc

nt ij
i 1 j 1
2
Valoarea calc
se compar cu valoarea teoretic t2 , extras din tabelul funciei
2 , pentru nivelul de semnificaie ales i ( p 1) (q 1) grade de libertate.
2
Dac valoarea calc
t2 , atunci, se respinge ipoteza H0 i se admite alternativa ei
H1, variabilele sunt dependente.
Metodele de analiz ne permit i msurarea intensitii legturii cu ajutorul
coeficienilor:
a) Coeficientul . Presupunnd c X este variabila anterioar i Y variabila posterioar 1,

se urmrete s se analizeze n ce proporie cei ce posed X 1 posed i Y1, iar cei ce
posed X2 posed i Y1, calculndu-se diferenele: p11 p 21 k11 / k1. k 21 / k 2. . Dac
vom considera Y variabila anterioar i X variabila posterioar se calculeaz
diferenele q11 q12 k11 / k .1 k12 / k .2 . Efectundu-se media geometric a celor dou
diferene, se obine coeficientul :
n k11 k1. k .1
k1. k 2. k .1 k .2
O alt formul este cea obinut cu ajutorul mrimii

2:
2
n
1 Rotaru T., Metode statistice aplicate n tiinele sociale, Ed. Polirom, 2000
5
Dac acest coeficient are o valoare pozitiv ne indic o asociere pozitiv (indivizii se
concentreaz pe diagonala principal, cei care rspund DA la prima ntrebare ,
rspund DA i la a doua) iar dac are o valoare negativ ne indic o asociere negativ.
b) Coeficientul Q (al lui Yule). Acest coeficient are un interval fix de variaie [-1,+1], se
anuleaz n cazul n care variabilele sunt statistic independente i se obine cu
formula:
Q
k11 k 22 k12 k 21
k11 k 22 k12 k 21
Pentru exemplul ales, se testeaz existena legturii dintre cele dou variabile cu
testul
iar intensitatea legturii o msurm cu ajutorul coeficienilor menionai mai
sus.
2,
Fig. 4 Alegerea opiunilor statistice
Coeficient 2
Chi-Square Tests
Value
Pearson
Chi-Square
N of Valid
Cases
Asymp.
Sig.
(2-sided)
df
42,191
,000
150
a. Computed only for a 2x2 table
Coeficieni Phi, Cramers V

Symmetric Measures
Nominal by
Nominal
Phi
Cramer's V
Contingency
Coefficient
N of Valid Cases
Value
,530
,530
Approx.
Sig.
,000
,000
,469
,000
150
2
Valoarea calc
42,19 i este mai mare dect t2 3,84 pentru nivelul de
semnificaie de 0,05 i un grad de libertate, ceea ce ne ndreptete s respingem
ipotaza H0 i s acceptm alternativa ei H1, adic exist legtur ntre reclam i
atitudinea consumatorilor de a cumpra produsul respectiv. Coeficienii care msoar
intensitatea legturii ne arat o asociere pozitiv de intensitate medie ntre cele dou
variabile.
Asocierea variabilelor nominale

Considerm variabile nominale, variabilele calitative cu mai mult de dou
modaliti (variante). Msurarea asocierii se realizeaz pornind tot de la tabelul de
contingen, prin calculul coeficienilor de asociere.
a) Coeficientul de contingen (C). Cu ct valoarea acestui coeficient este mai apropiat
de 1 cu att legtura este mai puternic i cu ct valoarea este mai aproape de zero, cu
att legtura este mai slab. Valoarea acestui coeficient se determin cu relaia:
2
calc
C
2
calc
n
unde n este mrimea eantionului. Pentru aprecierea corect a intensitii legturii trebuie
luat n considerare relaia:
C max
p 1
p
, unde p reprezint numrul de modaliti ale
variabilei independente. Pentru un tabel 22 valoarea maxim a lui C este 0,707, pentru
un tabel 33 este 0,816 i aa mai departe2 .
b) Coeficientul V al lui Cramer. Valoarea acestui coeficient se obine cu relaia:
2
calc
V
nt
n caren este mrimea eantionului iar t min p 1 , q 1 , p reprezint numrul liniilor,

q reprezint numrul coloanelor.
c) Coeficientul (al lui Goodman i Kruskal). Calculul acestui coeficient este bazat pe
reducerea erorilor de predicie. Una dintre variabile, considerat anterioar sau
independent se afl n postura de a ameliora predicia celeilalte, devenit posterioar
sau dependent.
Coeficientul se definete ca proporia cu care se reduc erorile prin introducerea
variabilei independente. Acest coeficient este cuprins ntre 0 i 1.Valoarea 0 indic
faptul c variabila independent nu are nici un rol n predicia variabilei dependente
iar valoarea 1 semnific faptul c variabila independent determin perfect
modalitile variabilei dependente.
Plecnd de la distribuia din tabelul de mai sus, se pot calcula coeficienii astfel:
Distribuie dup variabile nominale
CUMP
da
RECLAMA
Total
nu
nu stiu
Total
da
47
10
23
80
nu
18
32
20
70
65
42
43
150
considernd variabila CUMP (cu trei modaliti) pe poziia variabilei dependente

(cumpr
dac
a
vzut
reclama),
vom
calcula
coeficientul
cumpara
(47 32) 65
0,165 , ceea ce nseamn (suma frecvenelor maxime pe linii 150 65
frecvena maxim pe linia totalurilor)/(n frecvena maxim pe linia totalurilor).

considernd variabila RECLAMA pe poziia variabilei dependente (a vzut reclama
dac a cumprat) vom calcula coeficientul reclama
La modul general, pentru dou variabile X i Y :
2 Lefter C., Ru C., Cercetri de marketing, Braov 2000, pag. 156

8
47 32 23 80 0,314
150 80
max n max n
n max n
p
i 1
ij
1 j q
1 j q
.j
1 j q
.j
max n max n
q
j 1
ij
1 i p
1 i p
i.
n max n i .
1 i p
Bifnd n caseta de dialog Lambda, vom obine rezultatele:

Coeficieni Lambda, tau
Directional Measures
Nominal
by Nominal
Lambda
Value
,232
Asymp.
Std. Error a
,072
Approx. T b
2,966
Approx. Sig.
,003
RECLAMA
Dependent
,314
,077
3,533
,000
CUMP
Dependent
,165
,076
2,006
,045
RECLAMA
Dependent
,161
,057
,000
CUMP
Dependent
,084
,032
,000
Symmetric
Goodman
and Kruskal
tau
a. Not assuming the null hypothesis.

b. Using the asymptotic standard error assuming the null hypothesis.
c. Based on chi-square approximation
Valorile obinute sugereaz existenei legturii dintre cele dou variabile, iar
predicia de la CUMP spre RECLAMA este mai bun dect invers.
d) Indice de concordan kappa. Permite compararea aprecierilor a doi observatori
asupra aceluiai grup. Considerm, de exemplu (Bishop 1975), aprecierile a doi
inspectori colari asupra comportamentului pedagogic a 72 cadre didactice (autoritar,
indiferent, ngduitor). Rezultatele evalurilor sunt prezentate n tabelul de mai jos.
Rezultatele evalurilor
Inspector 1
autoritar
indiferent
ngduitor
Total
autoritar
17
5
10
32
44,4
indiferent
4
12
3
19
26,4
Inspector 2
ngduitor
8
13
21
29,2
Total
29
17
26
72
40,3
23,6
36,1
Concordana n aprecierile celor doi inspectori este
17 12 13
100 58,3.
72
Inspectorul 1 a apreciat n proporie de 40,3 dintre cdrele didactice ca fiind autoritare,

n timp ce inspectorul 2 n proporie de 44,4. Dac evalurile sunt independente, se
presupune c 17,9 (40,344,4) dintre cadrele didactice s fie evaluate autoritare de
cei doi inspectori. Asemntor, 6,2 (23,626,4) sunt evaluate ca fiind indiferente iar
10,5 (36,129,2) ngduitoare. n acest caz 34,6 dintre cadrele didactice sunt
clasate n aceeai categorie prin simplul joc al hazardului. Indicele kappa va avea
valoarea:
kappa
0,583 0,346
0,362
1 0,346
n utilizarea indicelui kappa, cele dou variabile trebuie s aib acelai interval de
variaie.
Prelucrarea variabilelor cantitative

Dup modul de exprimare, caracteristicile statistice se separ n caracteristici
calitative (exprimate prin cuvinte) i caracteristici cantitative (exprimate numeric). De
exemplu, profesia i vrsta.
Eantioane independente Testul Z
Considernd dou eantioane de volum n1 i n2, se urmrete a se stabili
dac exist o diferen semnificativ, din punct de vedere statistic, ntre mediile celor
dou populaii.
Exemplul 1. Un mare productor de ambalaje3 pentru bunuri de consum a testat n
mai multe magazine situaia vnzrilor cu un nou tip de ambalaj pentru produsul M.
Rezultatele au fost urmtoarele:
Magazinul
1
2
3
4
5
6
7
8
Vnzri n funcie de ambalaj (mii lei)

Vnzri cu vechiul
Vnzri cu noul
ambalaj
ambalaj
235
672
590
207
187
337
176
223
255
691
575
195
210
358
193
246
Pentru a rezolva aceast problem utiliznd produsul SPSS, este nevoie s se

creeze o variabil de cod (V1), n care valoarea 1 corespunde vnzrilor cu vechiul
3 Lefter C., Ru C., Cercetri de marketing, Braov 2000, pag. 121
10
ambalaj, iar valoarea 2 corespunde vnzrilor cu noul ambalaj. Aceast variabil va fi

necesar gruprii datelor corespunztor celor dou eantioane. Valorile vnzrilor se
indic ntr-o singur variabil (Ambalaj - valorile din primul eantion urmate de valorile
celui de-al doilea). Se selecteaz:
Analyze
Compare Means
Independent - Samples T Test
Fig. 5 Compararea mediilor a dou eantioane independente
Dup alegerea metodei de analiz se recurge la definirea grupurilor conform

casetei de dialog din figura 6.
Fig. 6 Selectarea variabilelor
din lista variabilelor se selecteaz n Test Variable(s): variabila potrivit creia se

compar mediile celor dou eantioane.
11
variabila dup care se realizeaz gruparea n cele dou eantioane se plaseaz n

caseta Grouping Variable: care activeaz Define Groupsn Group 1: se nscrie
codul 1 pentru valorile primului eantion iar n Group 2: codul 2 pentru valorile celui
de-al doilea eantion.
Fig. 7 Definirea grupurilor
Cut point: - se utilizeaz dac dorim s specificm o valoare n funcie de care se vor
constitui grupurile, primul va conine valorile mai mici dect cea specificat iar al
doilea valorile mai mari.
Rezultatele oferite de produsul SPSS se prezint astfel:
Indicatori statistici la nivel de eantioane
Group Statistics
Ambalaj
V1
1 - vechi
2 - nou
Std.
Std. Error
Mean Deviation Mean
328,38
194,33
68,71
340,38
190,62
67,39
N
8
8
12
Independent Samples Test

Levene's Test for Equality
of Variances
F
AMBALAJ
Equal
variances
assumed
Sig.
,003
t-test for Equality of Means
,958
Equal
variances
not assumed
Sig.
(2-tailed)
df
Mean
Difference
Std. Error
Difference
95% Confidence Interval

of the Mean
Lower
Upper
-,125
14
,903
-12,00
96,24
-218,42
194,42
-,125
13,995
,903
-12,00
96,24
-218,43
194,43
Eantioanele fiind de volum 30 se aplic testul Student. Valoarea t calc 0.125 .

Valoarea teoretic pentru nivelul de semnificaie 0.05 i 14 grade de libertate, extras
din tabelul funciei Student t 2.145 .
Regula de decizie este urmtoarea:
- se accept ipoteza H0 dac 2.145 t calc 2.145
- se respinge ipoteza H0 i se accept alternativa ei H1 dac
t calc -2.145
sau
t calc 2.145
n cazul nostru se accept ipoteza H 0, nu exist diferene semnificative ntre

mediile celor dou eantioane.
Exemplul 2. Printr-o anchet selectiv, s-a urmrit aprecierea gradului de
atractivitate a ambalajului unui produs. ntrebarea este dac exist diferene semnificative
ntre media aprecierilor femeilor i media aprecierilor brbailor.
Distribuia persoanelor dup aprecieri
Apreciere ambalaj
Nr. respondeni
(puncte)
Femei
Brbai
1 (foarte atractiv)
5
10
2 (atractiv)
10
30
3 (nici / nici)
15
30
4 (neatractiv)
80
20
5 (foarte neatractiv)
10
10
Femeile au primit codul 1, iar brbaii codul 2.

Indicatori statistici la nivel de eantioane
Group Statistics
FB
APRECIER 1
2
Mean
3,67
2,90
120
100
Std.
Deviation
,90
1,14
Rezultatele testului egalitii mediilor
13
Std. Error
Mean
8,23E-02
,11
Independent Samples Test

Levene's Test for Equality
of Variances
F
APRECIER
Equal
variances
assumed
8,702
Equal
variances
not assumed
t-test for Equality of Means
Sig.
,004
Sig.
(2-tailed)
df
Mean
Difference
Std. Error
Difference

of the Mean
Lower
Upper
5,565
218
,000
,77
,14
,50
1,04
5,449
186,669
,000
,77
,14
,49
1,04
Fiind eantioane de volum suficient de mare, valoarea teoretic ce corespunde

nivelului de semnificaie 0.05 este 1,96. Aplicnd aceeai regul de decizie ca mai
sus, valoarea calculat fiind 5,565 suntem ndreptii s respingem ipoteza H 0 i s
acceptm ipoteza H1, exist diferene ntre aprecierile femeilor i aprecierile brbailor.
Eantioane perechi
Problema eantioanelor perechi poate fi pus, de exemplu, atunci cnd studiem
rezultatele obinute de membrii unui grup nainte de efectuarea unui curs i dup
efectuarea acelui curs, din punct de vedere al testrii egalitii mediilor 1 i 2 .
Exemplu: Un grup de 20 de studeni au fost verificai la disciplina de
Microeconomie dup cunotinele obinute la curs. Rezultatele au fost nregistrate n
fiierul es_perechi n variabila Puncte1. Dup iniierea ntr-un produs informatic
specializat n nvarea disciplinei de Microeconomie, acelai grup a fost testat,
rezultatele nregistrndu-se n variabila Puncte2. Pentru un nivel de semnificaie =0,05
se poate verifica dac efectul cursului a fost pozitiv.
Rezultate obinute
Puncte1
90
91
93
89
85
89
83
88
84
82
83
81
72
70
71
Puncte2
93
91
95
88
88
87
84
92
83
85
82
83
74
70
77
14
di
-3
0
-2
+1
-3
+2
-1
-4
+1
-3
+1
-2
-2
0
-6
81
85
87
74
73
85
87
87
76
72
d
i 1
28
-4
-2
0
-2
+1
d 1,4
Ipotezele sunt:
H0: = 0 nu exist diferene ntre rezultatele dinainte i dup iniierea pe
calculator ( 1 2 )
H1: 0 exist diferene ntre rezultate
Pentru a efectua acest test selectm:
Analyze
Compare Means
Paired - Samples T Test
Fig. 8 Compararea mediilor a dou eantioane perechi
15
din lista de variabile se selecteaz variabila Puncte1 ce va fi plasat n lista Current

Selections n Variable 1:, precum i variabila Puncte2 ce va apare n Variable2: iar
cu sunt transferate n lista Paired Variables:
Options permite alegerea intervalului de ncredere
butonul OK declaneaz modelul de analiz i obinerea rezultatelor.
Indicatori statistici
Paired Samples Statistics
Pair 1
PUNCT E1
Mean
82,55
PUNCT E2
83,95
20
Std.
Deviation
7,09
Std. Error
Mean
1,59
20
7,01
1,57
Rezultatele testului egalitii mediilor

Paired Samples T est
Paired Differences
PUNCT E1 PUNCT E2
Mean
Std.
Deviation
Std. Error
Mean
-1,40
2,11
,47
95% Confidence
Interval of the
Difference
Lower
-2,39
Upper
-,41
df
Sig.
(2-tailed)
-2,96
19
,008
Deoarece volumul eantionului este n = 20, folosim repartiia Sudent cu 19 grade

de libertate i, pentru nivelul de semnificaie = 0,05, obinem valoarea t = -1,761 (test
unilateral).
Regula de decizie va fi urmtoarea:
dac RC 1,72 se accept H0;
dac RC 1,72 se respinge ipoteza H0 se accept alternativa ei H1.
Se observ din tabelul cu rezltate c valoarea este 2,96. Putem afirma c

rezultatele iniierii n produsul informatic au fost pozitive, existnd diferene
semnificative statistic ntre punctajul mediu de dinainte i de dup curs.
Testul Wicoxon
Aceeai decizie putem s o lum i dac folosim testul Wilcoxon.
Analyze
Nonparametric Tests
2 Related Samples
16
Fig. 9 Selectarea testelor neparametrice
Fig. 10 Definirea variabilelor perechi
Diferene negative, pozitive, egale
17
Ranks
N
PUNCTE2 PUNCTE1
Negative
Ranks
Mean Rank
a
Positive Ranks
12
Sum of Ranks
4,10
20,50
11,04
132,50
3c
Ties
Total
20
a. PUNCTE2 < PUNCTE1

b. PUNCTE2 > PUNCTE1
c. PUNCTE1 = PUNCTE2
Test Wilcoxon
PUNCTE2 PUNCTE1
-2,673
Z
Asymp. Sig.
(2-tailed)
,008
Nivelul de semnificaie indicat de test este de 0,008 mai mic dect 0,05, ceea ce ne
ndreptete s respingem ipoteza H0 i s acceptm ipoteza H1.
Analiz dispersional cu un factor (ANOVA)
Colectivitile cu care operm n statistica social-economic dei au un caracter
finit sunt formate de cele mai multe ori dintr-un numr foarte mare de uniti purttoare a
unor variabile cu un grad mare de variaie. Din aceast cauz unitile la care s-a fcut
observarea trebuie mprite n grupe, n funcie de variaia factorilor determinani.
n cazul n care s-a aplicat n prealabil metoda gruprii se pot calcula att medii ct
i indicatori de variaie (dispersii) pe grupe i pe total colectivitate. Media i dispersia pe
ntreaga colectivitate se pot calcula fie fcnd abstracie de faptul c ea este compus din
mai multe grupe, fie lund n calcul indicatorii corespunztori calculai la nivelul
grupelor.
Exemplu: 50 de ageni economici au fost grupai dup numrul mediu de salariai
i mrimea profitului. Pentru nivelul de semnificaie = 0,05 ne propunem s verificm
dac factorul de grupare este semnificativ, altfel spus dac numrul angajailor
influeneaz variaia profitului.
Repartiia agenilor economici din sectorul de activitate A
dup numrul mediu de salariai i profitul obinut
Ageni economici dup
numrul mediu de salariai
Ageni economici dup mrimea profitului (milioane lei)
Total
sub 10
10 - 50
peste 50
Total
12 - 16
5
5
16 - 20
15
10
25
18
20 - 24
5
10
15
peste 24
5
5
25
20
5
50
Pentru a reliza n SPSS acest lucru alegem calea:

Analyze
Compare Means
One - Way ANOVA
n fiierul creat n SPSS au fost definite variabilele profit, nr_ang. Pentru a se realiza
gruparea dup numrul angajailor a fost necesar codificarea agenilor economici dup variabila
nr_ang, prin generarea unei noi variabile codang.. n figura 11 se observ selectarea variabilelor:
Dependent List: a fost selectat variabila profit
Factor: a fost selectat variabila dup care se face gruparea codang.
OK
Rezultatele prelucrrilor se prezint astfel:
ANOVA
Sum of
Squares
PROFIT
Between
Groups
Within Groups
Total
df
Mean Square
291,540
145,770
316,640
47
6,737
608,180
49
Sig.
21,637
,000
Varianele i valoarea Fcalc
Valoarea calculat pentru criteriul F este 21,63 iar nivelul de semnificaie este 0,000 mai
mic dect 0,05 , ceea ce ne ndreptete s respingem ipoteza H 0 i acceptm H1, factorul de
grupare, numrul angajailor, este semnificativ pentru variaia profitului.
O analiz mai detaliat o obinem alegnd calea:
Analyze
Compare Means
Means
19
Report
PROFIT
sub 10
Mean
17,92
25
Std. Deviation
10 - 50
3,00
Mean
20,00
20
Std. Deviation
peste 50
2,27
Mean
26,20
Std. Deviation
Total
,84
Mean
19,58
50
Std. Deviation
3,52
Mediile de grp
ANOVA Table
PROFIT *
CODANG
Between Groups
Sum of
Squares
291,540
(Combined)
Within Groups
Total
df
2
Mean Square
145,770
316,640
47
6,737
608,180
49
Varianele i valoarea Fcalc

Measures of Association
Eta
PROFIT *
CODANG
Eta Squared
,692
,479
REGRESIE I CORELAIE
20
F
21,637
Sig.
,000
Statistica social-economic studiaz fenomenele de mas n interdepen unele cu altele. n

acest scop datele sunt sistematizate sub form de serii de repartiie multidimensionale. Analiza lor
se realizeaz prin metodele de corelaie statistic.
Utilizarea din ce n ce mai frecvent a metodei corelaiei n statistic este justificat de
necesitatea crecnd a reflectrii ntr-o form numeric adecvat a interdependenei obiective
dintre fenomenele social-economice n ceea ce privete natura, direcia i gradul de intensitate a
legturilor care se manifest ntr-o anumit perioad de timp sau n dinamic.
Exemplu: referitor la valoarea ncasrilor (mil. lei) i cheltuielile publicitare (sute mii lei)
efectuate de o societate comercial n decursul a cinci luni s-au nregistrat datele:
Nr.
crt.
1
2
3
4
5
Analiza legturii dintre cheltuielile publicitare i valoarea ncasrilor

Cheltuieli
Valoarea
publicitare ncasrilor
xi y i
(sute mii lei) (mil. lei)
x i2
y i2
xi
yi
5
6
9
12
18
25
30
35
45
65
Total
x
i 1
50
i 1
25
36
81
144
324
200
x
i 1
2
i
610
125
180
315
540
1170
5
x y
i 1
y i 10 3 x
625
900
1225
2025
4225
25
28
37
46
64
i 1
i 1
2330 y i2 9000 y i 200
Se cere:
a) s se caracterizeze i s se msoare legtura dintre variabile;
b) s se testeze semnificaia coeficienilor pentru un nivel de semnificaie q 0,05 .
Sistemul de ecuaii normale devine:
5a 50b 200
50a 610b 2330
Din rezolvarea sistemului rezult coeficienii: a 10 i b 3 .

Coeficientul de regresie b fiind pozitiv ne arat existena unei legturi directe ntre cele
dou variabile i anume, pe msur ce cheltuielile publicitare cresc cu o sut mii lei, valoarea
ncasrilor crete cu trei milioane lei.
Coeficientul de corelaie:
r
5 2330 50 200
[5 610 (50) 2 ] [5 9000 (200) 2 ]
0,995
arat c ntre cele dou caracteristici exist o legtur puternic.

Testarea semnificaiei coeficienilor pentru nivelul de semnificaie de 0,05 i 5-2 grade de
libertate, pentru care valoarea tabelar a variabilei t este 2,353, conduce la rezultatele:
S b 0,1741 t c
b0
3
17,23
Sb
0,1741
Se observ c valoarea variabilei t calculat este mai mare dect valoarea teoretic 17,23 >
2,353 ceea ce ne ndreptete s tragem concluzia c acest coeficient de regresie este semnificativ
21
diferit de zero. Intervalul de ncredere pentru coeficientul este:

3 2,353 0,1741 3 2,353 0,1741
2,59 3,4
Testarea termenului liber:

S a 1,9228 t c
a0
10
5,20
Sa
1,9228
Se observ c valoarea variabilei t calculat este mai mare dect valoarea teoretic 5,20 >
2,353 ceea ce ne ndreptete s tragem concluzia c termenul liber este semnificativ diferit de
zero. Intervalul de ncredere pentru coeficientul este:
10 2,353 1,9228 10 2,353 1,9228
5,47 14,52
Testarea coeficientului de corelaie:

S r 0,005 t c
0,995
1 0,995 2
5 2 17,23
Desprindem concluzia c i coeficientul de corelaie este semnificativ diferit de zero
t c t q , n care t q 2,13 i corespunde nivelului de semnificaie 0,05 i 5-1 grade de libertate.
Intervalul de ncredere pentru coeficientul va fi:
0,995 2,13 0,005 0,995 2,13 0,005

0,984 1
Pentru a rezolva n SPSS aceast problem se selecteaz:

Analyze
Regression
Linear

Dependent din lista variabilelor se alege variabila dependent;
Independent(s) din lista variabilelor se selecteaz variabilele independente (factorii de
influen);
Method: - se alege metoda de analiz:
Enter se analizeaz variabilele global, ntr-un singur pas;
Forward regresie pas cu pas ascendent;
Backward regresie pas cu pas descendent;
Stepwise la fiecare pas sunt indicate variabilele incluse i excluse din modelul iniial;
Remove sunt indicate variabilele eliminate din model;
Statistics - conduce la ecranul:
22
Fig. 2 Selectarea parametrilor pentru coeficienii de regresie i analiza reziduurilor

Estimates calculul coeficienilor de regresie;
Confidence intervals stabilirea intervalului de ncredere pentru coeficienii de
regresie pentru probabilitatea de 95%;
Covariance matrix matricea de varian-covarian pentru coeficienii de regresie;
Model fit determin raportul de corelaie R, coeficientul de determinaie R2, R2
ajustat, eroarea standard, analiz ANOVA;
Descriptives afieaz pentru fiecare variabil media, abaterea standard, matricea
corelaiilor;
Part and partial correlations corelaii pariale;
Collinearity diagnostics analiza colinearitii.
Plots- reprezentri grafice
Save - conduce la ecranul:
Fig. 3 Selectarea parametrilor pentru obinerea valorilor ajustate i a valorilor

reziduale
Predicted Values
Unstandardized se obin valorile variabilei dependente y i , calculate cu ajutorul
coeficienilor de regresie (valorile ajustate);
Standardized pentru valorile ajustate se calculeaz media i abaterea standard.
Standardizarea const n mprirea abaterilor fa de medie la eroarea standard.
Valorile standardizate au media 0 i abaterea standard 1;
Adjusted valorile variabilei dependente ce corespund fiecrei observaii, dar
calculate cu coeficienii de regresie ce au rezultat din modelul de regresie din care
23
observaia respectiv a fost ndeprtat y (i ) ;

Residuals
Unstadardized valorile ei y i y i ;
Standardized valorile e i standardizate;
Studentized valorile studentizate;
Distances
Mahalanobis msoar distana fiecrei valori a variabilei independente fa de
media variabilei. O distan mare indic o valoare extrem;
Cooks
Leverage values contribuia unei observaii dat de valoarea hi (levierul);
Influence statistics
DfFit calculeaz valorile DFITS;
Options conduce la ecranul:
Fig.4 Stabilirea criteriului de selectare a variabilelor
Stepping Method Criteria

Use probability of F o variabil este introdus n model dac nivelul de semnificaie
pentru valoarea calculat F este mai mic dect valoarea specificat n Entry i este
scoas din model dac nivelul de semnificaie pentru valoarea calculat F este mai
mare dect valoarea specificat n Removal;
Use F value - o variabil este introdus n model dac valoarea calculat F este mai
mare dect valoarea specificat n Entry i este scoas din model dac valoarea
calculat F este mai mic dect valoarea specificat n Removal;
Pentru exemplul de mai sus s-au obinut rezultatele:
24
Descriptive Statistics
Std.
Deviation
15,8114
5,2440
Mean
40,0000
10,0000
INCAS
PUB
N
5
5
Correlations
Pearson
Correlation
INCAS
1,000
,995
,
,000
5
5
INCAS
PUB
INCAS
PUB
INCAS
PUB
Sig.
(1-tailed)
N
PUB
,995
1,000
,000
,
5
5
Variables Entered/Removedb
Variables
Entered
PUBa
Model
1
Variables
Removed
,
Method
Enter
a. All requested variables entered.

b. Dependent Variable: INCAS
Model Summaryb
Model
1
R
,995a
R Square
,990
Adjusted
R Square
,987
Std. Error
of the
Estimate
1,8257
a. Predictors: (Constant), PUB

ANOVAb
Model
1
Regression
Residual
Total
Sum of
Squares
990,000
10,000
1000,000
df
1
3
4
a. Predictors: (Constant), PUB

25
Mean
Square
990,000
3,333
F
297,000
Sig.
,000a
Coefficientsa
Unstandardized
Coefficients
Model
1
(Constant)
PUB
B
10,000
3,000
Std. Error
1,923
,174
Standardi
zed
Coefficien
ts
Beta
,995
t
5,201
17,234
Sig.
,014
,000
95% Confidence
Interval for B
Lower
Upper
Bound
Bound
3,881
16,119
2,446
3,554
a. Dependent Variable: INCAS
Corelaia simpl curbilinie

n practica statistic se ntlnesc i legturi care nu se realizeaz de form liniar. n acest
caz se pot ntlni forme variate de legturi curbilinii specifice relaiilor de dependen dintre
caracteristica factorial aleas i cea rezultativ.
Aceste legturi neliniare se ntlnesc mai frecvent sub forma unei parabole de gradul 2, a
hiperbolei i a funciei exponeniale. n cazul legturii neliniare este necesar ca, pe baza graficului,
s se aleag acea funcie care, tratat vizual, s prezinte abateri minime de la linia valorilor
empirice nscrise n cmpul de corelaie. Cnd nu se poate desprinde cu claritate forma de
realizare a legturii dintre x i y este necesar s se calculeze mai multe ecuaii de estimare, cu care
s se ajusteze datele i s se aleag apoi aceea care d o dispersie minim fat de valorile
teoretice ale caracteristicii rezultative n funcie de factorul ales.
Exemplu: n zece uniti comerciale s-au cules date cu privire la valoarea vnzrilor de
tricotaje i nivelul relativ al cheltuielilor de circulaie:
Valoarea vnzrilor
Nivelul relativ al
(mil. lei)
cheltuielilor de circulaie (%)
x
y
5,1
8
5,5
7,2
6,0
6,8
6,5
6,4
6,7
6
7,0
5,6
7,0
5
8,5
4,6
11,0
4,2
13,0
4,2
Pentru a rezolva n SPSS problemele de regresie neliniar se apeleaz:
Analyze
Regression
Curve Estimation
26
Fig. 5 Selectarea opiunilor pentru regresia neliniar

Pentru a vizualiza legtura dintre cele dou variabile s-a utilizat:
Graphs
Scatter
9
CHELT
4
4
10
12
14
VINZARI
Fig. 6 Legtura dintre cheltuieli i vnzri

Graficul sugereaz o legtur invers ntre cele dou variabile. Pentru a putea face
comparaie ntre modelul liniar i modelul hiperbolic au fost selectate ambele metode de analiz,
obinndu-se rezultatele:
Dependent variable.. CHELT
Method.. LINEAR
27
Multiple R
R Square
,85395
,72923
Analysis of Variance:
Regression
Residuals
F=
DF
Sum of Squares
Mean Square
1
8
11,259261
4,180739
11,259261
,522592
21,54502
Signif F = ,0017
-------------------- Variables in the Equation -------------------Variable
VINZARI
(Constant)
-,442581
9,176893
SE B
Beta
,095350 -,853948
,762589
Dependent variable.. CHELT

Multiple R
R Square
T
-4,642
12,034
Sig T
,0017
,0000
Method.. INVERSE
,95148
,90531
Analysis of Variance:
DF Sum of Squares
Regression
Residuals
F=
1
8
13,978011
1,461989
76,48762
Mean Square
13,978011
,182749
Signif F = ,0000
-------------------- Variables in the Equation -------------------Variable

VINZARI
(Constant)
B
33,109280
1,102268
SE B
3,785769
,553896
Beta
,951479
Sig T
8,746 ,0000
1,990 ,0818
The following new variables are being created:

Name
Label
FIT_3
FIT_4
Fit for CHELT with VINZARI from CURVEFIT, MOD_2 LINEAR

Fit for CHELT with VINZARI from CURVEFIT, MOD_2 INVERSE
28
CHELT
9
5
Observed
4
Linear
3
Inverse
4
10
12
14
VINZARI
Fig. 7 Valorile observate comparate cu liniile de regresie

Modelul liniar a condus la funcia y 9,176 0,442 x (coficientul b fiind negativ arat
legtur invers ntre cele dou variabile), raportul de corelaie R de 0,8539 indic o legtur
puternic iar valoarea F = 21,54 pentru care nivelul de semnificaie este 0,0017 (mai mic dect
2
0,05 ales pentru testarea modelului) arat c modelul este semnificativ. ei 4,18 .
Modelul hiperbolic a condus la funcia y 1,1 33,1
1
, raportul de corelaie R este
x
0,9514, valoarea F = 76,48 pentru care nivelul de semnificaie este 0,0000. ei 1,46 . Din
aceste rezultate deducem c modelul hiperbolic estimeaz mai bine legtura dintre cele dou
variabile.
2
Regresia pas cu pas

Dac numrul variabilelor explicative este important, apare necesitatea aplicrii metodelor
de selectare automat a variabilelor. Metodele cele mai utilizate sunt regresia pas cu pas
ascendent (forward stepwise regression), regresia pas cu pas descendent (backward stepwise
regression), sau o combinaie a celor dou.
Regresia pas cu pas ascendent
Regresia pas cu pas ascendent este o metod iterativ constnd n selecionarea la fiecare
etap a variabilei explicative ce maximizeaz coeficientul de determinaie R 2 al lui Y cu toate
variabilele selecionate n etapele precedente i noua variabil gsit, astfel nct aportul marginal
al celei din urm s fie semnificativ.
n prima etap se construiete tabelul R2(Y,Xj):
Variabile
R2(Y,Xj)
29
Fj
Nivel de
semnificaie
X1
.
.
Xp
R2(Y,X1)
.
.
2
R (Y,Xp)
F1
.
.
Fp
1
.
.
p
Se selecioneaz variabila explicativ pentru care criteriul F este cel mai mare i nivelul de
semnificaie este cel mai mic (mai mic dect nivelul de semnificie ales).
n etapa a doua se construiete tabelul R2(Y, Xst-1 ,Xj), n care Xst-1 este variabila explicativ
selecionat la pasul anterior. Se selecioneaz o nou variabil, aplicnd acelai principiu.
Procedura se oprete atunci cnd variabilele rmase au toate nivelul de semnificaie mai
mare dect nivelul .
Criteriul utilizat pentru selecionarea variabilelor const n alegerea la fiecare etap a
variabilei care va avea cel mai mare F parial. Presupunem c la momentul t variabilele X1 ... Xt au
fost selecionate:
F j=
S( X 1 ,..., X t , X j ) - S( X 1 ,..., X t )
( ( y i - y )2 - S( X 1 ,..., X t , X j )) / (n - t - 2)
n care statistica: S(X1,...,Xk) reprezint suma ptratelor
2
(
Y
)
Yx
i
explicat de
i=1
variabilele X1,...,Xk .
Putem nelege astfel problema multicoliniaritii n regresia multipl. Exist variabile puternic
corelate cu celelalte variabile explicative, ceea ce face ca aportul lor la explicarea variabilei Y
s fie foarte mic. Prin aplicarea acestor modele de selecie variabilele nesemnificative sunt
eliminate.
Valorile variabilelor nregistrate la 32 uniti turistice
Nr. turiti
(mii pers.)
X1
398
369
268
484
394
332
336
383
285
277
456
355
364
320
311
362
Zile - turiti
X2
1080
1180
1290
1110
1460
1400
1360
1040
1050
1350
1280
1310
1200
1470
1430
1450
Pre mediu/zi
(zeci mii lei)
X3
56
59
56
57
59
60
59
60
63
62
64
64
63
65
67
66
Val. investiiilor
(zeci mil. lei)
X4
12
9
28
12
13
11
24
20
8
10
21
23
13
14
22
23
30
Clelt. publicit.
(sute mii lei)
X5
76
88
51
39
51
20
40
31
12
68
52
76
96
47
27
72
Val. ncas.
(mil. lei)
Y
5550
5439
4290
5502
4871
4708
4627
4110
4122
4842
5740
5094
5383
4888
4033
4941
408
433
359
476
415
420
536
432
436
415
462
429
517
328
418
515
1310
1240
1060
1380
1480
1360
1110
1520
1230
1190
1120
1250
1420
1230
1350
1200
66
67
68
71
69
69
73
73
73
74
73
74
74
52
68
78
13
8
27
18
7
10
27
15
32
19
14
11
26
19
34
23
62
24
73
63
28
91
74
16
42
41
92
83
74
87
74
21
5312
5139
5397
5149
5450
4989
5926
4703
5365
4630
5711
5095
6142
4787
5035
5288
Modelul estimat prin metoda celor mai mici ptrate este:

Y 2879,9 5,52 X 1 0,166 X 2 8,18 X 3 4,99 X 4 8,52 X 5
Funcionarea procedurii se realizeaz astfel:

Pas 1. Se calculeaz R 2 (Y , X j ), j 1, n precum i valorile F j pariale mpreun cu nivelul
de semnificaie.
Variabile
R2 (Y,Xj )
Fj
Nivel de semnificaie
X1
0.500
30.024
0.000
X2
0.017
0.515
0.478
X3
0.102
3.400
0.075
X4
0.003
0.083
0.776
X5
0.227
8.801
0.006
Variabila selecionat este X1.
2
Pas 2. Se calculeaz R (Y , X 1 , X j ) :
Variabile
R2 (Y,X1 ,Xj )
X2
0.502
X3
0.521
X4
0.503
X5
0.676
Fj
14.645
15.787
14.677
30.203
0,717
0,268
0,687
0,000
Variabila selecionat este X5.

Obs.Valoarea Fj corespunde modelului n ansamblu iar nivelul de semnificaie corespunde
variabilei analizate (de exemplu, n modelul (Y , X 1 , X 4 ) 0,687 este nivelul de semnificaie
pentru variabila X4. Deoarece valoarea nivelului de semnificaie este mai mare de 0,05,
variabila nu este reprezentativ pentru model).
Pas 3. Se construiete tabelul:
Variabile R2 (Y,X1 , X5 ,Xj )
Fj
X2
0.676
19.452
0.917
X3
0.683
20.111
0.426
X4
0.683
20.093
0.432
31
Se observ dup valorile nivelului de semnificaie c nici o variabil nu va mai fi inclus n

model. Din cei cinci factori de influen considerai iniial au fost reinui doar doi, numrul
turitilor i cheltuielile publicitare.
Fig. 8 Alegerea metodei de selectare a variabilelor

Rezultatele oferite de produsul SPSS se pot urmri n tabelele de mai jos:
Model Summaryc
Model
1
2
R
,707a
,822b
R Square
,500
,676
Adjusted
R Square
,484
,653
Std. Error
of the
Estimate
370,47
303,56
a. Predictors: (Constant), Nr.turisti (mii pers.)

b. Predictors: (Constant), Nr.turisti (mii pers.), chelt. publ.(sute
mii lei)
c. Dependent Variable: valoarea incas. (mil lei)
ANOVA c
Model
1
Regression
Residual
Total
Regression
Residual
Total
Sum of
Squares
4120838,0
4117531,9
8238369,9
5566130,7
2672239,2
8238369,9
df
1
30
31
2
29
31
Mean
Square
4120838,0
137251,064
2783065,3
92146,180
a. Predictors: (Constant), Nr.turisti (mii pers.)

b. Predictors: (Constant), Nr.turisti (mii pers.), chelt. publ.(sute mii lei)
32
F
30,024
Sig.
,000a
30,203
,000b
Coefficientsa
Standardiz
ed
Coefficients
Unstandardized
Coefficients
Model
1
(Constant)
Nr.turisti
(mii pers.)
(Constant)
Nr.turisti
(mii pers.)
chelt.
publ.(sute
mii lei)
B
3005,872
Std. Error
382,457
5,205
,950
2628,463
327,543
4,948
,781
8,568
2,163
Beta

for B
Lower
Upper
Bound
Bound
2224,790
3786,953
7,859
Sig.
,000
5,479
,000
3,265
7,145
8,025
,000
1958,562
3298,365
,672
6,334
,000
3,350
6,545
,420
3,960
,000
4,143
12,993
,707
a. Dependent Variable: valoarea incas. (mil lei)
Excluded Variablesc
Model
1
zile-turisti
pret mediu /
zi (zeci mii
lei)
val. invest.
(zeci mil lei)
chelt.
publ.(sute
mii lei)
zile-turisti
pret mediu /
zi (zeci mii
lei)
val. invest.
(zeci mil lei)
Collinearity
Statistics
Tolerance
,986
-,365
Sig.
,717
Partial
Correlation
-,068
-1,129
,268
-,205
,624
-,407
,687
-,075
,978
,420
3,960
,000
,592
,993
,012b
,105
,917
,020
,967
-,807
,426
-,151
,611
-,797
,432
-,149
,972
Beta In
-,048a
a
-,184
-,054
-,110
-,086
a. Predictors in the Model: (Constant), Nr.turisti (mii pers.)

b. Predictors in the Model: (Constant), Nr.turisti (mii pers.), chelt. publ.(sute mii lei)
33
ANALIZE MULTIDIMENSIONALE
ANALIZA COMPONENTELOR PRINCIPALE (ACP)

Studiul unui eantion sau al unei populaii poate fi considerat complet, de regul,
doar dac au fost msurate sau evaluate foarte multe variabile, pentru fiecare individ
(sperndu-se ca msurtorile fcute s acopere domeniul de investigaie). La prima
vedere, fiecare dintre variabilele msurate ar putea prea a fi de aceeai importan;
ns innd seama de faptul c ntre unele ar putea exista legturi de dependen (i
deci unele ar putea fi redundante), am putea s descoperim c un numr mic de
variabile, independente ntre ele, explic suficient (cea mai mare parte din ) abaterile
constatate asupra indivizilor.
Domenii de aplicare
a) extragerea i interpretarea factorilor, permind structurarea variabilelor
iniiale, oferind un rezumat al informaiei aduse de ansamblul variabilelor;
b) selecionarea dintr-un ansamblu important de variabile a celor care
intervin mai mult n descrierea fenomenului studiat. Este posibil de conservat pentru
analize ulterioare numai a acelora puternic corelate cu factorii considerai cei mai
importani;
c) ACP poate fi considerat ca o faz intermediar pentru aplicarea altor
metode asupra fie a indivizilor, fie a variabilelor.
34
Exemplu: Trei mrci ale aceluiai tip de produs sunt notate de la 0 la 10 de 6

consumatori:
Aprecierile consumatorilor
Mrci
I
II
Consumatori
1
4
5
2
6
7
3
8
0
4
0
6
5
10
7
6
8
5
III
6
8
1
3
4
2
P1. Reducerea datelor

Indicatori statistici
Medii
Abateri medii
ptratice
I
6
II
5
III
4
3,27
2,38
2,38
Deoarece datele sunt omogene este suficient centrarea lor, astfel nct se
obine tabelul T0.
T0
1
2
3
4
5
6
Centrarea datelor
I
-2
0
2
-6
4
2
II
0
2
-5
1
2
0
III
2
4
-3
-1
0
-2
P2. Calculul coordonatelor punctelor pe axe

Elaborarea matricei de varian covarian:
V (T0 ) ' (T0 )
n care:
T0
este matricea datelor centrate, iar

2
V 0
2
0
2
4
2
5
3
6
1
1
4
2
0
35
0
2
T0'
este transpusa matricei
2
2 0
2
4
0
2 5 3
6 1 1
4 2 0
2 0 2
T0
64
V 8
8
34
22
22
34
Urma matricei V este egal cu suma elementelor de pe diagonal: 64+34+34 =

132.
Rangul matricei T0 este egal cu 3 (rangul unei matrice cu m linii i n coloane r
min(m,n).
Diagonalizarea matricei de varian covarian:
- calculul valorilor proprii i :
64

Det 8
8
8
34
22
8
1
22 0
0
34
0
1
0
0
1
Numrul soluiilor este egal cu rangul matricei de date. Se obin n acest caz
trei soluii:
1 72
2 48
3 12
i 1
72 0 0
D 0 48 0
0 0 12
132
Fiecrei valori proprii i corespunde un vector propriu care definete direcia

unei axe factoriale. Valoarea proprie msoar ineria norului ce va fi proiectat pe
acea ax factorial.
Astfel: 1 72
2 48
72
55%
132
48
36%
132
din ineria total proiectat pe axa 1.

din ineria total proiectat pe axa 2.
Obs. n ACP normat suma valorilor proprii este egal cu numrul de

variabile.
- determinarea vectorilor proprii:
Se utilizeaz urmtoarele relaii:
Valorii proprii 1 72 vectorul propriu u1 astfel nct V u1 72 u1
Se obin vectorii proprii:
36
u1 1
1
1

u 2 1
1

u3 1
1
- determinarea vectorilor proprii normai:

Amintim c norma sau lungimea unui vector
a

u b este
c

a2 b2 c2
i c normarea unui vector const n divizarea acestuia prin norma sa:

2/ 6
u1 1 / 6
1/ 6
1/ 3
u2 1 / 3
1/ 3
u3 1 / 2
1/ 2
Calculul coordonatelor punctelor pe axele factoriale:

- calculul coordonatelor punctelor indivizi:
indivizi
2
2
2 / 6 1/ 3
2 5 3
1/ 6 1/ 3
6 1 1
4 2 0 1/ 6 1/ 3
2 0 2
u1
u2
2.45
2.45
1/ 2
1 / 2
u3
4.90
4.90
2.45
2.45
1.41
3.46 1.41
3.46 1.41
3.46 1.41
3.46 1.41
0
1.41
2
3
4
5
6
T0
axa1 axa2 axa3

coordonate puncte - indivizi
- calculul coordonatelor punctelor variabile:

Se nmulete fiecare vector propriu normat cu abaterea medie ptratic a
norului proiectat pe axa corespunztoare.
variabile
2 / 6 72
1 / 3 48
1 / 6 72
1 / 3 48
1 / 6 72
1 / 3 48
6.93
1 / 2 12 3.46
3.46
1 / 2 12
2.45
2.45
II
III
axa1 axa2 axa3

coordonate puncte variabile
37
Graficul punctelor indivizi i variabile

4
3
2
1
0
-1
VAR00002
-2
-3
-4
-6
-4
-2
VAR00001
P3. Interpretarea rezultatelor

Marca I este opus mrcilor II i III.
Indivizii 5 i 6 sunt destul de apropiai prin preferinele lor pentru marca I, n
timp ce indivizii 1 i 2 prefer mrcile II i III.
Individul 1 i mai ales individul 4 consider defavorabil marca I.
Individul 6 i mai ales individul 3 consider defavorabile mrcile II i III.
Individul 2 pare a fi indiferent fa de marca I, n timp ce individul 5 nu pare
deloc interesat de marca II i III.
Exemplul 1: innd cont de faptul c potenialii cumprtori apreciaz
automobilele dup caracteristicile prezentate n tabelul de mai jos, ne propunem
efectuarea unei analize n componente principale utiliznd produsul SPSS4.
Datele au fost introduse prin meniul Data Difine Variable.
Pentru apelarea analizei n componente principale se alege calea:
Analyze
Data Reduction
4
Spircu L., Calciu M., Spircu T., Analiza datelor de marketing, Ed. All, Bucureti 1994, pag. 89
38
Factor
Caracteristici ale automobilelor
Cod
A
C
D
F1
F2
F3
F4
F5
N
O
P1
P2
P3
P4
R1
R2
R3
R4
R5
S1
S2
S3
S4
T1
T2
V
Model
Pre
Cap.cil
Austin Metro Special

Citroen AX
Daihatsu
Fiat Uno 45
Fiat Uno Turbo
Fiat Uno 70
Ford Fiesta Junior
Ford Fiesta XR
Nissan
12000
13275
14625
13475
25005
17845
13050
21743
998
954
993
999
1301
1302
1117
1597
140
145
145
145
200
165
137
180
12400
988
Opel Corsa
Peugeot 205 XE
Peugeot 205 GL
Peugeot 205 GT
Peugeot 205 GTI
Renault 4 TL
Renault 4 GTL
Renault 5 SL
Renault 5 GTS
Renault GT Turbo
Seat GLX
Seat GL
Suzuki GA
Suzuki GL
Toyota L
Toyota XL
Volkswagen
13050
13260
15780
18965
25175
12981
13806
14156
17250
25319
19283
10970
12115
14655
14000
16850
18045
993
954
1124
1360
1580
956
1108
1108
1397
1397
1461
903
993
1324
999
1295
1272
39
Viteza Cons
Cap.hab
Lung.
6,2
5,6
6,7
6,2
8,9
7,7
7,0
9,3
955
1170
1151
968
968
968
900
973
340
350
361
364
364
364
364
364
Gr./P
.
23,2
19,4
20,8
21,5
11,0
16,0
22,7
12,0
140
6,4
375
364
17,0
143
134
142
170
190
115
120
143
167
200
175
131
145
163
150
170
170
7,2
6,8
5,8
9,2
8,7
6,3
6,3
5,8
7,9
8,7
8,8
7,3
6,4
6,5
6,1
6,8
8,0
845
1200
1200
1200
1200
950
950
915
915
915
1200
1088
400
400
202
202
1040
362
370
370
370
370
367
367
359
359
359
364
347
358
358
370
370
365
22,4
23,8
21,4
13,9
11,2
33,1
28,4
20,6
13,8
10,2
14,7
23,4
18,4
14,0
19,5
15,0
14,0
Din lista iniial de variabile se plaseaz cu sgeat dreapta variabilele ce vor

intra n analiz, cu condiia s fie numai variabile numerice.
Descriptives permite obinerea unei analize univariate coninnd indicatorii:
medie, abaterea medie ptratic, precum i matricea de corelaie dintre variabile;
Extraction se selecteaz metoda, se alege numrul de factori, se marcheaz
apariia graficului valorilor proprii Scree plot;
Fig. 2 Funciile modulului Extraction
Rotation permite aplicarea metodei fr rotirea sau cu rotirea axelor, precum

i reprezentarea graficului variabilelor prin opiunea Loading plot(s);
40
Fig. 3 Funciile modulului Rotation
Scores creeaz variabile noi ce conin coordonatele punctelor indivizi;

Pentru exemplul de mai sus s-au obinut rezultatele:
Variabile
CAP.CIL
CAP_HAB
CONSUM
GR_P
LUNGIME
PRET
VITEZA
Statistic descriptiv
Mean
Std. Deviation
1172,04
209,44
894,23
311,19
7,177
1,156
18,5154
5,6098
362,31
7,43
16118,38
4229,97
154,81
22,61
Analysis N
26
26
26
26
26
26
26
Correlation Matrixa
Correlation
CAP.CIL
CAP_HAB
CONSUM
GR_P
LUNGIME
PRET
VITEZA
CAP.CIL
1,000
,135
,792
-,775
,305
,849
,829
CAP_HAB
,135
1,000
,320
,088
-,072
,247
,038
CONSUM
,792
,320
1,000
-,680
,218
,809
,778
a. Determinant = 3,179E-04
41
GR_P
-,775
,088
-,680
1,000
-,104
-,765
-,937
LUNGIME
,305
-,072
,218
-,104
1,000
,327
,163
PRET
,849
,247
,809
-,765
,327
1,000
,914
VITEZA
,829
,038
,778
-,937
,163
,914
1,000
Total Variance Explained
Component
1
2
3
4
5
6
7
Initial Eigenvalues
% of
Cumulative
Total
Variance
%
4,354
62,197
62,197
1,133
16,192
78,388
,965
13,787
92,175
,229
3,277
95,452
,176
2,516
97,968
,129
1,850
99,818
1,276E-02
,182
100,000
Extraction Sums of Squared Loadings

% of
Cumulative
Total
Variance
%
4,354
62,197
62,197
1,133
16,192
78,388
Extraction Method: Principal Component Analysis.
Valorile proprii sunt:
1 4,354 2 1,133 3 0,965 4 0,229
5 0,176 6 0,129 7 0,01276
Primii doi factori exprim 78,4 din variana total, ceea ce nseamn c i
putem utiliza pentru a reprezenta norul de puncte n planul principal.
Scree Plot
5
Eigenvalue
0
1
Component Number
Fig. 4 Graficul valorilor proprii
Informaia coninut n ultimii factori este neglijabil comparativ cu cea

coninut n primii, ceea ce permite o reducere a numrului factorilor ce descriu un
fenomen.
42
Compone nt Ma trixa
Component
1
CAP.CIL
CAP_HAB
CONSUM
GR_P
LUNGIME
PRET
VITEZA
,924
,173
,884
-,882
,305
,951
,956
2
-2,48E-02
,949
,224
,230
-,335
7,321E-02
-,108
Extraction Method: Principal

Component Analysis.
a. 2 components extracted.
Coeficienii de corelaie prezentai n tabelul de mai sus servesc drept

coordonate ale variabilelor n planul celor doi factori.
Component Plot
cap_hab
1,0
,5
gr_p
consum
pret
cap.cil
viteza
Component 2
0,0
lungime
-,5
-1,0
-1,0
-,5
0,0
,5
1,0
Component 1
Fig. 5 Reprezentarea variabilelor n planul celor doi factori
Privind graficul, devine evident faptul c factorul 1 este apropiat de

variabilele vitez, pre, capacitate cilindric i consum, adic performane tehnice,
pe cnd factorul 2 este apropiat de confortul intern.
Pentru a reprezenta punctele indivizi pe harta indivizilor se folosesc
coordonatele acestora aflate n variabilele fac1_1 i fac2_1 .
43
Cod
A
C
D
F1
F2
F3
F4
F5
N
O
P1
P2
P3
fac1_1
-1,076
-,853
-,500
-,661
1,628
,528
-,553
1,600
-,654
-,600
-,716
-,425
1,118
Coordonatele punctelor indivizi

fac2_1
Cod
1,072
P4
1,015
R1
,7814
R2
,0916
R3
,0851
R4
,0992
R5
,1034
S1
,2063
S2
-1,63
S3
,0460
S4
,7103
T1
,4399
T2
,6544
V
fac1_1
1,866
-1,397
-,982
-,626
,674
1,681
1,130
-1,044
-,719
,099
-,572
,355
,700
fac2_1
,4591
,4842
,2896
,0545
,0825
,0731
,8272
1,378
-1,30
-1,51
-2,31
-2,43
,2169
Pentru realizarea graficului se apeleaz :

Graphs
Scatter .
Fig. 6 Alegerea parametrilor pentru reprezentarea grafic
n graficul de mai jos au fost reprezentai indivizii (mrcile) n planul

principal, conform coordonatelor punctelor indivizi.
44
2
S2
A
REGR factor score 2 for analysis
1
R1
R2
S1
P3
P1
P4
P2
V
F3 R4
F1
R3
OF4
F5
F2
R5
-1
S3
S4
N
-2
T1
T2
-3
-1,5
-1,0
-,5
0,0
REGR factor score 1 for analysis
,5
1,0
1,5
2,0
Fig. 7 Punctele indivizi
Un cumprtor i poate face acum o idee mai exact asupra clasamentului

acestor mrci, poate alege mai clar, n funcie de ceea ce l intereseaz:
pre/performane tehnice, sau confortul intern al autoturismului.
Exemplul 2: Dintr-o cercetare pe baz de sondaj, asupra unui eantion
format din 110 turiti au fost selecionate cteva variabile din chestionarele
nregistrate (modul de cazare, dac a sosit cu un grup sau individual, motivaia
turistic, profesia, sexul, ce tip de sport practic, sursele de informare, ara, vrsta,
mijlocul de transport utilizat), n vederea efecturii unei analize n componente
principale.
S-au obinut rezultatele:
Matricea coeficienilor de corelaie:
CAZARE
GRUP MOTIV
PROFESIE
SURSE_IN
CAZARE 1.00000
GRUP
.53555
1.00000
MOTIV
-.22277
.09222 1.00000
PROFESIE .24877
.18259 -.13558
1.00000
SEX
.54844
.42999 -.04401
.33284
SPORT
.35921
-.03650 -.16822
.25919
SURSE_IN -.20775
-.36539 -.04173
.58147
ARA
-.28417
-.34993 -.12478
.60704
TRANSP
.34276
.10355 -.20298
.66436
45
SEX
SPORT
1.00000
.19040 1.00000
-.01131 .34082
.06825
.17510
.39625
.46192
1.00000
.65745
.60163
VRSTA
.77286
.58829 -.19978
ARA TRANSP VRSTA
ARA
1.00000
TRANSP .59873 1.00000
VRSTA -.20254 .39162 1.00000
.33210
.53111
.21977
-.09029
Determinarea valorilor proprii:

Variabile
Factori
CAZARE
GRUP
MOTIV
PROFESIE
SEX
SPORT
SURSE_IN
ARA
TRANSP
VRSTA
1
2
3
4
5
6
7
8
9
10
Valori proprii
3.48485
34.8
2.82289
28.2
1.09891
11.0
.83836
8.4
.55509
5.6
.37733
3.8
.28967
2.9
.26634
2.7
.18518
1.9
.08138
.8
%
cumulate
34.8
63.1
74.1
82.5
88.0
91.8
94.7
97.3
99.2
100.0
Factor Scree Plot

4
Eigenvalue
0
1
10
Factor Number
Primii doi factori principali exprim 63,1% din variana (mprtierea)

total, ceea ce nseamn c i putem utiliza pentru a reprezenta norul de puncte n
planul principal, fr a pierde prea mult informaie.
De regul, informaia coninut n ultimii factori ai secvenei este neglijabil,
comparativ cu cea coninut n primii. De aceea, analiza componentelor principale
ofer o baz pentru reducerea numrului factorilor ce descriu un fenomen.
46
Factorii principali Factor 1 i Factor 2 sunt abstraci. Pentru interpretarea

lor se calculeaz coeficienii de corelaie ntre variabilele concrete i cele dou
componente principale. Coeficienii de corelaie vor servi drept coordonate ale
variabilelor n planul celor doi factori. Coeficienii de corelaie a variabilelor cu cei
doi factori:
Factor 1 Factor 2
CAZARE
.65487
-.62181
GRUP
.37138
-.70781
MOTIV
-.28656
-.03825
PROFESIE
.76703
.33938
SEX
.64945
-.34277
SPORT
.54332
.14655
SURSE_IN
.43008
.77862
ARA
.39217
.80252
TRANSP
.84620
.33274
VRSTA
.68980
-.56449
Factor Plot in Rotated Factor Space
1.0
cazare
virsta
mod calatorie
sex
.5
sport
0.0
transp
profesia
motivatia
surse_inf
tara
Factor 2
-.5
-1.0
-1.0
-.5
0.0
.5
1.0
Factor 1
Fig. 8 Reprezentarea grafic a variabilelor n planul celor doi factori
Din reprezentarea grafic desprindem concluziile:
variabile independente, dac unghiul format de vectorii variabilelor este

drept, (de exemplu: mod cltorie, care se refer la cltoria individual sau n grup,
formeaz un unghi aproximativ drept cu profesia);
variabilele sunt apropiate ntre ele dac unghiul format este ascuit,
( de exemplu: practicarea sporturilor de iarn cu profesia, vrsta cu cazarea, sursele
de informare cu ara);
47

variabile sunt opuse (repulsie) dac unghiul format este obtuz,(de
exemplu: cltoria n grup sau individual cu sursele de informare);
cu ct punctul este mai ndeprtat fa de centru n direcia unei axe, cu

att mai mari sunt coordonatele punctului i cu att mai mult contribuie la formarea
axei (transportul, sursele de informare pentru primul factor, cazarea, vrsta, modul
de cltorie pentru al doilea factor).
Din reprezentarea grafic rezult c factorul 1 este apropiat de variabilele:
profesia, transportul, sursele de informare, practicarea sporturilor de iarn, ara, deci
de variabilele care privesc motivaia i mijloacele prin care se poate practica
turismul n Poiana Braov, factorul 2 este apropiat de variabilele: cazare, vrst,
cltorie n grup sau individual, sex, care sunt legate mai mult de confort i datele
personale ale indivizilor.
O alt interpretare ar fi: factorul 1 concentreaz n jurul su variabilele cel
mai bine percepute de indivizii chestionai (sunt activi fa de aceste variabile i
pasivi fa de variabilele ce contribuie la formarea celui de-al doilea factor).
Prin aplicarea metodelor de analiz factorial s-a realizat o reducere a
datelor, nlocuind norul de puncte iniial cu un nor de dimensiuni mai restrnse,
pentru o reprezentare grafic comod i pentru a pune n eviden ceea ce este tipic
n opiniile turitilor.
ANALIZA FACTORIAL A CORESPONDENELOR (AFC)
Analiza factorial a corespondenelor este o generalizare a analizei
componentelor principale, adaptat tratrii datelor calitative, prezentate sub forma
unui tabel de contingen sau a unui tabel format din indivizi descrii prin
caracteristici calitative, studiind legturile dintre dou ansambluri de variabile (sau
ntre modalitile a dou variabile de clasificare).
Cazul a dou caracteristici
Tabel de contingen
Y
hotrtorCriteriul
X
preul
performanele
tehnice
designul
Categoria de vrst
31-40 ani
41-50 ani
35
33
16-20 ani
17
21-30 ani
15
26
28
19
31
34
28
18
15
Se apeleaz:
Analyze
Data Reduction
48
peste 50
42
Correspondence Analysis
Fig. 9 Selectarea variabilelor analizei n componente principale
Codificarea variantelor caracteristicii X s-a realizat astfel:

1 pre;
2 performane tehnice;
3 design.
Codificarea variantelor caracteristicii Y:
1 16 20 ani;
2 21 30 ani;
3 31 40 ani;
4 41 50 ani;
5 peste 50 ani.
Variabila Criteriu se indic pe linii iar n Define Range se completeaz
valoarea minim i valoarea maxim (1 i 3).
Variabila Vrsta se indic pe coloane iar n Define Range se completeaz
valoarea minim i valoarea maxim (1 i 5).
49
Fig. 10 Selectarea opiunilor analizei n componente principale
Cu ajutorul produsului SPSS, prelucrarea datelor din tabelul 4.10 a condus la

urmtoarele rezultate:
2 ,02336
Valorile proprii sunt 1 ,08962
Primul factor principal explic 79,3 din mprtierea datelor
1
0,793 iar al doilea factor principal restul de 20,7
1 2
Row Scores for criteriu

,6
perf.tehn
,4
,2
Dimension 2
0,0
design
-,2
pret
-,4
-1,2
-1,0
-,8
-,6
-,4
Dimension 1
Canonical normalization
50
-,2
0,0
,2
,4
Column Scores for virsta

,8
16-20 ani
,6
,4
Di
,2
me
nsi 0,0
on
2
-,2
21-30 ani
41-50 ani
peste 50 ani
-,4
31-40 ani
-,6
-,8
-1,0
-,5
0,0
,5
1,0
Dimension 1
,8
16-20 ani
,6
perf.tehn
,4
21-30 ani
,2
41-50 ani
0,0
Dim
ens
ion
2
peste 50 ani
design
-,2
pret
-,4
31-40 ani
-,6
virsta
-,8
criteriu
-1,5
-1,0
-,5
0,0
,5
1,0
Dimension 1
Se observ din graficele de mai sus c prima ax (factorul 1) se explic prin

oponena ntre categoria de vrst peste 50 de ani i categoria de vrst 21 30
ani, celelalte modaliti ocupnd poziii intermediare. Tot axa 1 opune preul
designului.
A doua ax (factorul 2) ar putea fi explicat prin oponena dintre modalitile
performane tehnice i pre, sau prin oponena categoria de vrst 16 20 ani
cu cea cuprins ntre 31 40 ani.
Se poate trage concluzia c tinerii ar prefera performanele tehnice iar cei de
vrst mijlocie nclin spre designul i preul produsului.
51
ANALIZA DISCRIMINANT
O populaie este divizat n k clase cu ajutorul unui criteriu calitativ Y.
Fiecare individ al populaiei este descris prin p variabile numerice X 1 ,...... X p .
Analiza discriminant utilizeaz mai multe metode ce permit studierea legturii
dintre criteriul Y i variabilele X 1 ,...... X p , plecnd de la un eantion. Analiza
factorial discriminant permite punerea n eviden a diferenelor dintre clase la
nivelul variabilelor X 1 ,...... X p i vizualizarea datelor. Pentru aceasta este nevoie de
utilizarea procedurilor automate pentru selectarea variabilelor discriminante.
Exemplul 1: o firm de soft5 este interesat s-i extind vnzrile de soft de aplicaie de
marketing. Pentru aceasta efectueaz o cercetare n vederea depistrii caracteristicilor ce ar putea
influena decizia de achiziionare a unui asemenea soft. Analiza este realizat la nivelul a 12 firme
la care s-au nregistrat caracteristicile: dotare cu soft de specialitate, numrul salariailor, cifra de
afaceri.
Valorile variabilelor
Exemplul 2. 17 studeni au fost apreciai dup notele obinute la examenele

de matematic, statistic, informatic i marketing. Primul grup este format din 6
studeni, considerai foarte buni (codul 1) dup notele la cele patru discipline. Al
doilea grup este format din 8 studeni, considerai buni (codul 2) iar al treilea grup
este format din 3 studeni, considerai slabi (codul 3). Utiliznd analiza
discriminant se vor constitui noi grupuri, dup notele obinute la cele patru
discipline.
Nr. Crt.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
5
Notele pe discipline
Nota
Nota
Apreciere matematic statistic
1
8
8
1
5
10
1
7
9
1
7
9
1
8
10
1
8
5
2
6
7
2
6
7
2
7
6
2
5
8
2
5
8
2
7
9
2
10
10
2
9
5
3
5
7
3
7
6
Nota
informatic
5
6
6
8
9
9
7
5
5
6
6
7
10
8
7
6
Nota
marketing
9
9
10
10
8
9
5
7
8
8
5
8
10
8
5
6
Spircu L., Calciu M., Spircu T., Analiza datelor de marketing, Ed. All, Bucureti 1994, pag.166
52
17
Group Statistics
APRECIER
f.bun
bun
slab
Total
Covariance
Correlation
NINFO
NMARK
NMATE
NSTAT
NINFO
NMARK
NMATE
NSTAT
Std.
Deviation
1,72
,75
1,17
1,87
1,67
1,69
1,81
1,60
1,00
,58
1,15
1,00
1,56
1,84
1,52
1,77
Mean
7,17
9,17
7,17
8,50
6,75
7,38
6,88
7,50
6,00
5,33
5,67
6,00
6,76
7,65
6,76
7,59
NINFO
NMARK
NMATE
NSTAT
NINFO
NMARK
NMATE
NSTAT
NINFO
NMARK
NMATE
NSTAT
NINFO
NMARK
NMATE
NSTAT
NINFO
2,595
,542
1,470
,393
1,000
,260
,600
,149
NMARK
,542
1,670
1,110
,357
,260
1,000
,565
,169
NMATE
1,470
1,110
2,313
-,286
,600
,565
1,000
-,115
NSTAT
,393
,357
-,286
2,679
,149
,169
-,115
1,000
Wilks' Lambda
Test of
Function(s)
1 through 2
2
Wilks'
Lambda
,374
,950
Chi-square
12,304
,639
53
df
8
3
Sig.
,138
,887
Canonical Discriminant Function

Coefficients
Function
NINFO
NMARK
NMATE
NSTAT
(Constant)
,081
,818
-,244
,136
-6,190
-,375
-,509
,981
,420
-3,394
Unstandardized coefficients
Casewise Statistics
Statistics
Actual Group
Predicted
Group
Original
Case
Number
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
1
1
1
1
1
1
2
2
2
2
2
2
2
2
3
3
3
**. Misclassified case
54
2**
1
1
1
2**
1
3**
2
2
1**
3**
2
1**
2
3
2**
3
Discriminant Scores
Function 1
Function 2
,718
1,803
1,998
2,160
,498
,635
-2,040
-,566
-,128
,713
-1,742
,443
1,728
-,508
-1,796
-1,683
-2,231
1,358
-1,119
-,087
-,837
1,207
-1,403
,262
-,006
,046
-1,451
,076
,556
1,776
,462
-,719
,689
-,809
Canonical Discriminant Functions

2,0
13
1,5
1,0
16
7
11
0,0
F unction 2
12
14
,5
APRECIER
Group Centroids
-,5
17
15
slab
-1,0
bun
6
10
-1,5
-3
-2
-1
f .bun
1
Function 1
Se observ din tabelul de mai sus c s-au produs schimbri n ceea ce privete
costituirea grupurilor dup notele obinute la cele patru discipline.
ANALIZ CLUSTER
n multe domenii exist un mare interes pentru dezvoltarea metodelor de
clasificare a obiectelor. Foarte adesea obiectele de clasificat sunt clienii. Obiectivul
urmrit este gruparea clienilor poteniali n grupe omogene destul de mari pentru a
putea fi analizai, utiliznd modaliti de clasificare cum ar fi segmentarea i
tipologia.
Exemplul 1: se consider un set de 8 uniti caracterizate prin valori
nregistrate pentru trei variabile. Aplicarea metodei cluster se realizeaz selectnd:
Analyze
Classify
Hierarchical Cluster . . .
55
Variable(s) permite selectarea variabilelor asupra crora se aplic

metoda;
Label Cases by: - implicit cazurile sunt afiate prin numrul curent.
Opional se poate alege pentru identificare o variabil de tip ir de
caractere;
Cluster Cases aplic metoda prin calcularea distanelor dintre indivizi;
Cluster Variables aplic metoda prin calcularea distanelor dintre
variabile;
Analyze . . . ne conduce la ecranul:
Fig. 15 Selectarea parametrilor opiunii Analyze
56
Agglomeration schedule conduce la obinerea unei liste a clusterelor

formate de-a lungul a mai multor pai;
Proximity matrix conduce la afiarea matricei similaritilor sau
disimilaritilor;
Cluster Membership None suprim afiarea membrilor grupurilor;
Cluster Membership Single solution afieaz membrii grupurilor
pentru numrul clusterelor specificate n caseta clusters. De exemplu,
dac se specific 4, colectivitatea va fi mprit n 4 clustere;
Cluster Membership Range of solutions: - afieaz membrii grupurilor
tuturor situaiilor clusterelor specificate n casetele From, trough clusters.
De exemplu, dac se specific de la 2 la 4, este prezentat soluia pentru
mprirea colectivitii n 2 clustere, 3 clustere i 4 clustere.
Plots . . . ne conduce la ecranul:
Fig. 16 Selectarea parametrilor opiunii Plots
Dendrogram permite reprezentarea grafic a coeziunii clusterelor

formate;
Icicle pentru toate sau o parte din clustere, permite afiarea informaiilor
referitoare la fiecare caz ce este combinat ntr-un cluster, la fiecare
iteraie.Se poate selecta orientare vertical sau orizontal.
Method . . .
permite alegerea tipului de distan utilizat n constituirea
clusterelor, precum i transformarea valorilor sau a msurilor.
Save . . . permite salvarea noilor variabile.
Pentru exemplul ales, cu x1, x2, x3 au fost notate variabilele iniiale, iar cu
zx1, zx2, zx3 valorile normalizate cu scor Z.
57
Pornind de la matricea cu date normalizate, se determin distanele euclidiene

medii pentru fiecare pereche de elemente.
Proximity Matrix Squared Euclidean Distance
Case
1
2
3
4
5
6
7
8
2
1,251
1,251
2,461
12,489
2,902
2,882
,372
16,541
1,104
7,888
1,951
1,637
,390
9,251
3
2,461
1,104
4
12,489
7,888
5,100
5,100
,848
1,059
1,915
12,140
5
2,902
1,951
,848
9,290
9,290
9,795
9,993
15,677
6
2,882
1,637
1,059
9,795
0,09198
0,09198
2,909
12,166
7
,372
,390
1,915
9,993
2,909
2,691
2,691
10,452
8
16,541
9,251
12,140
15,677
12,166
10,452
12,754
12,754
Algoritmul de grupare a unitilor pornete de la aceast matrice, opernd

astfel:
1. Se caut n matricea distanelor perechea reciproc de valoare minim. n
exemplu, aceasta este perechea (5,6) pentru care distana d56 = 0,09198.
2. Se atribuie aceleiai grupri (5,6) unitile din perechea reciproc respectiv.
3. Se reface matricea distanelor cu (5,6), considerat ca o singur unitate.
Distana dintre orice cluster X i (5,6) este dat de valoarea distanei minime
dintre uniti ale lui X i ale lui (5,6). De exemplu, de la 1 la 5 distana este
2,902 iar de la 1 la 6 distana este 2,882, se alege 2,882. Aplicnd acest
principiu, rezult urmtoarea matrice a distanelor:
Case
1
2
3
4
(5,6)
7
8
1
1,251
2,461
12,489
2,882
,372
16,541
2
1,251
1,104
7,888
1,637
,390
9,251
3
2,461
1,104
5,100
,848
1,915
12,140
4
12,489
7,888
5,100
9,290
9,993
15,677
(5,6)
2,882
1,637
,848
9,290
2,691
10,452
7
,372
,390
1,915
9,993
2,691
8
16,541
9,251
12,140
15,677
10,452
12,754
12,754
4. Se reia procesul de grupare de la pasul 1, cutnd perechea reciproc maxim

n noua matrice, n cazul nostru (1,7). Ele vor forma nucleul unei grupe noi.
Case (1,7)
(1,7)
2
,390
3
1,915
58
4
9,993
(5,6)
2,691
8
12,754
2
3
4
(5,6)
8
,390
1,915
9,993
2,691
12,754
Case
1+7+2
3
4
(5,6)
8
1,104
1,104
7,888
1,637
9,251
1+7+2
1,104
7,888
1,637
9,251
Case
1+7+2
4
(5,6)+3
8
5,100
,848
12,140
3
1,104
5,100
,848
12,140
1+7+2
7,888
1,104
9,251
Case
1,7,2+5,6,3
4
8
7,888
5,100
1,637
,848
9,290
9,290
15,677
4
7,888
5,100
9,290
15,677
4
7,888
5,100
15,677
1,7,2+5,6,3
5,100
9,251
9,251
12,140
15,677
10,452
10,452
(5,6)
1,637
,848
9,290
8
9,251
12,140
15,677
10,452
10,452
(5,6)+3
1,104
5,100
8
9,251
15,677
10,452
10,452
4
5,100
8
9,251
15,677
15,677
Pentru a reprezenta grafic procesul de grupri, se construiete o

dendrogram, adic un grafic de tip arbore. Nivelul la care se unesc dou clustere
sau dou uniti este marcat printr-o linie vertical care unete liniile orizontale,
denumite ramuri, corespunztoare gruprilor unite. Ramurile care pornesc de la baza
figurii corespund situaiei iniiale, n care un cluster era echivalent cu o unitate.
n final rezult dendrograma de mai jos i lista ciclurilor de grupare
(aglomeration schedule). De exemplu unitatea 2 se unete cu grupul (1,7) la nivelul
0,39 n decursul celui de-al treilea ciclu de grupare.
59
Agglomeration Schedule
Cluster Combined
Cluster 1
Cluster 2
5
6
1
7
1
2
3
5
1
3
1
4
1
8
Stage
1
2
3
4
5
6
7
Coefficients
9,198E-02
,372
,390
,848
1,104
5,100
9,251
Stage Cluster First

Appears
Cluster 1
Cluster 2 Next Stage
0
0
4
0
0
3
2
0
5
0
1
5
3
4
6
5
0
7
6
0
0
Dendrogram
* * * * * * H I E R AR C H I C AL C L U S T E R AN AL Y S I S * * * * * *
Rescaled Distance Cluster Combine

C A S E
0
5
10
15
20
25
Label Num +---------+---------+---------+---------+---------+
5
6
3
1
7
2
4
8
-+---+
-+
I
-----+---------------------+
-+
I
I
-+---+
+---------------------+
-+
I
I
---------------------------+
I
-------------------------------------------------+
5. Obinerea gruprilor propriu-zise se realizeaz prin tierea dendogramei la un

anumit nivel. Nu exist o regul unanim admis, dar jocul liniilor orizontale
de unire a diferitelor ramuri poate sugera nivelul de tiere. Zona n care liniile
orizontale ncep s se distaneze considerabil ntre ele este cea n care poate fi
adecvat tierea. O alt metod ar fi producerea unei rupturi considerabile n
seria coeficienilor care exprim nivelul de contopire a grupelor.
n concluzie, din exemplul prezentat, rezult dou grupuri relativ compacte
(1,7,2) i (5,6,3) i dou uniti izolate 4 i 8.
Exemplul 2: utilizarea analizei cluster n studiul proximitilor salariilor medii
nominale pe activiti ale economiei naionale. Se consider ctigul salarial nominal
60
mediu net lunar, pe activiti ale economiei naionale, anul 2000, zona Centru,
format din judeele Alba, Braov, Covasna, Harghita, Mure, Sibiu. Se urmrete
constituirea grupurilor ce scot n eviden asemnrile dintre salariile pe activiti
ale economiei naionale.
Ctigul salarial nominal mediu net lunar, pe activiti ale economiei naionale,
anul 2000, zona Centru
Judee
AB
BV
CV
Comer
1197136 1407660 1204232
Hotel res.
1248820 1648136 1217915
Transport 1990316 2508140 1769728
Pot
3080666 3371810 3278844
Bnci
4427378 5084607 4360286
Tranz.im.
1433279 2469463 1852821
Administr. 2767425 3300918 2491821
nvm.
1967406 2549858 1777582
Sntate
1409918 1751459 1601269
Sursa datelor: Anuarul Statistic al Romniei 2001
HR
1318291
1296922
1711961
2995325
4505654
1296187
2570497
1725369
1549518
MS
1490653
1263546
1862925
2939668
4715495
1829532
2753103
1905385
1705834
SB
1376971
1283845
2971791
2662131
4191889
1406370
2997957
2073729
1848168
6000000
5000000
4000000
3000000
2000000
1000000
0
Alba
Brasov
comer
posta
administr
Covasna Harghita
hotel rest.
banci
nvm.
Mures
Sibiu
transport
tranz.
sntate
Fig. 17 Ctigul salarial nominal mediu net lunar, pe activiti ale economiei naionale
Metoda utilizat a fost clasificare ierarhic cu opiunea cel mai apropiat

vecin.
Pornind de la matricea de date se determin distanele euclidiene medii pentru
61
fiecare pereche de elemente.

Stage
1
2
3
4
5
6
7
8
Cluster Combined
Cluster 1
Cluster 2
3
4
3
7
5
8
3
9
3
5
1
6
1
3
1
2
Coefficients
1,2139E+11
6,4291E+11
8,1082E+11
8,5402E+11
9,3273E+11
1,0506E+12
3,2840E+12
1,3692E+13
Stage Cluster First

Appears
Cluster 1
Cluster 2
0
0
1
0
0
0
2
0
4
3
0
0
6
5
7
0
* * * * * * H I E R A R C H I C A L
N A L Y S I S * * * * * *
Next Stage
2
4
5
5
7
7
8
0
C L U S T E R
Dendrogram using Single Linkage

C A S E
Label
Num
COMERT
HR
SANATATE
TRANZ
INV
TRANSP
ADM
POSTA
BANCI
3
4
7
9
5
8
1
6
2
0
5
10
15
20
25
+---------+---------+---------+---------+------+
-+
-+-+
-+ I
---+-------+
---+
+----------------------------------+
---+
I
I
---+-------+
I
---+
I
----------------------------------------------+
Din dendrogram rezult cteva grupe: salariile medii nominale lunare sunt
apropiate pentru activitile (comer, hoteluri i restaurante, sntate), (tranzacii
imobiliare, nvmnt), (transporturi, administraie public, pot ) i distinct
sectorul bancar.
Din punct de vedere al unitilor teritoriale, situaia se prezint astfel:
62
Stage
1
2
3
4
5
Cluster Combined
Cluster 1
Cluster
1
1
1
1
1
2
4
3
5
6
2
Coefficient
s
3,658
4,549
9,583
17,269
31,884
Stage Cluster First

Appears
Cluster 1
Cluster 2
0
0
1
0
2
0
3
0
4
0
Next Stage
2
3
4
5
0

C A S E
Label
Num
Alba
Harghita
Covasna
Mures
Sibiu
Brasov
0
5
10
15
20
25
+---------+---------+---------+---------+------+
1
-+
4
-+---------+
3
-+
+-------------+
5
-----------+
+--------------------+
6
-------------------------+
I
2
----------------------------------------------+
Din dendrograma de mai sus rezult un grup relativ compact format din
judeele (Alba, Harghita, Covasna) i trei uniti izolate Mure, Sibiu, Braov.
Este dotat
cu soft
da
da
da
da
da
da
nu
nu
nu
nu
nu
nu
Nr.salariai
X1
33
56
25
41
30
57
38
30
20
10
9
40
CA (mil.lei)
X2
4900
6000
4000
6900
5700
7400
5100
2700
3450
2800
1500
4000
Pentru rezolvarea n SPSS a acestei metode se apeleaz:

Analyze
63
Classify
Discriminant . . .
Analyze . . . ne conduce la ecranul:

Means - permite calcularea mediilor pe subgrupuri pentru fiecare variabil
explicativ;
Univariate ANOVAs - se selecteaz dac se dorete analiz ANOVA
pentru fiecare factor;
Fisher's - se selecteaz dac se doresc coeficienii Fisher ai funciei;
Unstandardized - se selecteaz dac se doresc coeficienii nestandardizai
ai funciei;
Within-groups correlation coeficienii de corelaie n interiorul
grupurilor;
Within-groups covariance - covariana n interiorul grupurilor;
Total covariance - covariana dintre variabile pe total.
Classify . . . ne conduce la ecranul:
64
Fig. 12 Selectarea parametrilor clasificrii
All groups equal - se selecteaz pentru grupuri de volume egale;

Compute from group sizes - se selecteaz pentru grupuri de volume
neegale;
Cassewise results - afieaz grupul actual, grupul rezultat, scorurile de
discriminare;
Within-groups - utilizeaz pentru clasificare matricea de covarian din
interiorul grupurilor ;
Plots - se obin reprezentri grafice pe grupuri combinate sau pe grupuri
separate.
Save . . . ne conduce la ecranul:
Fig. 13 Salvarea noilor variabile
Interpretarea rezultatelor
Cele 12 firme au fost mprite n dou grupuri de volume egale. n urma aplicrii
metodei discriminante va rezulta o alt clasificare i se vor gsi funciile care au
avut o importan mare n obinerea unor grupuri distincte.
65
Group Statistics
SOFT
da
nu
Total
Valid N (listwise)
X1
Mean
40,33
Std.
Deviation
13,56
Unweighted
6
Weighted
6,000
X2
5816,67
1254,46
6,000
X1
24,50
13,59
6,000
X2
3258,33
1232,24
6,000
X1
32,42
15,36
12
12,000
X2
4537,50
1786,20
12
12,000
Grupul firmelor dotate cu soft are centroidul format din mediile celor dou
caracteristici (40.33, 5816.7), iar grupul firmelor ce nu sunt dotate cu soft are
centroidul (24.5, 3258,3).
Pooled Within-Groups Matrices a
Covariance
Correlation
X1
X1
184,283
X2
13209,167
X2
13209,167
1546041,7
X1
1,000
,783
X2
,783
1,000
a. The covariance matrix has 10 degrees of

freedom.
n tabelul de mai sus este afiat matricea de covarian din interiorul claselor
W.
Eigenvalues
Function
1
Eigenvalue
1,422 a
% of
Variance
100,0
Cumulative
%
100,0
Canonical
Correlation
,766
a. First 1 canonical discriminant functions were used in the

analysis.
Deoarece variabila de explicat are doar dou modaliti, rezult o singur

funcie de discriminare.
66
Wilks' Lambda
Test of
Function(s)
1
Wilks'
Lambda
,413
Chi-square
7,963
df
2
Sig.
,019
Indicatorul calitii discriminrii al lui Wilks are valoarea 0.413 cu un nivel de

semnificaie de 0.019, mai mic dect 0.05, ceea ce indic n ansamblu o discriminare
acceptabil.
Canonical Discrim inant
Function Coefficients
Func ti on
1
X1
-,039
X2
,001
(Constant)
-3,694
Unstandardized c oeffic ients
n tabelul de mai sus sunt prezentai coeficienii nestandardizai ai funciei

discriminante.
Rezult funcia discriminant Y 3.694 0.039 X 1 0.001X 2
Prin standardizare (mprire la abaterea standard din interiorul grupelor
W
s1 13.56 13.59 / 2 13.57 i s W
2 1254.5 1232.2 / 2 1243.35 ) se obin coeficienii
standardizai:
Standardized Canonical
Dis crim inant Function
Coefficients
Func ti on
1
X1
-,526
X2
1,356
Cu funcia discriminant se calculeaz scorurile pentru fiecare firm Discriminant

Scores.
67
Casewise Statistics
Highest
Group
Original
Case
Number
1
2
3
4
5
6
7
8
9
10
11
12
Actual
Group
Discrimina
nt Scores
Predicted
Group
Function 1
1
,368
1
,788
2**
-,293
1
2,122
1
1,251
1
2,151
1**
,420
2
-1,731
2
-,693
2
-1,047
2
-2,603
2
-,732
1
1
1
1
1
1
2
2
2
2
2
2
**. Misclassified case
Cu ajutorul distanelor Mahalanobis sunt calculate ptratele distanelor fa de

proieciile centroizilor pe axa de discriminare ( c 1 1.089 , media scorurilor firmelor
dotate cu soft i c 2 1.089 , media scorurilor firmelor fr soft).
Functions at Group
Centroids
Func tion
SOFT
da
1
1,089
nu
-1,089
Unstandardized canonic al
disc riminant functions
evaluated at group means
Clasificarea firmelor se face n funcie de scorul de separare - cutting score, care

are valoarea 0, conform criteriului:
dac scorul firmei > 0 firma va aparine primului grup
dac scorul firmei 0 firma va aparine celui de-al doilea grup
68
Classification Results b,c

Predicted Group
Membership
Original
SOFT
da
Count
%
Cross-validated
Count
%
da
nu
Total
nu
da
83,3
16,7
100,0
nu
16,7
83,3
100,0
da
nu
da
83,3
16,7
100,0
nu
16,7
83,3
100,0
a. Cross validation is done only for those cases in the analysis. In cross validation,
each case is classified by the functions derived from all cases other than that case.
b. 83,3% of original grouped cases correctly classified.
c. 83,3% of cross-validated grouped cases correctly classified.
Se obine o rat a succesului de 83,3 %.

Tests of Equality of Group Means
X1
Wilks'
Lambda
,710
F
4,081
X2
,441
12,700
df1
df2
1
10
Sig.
,071
10
,005
Variabila cu puterea cea mai mare de discriminare este X2 - cifra de afaceri, acest
lucru este pus n eviden de cele dou statistici i F.
n tabelul de mai jos sunt prezentai coeficienii de corelaie ntre variabile i
vectorul scorurilor.
Structure Matrix
Func tion
1
X2
,945
X1
,536
69

Analiza Datelor SPSS

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Analiza Datelor SPSS

Încărcat de

Drepturi de autor:

Formate disponibile

UNIVERSITATEA TRANSILVANIA DIN BRAOV

FACULTATEA DE TIINE ECONOMICE

ANALIZA DATELOR - aplicaii N SPSS

Pentru studenii programelor de studii - masterat

Pentru a realiza o distribuie bidimensional s-a luat n considerare un eantion

Fig. 1 Realizarea tabelelor de contingen

Cu ajutorul butonului Cells obinem o nou caset de dialog cu ajutorul creia

Fig. 2 Selectarea tipului de frecvene

RECLAMA * CUMPARA Crosstabulation

Dac dorim s obinem profilele coloane, adic pentru fiecare modalitate a

Reprezentarea grafic a distribuiei celor 150 de persoane chestionate, dup cele

Fig. 3 Grafic cluster

Graficul pune n eviden faptul c, decizia de cumprare a fost influenat de

Testul se poate aplica att n cazul variabilelor dihotomice ct i n cazul

Din aceste condiii de independen se determin distribuia teoretic (Expected)

n cazul exemplului nostru, pentru a obine distribuia teoretic (cum ar fi trebuit

a) Coeficientul . Presupunnd c X este variabila anterioar i Y variabila posterioar 1,

O alt formul este cea obinut cu ajutorul mrimii

Fig. 4 Alegerea opiunilor statistice

a. Computed only for a 2x2 table

Coeficieni Phi, Cramers V

Asocierea variabilelor nominale

, unde p reprezint numrul de modaliti ale

n caren este mrimea eantionului iar t min p 1 , q 1 , p reprezint numrul liniilor,

considernd variabila CUMP (cu trei modaliti) pe poziia variabilei dependente

frecvena maxim pe linia totalurilor)/(n frecvena maxim pe linia totalurilor).

2 Lefter C., Ru C., Cercetri de marketing, Braov 2000, pag. 156

Bifnd n caseta de dialog Lambda, vom obine rezultatele:

a. Not assuming the null hypothesis.

Concordana n aprecierile celor doi inspectori este

Inspectorul 1 a apreciat n proporie de 40,3 dintre cdrele didactice ca fiind autoritare,

Prelucrarea variabilelor cantitative

Vnzri n funcie de ambalaj (mii lei)

Pentru a rezolva aceast problem utiliznd produsul SPSS, este nevoie s se

ambalaj, iar valoarea 2 corespunde vnzrilor cu noul ambalaj. Aceast variabil va fi

Fig. 5 Compararea mediilor a dou eantioane independente

Dup alegerea metodei de analiz se recurge la definirea grupurilor conform

Fig. 6 Selectarea variabilelor

din lista variabilelor se selecteaz n Test Variable(s): variabila potrivit creia se

variabila dup care se realizeaz gruparea n cele dou eantioane se plaseaz n

Fig. 7 Definirea grupurilor

Independent Samples Test

t-test for Equality of Means

95% Confidence Interval

Eantioanele fiind de volum 30 se aplic testul Student. Valoarea t calc 0.125 .

n cazul nostru se accept ipoteza H 0, nu exist diferene semnificative ntre

Femeile au primit codul 1, iar brbaii codul 2.

Rezultatele testului egalitii mediilor

Independent Samples Test

t-test for Equality of Means

95% Confidence Interval

Fiind eantioane de volum suficient de mare, valoarea teoretic ce corespunde

Fig. 8 Compararea mediilor a dou eantioane perechi

din lista de variabile se selecteaz variabila Puncte1 ce va fi plasat n lista Current

Rezultatele testului egalitii mediilor

Deoarece volumul eantionului este n = 20, folosim repartiia Sudent cu 19 grade

dac RC 1,72 se respinge ipoteza H0 se accept alternativa ei H1.

Se observ din tabelul cu rezltate c valoarea este 2,96. Putem afirma c

Fig. 9 Selectarea testelor neparametrice

Fig. 10 Definirea variabilelor perechi

Diferene negative, pozitive, egale

a. PUNCTE2 < PUNCTE1

Pentru a reliza n SPSS acest lucru alegem calea: