Sunteți pe pagina 1din 69

UNIVERSITATEA TRANSILVANIA DIN BRAOV

FACULTATEA DE TIINE ECONOMICE

Nicoleta PETCU

ANALIZA DATELOR - aplicaii N SPSS


Analiza bidimensional
Regresie i corelaie
Analiza multidimensional

Pentru studenii programelor de studii - masterat

BRAOV, 2007

ANALIZ BIDIMENSIONAL

Pentru a realiza o distribuie bidimensional s-a luat n considerare un eantion


format din 150 de persoane ce au rspuns unor ntrebri dintr-un chestionar, printre care:
dac au vzut reclama la un produs nou lansat pe pia i dac au cumprat produsul
respectiv. Cele dou ntrebri au devenit variabile statistice pentru fiierul creat n SPSS.
Tabelele de contingen se pot realiza astfel:
Analyze
Descriptive Statistics
Crosstabs

Fig. 1 Realizarea tabelelor de contingen

Cu ajutorul butonului Cells obinem o nou caset de dialog cu ajutorul creia


putem obine tabelele menionate mai sus:

Fig. 2 Selectarea tipului de frecvene


Distribuia persoanelor dup cele dou caracteristici

RECLAMA * CUMPARA Crosstabulation


Count

RECLAMA

CUMPARA
da
nu
65
15
20
50
85
65

da
nu

Total

Total
80
70
150

n acest tabel s-a obinut distribuia celor 150 de persoane dup cele dou
caracteristici, sub forma frecvenelor absolute.
Dac dorim s obinem profilele linii, adic pentru fiecare modalitate a variabilei
reclama, ponderea celor care cumpr n totalul liniei, bifm n caseta de dialog
Percentages Row.
Profile linii
RECLAMA * CUMPARA Crosstabulation
CUMPARA
da
RECLAMA

da

Count
% wit hin
RECLAMA

nu

T otal

80

81,3%

18,8%

100,0%

20

50

70

28,6%

71,4%

100,0%

85

65

150

56,7%

43,3%

100,0%

Count
% wit hin
RECLAMA

T otal
15

Count
% wit hin
RECLAMA

nu
65

Dac dorim s obinem profilele coloane, adic pentru fiecare modalitate a


variabilei cumpr, ponderea celor care au vzut reclama n totalul coloanei, bifm n
caseta de dialog Percentages Column.
Profile coloane
RECLAMA * CUMPARA Crosstabulation

RECLAMA

da

nu

Total

CUMPARA
da
nu
65
15

Count
% within
CUMPARA
Count
% within
CUMPARA
Count
% within
CUMPARA

Total
80

76,5%

23,1%

53,3%

20

50

70

23,5%

76,9%

46,7%

85

65

150

100,0%

100,0%

100,0%

Reprezentarea grafic a distribuiei celor 150 de persoane chestionate, dup cele


dou variabile se realizeaz bifnd n caseta Crosstabs, Display clustered bar charts i
obinem graficul de mai jos.

70

60

65

50

50

40

30

C ount

20

20

CUMPARA

15

10

da

nu
da

nu

RECL AMA

Fig. 3 Grafic cluster

Graficul pune n eviden faptul c, decizia de cumprare a fost influenat de


reclama care s-a fcut la acel produs.
Testarea independenei a dou variabile testul 2
Cu ajutorul testului 2 se poate analiza dac dou variabile sunt dependente sau
independente, garantnd rezultatele cu o probabilitate dinainte stabilit. Pentru a verifica
acest lucru pornim de la ipotezele:
H0: variabile independente ipoteza nul, cu alternativa
H1: variabile dependente.
Dou variabile sunt independente dac sunt ndeplinite condiiile:
P ( X x 1 / Y y1 ) P ( X x 1 )

i P (Y y1 / X x1 ) P (Y y1 )

Testul se poate aplica att n cazul variabilelor dihotomice ct i n cazul


variabilelor calitative cu mai multe modaliti. Revenind la distribuia din tabelul de mai
sus , condiiile de independen se rezum la egalitatea rapoartelor:
n ij
n. j
nt ij

ni .
n

sau

n ij
ni .

n. j
n

Din aceste condiii de independen se determin distribuia teoretic (Expected)


astfel:

nt ij

n. j n i .
n

n cazul exemplului nostru, pentru a obine distribuia teoretic (cum ar fi trebuit


s se distribuie cele 150 de persoane dac variabilele reclama i cumpr ar fi
independente), n caseta Cells se selecteaz opiunea Expected.
Frecvene teoretice
RECLAMA * CUMPARA Crosstabulation

RECLAMA

da

nu

Total

CUMPARA
da
nu
65
15

Count
Expected
Count
Count
Expected
Count
Count
Expected
Count

Total
80

45,3

34,7

80,0

20

50

70

39,7

30,3

70,0

85

65

150

85,0

65,0

150,0

Pentru a verifica dac cele dou variabile sunt independente se calculeaz mrimea
2
calc
cu formula:
p

(n ij nt ij ) 2

2
calc

nt ij

i 1 j 1

2
Valoarea calc
se compar cu valoarea teoretic t2 , extras din tabelul funciei
2 , pentru nivelul de semnificaie ales i ( p 1) (q 1) grade de libertate.
2
Dac valoarea calc
t2 , atunci, se respinge ipoteza H0 i se admite alternativa ei
H1, variabilele sunt dependente.
Metodele de analiz ne permit i msurarea intensitii legturii cu ajutorul
coeficienilor:

a) Coeficientul . Presupunnd c X este variabila anterioar i Y variabila posterioar 1,


se urmrete s se analizeze n ce proporie cei ce posed X 1 posed i Y1, iar cei ce
posed X2 posed i Y1, calculndu-se diferenele: p11 p 21 k11 / k1. k 21 / k 2. . Dac
vom considera Y variabila anterioar i X variabila posterioar se calculeaz
diferenele q11 q12 k11 / k .1 k12 / k .2 . Efectundu-se media geometric a celor dou
diferene, se obine coeficientul :

n k11 k1. k .1

k1. k 2. k .1 k .2

O alt formul este cea obinut cu ajutorul mrimii


2:

2
n

1 Rotaru T., Metode statistice aplicate n tiinele sociale, Ed. Polirom, 2000
5

Dac acest coeficient are o valoare pozitiv ne indic o asociere pozitiv (indivizii se
concentreaz pe diagonala principal, cei care rspund DA la prima ntrebare ,
rspund DA i la a doua) iar dac are o valoare negativ ne indic o asociere negativ.
b) Coeficientul Q (al lui Yule). Acest coeficient are un interval fix de variaie [-1,+1], se
anuleaz n cazul n care variabilele sunt statistic independente i se obine cu
formula:
Q

k11 k 22 k12 k 21
k11 k 22 k12 k 21

Pentru exemplul ales, se testeaz existena legturii dintre cele dou variabile cu
testul
iar intensitatea legturii o msurm cu ajutorul coeficienilor menionai mai
sus.
2,

Fig. 4 Alegerea opiunilor statistice

Coeficient 2

Chi-Square Tests

Value
Pearson
Chi-Square
N of Valid
Cases

Asymp.
Sig.
(2-sided)

df

42,191

,000

150

a. Computed only for a 2x2 table

Coeficieni Phi, Cramers V


Symmetric Measures

Nominal by
Nominal

Phi
Cramer's V
Contingency
Coefficient

N of Valid Cases

Value
,530
,530

Approx.
Sig.
,000
,000

,469

,000

150

2
Valoarea calc
42,19 i este mai mare dect t2 3,84 pentru nivelul de
semnificaie de 0,05 i un grad de libertate, ceea ce ne ndreptete s respingem
ipotaza H0 i s acceptm alternativa ei H1, adic exist legtur ntre reclam i
atitudinea consumatorilor de a cumpra produsul respectiv. Coeficienii care msoar
intensitatea legturii ne arat o asociere pozitiv de intensitate medie ntre cele dou
variabile.

Asocierea variabilelor nominale


Considerm variabile nominale, variabilele calitative cu mai mult de dou
modaliti (variante). Msurarea asocierii se realizeaz pornind tot de la tabelul de
contingen, prin calculul coeficienilor de asociere.
a) Coeficientul de contingen (C). Cu ct valoarea acestui coeficient este mai apropiat
de 1 cu att legtura este mai puternic i cu ct valoarea este mai aproape de zero, cu
att legtura este mai slab. Valoarea acestui coeficient se determin cu relaia:
2
calc
C
2
calc
n
unde n este mrimea eantionului. Pentru aprecierea corect a intensitii legturii trebuie
luat n considerare relaia:

C max

p 1
p

, unde p reprezint numrul de modaliti ale

variabilei independente. Pentru un tabel 22 valoarea maxim a lui C este 0,707, pentru
un tabel 33 este 0,816 i aa mai departe2 .
b) Coeficientul V al lui Cramer. Valoarea acestui coeficient se obine cu relaia:
2
calc
V
nt

n caren este mrimea eantionului iar t min p 1 , q 1 , p reprezint numrul liniilor,


q reprezint numrul coloanelor.
c) Coeficientul (al lui Goodman i Kruskal). Calculul acestui coeficient este bazat pe
reducerea erorilor de predicie. Una dintre variabile, considerat anterioar sau
independent se afl n postura de a ameliora predicia celeilalte, devenit posterioar
sau dependent.
Coeficientul se definete ca proporia cu care se reduc erorile prin introducerea
variabilei independente. Acest coeficient este cuprins ntre 0 i 1.Valoarea 0 indic
faptul c variabila independent nu are nici un rol n predicia variabilei dependente
iar valoarea 1 semnific faptul c variabila independent determin perfect
modalitile variabilei dependente.
Plecnd de la distribuia din tabelul de mai sus, se pot calcula coeficienii astfel:
Distribuie dup variabile nominale
CUMP
da
RECLAMA
Total

nu

nu stiu

Total

da

47

10

23

80

nu

18

32

20

70

65

42

43

150

considernd variabila CUMP (cu trei modaliti) pe poziia variabilei dependente


(cumpr
dac
a
vzut
reclama),
vom
calcula
coeficientul
cumpara

(47 32) 65
0,165 , ceea ce nseamn (suma frecvenelor maxime pe linii 150 65

frecvena maxim pe linia totalurilor)/(n frecvena maxim pe linia totalurilor).


considernd variabila RECLAMA pe poziia variabilei dependente (a vzut reclama
dac a cumprat) vom calcula coeficientul reclama
La modul general, pentru dou variabile X i Y :

2 Lefter C., Ru C., Cercetri de marketing, Braov 2000, pag. 156


8

47 32 23 80 0,314
150 80

max n max n

n max n
p

i 1

ij

1 j q

1 j q
.j

1 j q

.j

max n max n
q

j 1

ij

1 i p

1 i p

i.

n max n i .

1 i p

Bifnd n caseta de dialog Lambda, vom obine rezultatele:


Coeficieni Lambda, tau
Directional Measures

Nominal
by Nominal

Lambda

Value
,232

Asymp.
Std. Error a
,072

Approx. T b
2,966

Approx. Sig.
,003

RECLAMA
Dependent

,314

,077

3,533

,000

CUMP
Dependent

,165

,076

2,006

,045

RECLAMA
Dependent

,161

,057

,000

CUMP
Dependent

,084

,032

,000

Symmetric

Goodman
and Kruskal
tau

a. Not assuming the null hypothesis.


b. Using the asymptotic standard error assuming the null hypothesis.
c. Based on chi-square approximation

Valorile obinute sugereaz existenei legturii dintre cele dou variabile, iar
predicia de la CUMP spre RECLAMA este mai bun dect invers.
d) Indice de concordan kappa. Permite compararea aprecierilor a doi observatori
asupra aceluiai grup. Considerm, de exemplu (Bishop 1975), aprecierile a doi
inspectori colari asupra comportamentului pedagogic a 72 cadre didactice (autoritar,
indiferent, ngduitor). Rezultatele evalurilor sunt prezentate n tabelul de mai jos.
Rezultatele evalurilor
Inspector 1
autoritar
indiferent
ngduitor
Total

autoritar
17
5
10
32
44,4

indiferent
4
12
3
19
26,4

Inspector 2
ngduitor
8
13
21
29,2

Total
29
17
26
72

40,3
23,6
36,1

Concordana n aprecierile celor doi inspectori este

17 12 13
100 58,3.
72

Inspectorul 1 a apreciat n proporie de 40,3 dintre cdrele didactice ca fiind autoritare,


n timp ce inspectorul 2 n proporie de 44,4. Dac evalurile sunt independente, se
presupune c 17,9 (40,344,4) dintre cadrele didactice s fie evaluate autoritare de
cei doi inspectori. Asemntor, 6,2 (23,626,4) sunt evaluate ca fiind indiferente iar
10,5 (36,129,2) ngduitoare. n acest caz 34,6 dintre cadrele didactice sunt
clasate n aceeai categorie prin simplul joc al hazardului. Indicele kappa va avea
valoarea:
kappa

0,583 0,346
0,362
1 0,346

n utilizarea indicelui kappa, cele dou variabile trebuie s aib acelai interval de
variaie.

Prelucrarea variabilelor cantitative


Dup modul de exprimare, caracteristicile statistice se separ n caracteristici
calitative (exprimate prin cuvinte) i caracteristici cantitative (exprimate numeric). De
exemplu, profesia i vrsta.
Eantioane independente Testul Z
Considernd dou eantioane de volum n1 i n2, se urmrete a se stabili
dac exist o diferen semnificativ, din punct de vedere statistic, ntre mediile celor
dou populaii.
Exemplul 1. Un mare productor de ambalaje3 pentru bunuri de consum a testat n
mai multe magazine situaia vnzrilor cu un nou tip de ambalaj pentru produsul M.
Rezultatele au fost urmtoarele:
Magazinul
1
2
3
4
5
6
7
8

Vnzri n funcie de ambalaj (mii lei)


Vnzri cu vechiul
Vnzri cu noul
ambalaj
ambalaj
235
672
590
207
187
337
176
223

255
691
575
195
210
358
193
246

Pentru a rezolva aceast problem utiliznd produsul SPSS, este nevoie s se


creeze o variabil de cod (V1), n care valoarea 1 corespunde vnzrilor cu vechiul
3 Lefter C., Ru C., Cercetri de marketing, Braov 2000, pag. 121
10

ambalaj, iar valoarea 2 corespunde vnzrilor cu noul ambalaj. Aceast variabil va fi


necesar gruprii datelor corespunztor celor dou eantioane. Valorile vnzrilor se
indic ntr-o singur variabil (Ambalaj - valorile din primul eantion urmate de valorile
celui de-al doilea). Se selecteaz:
Analyze
Compare Means
Independent - Samples T Test

Fig. 5 Compararea mediilor a dou eantioane independente

Dup alegerea metodei de analiz se recurge la definirea grupurilor conform


casetei de dialog din figura 6.

Fig. 6 Selectarea variabilelor

din lista variabilelor se selecteaz n Test Variable(s): variabila potrivit creia se


compar mediile celor dou eantioane.

11

variabila dup care se realizeaz gruparea n cele dou eantioane se plaseaz n


caseta Grouping Variable: care activeaz Define Groupsn Group 1: se nscrie
codul 1 pentru valorile primului eantion iar n Group 2: codul 2 pentru valorile celui
de-al doilea eantion.

Fig. 7 Definirea grupurilor

Cut point: - se utilizeaz dac dorim s specificm o valoare n funcie de care se vor
constitui grupurile, primul va conine valorile mai mici dect cea specificat iar al
doilea valorile mai mari.
Rezultatele oferite de produsul SPSS se prezint astfel:
Indicatori statistici la nivel de eantioane
Group Statistics

Ambalaj

V1
1 - vechi
2 - nou

Std.
Std. Error
Mean Deviation Mean
328,38
194,33
68,71
340,38
190,62
67,39

N
8
8

12

Independent Samples Test


Levene's Test for Equality
of Variances

F
AMBALAJ

Equal
variances
assumed

Sig.
,003

t-test for Equality of Means

,958

Equal
variances
not assumed

Sig.
(2-tailed)

df

Mean
Difference

Std. Error
Difference

95% Confidence Interval


of the Mean
Lower

Upper

-,125

14

,903

-12,00

96,24

-218,42

194,42

-,125

13,995

,903

-12,00

96,24

-218,43

194,43

Eantioanele fiind de volum 30 se aplic testul Student. Valoarea t calc 0.125 .


Valoarea teoretic pentru nivelul de semnificaie 0.05 i 14 grade de libertate, extras
din tabelul funciei Student t 2.145 .
Regula de decizie este urmtoarea:
- se accept ipoteza H0 dac 2.145 t calc 2.145
- se respinge ipoteza H0 i se accept alternativa ei H1 dac
t calc -2.145

sau

t calc 2.145

n cazul nostru se accept ipoteza H 0, nu exist diferene semnificative ntre


mediile celor dou eantioane.
Exemplul 2. Printr-o anchet selectiv, s-a urmrit aprecierea gradului de
atractivitate a ambalajului unui produs. ntrebarea este dac exist diferene semnificative
ntre media aprecierilor femeilor i media aprecierilor brbailor.
Distribuia persoanelor dup aprecieri
Apreciere ambalaj
Nr. respondeni
(puncte)
Femei
Brbai
1 (foarte atractiv)
5
10
2 (atractiv)
10
30
3 (nici / nici)
15
30
4 (neatractiv)
80
20
5 (foarte neatractiv)
10
10

Femeile au primit codul 1, iar brbaii codul 2.


Indicatori statistici la nivel de eantioane
Group Statistics
FB
APRECIER 1
2

Mean
3,67
2,90

120
100

Std.
Deviation
,90
1,14

Rezultatele testului egalitii mediilor

13

Std. Error
Mean
8,23E-02
,11

Independent Samples Test


Levene's Test for Equality
of Variances

F
APRECIER

Equal
variances
assumed

8,702

Equal
variances
not assumed

t-test for Equality of Means

Sig.

,004

Sig.
(2-tailed)

df

Mean
Difference

Std. Error
Difference

95% Confidence Interval


of the Mean
Lower

Upper

5,565

218

,000

,77

,14

,50

1,04

5,449

186,669

,000

,77

,14

,49

1,04

Fiind eantioane de volum suficient de mare, valoarea teoretic ce corespunde


nivelului de semnificaie 0.05 este 1,96. Aplicnd aceeai regul de decizie ca mai
sus, valoarea calculat fiind 5,565 suntem ndreptii s respingem ipoteza H 0 i s
acceptm ipoteza H1, exist diferene ntre aprecierile femeilor i aprecierile brbailor.
Eantioane perechi
Problema eantioanelor perechi poate fi pus, de exemplu, atunci cnd studiem
rezultatele obinute de membrii unui grup nainte de efectuarea unui curs i dup
efectuarea acelui curs, din punct de vedere al testrii egalitii mediilor 1 i 2 .
Exemplu: Un grup de 20 de studeni au fost verificai la disciplina de
Microeconomie dup cunotinele obinute la curs. Rezultatele au fost nregistrate n
fiierul es_perechi n variabila Puncte1. Dup iniierea ntr-un produs informatic
specializat n nvarea disciplinei de Microeconomie, acelai grup a fost testat,
rezultatele nregistrndu-se n variabila Puncte2. Pentru un nivel de semnificaie =0,05
se poate verifica dac efectul cursului a fost pozitiv.
Rezultate obinute
Puncte1
90
91
93
89
85
89
83
88
84
82
83
81
72
70
71

Puncte2
93
91
95
88
88
87
84
92
83
85
82
83
74
70
77

14

di
-3
0
-2
+1
-3
+2
-1
-4
+1
-3
+1
-2
-2
0
-6

81
85
87
74
73

85
87
87
76
72

d
i 1

28

-4
-2
0
-2
+1

d 1,4

Ipotezele sunt:
H0: = 0 nu exist diferene ntre rezultatele dinainte i dup iniierea pe
calculator ( 1 2 )
H1: 0 exist diferene ntre rezultate
Pentru a efectua acest test selectm:
Analyze
Compare Means
Paired - Samples T Test

Fig. 8 Compararea mediilor a dou eantioane perechi

15

din lista de variabile se selecteaz variabila Puncte1 ce va fi plasat n lista Current


Selections n Variable 1:, precum i variabila Puncte2 ce va apare n Variable2: iar
cu sunt transferate n lista Paired Variables:
Options permite alegerea intervalului de ncredere
butonul OK declaneaz modelul de analiz i obinerea rezultatelor.
Indicatori statistici
Paired Samples Statistics

Pair 1

PUNCT E1

Mean
82,55

PUNCT E2

83,95

20

Std.
Deviation
7,09

Std. Error
Mean
1,59

20

7,01

1,57

Rezultatele testului egalitii mediilor


Paired Samples T est

Paired Differences

PUNCT E1 PUNCT E2

Mean

Std.
Deviation

Std. Error
Mean

-1,40

2,11

,47

95% Confidence
Interval of the
Difference
Lower
-2,39

Upper
-,41

df

Sig.
(2-tailed)

-2,96

19

,008

Deoarece volumul eantionului este n = 20, folosim repartiia Sudent cu 19 grade


de libertate i, pentru nivelul de semnificaie = 0,05, obinem valoarea t = -1,761 (test
unilateral).
Regula de decizie va fi urmtoarea:
dac RC 1,72 se accept H0;

dac RC 1,72 se respinge ipoteza H0 se accept alternativa ei H1.

Se observ din tabelul cu rezltate c valoarea este 2,96. Putem afirma c


rezultatele iniierii n produsul informatic au fost pozitive, existnd diferene
semnificative statistic ntre punctajul mediu de dinainte i de dup curs.
Testul Wicoxon
Aceeai decizie putem s o lum i dac folosim testul Wilcoxon.
Analyze
Nonparametric Tests
2 Related Samples

16

Fig. 9 Selectarea testelor neparametrice

Fig. 10 Definirea variabilelor perechi

Diferene negative, pozitive, egale

17

Ranks
N
PUNCTE2 PUNCTE1

Negative
Ranks

Mean Rank
a

Positive Ranks

12

Sum of Ranks

4,10

20,50

11,04

132,50

3c

Ties
Total

20

a. PUNCTE2 < PUNCTE1


b. PUNCTE2 > PUNCTE1
c. PUNCTE1 = PUNCTE2

Test Wilcoxon
PUNCTE2 PUNCTE1
-2,673

Z
Asymp. Sig.
(2-tailed)

,008

Nivelul de semnificaie indicat de test este de 0,008 mai mic dect 0,05, ceea ce ne
ndreptete s respingem ipoteza H0 i s acceptm ipoteza H1.
Analiz dispersional cu un factor (ANOVA)
Colectivitile cu care operm n statistica social-economic dei au un caracter
finit sunt formate de cele mai multe ori dintr-un numr foarte mare de uniti purttoare a
unor variabile cu un grad mare de variaie. Din aceast cauz unitile la care s-a fcut
observarea trebuie mprite n grupe, n funcie de variaia factorilor determinani.
n cazul n care s-a aplicat n prealabil metoda gruprii se pot calcula att medii ct
i indicatori de variaie (dispersii) pe grupe i pe total colectivitate. Media i dispersia pe
ntreaga colectivitate se pot calcula fie fcnd abstracie de faptul c ea este compus din
mai multe grupe, fie lund n calcul indicatorii corespunztori calculai la nivelul
grupelor.
Exemplu: 50 de ageni economici au fost grupai dup numrul mediu de salariai
i mrimea profitului. Pentru nivelul de semnificaie = 0,05 ne propunem s verificm
dac factorul de grupare este semnificativ, altfel spus dac numrul angajailor
influeneaz variaia profitului.
Repartiia agenilor economici din sectorul de activitate A
dup numrul mediu de salariai i profitul obinut
Ageni economici dup
numrul mediu de salariai
Ageni economici dup mrimea profitului (milioane lei)
Total
sub 10
10 - 50
peste 50
Total

12 - 16
5
5

16 - 20
15
10
25

18

20 - 24
5
10
15

peste 24
5
5

25
20
5
50

Pentru a reliza n SPSS acest lucru alegem calea:


Analyze
Compare Means
One - Way ANOVA

Fig. 11 Selectarea variabilelor

n fiierul creat n SPSS au fost definite variabilele profit, nr_ang. Pentru a se realiza
gruparea dup numrul angajailor a fost necesar codificarea agenilor economici dup variabila
nr_ang, prin generarea unei noi variabile codang.. n figura 11 se observ selectarea variabilelor:
Dependent List: a fost selectat variabila profit
Factor: a fost selectat variabila dup care se face gruparea codang.
OK
Rezultatele prelucrrilor se prezint astfel:
ANOVA
Sum of
Squares
PROFIT

Between
Groups
Within Groups
Total

df

Mean Square

291,540

145,770

316,640

47

6,737

608,180

49

Sig.
21,637

,000

Varianele i valoarea Fcalc

Valoarea calculat pentru criteriul F este 21,63 iar nivelul de semnificaie este 0,000 mai
mic dect 0,05 , ceea ce ne ndreptete s respingem ipoteza H 0 i acceptm H1, factorul de
grupare, numrul angajailor, este semnificativ pentru variaia profitului.
O analiz mai detaliat o obinem alegnd calea:

Analyze
Compare Means
Means

19

Report
PROFIT
sub 10

Mean

17,92

25

Std. Deviation
10 - 50

3,00

Mean

20,00

20

Std. Deviation
peste 50

2,27

Mean

26,20

Std. Deviation
Total

,84

Mean

19,58

50

Std. Deviation

3,52

Mediile de grp
ANOVA Table

PROFIT *
CODANG

Between Groups

Sum of
Squares
291,540

(Combined)

Within Groups
Total

df
2

Mean Square
145,770

316,640

47

6,737

608,180

49

Varianele i valoarea Fcalc


Measures of Association
Eta
PROFIT *
CODANG

Eta Squared
,692

,479

REGRESIE I CORELAIE

20

F
21,637

Sig.
,000

Statistica social-economic studiaz fenomenele de mas n interdepen unele cu altele. n


acest scop datele sunt sistematizate sub form de serii de repartiie multidimensionale. Analiza lor
se realizeaz prin metodele de corelaie statistic.
Utilizarea din ce n ce mai frecvent a metodei corelaiei n statistic este justificat de
necesitatea crecnd a reflectrii ntr-o form numeric adecvat a interdependenei obiective
dintre fenomenele social-economice n ceea ce privete natura, direcia i gradul de intensitate a
legturilor care se manifest ntr-o anumit perioad de timp sau n dinamic.
Exemplu: referitor la valoarea ncasrilor (mil. lei) i cheltuielile publicitare (sute mii lei)
efectuate de o societate comercial n decursul a cinci luni s-au nregistrat datele:

Nr.
crt.
1
2
3
4
5

Analiza legturii dintre cheltuielile publicitare i valoarea ncasrilor


Cheltuieli
Valoarea
publicitare ncasrilor
xi y i
(sute mii lei) (mil. lei)
x i2
y i2
xi

yi

5
6
9
12
18

25
30
35
45
65

Total

x
i 1

50

i 1

25
36
81
144
324

200

x
i 1

2
i

610

125
180
315
540
1170
5

x y
i 1

y i 10 3 x

625
900
1225
2025
4225

25
28
37
46
64

i 1

i 1

2330 y i2 9000 y i 200

Se cere:
a) s se caracterizeze i s se msoare legtura dintre variabile;
b) s se testeze semnificaia coeficienilor pentru un nivel de semnificaie q 0,05 .
Sistemul de ecuaii normale devine:

5a 50b 200

50a 610b 2330

Din rezolvarea sistemului rezult coeficienii: a 10 i b 3 .


Coeficientul de regresie b fiind pozitiv ne arat existena unei legturi directe ntre cele
dou variabile i anume, pe msur ce cheltuielile publicitare cresc cu o sut mii lei, valoarea
ncasrilor crete cu trei milioane lei.
Coeficientul de corelaie:
r

5 2330 50 200

[5 610 (50) 2 ] [5 9000 (200) 2 ]

0,995

arat c ntre cele dou caracteristici exist o legtur puternic.


Testarea semnificaiei coeficienilor pentru nivelul de semnificaie de 0,05 i 5-2 grade de
libertate, pentru care valoarea tabelar a variabilei t este 2,353, conduce la rezultatele:
S b 0,1741 t c

b0
3

17,23
Sb
0,1741

Se observ c valoarea variabilei t calculat este mai mare dect valoarea teoretic 17,23 >
2,353 ceea ce ne ndreptete s tragem concluzia c acest coeficient de regresie este semnificativ

21

diferit de zero. Intervalul de ncredere pentru coeficientul este:


3 2,353 0,1741 3 2,353 0,1741
2,59 3,4

Testarea termenului liber:


S a 1,9228 t c

a0
10

5,20
Sa
1,9228

Se observ c valoarea variabilei t calculat este mai mare dect valoarea teoretic 5,20 >
2,353 ceea ce ne ndreptete s tragem concluzia c termenul liber este semnificativ diferit de
zero. Intervalul de ncredere pentru coeficientul este:
10 2,353 1,9228 10 2,353 1,9228
5,47 14,52

Testarea coeficientului de corelaie:


S r 0,005 t c

0,995
1 0,995 2

5 2 17,23

Desprindem concluzia c i coeficientul de corelaie este semnificativ diferit de zero

t c t q , n care t q 2,13 i corespunde nivelului de semnificaie 0,05 i 5-1 grade de libertate.

Intervalul de ncredere pentru coeficientul va fi:

0,995 2,13 0,005 0,995 2,13 0,005


0,984 1

Pentru a rezolva n SPSS aceast problem se selecteaz:


Analyze
Regression
Linear

Fig. 1 Selectarea variabilelor


Dependent din lista variabilelor se alege variabila dependent;
Independent(s) din lista variabilelor se selecteaz variabilele independente (factorii de
influen);
Method: - se alege metoda de analiz:
Enter se analizeaz variabilele global, ntr-un singur pas;
Forward regresie pas cu pas ascendent;
Backward regresie pas cu pas descendent;
Stepwise la fiecare pas sunt indicate variabilele incluse i excluse din modelul iniial;
Remove sunt indicate variabilele eliminate din model;
Statistics - conduce la ecranul:

22

Fig. 2 Selectarea parametrilor pentru coeficienii de regresie i analiza reziduurilor


Estimates calculul coeficienilor de regresie;
Confidence intervals stabilirea intervalului de ncredere pentru coeficienii de
regresie pentru probabilitatea de 95%;
Covariance matrix matricea de varian-covarian pentru coeficienii de regresie;
Model fit determin raportul de corelaie R, coeficientul de determinaie R2, R2
ajustat, eroarea standard, analiz ANOVA;
Descriptives afieaz pentru fiecare variabil media, abaterea standard, matricea
corelaiilor;
Part and partial correlations corelaii pariale;
Collinearity diagnostics analiza colinearitii.
Plots- reprezentri grafice
Save - conduce la ecranul:

Fig. 3 Selectarea parametrilor pentru obinerea valorilor ajustate i a valorilor


reziduale
Predicted Values
Unstandardized se obin valorile variabilei dependente y i , calculate cu ajutorul
coeficienilor de regresie (valorile ajustate);
Standardized pentru valorile ajustate se calculeaz media i abaterea standard.
Standardizarea const n mprirea abaterilor fa de medie la eroarea standard.
Valorile standardizate au media 0 i abaterea standard 1;
Adjusted valorile variabilei dependente ce corespund fiecrei observaii, dar
calculate cu coeficienii de regresie ce au rezultat din modelul de regresie din care

23

observaia respectiv a fost ndeprtat y (i ) ;


Residuals
Unstadardized valorile ei y i y i ;
Standardized valorile e i standardizate;
Studentized valorile studentizate;
Distances
Mahalanobis msoar distana fiecrei valori a variabilei independente fa de
media variabilei. O distan mare indic o valoare extrem;
Cooks
Leverage values contribuia unei observaii dat de valoarea hi (levierul);
Influence statistics
DfFit calculeaz valorile DFITS;
Options conduce la ecranul:

Fig.4 Stabilirea criteriului de selectare a variabilelor

Stepping Method Criteria


Use probability of F o variabil este introdus n model dac nivelul de semnificaie
pentru valoarea calculat F este mai mic dect valoarea specificat n Entry i este
scoas din model dac nivelul de semnificaie pentru valoarea calculat F este mai
mare dect valoarea specificat n Removal;
Use F value - o variabil este introdus n model dac valoarea calculat F este mai
mare dect valoarea specificat n Entry i este scoas din model dac valoarea
calculat F este mai mic dect valoarea specificat n Removal;
Pentru exemplul de mai sus s-au obinut rezultatele:

24

Descriptive Statistics
Std.
Deviation
15,8114
5,2440

Mean
40,0000
10,0000

INCAS
PUB

N
5
5

Correlations
Pearson
Correlation

INCAS
1,000
,995
,
,000
5
5

INCAS
PUB
INCAS
PUB
INCAS
PUB

Sig.
(1-tailed)
N

PUB
,995
1,000
,000
,
5
5

Variables Entered/Removedb
Variables
Entered
PUBa

Model
1

Variables
Removed
,

Method
Enter

a. All requested variables entered.


b. Dependent Variable: INCAS

Model Summaryb

Model
1

R
,995a

R Square
,990

Adjusted
R Square
,987

Std. Error
of the
Estimate
1,8257

a. Predictors: (Constant), PUB


b. Dependent Variable: INCAS

ANOVAb
Model
1

Regression
Residual
Total

Sum of
Squares
990,000
10,000
1000,000

df
1
3
4

a. Predictors: (Constant), PUB


b. Dependent Variable: INCAS

25

Mean
Square
990,000
3,333

F
297,000

Sig.
,000a

Coefficientsa

Unstandardized
Coefficients
Model
1

(Constant)
PUB

B
10,000
3,000

Std. Error
1,923
,174

Standardi
zed
Coefficien
ts
Beta
,995

t
5,201
17,234

Sig.
,014
,000

95% Confidence
Interval for B
Lower
Upper
Bound
Bound
3,881
16,119
2,446
3,554

a. Dependent Variable: INCAS

Corelaia simpl curbilinie


n practica statistic se ntlnesc i legturi care nu se realizeaz de form liniar. n acest
caz se pot ntlni forme variate de legturi curbilinii specifice relaiilor de dependen dintre
caracteristica factorial aleas i cea rezultativ.
Aceste legturi neliniare se ntlnesc mai frecvent sub forma unei parabole de gradul 2, a
hiperbolei i a funciei exponeniale. n cazul legturii neliniare este necesar ca, pe baza graficului,
s se aleag acea funcie care, tratat vizual, s prezinte abateri minime de la linia valorilor
empirice nscrise n cmpul de corelaie. Cnd nu se poate desprinde cu claritate forma de
realizare a legturii dintre x i y este necesar s se calculeze mai multe ecuaii de estimare, cu care
s se ajusteze datele i s se aleag apoi aceea care d o dispersie minim fat de valorile
teoretice ale caracteristicii rezultative n funcie de factorul ales.
Exemplu: n zece uniti comerciale s-au cules date cu privire la valoarea vnzrilor de
tricotaje i nivelul relativ al cheltuielilor de circulaie:
Valoarea vnzrilor
Nivelul relativ al
(mil. lei)
cheltuielilor de circulaie (%)
x
y
5,1
8
5,5
7,2
6,0
6,8
6,5
6,4
6,7
6
7,0
5,6
7,0
5
8,5
4,6
11,0
4,2
13,0
4,2
Pentru a rezolva n SPSS problemele de regresie neliniar se apeleaz:
Analyze
Regression
Curve Estimation

26

Fig. 5 Selectarea opiunilor pentru regresia neliniar


Pentru a vizualiza legtura dintre cele dou variabile s-a utilizat:
Graphs
Scatter
9

CHELT

4
4

10

12

14

VINZARI

Fig. 6 Legtura dintre cheltuieli i vnzri


Graficul sugereaz o legtur invers ntre cele dou variabile. Pentru a putea face
comparaie ntre modelul liniar i modelul hiperbolic au fost selectate ambele metode de analiz,
obinndu-se rezultatele:

Dependent variable.. CHELT

Method.. LINEAR

27

Multiple R
R Square

,85395
,72923
Analysis of Variance:

Regression
Residuals
F=

DF

Sum of Squares

Mean Square

1
8

11,259261
4,180739

11,259261
,522592

21,54502

Signif F = ,0017

-------------------- Variables in the Equation -------------------Variable

VINZARI
(Constant)

-,442581
9,176893

SE B

Beta

,095350 -,853948
,762589

Dependent variable.. CHELT


Multiple R
R Square

T
-4,642
12,034

Sig T
,0017
,0000

Method.. INVERSE

,95148
,90531

Analysis of Variance:
DF Sum of Squares
Regression
Residuals
F=

1
8

13,978011
1,461989

76,48762

Mean Square
13,978011
,182749

Signif F = ,0000

-------------------- Variables in the Equation -------------------Variable


VINZARI
(Constant)

B
33,109280
1,102268

SE B
3,785769
,553896

Beta
,951479

Sig T

8,746 ,0000
1,990 ,0818

The following new variables are being created:


Name

Label

FIT_3
FIT_4

Fit for CHELT with VINZARI from CURVEFIT, MOD_2 LINEAR


Fit for CHELT with VINZARI from CURVEFIT, MOD_2 INVERSE

28

CHELT
9

5
Observed
4
Linear
3

Inverse
4

10

12

14

VINZARI

Fig. 7 Valorile observate comparate cu liniile de regresie


Modelul liniar a condus la funcia y 9,176 0,442 x (coficientul b fiind negativ arat
legtur invers ntre cele dou variabile), raportul de corelaie R de 0,8539 indic o legtur
puternic iar valoarea F = 21,54 pentru care nivelul de semnificaie este 0,0017 (mai mic dect
2
0,05 ales pentru testarea modelului) arat c modelul este semnificativ. ei 4,18 .
Modelul hiperbolic a condus la funcia y 1,1 33,1

1
, raportul de corelaie R este
x

0,9514, valoarea F = 76,48 pentru care nivelul de semnificaie este 0,0000. ei 1,46 . Din
aceste rezultate deducem c modelul hiperbolic estimeaz mai bine legtura dintre cele dou
variabile.
2

Regresia pas cu pas


Dac numrul variabilelor explicative este important, apare necesitatea aplicrii metodelor
de selectare automat a variabilelor. Metodele cele mai utilizate sunt regresia pas cu pas
ascendent (forward stepwise regression), regresia pas cu pas descendent (backward stepwise
regression), sau o combinaie a celor dou.
Regresia pas cu pas ascendent
Regresia pas cu pas ascendent este o metod iterativ constnd n selecionarea la fiecare
etap a variabilei explicative ce maximizeaz coeficientul de determinaie R 2 al lui Y cu toate
variabilele selecionate n etapele precedente i noua variabil gsit, astfel nct aportul marginal
al celei din urm s fie semnificativ.
n prima etap se construiete tabelul R2(Y,Xj):
Variabile

R2(Y,Xj)

29

Fj

Nivel de
semnificaie

X1
.
.
Xp

R2(Y,X1)
.
.
2
R (Y,Xp)

F1
.
.
Fp

1
.
.
p

Se selecioneaz variabila explicativ pentru care criteriul F este cel mai mare i nivelul de
semnificaie este cel mai mic (mai mic dect nivelul de semnificie ales).
n etapa a doua se construiete tabelul R2(Y, Xst-1 ,Xj), n care Xst-1 este variabila explicativ
selecionat la pasul anterior. Se selecioneaz o nou variabil, aplicnd acelai principiu.
Procedura se oprete atunci cnd variabilele rmase au toate nivelul de semnificaie mai
mare dect nivelul .
Criteriul utilizat pentru selecionarea variabilelor const n alegerea la fiecare etap a
variabilei care va avea cel mai mare F parial. Presupunem c la momentul t variabilele X1 ... Xt au
fost selecionate:
F j=

S( X 1 ,..., X t , X j ) - S( X 1 ,..., X t )
( ( y i - y )2 - S( X 1 ,..., X t , X j )) / (n - t - 2)

n care statistica: S(X1,...,Xk) reprezint suma ptratelor

2
(
Y
)
Yx
i

explicat de

i=1
variabilele X1,...,Xk .
Putem nelege astfel problema multicoliniaritii n regresia multipl. Exist variabile puternic
corelate cu celelalte variabile explicative, ceea ce face ca aportul lor la explicarea variabilei Y
s fie foarte mic. Prin aplicarea acestor modele de selecie variabilele nesemnificative sunt
eliminate.
Valorile variabilelor nregistrate la 32 uniti turistice
Nr. turiti
(mii pers.)
X1
398
369
268
484
394
332
336
383
285
277
456
355
364
320
311
362

Zile - turiti
X2
1080
1180
1290
1110
1460
1400
1360
1040
1050
1350
1280
1310
1200
1470
1430
1450

Pre mediu/zi
(zeci mii lei)
X3
56
59
56
57
59
60
59
60
63
62
64
64
63
65
67
66

Val. investiiilor
(zeci mil. lei)
X4
12
9
28
12
13
11
24
20
8
10
21
23
13
14
22
23

30

Clelt. publicit.
(sute mii lei)
X5
76
88
51
39
51
20
40
31
12
68
52
76
96
47
27
72

Val. ncas.
(mil. lei)
Y
5550
5439
4290
5502
4871
4708
4627
4110
4122
4842
5740
5094
5383
4888
4033
4941

408
433
359
476
415
420
536
432
436
415
462
429
517
328
418
515

1310
1240
1060
1380
1480
1360
1110
1520
1230
1190
1120
1250
1420
1230
1350
1200

66
67
68
71
69
69
73
73
73
74
73
74
74
52
68
78

13
8
27
18
7
10
27
15
32
19
14
11
26
19
34
23

62
24
73
63
28
91
74
16
42
41
92
83
74
87
74
21

5312
5139
5397
5149
5450
4989
5926
4703
5365
4630
5711
5095
6142
4787
5035
5288

Modelul estimat prin metoda celor mai mici ptrate este:


Y 2879,9 5,52 X 1 0,166 X 2 8,18 X 3 4,99 X 4 8,52 X 5

Funcionarea procedurii se realizeaz astfel:


Pas 1. Se calculeaz R 2 (Y , X j ), j 1, n precum i valorile F j pariale mpreun cu nivelul
de semnificaie.
Variabile
R2 (Y,Xj )
Fj
Nivel de semnificaie
X1
0.500
30.024
0.000
X2
0.017
0.515
0.478
X3
0.102
3.400
0.075
X4
0.003
0.083
0.776
X5
0.227
8.801
0.006
Variabila selecionat este X1.
2
Pas 2. Se calculeaz R (Y , X 1 , X j ) :
Variabile
R2 (Y,X1 ,Xj )
X2
0.502
X3
0.521
X4
0.503
X5
0.676

Fj
14.645
15.787
14.677
30.203

Nivel de semnificaie
0,717
0,268
0,687
0,000

Variabila selecionat este X5.


Obs.Valoarea Fj corespunde modelului n ansamblu iar nivelul de semnificaie corespunde
variabilei analizate (de exemplu, n modelul (Y , X 1 , X 4 ) 0,687 este nivelul de semnificaie
pentru variabila X4. Deoarece valoarea nivelului de semnificaie este mai mare de 0,05,
variabila nu este reprezentativ pentru model).
Pas 3. Se construiete tabelul:
Variabile R2 (Y,X1 , X5 ,Xj )
Fj
Nivel de semnificaie
X2
0.676
19.452
0.917
X3
0.683
20.111
0.426
X4
0.683
20.093
0.432

31

Se observ dup valorile nivelului de semnificaie c nici o variabil nu va mai fi inclus n


model. Din cei cinci factori de influen considerai iniial au fost reinui doar doi, numrul
turitilor i cheltuielile publicitare.

Fig. 8 Alegerea metodei de selectare a variabilelor


Rezultatele oferite de produsul SPSS se pot urmri n tabelele de mai jos:
Model Summaryc

Model
1
2

R
,707a
,822b

R Square
,500
,676

Adjusted
R Square
,484
,653

Std. Error
of the
Estimate
370,47
303,56

a. Predictors: (Constant), Nr.turisti (mii pers.)


b. Predictors: (Constant), Nr.turisti (mii pers.), chelt. publ.(sute
mii lei)
c. Dependent Variable: valoarea incas. (mil lei)

ANOVA c
Model
1

Regression
Residual
Total
Regression
Residual
Total

Sum of
Squares
4120838,0
4117531,9
8238369,9
5566130,7
2672239,2
8238369,9

df
1
30
31
2
29
31

Mean
Square
4120838,0
137251,064
2783065,3
92146,180

a. Predictors: (Constant), Nr.turisti (mii pers.)


b. Predictors: (Constant), Nr.turisti (mii pers.), chelt. publ.(sute mii lei)
c. Dependent Variable: valoarea incas. (mil lei)

32

F
30,024

Sig.
,000a

30,203

,000b

Coefficientsa
Standardiz
ed
Coefficients

Unstandardized
Coefficients
Model
1

(Constant)
Nr.turisti
(mii pers.)
(Constant)
Nr.turisti
(mii pers.)
chelt.
publ.(sute
mii lei)

B
3005,872

Std. Error
382,457

5,205

,950

2628,463

327,543

4,948

,781

8,568

2,163

Beta

95% Confidence Interval


for B
Lower
Upper
Bound
Bound
2224,790
3786,953

7,859

Sig.
,000

5,479

,000

3,265

7,145

8,025

,000

1958,562

3298,365

,672

6,334

,000

3,350

6,545

,420

3,960

,000

4,143

12,993

,707

a. Dependent Variable: valoarea incas. (mil lei)

Excluded Variablesc

Model
1

zile-turisti
pret mediu /
zi (zeci mii
lei)
val. invest.
(zeci mil lei)
chelt.
publ.(sute
mii lei)
zile-turisti
pret mediu /
zi (zeci mii
lei)
val. invest.
(zeci mil lei)

Collinearity
Statistics
Tolerance
,986

-,365

Sig.
,717

Partial
Correlation
-,068

-1,129

,268

-,205

,624

-,407

,687

-,075

,978

,420

3,960

,000

,592

,993

,012b

,105

,917

,020

,967

-,807

,426

-,151

,611

-,797

,432

-,149

,972

Beta In
-,048a
a

-,184

-,054

-,110

-,086

a. Predictors in the Model: (Constant), Nr.turisti (mii pers.)


b. Predictors in the Model: (Constant), Nr.turisti (mii pers.), chelt. publ.(sute mii lei)
c. Dependent Variable: valoarea incas. (mil lei)

33

ANALIZE MULTIDIMENSIONALE

ANALIZA COMPONENTELOR PRINCIPALE (ACP)


Studiul unui eantion sau al unei populaii poate fi considerat complet, de regul,
doar dac au fost msurate sau evaluate foarte multe variabile, pentru fiecare individ
(sperndu-se ca msurtorile fcute s acopere domeniul de investigaie). La prima
vedere, fiecare dintre variabilele msurate ar putea prea a fi de aceeai importan;
ns innd seama de faptul c ntre unele ar putea exista legturi de dependen (i
deci unele ar putea fi redundante), am putea s descoperim c un numr mic de
variabile, independente ntre ele, explic suficient (cea mai mare parte din ) abaterile
constatate asupra indivizilor.
Domenii de aplicare
a) extragerea i interpretarea factorilor, permind structurarea variabilelor
iniiale, oferind un rezumat al informaiei aduse de ansamblul variabilelor;
b) selecionarea dintr-un ansamblu important de variabile a celor care
intervin mai mult n descrierea fenomenului studiat. Este posibil de conservat pentru
analize ulterioare numai a acelora puternic corelate cu factorii considerai cei mai
importani;
c) ACP poate fi considerat ca o faz intermediar pentru aplicarea altor
metode asupra fie a indivizilor, fie a variabilelor.
34

Exemplu: Trei mrci ale aceluiai tip de produs sunt notate de la 0 la 10 de 6


consumatori:
Aprecierile consumatorilor
Mrci
I
II
Consumatori
1
4
5
2
6
7
3
8
0
4
0
6
5
10
7
6
8
5

III
6
8
1
3
4
2

P1. Reducerea datelor


Indicatori statistici
Medii
Abateri medii
ptratice

I
6

II
5

III
4

3,27

2,38

2,38

Deoarece datele sunt omogene este suficient centrarea lor, astfel nct se
obine tabelul T0.
T0
1
2
3
4
5
6

Centrarea datelor
I
-2
0
2
-6
4
2

II
0
2
-5
1
2
0

III
2
4
-3
-1
0
-2

P2. Calculul coordonatelor punctelor pe axe


Elaborarea matricei de varian covarian:
V (T0 ) ' (T0 )

n care:

T0

este matricea datelor centrate, iar


2

V 0
2

0
2
4

2
5
3

6
1
1

4
2
0

35

0
2

T0'

este transpusa matricei

2
2 0

2
4
0
2 5 3

6 1 1
4 2 0

2 0 2

T0

64

V 8
8

34

22

22

34

Urma matricei V este egal cu suma elementelor de pe diagonal: 64+34+34 =


132.
Rangul matricei T0 este egal cu 3 (rangul unei matrice cu m linii i n coloane r
min(m,n).
Diagonalizarea matricei de varian covarian:
- calculul valorilor proprii i :
64

Det 8
8

8
34
22

8
1

22 0
0
34

0
1
0

0
1

Numrul soluiilor este egal cu rangul matricei de date. Se obin n acest caz
trei soluii:
1 72

2 48

3 12

i 1

72 0 0

D 0 48 0
0 0 12

132

Fiecrei valori proprii i corespunde un vector propriu care definete direcia


unei axe factoriale. Valoarea proprie msoar ineria norului ce va fi proiectat pe
acea ax factorial.
Astfel: 1 72
2 48

72
55%
132

48
36%
132

din ineria total proiectat pe axa 1.


din ineria total proiectat pe axa 2.

Obs. n ACP normat suma valorilor proprii este egal cu numrul de


variabile.
- determinarea vectorilor proprii:
Se utilizeaz urmtoarele relaii:
Valorii proprii 1 72 vectorul propriu u1 astfel nct V u1 72 u1
Valorii proprii 2 48 vectorul propriu u2 astfel nct V u2 48 u2
Valorii proprii 3 12 vectorul propriu u3 astfel nct V u3 12 u3
Se obin vectorii proprii:
36

u1 1
1

1

u 2 1
1

u3 1
1

- determinarea vectorilor proprii normai:


Amintim c norma sau lungimea unui vector

a

u b este
c

a2 b2 c2

i c normarea unui vector const n divizarea acestuia prin norma sa:


2/ 6

u1 1 / 6

1/ 6

1/ 3

u2 1 / 3

1/ 3

u3 1 / 2
1/ 2

Calculul coordonatelor punctelor pe axele factoriale:


- calculul coordonatelor punctelor indivizi:
indivizi
2

2
2 / 6 1/ 3
2 5 3

1/ 6 1/ 3
6 1 1
4 2 0 1/ 6 1/ 3

2 0 2

u1

u2

2.45

2.45

1/ 2

1 / 2

u3

4.90

4.90
2.45

2.45

1.41

3.46 1.41
3.46 1.41

3.46 1.41
3.46 1.41

0
1.41

2
3
4
5
6

T0

axa1 axa2 axa3


coordonate puncte - indivizi

- calculul coordonatelor punctelor variabile:


Se nmulete fiecare vector propriu normat cu abaterea medie ptratic a
norului proiectat pe axa corespunztoare.
variabile
2 / 6 72

1 / 3 48

1 / 6 72

1 / 3 48

1 / 6 72

1 / 3 48

6.93

1 / 2 12 3.46

3.46
1 / 2 12

2.45
2.45

II

III

axa1 axa2 axa3


coordonate puncte variabile

37

Graficul punctelor indivizi i variabile


4

3
2
1
0
-1

VAR00002

-2
-3

-4
-6

-4

-2

VAR00001

P3. Interpretarea rezultatelor


Marca I este opus mrcilor II i III.
Indivizii 5 i 6 sunt destul de apropiai prin preferinele lor pentru marca I, n
timp ce indivizii 1 i 2 prefer mrcile II i III.
Individul 1 i mai ales individul 4 consider defavorabil marca I.
Individul 6 i mai ales individul 3 consider defavorabile mrcile II i III.
Individul 2 pare a fi indiferent fa de marca I, n timp ce individul 5 nu pare
deloc interesat de marca II i III.
Exemplul 1: innd cont de faptul c potenialii cumprtori apreciaz
automobilele dup caracteristicile prezentate n tabelul de mai jos, ne propunem
efectuarea unei analize n componente principale utiliznd produsul SPSS4.
Datele au fost introduse prin meniul Data Difine Variable.
Pentru apelarea analizei n componente principale se alege calea:
Analyze
Data Reduction
4

Spircu L., Calciu M., Spircu T., Analiza datelor de marketing, Ed. All, Bucureti 1994, pag. 89
38

Factor
Caracteristici ale automobilelor
Cod
A
C
D
F1
F2
F3
F4
F5
N
O
P1
P2
P3
P4
R1
R2
R3
R4
R5
S1
S2
S3
S4
T1
T2
V

Model

Pre

Cap.cil

Austin Metro Special


Citroen AX
Daihatsu
Fiat Uno 45
Fiat Uno Turbo
Fiat Uno 70
Ford Fiesta Junior
Ford Fiesta XR
Nissan

12000
13275
14625
13475
25005
17845
13050
21743

998
954
993
999
1301
1302
1117
1597

140
145
145
145
200
165
137
180

12400

988

Opel Corsa
Peugeot 205 XE
Peugeot 205 GL
Peugeot 205 GT
Peugeot 205 GTI
Renault 4 TL
Renault 4 GTL
Renault 5 SL
Renault 5 GTS
Renault GT Turbo
Seat GLX
Seat GL
Suzuki GA
Suzuki GL
Toyota L
Toyota XL
Volkswagen

13050
13260
15780
18965
25175
12981
13806
14156
17250
25319
19283
10970
12115
14655
14000
16850
18045

993
954
1124
1360
1580
956
1108
1108
1397
1397
1461
903
993
1324
999
1295
1272

39

Viteza Cons

Cap.hab

Lung.

6,2
5,6
6,7
6,2
8,9
7,7
7,0
9,3

955
1170
1151
968
968
968
900
973

340
350
361
364
364
364
364
364

Gr./P
.
23,2
19,4
20,8
21,5
11,0
16,0
22,7
12,0

140

6,4

375

364

17,0

143
134
142
170
190
115
120
143
167
200
175
131
145
163
150
170
170

7,2
6,8
5,8
9,2
8,7
6,3
6,3
5,8
7,9
8,7
8,8
7,3
6,4
6,5
6,1
6,8
8,0

845
1200
1200
1200
1200
950
950
915
915
915
1200
1088
400
400
202
202
1040

362
370
370
370
370
367
367
359
359
359
364
347
358
358
370
370
365

22,4
23,8
21,4
13,9
11,2
33,1
28,4
20,6
13,8
10,2
14,7
23,4
18,4
14,0
19,5
15,0
14,0

Fig. 1 Selectarea variabilelor

Din lista iniial de variabile se plaseaz cu sgeat dreapta variabilele ce vor


intra n analiz, cu condiia s fie numai variabile numerice.
Descriptives permite obinerea unei analize univariate coninnd indicatorii:
medie, abaterea medie ptratic, precum i matricea de corelaie dintre variabile;
Extraction se selecteaz metoda, se alege numrul de factori, se marcheaz
apariia graficului valorilor proprii Scree plot;

Fig. 2 Funciile modulului Extraction

Rotation permite aplicarea metodei fr rotirea sau cu rotirea axelor, precum


i reprezentarea graficului variabilelor prin opiunea Loading plot(s);

40

Fig. 3 Funciile modulului Rotation

Scores creeaz variabile noi ce conin coordonatele punctelor indivizi;


Pentru exemplul de mai sus s-au obinut rezultatele:
Variabile
CAP.CIL
CAP_HAB
CONSUM
GR_P
LUNGIME
PRET
VITEZA

Statistic descriptiv
Mean
Std. Deviation
1172,04
209,44
894,23
311,19
7,177
1,156
18,5154
5,6098
362,31
7,43
16118,38
4229,97
154,81
22,61

Analysis N
26
26
26
26
26
26
26

Correlation Matrixa
Correlation

CAP.CIL
CAP_HAB
CONSUM
GR_P
LUNGIME
PRET
VITEZA

CAP.CIL
1,000
,135
,792
-,775
,305
,849
,829

CAP_HAB
,135
1,000
,320
,088
-,072
,247
,038

CONSUM
,792
,320
1,000
-,680
,218
,809
,778

a. Determinant = 3,179E-04

41

GR_P
-,775
,088
-,680
1,000
-,104
-,765
-,937

LUNGIME
,305
-,072
,218
-,104
1,000
,327
,163

PRET
,849
,247
,809
-,765
,327
1,000
,914

VITEZA
,829
,038
,778
-,937
,163
,914
1,000

Total Variance Explained

Component
1
2
3
4
5
6
7

Initial Eigenvalues
% of
Cumulative
Total
Variance
%
4,354
62,197
62,197
1,133
16,192
78,388
,965
13,787
92,175
,229
3,277
95,452
,176
2,516
97,968
,129
1,850
99,818
1,276E-02
,182
100,000

Extraction Sums of Squared Loadings


% of
Cumulative
Total
Variance
%
4,354
62,197
62,197
1,133
16,192
78,388

Extraction Method: Principal Component Analysis.

Valorile proprii sunt:

1 4,354 2 1,133 3 0,965 4 0,229

5 0,176 6 0,129 7 0,01276

Primii doi factori exprim 78,4 din variana total, ceea ce nseamn c i
putem utiliza pentru a reprezenta norul de puncte n planul principal.
Scree Plot
5

Eigenvalue

0
1

Component Number

Fig. 4 Graficul valorilor proprii

Informaia coninut n ultimii factori este neglijabil comparativ cu cea


coninut n primii, ceea ce permite o reducere a numrului factorilor ce descriu un
fenomen.

42

Compone nt Ma trixa
Component
1
CAP.CIL
CAP_HAB
CONSUM
GR_P
LUNGIME
PRET
VITEZA

,924
,173
,884
-,882
,305
,951
,956

2
-2,48E-02
,949
,224
,230
-,335
7,321E-02
-,108

Extraction Method: Principal


Component Analysis.
a. 2 components extracted.

Coeficienii de corelaie prezentai n tabelul de mai sus servesc drept


coordonate ale variabilelor n planul celor doi factori.

Component Plot
cap_hab

1,0

,5
gr_p

consum
pret
cap.cil
viteza

Component 2

0,0
lungime
-,5

-1,0
-1,0

-,5

0,0

,5

1,0

Component 1

Fig. 5 Reprezentarea variabilelor n planul celor doi factori

Privind graficul, devine evident faptul c factorul 1 este apropiat de


variabilele vitez, pre, capacitate cilindric i consum, adic performane tehnice,
pe cnd factorul 2 este apropiat de confortul intern.
Pentru a reprezenta punctele indivizi pe harta indivizilor se folosesc
coordonatele acestora aflate n variabilele fac1_1 i fac2_1 .

43

Cod
A
C
D
F1
F2
F3
F4
F5
N
O
P1
P2
P3

fac1_1
-1,076
-,853
-,500
-,661
1,628
,528
-,553
1,600
-,654
-,600
-,716
-,425
1,118

Coordonatele punctelor indivizi


fac2_1
Cod
1,072
P4
1,015
R1
,7814
R2
,0916
R3
,0851
R4
,0992
R5
,1034
S1
,2063
S2
-1,63
S3
,0460
S4
,7103
T1
,4399
T2
,6544
V

fac1_1
1,866
-1,397
-,982
-,626
,674
1,681
1,130
-1,044
-,719
,099
-,572
,355
,700

fac2_1
,4591
,4842
,2896
,0545
,0825
,0731
,8272
1,378
-1,30
-1,51
-2,31
-2,43
,2169

Pentru realizarea graficului se apeleaz :


Graphs
Scatter .

Fig. 6 Alegerea parametrilor pentru reprezentarea grafic

n graficul de mai jos au fost reprezentai indivizii (mrcile) n planul


principal, conform coordonatelor punctelor indivizi.

44

2
S2
A

REGR factor score 2 for analysis

1
R1

R2

S1
P3

P1

P4

P2
V
F3 R4

F1
R3
OF4

F5
F2
R5

-1

S3
S4

N
-2

T1

T2

-3
-1,5

-1,0

-,5

0,0

REGR factor score 1 for analysis

,5

1,0

1,5

2,0

Fig. 7 Punctele indivizi

Un cumprtor i poate face acum o idee mai exact asupra clasamentului


acestor mrci, poate alege mai clar, n funcie de ceea ce l intereseaz:
pre/performane tehnice, sau confortul intern al autoturismului.
Exemplul 2: Dintr-o cercetare pe baz de sondaj, asupra unui eantion
format din 110 turiti au fost selecionate cteva variabile din chestionarele
nregistrate (modul de cazare, dac a sosit cu un grup sau individual, motivaia
turistic, profesia, sexul, ce tip de sport practic, sursele de informare, ara, vrsta,
mijlocul de transport utilizat), n vederea efecturii unei analize n componente
principale.
S-au obinut rezultatele:
Matricea coeficienilor de corelaie:
CAZARE
GRUP MOTIV
PROFESIE
SURSE_IN
CAZARE 1.00000
GRUP
.53555
1.00000
MOTIV
-.22277
.09222 1.00000
PROFESIE .24877
.18259 -.13558
1.00000
SEX
.54844
.42999 -.04401
.33284
SPORT
.35921
-.03650 -.16822
.25919
SURSE_IN -.20775
-.36539 -.04173
.58147
ARA
-.28417
-.34993 -.12478
.60704
TRANSP
.34276
.10355 -.20298
.66436

45

SEX

SPORT

1.00000
.19040 1.00000
-.01131 .34082
.06825
.17510
.39625
.46192

1.00000
.65745
.60163

VRSTA

.77286
.58829 -.19978
ARA TRANSP VRSTA
ARA
1.00000
TRANSP .59873 1.00000
VRSTA -.20254 .39162 1.00000

.33210

.53111

.21977

-.09029

Determinarea valorilor proprii:


Variabile

Factori

CAZARE
GRUP
MOTIV
PROFESIE
SEX
SPORT
SURSE_IN
ARA
TRANSP
VRSTA

1
2
3
4
5
6
7
8
9
10

Valori proprii

3.48485
34.8
2.82289
28.2
1.09891
11.0
.83836
8.4
.55509
5.6
.37733
3.8
.28967
2.9
.26634
2.7
.18518
1.9
.08138
.8

%
cumulate
34.8
63.1
74.1
82.5
88.0
91.8
94.7
97.3
99.2
100.0

Factor Scree Plot


4

Eigenvalue

0
1

10

Factor Number

Primii doi factori principali exprim 63,1% din variana (mprtierea)


total, ceea ce nseamn c i putem utiliza pentru a reprezenta norul de puncte n
planul principal, fr a pierde prea mult informaie.
De regul, informaia coninut n ultimii factori ai secvenei este neglijabil,
comparativ cu cea coninut n primii. De aceea, analiza componentelor principale
ofer o baz pentru reducerea numrului factorilor ce descriu un fenomen.

46

Factorii principali Factor 1 i Factor 2 sunt abstraci. Pentru interpretarea


lor se calculeaz coeficienii de corelaie ntre variabilele concrete i cele dou
componente principale. Coeficienii de corelaie vor servi drept coordonate ale
variabilelor n planul celor doi factori. Coeficienii de corelaie a variabilelor cu cei
doi factori:
Factor 1 Factor 2
CAZARE
.65487
-.62181
GRUP
.37138
-.70781
MOTIV
-.28656
-.03825
PROFESIE
.76703
.33938
SEX
.64945
-.34277
SPORT
.54332
.14655
SURSE_IN
.43008
.77862
ARA
.39217
.80252
TRANSP
.84620
.33274
VRSTA
.68980
-.56449
Factor Plot in Rotated Factor Space
1.0

cazare
virsta
mod calatorie
sex

.5
sport

0.0

transp
profesia

motivatia
surse_inf
tara

Factor 2

-.5

-1.0
-1.0

-.5

0.0

.5

1.0

Factor 1

Fig. 8 Reprezentarea grafic a variabilelor n planul celor doi factori

Din reprezentarea grafic desprindem concluziile:

variabile independente, dac unghiul format de vectorii variabilelor este


drept, (de exemplu: mod cltorie, care se refer la cltoria individual sau n grup,
formeaz un unghi aproximativ drept cu profesia);

variabilele sunt apropiate ntre ele dac unghiul format este ascuit,
( de exemplu: practicarea sporturilor de iarn cu profesia, vrsta cu cazarea, sursele
de informare cu ara);
47


variabile sunt opuse (repulsie) dac unghiul format este obtuz,(de
exemplu: cltoria n grup sau individual cu sursele de informare);

cu ct punctul este mai ndeprtat fa de centru n direcia unei axe, cu


att mai mari sunt coordonatele punctului i cu att mai mult contribuie la formarea
axei (transportul, sursele de informare pentru primul factor, cazarea, vrsta, modul
de cltorie pentru al doilea factor).
Din reprezentarea grafic rezult c factorul 1 este apropiat de variabilele:
profesia, transportul, sursele de informare, practicarea sporturilor de iarn, ara, deci
de variabilele care privesc motivaia i mijloacele prin care se poate practica
turismul n Poiana Braov, factorul 2 este apropiat de variabilele: cazare, vrst,
cltorie n grup sau individual, sex, care sunt legate mai mult de confort i datele
personale ale indivizilor.
O alt interpretare ar fi: factorul 1 concentreaz n jurul su variabilele cel
mai bine percepute de indivizii chestionai (sunt activi fa de aceste variabile i
pasivi fa de variabilele ce contribuie la formarea celui de-al doilea factor).
Prin aplicarea metodelor de analiz factorial s-a realizat o reducere a
datelor, nlocuind norul de puncte iniial cu un nor de dimensiuni mai restrnse,
pentru o reprezentare grafic comod i pentru a pune n eviden ceea ce este tipic
n opiniile turitilor.
ANALIZA FACTORIAL A CORESPONDENELOR (AFC)
Analiza factorial a corespondenelor este o generalizare a analizei
componentelor principale, adaptat tratrii datelor calitative, prezentate sub forma
unui tabel de contingen sau a unui tabel format din indivizi descrii prin
caracteristici calitative, studiind legturile dintre dou ansambluri de variabile (sau
ntre modalitile a dou variabile de clasificare).
Cazul a dou caracteristici
Tabel de contingen
Y
hotrtorCriteriul

X
preul
performanele
tehnice
designul

Categoria de vrst
31-40 ani
41-50 ani
35
33

16-20 ani
17

21-30 ani
15

26

28

19

31

34

28

18

15

Se apeleaz:

Analyze
Data Reduction

48

peste 50
42

Correspondence Analysis

Fig. 9 Selectarea variabilelor analizei n componente principale

Codificarea variantelor caracteristicii X s-a realizat astfel:


1 pre;
2 performane tehnice;
3 design.
Codificarea variantelor caracteristicii Y:
1 16 20 ani;
2 21 30 ani;
3 31 40 ani;
4 41 50 ani;
5 peste 50 ani.
Variabila Criteriu se indic pe linii iar n Define Range se completeaz
valoarea minim i valoarea maxim (1 i 3).
Variabila Vrsta se indic pe coloane iar n Define Range se completeaz
valoarea minim i valoarea maxim (1 i 5).

49

Fig. 10 Selectarea opiunilor analizei n componente principale

Cu ajutorul produsului SPSS, prelucrarea datelor din tabelul 4.10 a condus la


urmtoarele rezultate:
2 ,02336
Valorile proprii sunt 1 ,08962
Primul factor principal explic 79,3 din mprtierea datelor

1
0,793 iar al doilea factor principal restul de 20,7
1 2

Row Scores for criteriu


,6
perf.tehn
,4

,2

Dimension 2

0,0
design
-,2
pret

-,4
-1,2

-1,0

-,8

-,6

-,4

Dimension 1
Canonical normalization

50

-,2

0,0

,2

,4

Column Scores for virsta


,8

16-20 ani

,6
,4

Di
,2
me
nsi 0,0
on
2
-,2

21-30 ani
41-50 ani

peste 50 ani

-,4
31-40 ani

-,6
-,8
-1,0

-,5

0,0

,5

1,0

Dimension 1

,8

16-20 ani

,6

perf.tehn

,4
21-30 ani
,2
41-50 ani

0,0

Dim
ens
ion
2

peste 50 ani

design

-,2
pret
-,4
31-40 ani

-,6

virsta

-,8

criteriu

-1,5

-1,0

-,5

0,0

,5

1,0

Dimension 1

Se observ din graficele de mai sus c prima ax (factorul 1) se explic prin


oponena ntre categoria de vrst peste 50 de ani i categoria de vrst 21 30
ani, celelalte modaliti ocupnd poziii intermediare. Tot axa 1 opune preul
designului.
A doua ax (factorul 2) ar putea fi explicat prin oponena dintre modalitile
performane tehnice i pre, sau prin oponena categoria de vrst 16 20 ani
cu cea cuprins ntre 31 40 ani.
Se poate trage concluzia c tinerii ar prefera performanele tehnice iar cei de
vrst mijlocie nclin spre designul i preul produsului.

51

ANALIZA DISCRIMINANT
O populaie este divizat n k clase cu ajutorul unui criteriu calitativ Y.
Fiecare individ al populaiei este descris prin p variabile numerice X 1 ,...... X p .
Analiza discriminant utilizeaz mai multe metode ce permit studierea legturii
dintre criteriul Y i variabilele X 1 ,...... X p , plecnd de la un eantion. Analiza
factorial discriminant permite punerea n eviden a diferenelor dintre clase la
nivelul variabilelor X 1 ,...... X p i vizualizarea datelor. Pentru aceasta este nevoie de
utilizarea procedurilor automate pentru selectarea variabilelor discriminante.
Exemplul 1: o firm de soft5 este interesat s-i extind vnzrile de soft de aplicaie de
marketing. Pentru aceasta efectueaz o cercetare n vederea depistrii caracteristicilor ce ar putea
influena decizia de achiziionare a unui asemenea soft. Analiza este realizat la nivelul a 12 firme
la care s-au nregistrat caracteristicile: dotare cu soft de specialitate, numrul salariailor, cifra de
afaceri.
Valorile variabilelor

Exemplul 2. 17 studeni au fost apreciai dup notele obinute la examenele


de matematic, statistic, informatic i marketing. Primul grup este format din 6
studeni, considerai foarte buni (codul 1) dup notele la cele patru discipline. Al
doilea grup este format din 8 studeni, considerai buni (codul 2) iar al treilea grup
este format din 3 studeni, considerai slabi (codul 3). Utiliznd analiza
discriminant se vor constitui noi grupuri, dup notele obinute la cele patru
discipline.
Nr. Crt.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
5

Notele pe discipline
Nota
Nota
Apreciere matematic statistic
1
8
8
1
5
10
1
7
9
1
7
9
1
8
10
1
8
5
2
6
7
2
6
7
2
7
6
2
5
8
2
5
8
2
7
9
2
10
10
2
9
5
3
5
7
3
7
6

Nota
informatic
5
6
6
8
9
9
7
5
5
6
6
7
10
8
7
6

Nota
marketing
9
9
10
10
8
9
5
7
8
8
5
8
10
8
5
6

Spircu L., Calciu M., Spircu T., Analiza datelor de marketing, Ed. All, Bucureti 1994, pag.166
52

17

Group Statistics

APRECIER
f.bun

bun

slab

Total

Covariance

Correlation

NINFO
NMARK
NMATE
NSTAT
NINFO
NMARK
NMATE
NSTAT

Std.
Deviation
1,72
,75
1,17
1,87
1,67
1,69
1,81
1,60
1,00
,58
1,15
1,00
1,56
1,84
1,52
1,77

Mean
7,17
9,17
7,17
8,50
6,75
7,38
6,88
7,50
6,00
5,33
5,67
6,00
6,76
7,65
6,76
7,59

NINFO
NMARK
NMATE
NSTAT
NINFO
NMARK
NMATE
NSTAT
NINFO
NMARK
NMATE
NSTAT
NINFO
NMARK
NMATE
NSTAT

NINFO
2,595
,542
1,470
,393
1,000
,260
,600
,149

NMARK
,542
1,670
1,110
,357
,260
1,000
,565
,169

NMATE
1,470
1,110
2,313
-,286
,600
,565
1,000
-,115

NSTAT
,393
,357
-,286
2,679
,149
,169
-,115
1,000

Wilks' Lambda
Test of
Function(s)
1 through 2
2

Wilks'
Lambda
,374
,950

Chi-square
12,304
,639

53

df
8
3

Sig.
,138
,887

Canonical Discriminant Function


Coefficients
Function
NINFO
NMARK
NMATE
NSTAT
(Constant)

,081
,818
-,244
,136
-6,190

-,375
-,509
,981
,420
-3,394

Unstandardized coefficients

Casewise Statistics
Statistics
Actual Group
Predicted
Group

Original

Case
Number

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

1
1
1
1
1
1
2
2
2
2
2
2
2
2
3
3
3

**. Misclassified case

54

2**
1
1
1
2**
1
3**
2
2
1**
3**
2
1**
2
3
2**
3

Discriminant Scores
Function 1
Function 2

,718
1,803
1,998
2,160
,498
,635
-2,040
-,566
-,128
,713
-1,742
,443
1,728
-,508
-1,796
-1,683
-2,231

1,358
-1,119
-,087
-,837
1,207
-1,403
,262
-,006
,046
-1,451
,076
,556
1,776
,462
-,719
,689
-,809

Canonical Discriminant Functions


2,0

13

1,5

1,0
16
7
11

0,0

F unction 2

12

14

,5

APRECIER
Group Centroids

-,5
17

15

slab

-1,0

bun

6
10

-1,5
-3

-2

-1

f .bun
1

Function 1

Se observ din tabelul de mai sus c s-au produs schimbri n ceea ce privete
costituirea grupurilor dup notele obinute la cele patru discipline.
ANALIZ CLUSTER
n multe domenii exist un mare interes pentru dezvoltarea metodelor de
clasificare a obiectelor. Foarte adesea obiectele de clasificat sunt clienii. Obiectivul
urmrit este gruparea clienilor poteniali n grupe omogene destul de mari pentru a
putea fi analizai, utiliznd modaliti de clasificare cum ar fi segmentarea i
tipologia.
Exemplul 1: se consider un set de 8 uniti caracterizate prin valori
nregistrate pentru trei variabile. Aplicarea metodei cluster se realizeaz selectnd:
Analyze
Classify
Hierarchical Cluster . . .

55

Fig. 14 Selectarea variabilelor

Variable(s) permite selectarea variabilelor asupra crora se aplic


metoda;
Label Cases by: - implicit cazurile sunt afiate prin numrul curent.
Opional se poate alege pentru identificare o variabil de tip ir de
caractere;
Cluster Cases aplic metoda prin calcularea distanelor dintre indivizi;
Cluster Variables aplic metoda prin calcularea distanelor dintre
variabile;
Analyze . . . ne conduce la ecranul:

Fig. 15 Selectarea parametrilor opiunii Analyze

56

Agglomeration schedule conduce la obinerea unei liste a clusterelor


formate de-a lungul a mai multor pai;
Proximity matrix conduce la afiarea matricei similaritilor sau
disimilaritilor;
Cluster Membership None suprim afiarea membrilor grupurilor;
Cluster Membership Single solution afieaz membrii grupurilor
pentru numrul clusterelor specificate n caseta clusters. De exemplu,
dac se specific 4, colectivitatea va fi mprit n 4 clustere;
Cluster Membership Range of solutions: - afieaz membrii grupurilor
tuturor situaiilor clusterelor specificate n casetele From, trough clusters.
De exemplu, dac se specific de la 2 la 4, este prezentat soluia pentru
mprirea colectivitii n 2 clustere, 3 clustere i 4 clustere.

Plots . . . ne conduce la ecranul:

Fig. 16 Selectarea parametrilor opiunii Plots

Dendrogram permite reprezentarea grafic a coeziunii clusterelor


formate;
Icicle pentru toate sau o parte din clustere, permite afiarea informaiilor
referitoare la fiecare caz ce este combinat ntr-un cluster, la fiecare
iteraie.Se poate selecta orientare vertical sau orizontal.
Method . . .
permite alegerea tipului de distan utilizat n constituirea
clusterelor, precum i transformarea valorilor sau a msurilor.
Save . . . permite salvarea noilor variabile.
Pentru exemplul ales, cu x1, x2, x3 au fost notate variabilele iniiale, iar cu
zx1, zx2, zx3 valorile normalizate cu scor Z.

57

Pornind de la matricea cu date normalizate, se determin distanele euclidiene


medii pentru fiecare pereche de elemente.
Proximity Matrix Squared Euclidean Distance
Case
1
2
3
4
5
6
7
8

2
1,251

1,251
2,461
12,489
2,902
2,882
,372
16,541

1,104
7,888
1,951
1,637
,390
9,251

3
2,461
1,104

4
12,489
7,888
5,100

5,100
,848
1,059
1,915
12,140

5
2,902
1,951
,848
9,290

9,290
9,795
9,993
15,677

6
2,882
1,637
1,059
9,795
0,09198

0,09198
2,909
12,166

7
,372
,390
1,915
9,993
2,909
2,691

2,691
10,452

8
16,541
9,251
12,140
15,677
12,166
10,452
12,754

12,754

Algoritmul de grupare a unitilor pornete de la aceast matrice, opernd


astfel:
1. Se caut n matricea distanelor perechea reciproc de valoare minim. n
exemplu, aceasta este perechea (5,6) pentru care distana d56 = 0,09198.
2. Se atribuie aceleiai grupri (5,6) unitile din perechea reciproc respectiv.
3. Se reface matricea distanelor cu (5,6), considerat ca o singur unitate.
Distana dintre orice cluster X i (5,6) este dat de valoarea distanei minime
dintre uniti ale lui X i ale lui (5,6). De exemplu, de la 1 la 5 distana este
2,902 iar de la 1 la 6 distana este 2,882, se alege 2,882. Aplicnd acest
principiu, rezult urmtoarea matrice a distanelor:
Case
1
2
3
4
(5,6)
7
8

1
1,251
2,461
12,489
2,882
,372
16,541

2
1,251
1,104
7,888
1,637
,390
9,251

3
2,461
1,104
5,100
,848
1,915
12,140

4
12,489
7,888
5,100
9,290
9,993
15,677

(5,6)
2,882
1,637
,848
9,290
2,691
10,452

7
,372
,390
1,915
9,993
2,691

8
16,541
9,251
12,140
15,677
10,452
12,754

12,754

4. Se reia procesul de grupare de la pasul 1, cutnd perechea reciproc maxim


n noua matrice, n cazul nostru (1,7). Ele vor forma nucleul unei grupe noi.
Case (1,7)
(1,7)

2
,390

3
1,915

58

4
9,993

(5,6)
2,691

8
12,754

2
3
4
(5,6)
8

,390
1,915
9,993
2,691
12,754

Case
1+7+2
3
4
(5,6)
8

1,104
1,104
7,888
1,637
9,251

1+7+2
1,104
7,888
1,637
9,251

Case
1+7+2
4
(5,6)+3
8

5,100
,848
12,140

3
1,104
5,100
,848
12,140

1+7+2
7,888
1,104
9,251

Case
1,7,2+5,6,3
4
8

7,888
5,100

1,637
,848
9,290

9,290
15,677

4
7,888
5,100
9,290
15,677

4
7,888
5,100
15,677

1,7,2+5,6,3
5,100
9,251

9,251
12,140
15,677
10,452

10,452

(5,6)
1,637
,848
9,290

8
9,251
12,140
15,677
10,452

10,452

(5,6)+3
1,104
5,100

8
9,251
15,677
10,452

10,452
4
5,100

8
9,251
15,677

15,677

Pentru a reprezenta grafic procesul de grupri, se construiete o


dendrogram, adic un grafic de tip arbore. Nivelul la care se unesc dou clustere
sau dou uniti este marcat printr-o linie vertical care unete liniile orizontale,
denumite ramuri, corespunztoare gruprilor unite. Ramurile care pornesc de la baza
figurii corespund situaiei iniiale, n care un cluster era echivalent cu o unitate.
n final rezult dendrograma de mai jos i lista ciclurilor de grupare
(aglomeration schedule). De exemplu unitatea 2 se unete cu grupul (1,7) la nivelul
0,39 n decursul celui de-al treilea ciclu de grupare.

59

Agglomeration Schedule
Cluster Combined
Cluster 1
Cluster 2
5
6
1
7
1
2
3
5
1
3
1
4
1
8

Stage
1
2
3
4
5
6
7

Coefficients
9,198E-02
,372
,390
,848
1,104
5,100
9,251

Stage Cluster First


Appears
Cluster 1
Cluster 2 Next Stage
0
0
4
0
0
3
2
0
5
0
1
5
3
4
6
5
0
7
6
0
0

Dendrogram
* * * * * * H I E R AR C H I C AL C L U S T E R AN AL Y S I S * * * * * *

Rescaled Distance Cluster Combine


C A S E
0
5
10
15
20
25
Label Num +---------+---------+---------+---------+---------+
5
6
3
1
7
2
4
8

-+---+
-+
I
-----+---------------------+
-+
I
I
-+---+
+---------------------+
-+
I
I
---------------------------+
I
-------------------------------------------------+

5. Obinerea gruprilor propriu-zise se realizeaz prin tierea dendogramei la un


anumit nivel. Nu exist o regul unanim admis, dar jocul liniilor orizontale
de unire a diferitelor ramuri poate sugera nivelul de tiere. Zona n care liniile
orizontale ncep s se distaneze considerabil ntre ele este cea n care poate fi
adecvat tierea. O alt metod ar fi producerea unei rupturi considerabile n
seria coeficienilor care exprim nivelul de contopire a grupelor.
n concluzie, din exemplul prezentat, rezult dou grupuri relativ compacte
(1,7,2) i (5,6,3) i dou uniti izolate 4 i 8.
Exemplul 2: utilizarea analizei cluster n studiul proximitilor salariilor medii
nominale pe activiti ale economiei naionale. Se consider ctigul salarial nominal
60

mediu net lunar, pe activiti ale economiei naionale, anul 2000, zona Centru,
format din judeele Alba, Braov, Covasna, Harghita, Mure, Sibiu. Se urmrete
constituirea grupurilor ce scot n eviden asemnrile dintre salariile pe activiti
ale economiei naionale.
Ctigul salarial nominal mediu net lunar, pe activiti ale economiei naionale,
anul 2000, zona Centru
Judee
AB
BV
CV
Comer
1197136 1407660 1204232
Hotel res.
1248820 1648136 1217915
Transport 1990316 2508140 1769728
Pot
3080666 3371810 3278844
Bnci
4427378 5084607 4360286
Tranz.im.
1433279 2469463 1852821
Administr. 2767425 3300918 2491821
nvm.
1967406 2549858 1777582
Sntate
1409918 1751459 1601269
Sursa datelor: Anuarul Statistic al Romniei 2001

HR
1318291
1296922
1711961
2995325
4505654
1296187
2570497
1725369
1549518

MS
1490653
1263546
1862925
2939668
4715495
1829532
2753103
1905385
1705834

SB
1376971
1283845
2971791
2662131
4191889
1406370
2997957
2073729
1848168

6000000
5000000
4000000
3000000
2000000
1000000
0
Alba

Brasov

comer
posta
administr

Covasna Harghita
hotel rest.
banci
nvm.

Mures

Sibiu

transport
tranz.
sntate

Fig. 17 Ctigul salarial nominal mediu net lunar, pe activiti ale economiei naionale

Metoda utilizat a fost clasificare ierarhic cu opiunea cel mai apropiat


vecin.
Pornind de la matricea de date se determin distanele euclidiene medii pentru
61

fiecare pereche de elemente.


Agglomeration Schedule

Stage
1
2
3
4
5
6
7
8

Cluster Combined
Cluster 1
Cluster 2
3
4
3
7
5
8
3
9
3
5
1
6
1
3
1
2

Coefficients
1,2139E+11
6,4291E+11
8,1082E+11
8,5402E+11
9,3273E+11
1,0506E+12
3,2840E+12
1,3692E+13

Stage Cluster First


Appears
Cluster 1
Cluster 2
0
0
1
0
0
0
2
0
4
3
0
0
6
5
7
0

* * * * * * H I E R A R C H I C A L
N A L Y S I S * * * * * *

Next Stage
2
4
5
5
7
7
8
0

C L U S T E R

Dendrogram using Single Linkage


Rescaled Distance Cluster Combine

C A S E
Label
Num
COMERT
HR
SANATATE
TRANZ
INV
TRANSP
ADM
POSTA
BANCI

3
4
7
9
5
8
1
6
2

0
5
10
15
20
25
+---------+---------+---------+---------+------+
-+
-+-+
-+ I
---+-------+
---+
+----------------------------------+
---+
I
I
---+-------+
I
---+
I
----------------------------------------------+

Din dendrogram rezult cteva grupe: salariile medii nominale lunare sunt
apropiate pentru activitile (comer, hoteluri i restaurante, sntate), (tranzacii
imobiliare, nvmnt), (transporturi, administraie public, pot ) i distinct
sectorul bancar.
Din punct de vedere al unitilor teritoriale, situaia se prezint astfel:

62

Agglomeration Schedule

Stage
1
2
3
4
5

Cluster Combined
Cluster 1
Cluster
1
1
1
1
1

2
4
3
5
6
2

Coefficient
s
3,658
4,549
9,583
17,269
31,884

Stage Cluster First


Appears
Cluster 1
Cluster 2
0
0
1
0
2
0
3
0
4
0

Next Stage
2
3
4
5
0

Rescaled Distance Cluster Combine


C A S E
Label
Num
Alba
Harghita
Covasna
Mures
Sibiu
Brasov

0
5
10
15
20
25
+---------+---------+---------+---------+------+
1
-+
4
-+---------+
3
-+
+-------------+
5
-----------+
+--------------------+
6
-------------------------+
I
2
----------------------------------------------+

Din dendrograma de mai sus rezult un grup relativ compact format din
judeele (Alba, Harghita, Covasna) i trei uniti izolate Mure, Sibiu, Braov.

Este dotat
cu soft
da
da
da
da
da
da
nu
nu
nu
nu
nu
nu

Nr.salariai
X1
33
56
25
41
30
57
38
30
20
10
9
40

CA (mil.lei)
X2
4900
6000
4000
6900
5700
7400
5100
2700
3450
2800
1500
4000

Pentru rezolvarea n SPSS a acestei metode se apeleaz:


Analyze

63

Classify
Discriminant . . .

Fig. 11 Selectarea variabilelor

Analyze . . . ne conduce la ecranul:


Means - permite calcularea mediilor pe subgrupuri pentru fiecare variabil
explicativ;
Univariate ANOVAs - se selecteaz dac se dorete analiz ANOVA
pentru fiecare factor;
Fisher's - se selecteaz dac se doresc coeficienii Fisher ai funciei;
Unstandardized - se selecteaz dac se doresc coeficienii nestandardizai
ai funciei;
Within-groups correlation coeficienii de corelaie n interiorul
grupurilor;
Within-groups covariance - covariana n interiorul grupurilor;
Total covariance - covariana dintre variabile pe total.
Classify . . . ne conduce la ecranul:

64

Fig. 12 Selectarea parametrilor clasificrii

All groups equal - se selecteaz pentru grupuri de volume egale;


Compute from group sizes - se selecteaz pentru grupuri de volume
neegale;
Cassewise results - afieaz grupul actual, grupul rezultat, scorurile de
discriminare;
Within-groups - utilizeaz pentru clasificare matricea de covarian din
interiorul grupurilor ;
Plots - se obin reprezentri grafice pe grupuri combinate sau pe grupuri
separate.

Save . . . ne conduce la ecranul:

Fig. 13 Salvarea noilor variabile

Interpretarea rezultatelor
Cele 12 firme au fost mprite n dou grupuri de volume egale. n urma aplicrii
metodei discriminante va rezulta o alt clasificare i se vor gsi funciile care au
avut o importan mare n obinerea unor grupuri distincte.

65

Group Statistics

SOFT
da
nu
Total

Valid N (listwise)

X1

Mean
40,33

Std.
Deviation
13,56

Unweighted
6

Weighted
6,000

X2

5816,67

1254,46

6,000

X1

24,50

13,59

6,000

X2

3258,33

1232,24

6,000

X1

32,42

15,36

12

12,000

X2

4537,50

1786,20

12

12,000

Grupul firmelor dotate cu soft are centroidul format din mediile celor dou
caracteristici (40.33, 5816.7), iar grupul firmelor ce nu sunt dotate cu soft are
centroidul (24.5, 3258,3).
Pooled Within-Groups Matrices a

Covariance
Correlation

X1

X1
184,283

X2
13209,167

X2

13209,167

1546041,7

X1

1,000

,783

X2

,783

1,000

a. The covariance matrix has 10 degrees of


freedom.

n tabelul de mai sus este afiat matricea de covarian din interiorul claselor
W.
Eigenvalues

Function
1

Eigenvalue
1,422 a

% of
Variance
100,0

Cumulative
%
100,0

Canonical
Correlation
,766

a. First 1 canonical discriminant functions were used in the


analysis.

Deoarece variabila de explicat are doar dou modaliti, rezult o singur


funcie de discriminare.

66

Wilks' Lambda
Test of
Function(s)
1

Wilks'
Lambda
,413

Chi-square
7,963

df
2

Sig.
,019

Indicatorul calitii discriminrii al lui Wilks are valoarea 0.413 cu un nivel de


semnificaie de 0.019, mai mic dect 0.05, ceea ce indic n ansamblu o discriminare
acceptabil.
Canonical Discrim inant
Function Coefficients
Func ti on
1
X1

-,039

X2

,001

(Constant)

-3,694

Unstandardized c oeffic ients

n tabelul de mai sus sunt prezentai coeficienii nestandardizai ai funciei


discriminante.
Rezult funcia discriminant Y 3.694 0.039 X 1 0.001X 2
Prin standardizare (mprire la abaterea standard din interiorul grupelor
W
s1 13.56 13.59 / 2 13.57 i s W
2 1254.5 1232.2 / 2 1243.35 ) se obin coeficienii
standardizai:
Standardized Canonical
Dis crim inant Function
Coefficients
Func ti on
1
X1

-,526

X2

1,356

Cu funcia discriminant se calculeaz scorurile pentru fiecare firm Discriminant


Scores.

67

Casewise Statistics
Highest
Group

Original

Case
Number
1
2
3
4
5
6
7
8
9
10
11
12

Actual
Group

Discrimina
nt Scores

Predicted
Group
Function 1
1
,368
1
,788
2**
-,293
1
2,122
1
1,251
1
2,151
1**
,420
2
-1,731
2
-,693
2
-1,047
2
-2,603
2
-,732

1
1
1
1
1
1
2
2
2
2
2
2

**. Misclassified case

Cu ajutorul distanelor Mahalanobis sunt calculate ptratele distanelor fa de


proieciile centroizilor pe axa de discriminare ( c 1 1.089 , media scorurilor firmelor
dotate cu soft i c 2 1.089 , media scorurilor firmelor fr soft).
Functions at Group
Centroids
Func tion
SOFT
da

1
1,089

nu

-1,089

Unstandardized canonic al
disc riminant functions
evaluated at group means

Clasificarea firmelor se face n funcie de scorul de separare - cutting score, care


are valoarea 0, conform criteriului:
dac scorul firmei > 0 firma va aparine primului grup
dac scorul firmei 0 firma va aparine celui de-al doilea grup

68

Classification Results b,c


Predicted Group
Membership
Original

SOFT
da

Count
%

Cross-validated

Count
%

da

nu

Total

nu

da

83,3

16,7

100,0

nu

16,7

83,3

100,0

da

nu

da

83,3

16,7

100,0

nu

16,7

83,3

100,0

a. Cross validation is done only for those cases in the analysis. In cross validation,
each case is classified by the functions derived from all cases other than that case.
b. 83,3% of original grouped cases correctly classified.
c. 83,3% of cross-validated grouped cases correctly classified.

Se obine o rat a succesului de 83,3 %.


Tests of Equality of Group Means

X1

Wilks'
Lambda
,710

F
4,081

X2

,441

12,700

df1

df2
1

10

Sig.
,071

10

,005

Variabila cu puterea cea mai mare de discriminare este X2 - cifra de afaceri, acest
lucru este pus n eviden de cele dou statistici i F.
n tabelul de mai jos sunt prezentai coeficienii de corelaie ntre variabile i
vectorul scorurilor.
Structure Matrix
Func tion
1
X2

,945

X1

,536

69

S-ar putea să vă placă și