Sunteți pe pagina 1din 36

Capitolul 5.

Aplicaii economice
Vom descrie n acest capitol cteva aplicaii economice ale tehnicilor
prezentate n Capitolele 14. Vom folosi exemplul 2 din Anexa 1, dar vom
prezenta i alte aplicaii noi, utile pentru un economist, cum ar fi modelul de
credit scoring dar i unele tehnici de analiz pe tabele de contingen.
5.1 Analiza i clasificarea firmelor
pe baza indicatorilor financiari
S considerm problema descris n exemplul 2 din Anexa 1. n
acest exemplu sunt prezentai 7 indicatori financiar-contabili, calculai
pentru un lot de 12 firme, indicatorii fiind urmtorii:
I1: Total datorii/capital social;
I3: Profit brut/total activ;
I5: Datorii/total activ;
I7: Rata de cretere a activului.

I2: Cifr de afaceri/total activ;


I4: Capital social/cifr de afaceri;
I6: log(Activ);

Matricea de date coninnd valori ale acestor indicatori pentru cele


12 firme este prezentat n tabelul urmtor:
Firma

I1

I2

I3

I4

I5

I6

I7

1
2
3
4
5
6
7
8
9
10
11
12

0,414
0,231
0,432
0,156
0,227
0,295
0,261
0,446
0,352
0,267
0,703
0,206

0,032
0,324
0,684
0,326
0,124
0,176
0,470
0,343
0,831
0,141
0,185
0,969

0,000
0,034
0,054
0,020
-0,080
0,026
0,023
0,020
0,036
0,003
0,002
0,029

5,59
2,45
1,05
2,59
7,49
4,33
1,77
2,17
0,82
5,20
3,27
0,72

0,677
0,165
0,204
0,129
0,149
0,199
0,147
0,240
0,243
0,258
0,268
0,26

7,03
7,45
7,32
7,16
7,54
7,72
7,62
8,08
7,18
8,27
8,15
8,38

0,62
0,40
0,40
0,47
0,43
0,45
0,46
0,38
0,37
0,31
0,42
0,36

Scopul analizei matricei de date n acest exemplu este acela de a afla


civa indicatori relevani (de regul doi sau trei), pe baza crora s putem

obine o clasificare ct mai elocvent a firmelor. Problema formulat n


acest mod ne conduce spre ideea utilizrii tehnicii analizei componentelor
principale, dublat i de o analiz a clasificrii (vezi Capitolul 3, 3.1).
S ncepem analiza. Mai nti constatm c toate caracteristicile
urmrite (anume indicatorii financiar-contabili) sunt variabile continue,
scara lor de msur fiind uor de identificat. Prin urmare, ntr-o prim
analiz putem calcula pentru fiecare dintre aceste variabile indicatorii de
centrare i de mprtiere, cum ar fi media, valoarea minim i valoarea
maxim, precum i abaterea standard (vezi tabelul urmtor).
Descriptive Statistics
Valid N

Mean

Minimum

Maximum

Std.Dev.

I1

12

0.332

0.156

0.703

0.149

I2

12

0.383

0.032

0.969

0.298

I3

12

0.014

-0.08

0.054

0.033

I4

12

3.120

0.72

7.49

2.127

I5

12

0.244

0.13

0.67

0.144

I6

12

7.658

7.03

8.38

0.463

I7

12

0.422

0.31

0.62

0.077

Remarcm faptul c elementele matricei de date iniiale ar necesita o


standardizare, deoarece abaterile standard ale celor apte indicatori sunt
destul de diferite.
Pentru a vedea dac indicatorii calculai sunt independeni sau nu,
vom analiza matricea coeficienilor de corelaie din tabelul urmtor:
I1

I2

I3

I4

I5

I6

I7

I1

-0.165

0.073

-0.052

0.351

0.165

0.092

I2

-0.165

0.559

-0.837

-0.265

0.078

-0.443

I3

0.073

0.559

-0.842

-0.050

-0.059

-0.174

I4

-0.052

-0.837

-0.842

0.274

-0.048

0.341

I5

0.351

-0.265

-0.050

0.274

-0.192

0.608

I6

0.165

0.078

-0.059

-0.048

-0.192

-0.619

I7

0.092

-0.443

-0.174

0.341

0.608

-0.619

Identificm n matrice coeficieni de corelaie mari i anume: ntre


indicatorii I2 i I4 (n sens negativ), ntre indicatorii I3 i I4 (n sens
negativ); de asemenea, apare un coeficient de corelaie destul de mare ntre

indicatorii I5 i I7 (n sens pozitiv) i ntre indicatorii I6 i I7 (n sens


negativ). Pe baza acestor constatri am putea trage concluzia renunrii la
unii indicatori, dar la care? Pentru a elimina subiectivismul deciziei, vom
folosi tehnicile de analiz a componentelor principale implementate ntr-un
mediu de analiz statistic. Ne propunem s identificm trei indicatori
sintetici cu care ne-am mulumi n atingerea scopului propus. n acest
context obinem urmtoarele o serie de categorii de informaii ce sunt utile
pentru eliminarea subiectivismului n ierarhizarea firmelor.
A) Informaiile privind calitatea ajustrii sunt exprimate cu ajutorul
valorilor proprii ale matricei corelaiilor i a proprietilor acestora.
1
Reamintim faptul c raportul 1 =
exprim cantitatea de informaie
i

i =1,...,7

recuperat (sau variana explicat) de prima ax factorial, apoi


+
2 = 1 2 exprim cantitatea de informaie recuperat (variana
i

i =1,...,7

explicat) de primele dou axe factoriale .a.m.d.


Vom putea analiza astfel calitatea ajustrii norului de puncte (n
cazul nostru firmele) urmrind informaiile din tabelul urmtor:
Eigenvalues
Eigenval

% total
Variance

Cumul.
Eigenval

Cumul.
%

2.914

41.636

2.914

41.636

1.689

24.134

4.603

65.771

1.275

18.228

5.879

83.999

n coloana Eigenval identificm cele trei valori proprii, n ordine


descresctoare, i anume: 1 = 2.914, 2 = 1.689, 3 = 1.275. Cum rangul
matricei corelaiilor este 7, putem s explicm uor coninutul coloanei %
total Variance i anume: ajustnd norul de puncte printr-o singur ax
factorial (adic acceptnd doar un singur indicator sintetic), se explic
41.636% din totalul varianei datelor; apoi, ajustnd norul de puncte prin
dou axe factoriale (adic acceptnd doi indicatori sintetici) recuperm nc
24.134% din variana total, adic un total de 65.771% din aceast varian
(vezi i coloana Cumul. %). n sfrit, dac solicitm trei axe factoriale
(adic ceea ce ne-am propus, trei indicatori sintetici) explicm 84% din
variana total (ceea ce este un rezultat foarte bun!)

B) Informaiile despre axele principale sunt prezentate n tabelul


urmtor:
Factor Score Coefficients
I1
I2
I3
I4
I5
I6
I7

Factor 1
-0.051
-0.316
-0.384
0.388
-0.021
0.105
0.013

Factor 2
-0.152
-0.0049
0.113
-0.024
0.218
-0.535
0.445

Factor 3
0.676
-0.0981
0.124
-0.051
0.422
0.257
0.069

Coloana unui factor ne ofer informaii despre ponderile


(coeficienii) cu care particip fiecare indicator financiar-contabil (I1, ,
I7) la descrierea factorului respectiv. Acest factor poate fi exprimat, prin
urmare, ca o combinaie liniar de indicatorii financiar-contabili (cu
coeficienii respectivi).
C) Informaii despre scorurile firmelor, care sunt proieciile acestor
firme (considerate ca puncte n spaiul indivizilor) pe cele trei axe principale
sunt prezentate n tabelul urmtor:
Factor Scores
Rotation: Varimax raw
Factor 1
0.782
1
-0.294
2
-1.265
3
-0.132
4
2.177
5
0.340
6
-0.405
7
-0.150
8
-1.271
9
0.902
10
0.355
11
-1.037
12

Factor 2
2.366
0.170
0.253
0.882
-0.223
0.087
0.230
-0.823
0.320
-1.326
-0.963
-0.974

Factor 3
1.463
-0.717
0.222
-1.316
-1.184
-0.160
-0.559
0.753
-0.239
-0.030
2.030
-0.262

Cele trei coloane (Factor 1, 2 i 3) conin componentele principale


sau noii indicatori sintetici calculai pentru cele 12 firme. Devine posibil
acum reprezentarea grafic n spaiul tri- sau bidimensional pentru a observa

gruparea firmelor. n figura 1 prezentm cele 12 firme reprezentate n planul


primelor dou axe principale. Observm un grup destul de compact de firme
ce par a avea un comportament asemntor n raport cu noii indicatori, dar i
dou firme, anume F5 i F1, care se detaeaz de grup.

1
F4
F9

F7

F3
-2

F2

F6
0

-1

F8

F1
2

F12

-1

F5

F11
F10

-2

Figura 1. Scorurile firmelor n planul axelor principale 1 i 2

D) Informaii privind interpretarea componentelor principale se


obin analiznd coeficienii de corelaiile calculai ntre cele trei componente
principale i indicatorii financiari-contabili.
Reamintim faptul c dac C este o component principal (deci un
vector din R n ) obinut plecnd de la o valoare proprie i un vector
propriu u = (u1 ,..., u j ,..., u p ) , atunci coeficientul de corelaie dintre
componenta principal C i variabila j iniial avnd valorile observate
x j = ( x1 j ,..., x 2 j ,..., x nj ) este:
rC , x j = u j

( j {1,2,..., p} ).

Dac, de exemplu, avem dou componente principale C1 i C2,


obinem pentru fiecare variabil j perechea de coeficieni de corelaie
( rC1 , x j , rC 2 , x j ) . Aceste perechi, reprezentate n planul axelor principale sunt
puncte n interiorul aa-numitului cerc al corelaiilor (n rare cazuri chiar i
pe cercul unitate!). n acest context, interpretarea componentelor principale
este relativ simpl. Anume, o component principal poate fi explicat

prin acea variabil iniial pentru care coeficientul de corelaie este maxim
dar, n acelai timp, variabila iniial are cu celelalte componente principale
coeficieni de corelaie mici.
Revenind la exemplul nostru, se obin aa-numiii Factor Loadings
se apar ntr-un tabel de forma urmtorului.
Factor Loadings (Unrotated)
(Marked loadings are > .700000)
Factor 1
-0.13
I1
I2
0.86
0.71
I3
-0.89
I4
-0.54
I5
0.31
I6
-0.70
I7
2.91
Expl.Var
0.42
Prp.Totl

Factor 2
-0.25
-0.22
-0.57
0.41
-0.56
0.64
-0.61
1.69
0.24

Factor 3
-0.87
0.10
-0.09
0.05
-0.37
-0.59
0.16
1.28
0.18

Aadar, componenta principal 1 fiind puternic corelat (pozitiv) cu


indicatorul financiar-contabil I2 (care, la rndul su este slab corelat cu
celelalte dou componente), se interpreteaz ca fiind un indicator sintez
al rentabilitii (I2 este Cifra de afaceri/total activ, adic un indicator al
rentabilitii).
A doua component principal este greu de interpretat. Ea are un
coeficient de corelaie relativ mare (negativ) cu indicatorul I7, dar acesta nu
are coeficieni de corelaie mici cu celelalte dou componente rmase.
Aceeai situaie este ntlnit i pentru a treia component principal.
De aceea, pentru o analiz mai relevant i o interpretare mai
apropiat de realitate, se recomand folosirea unei opiuni de rotire a
axelor ce are ca scop obinerea unor coeficieni de corelaie ct mai mici pe
una sau dou componente principale. Una dintre cele mai utilizate rotiri
este cunoscut ca tehnica Varmax. n acest fel, interpretarea
componentelor principale devine mai semnificativ.
n exemplul nostru, apelnd la opiunea de rotire a axelor (Varmax),
obinem informaiile din tabelul Factor Loadings urmtor.

Factor Loadings (Rotated)


(Marked loadings are > .700000)
Factor 1
-0.04
I1
-0.84
I2
I3
-0.90
I4
0.97
0.16
I5
0.07
I6
0.27
I7
2.57
Expl.Var
0.37
Prp.Totl

Factor 2
-0.11
-0.19
0.06
0.13
0.53
-0.89
0.87
1.89
0.27

Factor 3
0.90
-0.22
0.11
0.02
0.66
0.23
0.23
1.42
0.20

Se observ c de data aceasta am obinut coeficieni de corelaie


mari pe cte o component dar mici pentru celelalte. Acum componenta
principal 1 este interpretat n termenii indicatorului I3 sau eventual I4.
(De fapt, matricea corelaiilor ne arat c acetia sunt puternic corelai ntre
ei, deci putem renuna la unul.) Oricare dintre ei este nc un indicator
sintez al rentabilitii.
Componenta principal 2 este interpretat n termenii indicatorului
I6 (corelaie negativ), adic este un indicator sintetic al mrimii firmei
(reamintim c I6 este logaritmul activului firmei). Se observ faptul c
componenta principal 2 se poate interpreta i n termenii indicatorului I7
(rata de cretere a activului), cu o corelaie pozitiv! Preferm explicarea
prin indicatorul I7, ce exprim dinamica activului firmei.
Componenta principal 3 este interpretat n termenii indicatorului
financiar-contabil I1 (adic Total datorii/capital social) care este un
indicator al structurii financiare.
Dup ce am dat o interpretare acestor trei componente principale,
putem s obinem o clasificare a firmelor, utiliznd proieciile n planul
axelor principale. Ne folosim de scorurile acestor firme i de graficul din
figura 1. Conform semnificaiei componentei principale 1 se observ
faptul c scorul este cu att mai bun cu ct este mai mic (cci corelaia cu
indicatorul I3 este invers). Pe de alt parte, n funcie de componenta
principal 2 (care este corelat pozitiv cu rata de cretere a activului), un
scor pozitiv pe aceast component este bun. Prin urmare, clasificm cele 12

firme n planul indicatorilor sintetici de rentabilitate i dinamic a


activului astfel:
Clasa 1. Conine firmele F2, F3, F4, F7 i F9 ce au scoruri bune pe
ambele componente;
Clasa 2. Conine firmele F8 i F12 ce au scoruri bune la indicatorul
de rentabilitate dar au o dinamic proast a activului;
Clasa 3. Conine firmele F1 i F6 ce au un scor mai slab la
indicatorul de rentabilitate dar au o dinamic a activului bun;
Clasa 4. Conine firmele F5, F10 i F11 care au scoruri slabe la
ambii indicatori sintez, att la rentabilitate ct i la dinamica activului.
Evident, analiza poate fi completat lund n calcul i componenta
principal 3, care este o component a structurii financiare, ns
interpretarea grafic se ngreuneaz.
S aplicm acum, pentru aceeai matrice de date (a indicatorilor
financiar-contabili) tehnici de clasificare bazate pe algoritmi ierarhici (vezi
Capitolul 3, 3.3). Folosind aceste tehnici putem s exemplificm att
gruparea firmelor ct i gruparea indicatorilor.
A) Gruparea firmelor n clase ct mai omogene, lund n considerare
toi cei 7 indicatori. Vom folosi un algoritm ierarhic de agregare.
Mai nti trebuie calculat matricea de proximitate (de
dimensiune 1212, simetric). Ea este prezentat n tabelul
urmtor:
0.00
3.24
4.63
3.08
2.06
1.54
3.93
3.63
4.87
1.41
2.64
5.17

3.24
0.00
1.47
0.34
5.05
1.91
0.72
0.73
1.73
2.88
1.19
2.07

4.63
1.47
0.00
1.62
6.47
3.35
0.83
1.40
0.32
4.30
2.44
1.17

3.08
0.34
1.62
0.00
4.92
1.84
0.96
1.06
1.86
2.85
1.34
2.33

2.06
5.05
6.47
4.92
0.00
3.17
5.73
5.36
6.72
2.41
4.29
6.88

1.54
1.91
3.35
1.84
3.17
0.00
2.58
2.20
3.61
1.04
1.22
3.76

3.93
0.72
0.83
0.96
5.73
2.58
0.00
0.66
1.12
3.51
1.68
1.40

3.63
0.73
1.40
1.06
5.36
2.20
0.66
0.00
1.70
3.05
1.14
1.63

4.87
1.73
0.32
1.86
6.72
3.61
1.12
1.70
0.00
4.57
2.74
1.22

1.41
2.88
4.30
2.85
2.41
1.04
3.51
3.05
4.57
0.00
1.99
4.56

2.64
1.19
2.44
1.34
4.29
1.22
1.68
1.14
2.74
1.99
0.00
2.72

5.17
2.07
1.17
2.33
6.88
3.76
1.40
1.63
1.22
4.56
2.72
0.00

Fiecare element al matricei de proximitate reprezint distana


euclidian ntre firmele corespunztoare, distan calculat n funcie de toi

cei 7 indicatori observai. (Folosim distana euclidian ca msur a


disimilaritii.)
Dendrograma
- distante euclidiene 2.5

2.5

Single linkage

1.5

1.5

0.5

0.5

10

12

11

Figura 2. Dendrograma (metoda vecinilor celor mai apropiai)

n continuare, pentru constituirea claselor, vom folosi o metod de


agregare considernd cele trei tehnici descrise n 3.3. Prezentm sintetizat
n tabelul de mai jos etapele de grupare a firmelor pentru cele trei metode de
agregare Single linkage (vecinii cei mai apropiai), Complete linkage
(vecinii cei mai ndeprtai) i Average linkage (nlnuirea prin medii).
Nivelul de
agregare
< 0.5
0.5 1

1 1.5

1.5 2
24
>4

Single linkage.
Clase
C1=(9,3);
C2=(4,2)
C3=(8,7);
C4=(C2,C3);
C5=(C1,C4);
C6=(10,6);
C7=(C5,11);
C8=(12,C7);
C9=(C6,C8);
C10=(1,C9);.

C11=(5,C10);

Complete linkage.
Clase
C1=(9,3); C2=(4,2)

Average linkage.
Clase
C1=(9,3); C2=(4,2)

C3=(8,7);
C4=(C2,C3);
C5=(10,6)

C3=(8,7);
C4=(C2,C3);
C5=(10,6)

C6=(12,C1);
C7=(1,C5);

C6=(12,C1);
C7=(11,C4):
C8=(1,C5);.

C8=(11,C4);
C9=(C7,C8);
C10=(5,C6);
C11=(C9,C10);

C9=(C6,C7);
C10=(C8,5);
C11=(C10,C9);

Complete linkage

Dendograma
-distante euclidiene7

12

11

10

Figura 3. Dendrograma (metoda vecinilor celor mai ndeprtai)

Pentru completarea analizei gruprii firmelor, n figurile 2, 3 i 4


sunt prezentate dendrogramele pentru cele trei tehnici de agregare. Cteva
concluzii sunt evidente: n dendrograma din figura 2 nu distingem grupe,
firmele par a fi destul de omogene (cu excepia uneia); n schimb n
dendrogramele din figurile 3 i 4 apar clase distincte. Mai precis, n figura 3
dendrograma prezint dou grupe dezechilibrate ca numr de firme, n timp
ce n dendrograma din figura 4 se disting trei grupe destul de echilibrate.
Pentru exemplificarea agregrii firmelor prezentm n tabelul
urmtor etapele de constituire a claselor. Se observ modul de formare a
unui grup precum i nivelul de agregare corespunztor (pentru algoritmul
Single linkage.)
Nivelul
agregrii 1
0.321 C_3
0.340 C_2
0.661 C_7
0.719 C_2
0.831 C_2
1.041 C_6
1.143 C_2
1.170 C_2
1.217 C_2
1.412 C_1
2.057 C_1

2
C_9
C_4
C_8
C_4
C_4
C_10
C_4
C_4
C_4
C_2
C_2

C_7
C_7

C_8
C_8

C_3

C_9

C_7
C_7
C_7
C_4
C_4

C_8
C_8
C_8
C_7
C_7

C_3
C_3
C_3
C_8
C_8

C_9
C_9
C_9
C_3
C_3

C_11
C_11
C_11
C_9
C_9

C_12
C_12
C_11
C_11

C_6
C_12
C_12

Evident, un utilizator poate folosi orice algoritm de agregare: cel al


vecinilor celor mai apropiai, cel al vecinilor celor mai ndeprtai sau un
algoritm de agregare prin medii. Pentru a decide care este indicat a se folosi
analizm tabelul de mai sus i dendrogramele din figurile 2 4. Se observ
faptul c algoritmul Complete linkage se aseamn mai mult cu algoritmul
Average linkage; fixnd, de exemplu, nivelul de agregare n intervalul
(2; 3.5), avem deja constituite dou clase: prima format din firmele {12, 9,
3, 11, 8, 7, 4, 2} iar a doua format din firmele {5, 10, 6, 1}; difer doar
nivelul agregrii finale al acestora. Dup cum am mai spus, algoritmul
vecinilor celor mai apropiai nu este indicat n acest caz.

Average linkage

Dendograma
-distantele euclidiene5

12

11

10

Figura 4. Dendrograma (nlnuirea pe baza mediilor)

Este interesant de vzut dac clasele obinute prin aceste tehnici


bazate pe distana euclidian, pornind de la matricea iniial de date, ne
conduc sau nu la aceleai clasificri ca i cele obinute n planul componentelor principale.
S ne reamintim clasele de firme formate n planul primelor dou
axe factoriale: clasa 1 coninea firmele F2, F3, F4, F7 i F9, clasa 2 coninea
firmele F8 i F12, clasa 3 coninea firmele F1 i F6 i clasa 4 coninea
firmele F5, F10 i F11. Exist i firme ale cror poziionare n clase se
pstreaz, dar n general clasificarea realizat conform analizei componentelor principale este mult mai elocvent i explicativ!

B) Gruparea celor 7 indicatori financiar-contabili n clase ct mai


omogene se realizeaz prin tehnici de clasificare ierarhic,
pornind tot de la matricea de date iniial. Mai nti calculm
matricea distanelor euclidiene ntre coloanele matricei i
obinem urmtoarea matrice simetric a disimilaritilor (matrice
de ordinul 7 7):
0.0
1.2
1.2
12.0
0.6
25.4
0.6

1.2
0.0
1.6
12.3
1.3
25.3
1.1

1.2
1.6
0.0
12.9
0.9
26.5
1.4

12.0
12.3
12.9
0.0
12.1
17.3
11.7

0.6
1.3
0.9
12.1
0.0
25.7
0.7

25.4
25.3
26.5
17.3
25.7
0.0
25.1

0.6
1.1
1.4
11.7
0.7
25.1
0.0

Pentru agregarea n clase putem folosi de asemenea algoritmul vecinilor


celor mai apropiai (Single linkage), algoritmul vecinilor celor mai ndeprtai

(Complete linkage) i algoritmul nlnuirii prin medii (Average linkage).


Dendrogramele rezultate sunt prezentate n figurile 5 7.

Single linkage

Dendrograma
- distantele euclidiene18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0

I6

I4

I2

I3

I5

I7

I1

Figura 5. Dendrograma (metoda vecinilor celor mai apropiai)

18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0

Complete linkage

Dendrograma
- distante euclidiene 28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0

I6

I4

I3

I2

I5

I7

28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0

I1

Figura 6. Dendrograma (metoda vecinilor celor mai ndeprtai)

Average linkage

Dendrograma
- distante euclidiene 25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0

I6

I4

I2

I3

I5

I7

I1

Figura 7. Dendrograma (nlnuirea pe baza mediilor)

25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0

Pentru a trage cteva concluzii privind omogeneitatea celor 7


indicatori financiar-contabili putem urmri etapele de constituire a claselor.
Acestea vor fi exemplificate folosind algoritmul agregrii vecinilor celor
mai apropiai (Single Linkage). Matricea de mai jos conine etapele de
agregare (n numr de 6), nivelele de agregare i constituirea claselor.
Nivelul Etape
agregrii
1
2
3
4
5
6
7
0.621
I1
I7
0.633
I1
I7
I5
0.942
I1
I7
I5
I3
1.136
I1
I7
I5
I3
I2
11.662
I1
I7
I5
I3
I2
I4
17.328
I1
I7
I5
I3
I2
I4
I6
Cei mai apropiai, la un nivel de agregare minim, sunt indicatorul I1
i indicatorul I7, adic Total datorii/capital social i Rata de cretere a
activului. Acetia se agreg la nivelul 0.621. n etapa urmtoare, la un nivel
de agregare destul de apropiat de primul, adic 0.633, li se asociaz
indicatorul I5, mai precis indicatorul Datorii/total activ. La o distan
(nivel de agregare) ceva mai mare de clasa deja format se asociaz
indicatorul I3, adic Profit brut/total activ (nivelul de agregare 0.942).
Nici indicatorul I2 (adic Cifr de afaceri/total activ) nu este departe de
primii grupai! El se va agrega la nivelul 1.136. Un salt calitativ, evideniat
clar cantitativ, se obine prin ataarea n etapa 5 a indicatorului I4, adic
Capital social/cifr de afaceri, de grupa deja format. Acesta este agregat
Plot of Linkage Distances across Steps
Euclidean distances
20

Linkage Distance

15

10

-5

Step

Figura 8. Nivele de agregare a indicatorilor

Linkage
Distance

la un nivel de 11.662, i putem s afirmm c este, sub acest aspect, diferit


de primii. n final se asociaz, la un nivel de asemenea destul de ridicat,
ultimul indicator negrupat nc, i anume I6 (log(Activ)). n figura 8 se
pot urmri, grafic, nivelele de agregare, regsind pe etape explicaiile date
anterior.
Folosind algoritmul de clasificare putem spune c indicatorii
financiar-contabili urmrii prin nivelele lor pentru cele 12 firme se pot
grupa n trei clase:
A) clasa format din indicatorii I1, I7, I5, I3 i I2 (a se vedea
interpretarea lor!),
B) clasa format din indicatorul I4 (Capital social/cifr de
afaceri),
C) clasa format din indicatorul I6 (log(Activ)).
Este interesant de comparat clasele de indicatori obinute pe baza
metricii euclidiene cu gruparea indicatorilor dup coeficienii lor de
corelaie liniar calculai n etapa de analiz a componentelor principale!
Indicator
I1
I2
I3
I4
I5
I6
I7

I1
C1

I2

I3

C1
C1

I4

I5

I6

I7

Corelaie
puternic
Corelaie
puternic
C2
C1
C3

Corelaie
puternic
Corelaie
puternic
C1

Pentru comparaie putem urmri tabelul anterior ce ne informeaz


att despre corelaiile puternice ntre indicatorii financiar-contabili, corelaii
exprimate prin coeficienii de corelaie mari, ct i despre clasa la care
aparine un indicator (informaiile de pe diagonala principal), clas obinut
prin tehnica agregrii.
n acest paragraf am prezentat o propunere de analiz pentru
informaii coninute ntr-o matrice de forma indivizi caracteristici
(caracteristicile fiind variabile continue). Evident, analiza se poate aplica pe
orice matrice atunci cnd avem ca scop reducerea numrului de coloane sau
linii i explicarea formrii claselor de indivizi sau variabile.

5.2 Modele de credit scoring analiza discriminant utilizat


pentru diagnoza financiar
1. Formularea problemei. S presupunem c avem o populaie
format din firme omogene ca activitate, fie aceasta P. Populaia este
mprit n dou subpopulaii disjuncte, P1 i P2, dup valorile unei
variabile nominale Booleene y. Modalitile variabilei y, pentru o firm
oarecare i din populaia P, pot fi codificate prin 1 i 0, mai precis:
1 (sau F) pentru firma i n stare de faliment
yi =
0 (sau B) altfel
S presupunem c pentru firmele din populaia studiat se pot
msura un numr p de indicatori financiar-contabili ct mai independeni
posibil. Fiecare dintre acetia influeneaz probabilitatea de faliment a
firmei fie monoton cresctor, fie monoton descresctor, dar evident ei
acioneaz simultan.
Vom nota cu x = ( x1 , x 2 ,..., x p ) vectorul valorilor celor p indicatori,
n particular cu x1 = ( x11 , x12 ,..., x1p ) respectiv x 2 = ( x12 , x 22 ,..., x 2p ) vectorii
corespunztori celor dou subpopulaii P1 i P2.
Facem urmtoarele ipoteze:
Vectorul x1 = ( x11 , x12 ,..., x1p ) este normal repartizat cu media 1 i

a)

matricea de varian-covarian 1 ;
Vectorul x1 = ( x11 , x12 ,..., x1p ) este normal repartizat cu media 2

b)

i matricea de varian-covarian 2 ;
Prin urmare, populaia P este caracterizat de ansamblul
(1 , 2 , 1 , 2 ) .
2. Scopul analizei este acela de a gsi un indicator sintez, fie
acesta z , i un nivel z c al acestui indicator, astfel nct pentru o firm i
oarecare pebtru care z i este valoarea indicatorului sintez s putem decide

dac z i z c atunci firma aparine populaiei P1

dac z i > z c atunci firma aparine populaiei P2.

Valoarea z c se numete nivel (scor) de tiere sau cutting score.

De regul, indicatorul sintez se consider a fi o combinaie liniar


de valorile celor p indicatori financiar-contabili, adic
z = 1 x1 + 2 x 2 + ... + p x p .

(1)

Pentru o firm i, pentru care valorile celor p indicatori sunt


( xi1 , xi 2 ,..., xip ) , valoarea z i = 1 xi1 + 2 xi 2 + ... + p xip se numete scorul
firmei n raport cu indicatorul sintez z iar decizia de ncadrare ntr-o
categorie sau alta se face utiliznd scorul de tiere z c .
n literatura de specialitate se obinuiete a se numi expresia (1)
model de scoring deoarece pe baza sa se obin scoruri ale firmelor i apoi
o clasificare a acestora.
3. Scurt istoric al problemei obinerii modelelor de scoring
Primele studii realizate i publicate au fost cele ale lui E.I. Altman.
ntr-un prim studiu, datnd din 1966, Altman prezint modele de scoring
rezultate n urma studierii unui eantion de 66 firme asupra crora s-au
urmrit 22 de indicatori financiar-contabili n evoluia lor pe dou decade
(1946-1965). n intervalul de timp analizat unele dintre firme au dat
faliment, altele ns au evoluat pozitiv din punct de vedere financiar.
Indicatorul sintez la care ajunge Altman este o combinaie liniar de 5
fond de rulment profit brut
indicatori de baz, dintre care enumerm trei:
,
,
total activ
total activ
cifra de afaceri
.
total activ
Altman repet ulterior studiul, lund n analiz 106 firme i 27 de
indicatori urmrii pe perioada 1962-1975. Obine un nou indicator sintez,
combinaie liniar de 7 indicatori iniiali, dup care clasific firmele.
Alte studii au fost realizate n Frana n anul 1973 de ctre
Vernimmen, Schlosser, Margaine i Altman. n Belgia au fost publicate
rezultatele obinute de ctre Ooghe i Van Wymeersch (1983). Toate
modele de scoring realizate n perioada anilor `80 dar i ulterior sunt
implementate n sistemele informatice ale marilor bnci, fiind folosite n
departamentele de management a riscului pentru ordonarea i clasificarea
solicitanilor de credite. Evident, modele de scoring au fost realizate att
pentru persoane juridice ct i pentru persoane fizice.
Numeroasele rezultate obinute nu pot fi generalizate de la un grup
de firme la altul. n general, direciile de cercetare n acest domeniu se
ndreapt spre construirea de modele de scoring ct mai specifice

domeniului de activitate al firmelor. De asemenea, funciile z de scoring se


pot obine i pentru urmtoarele situaii:
funcie de scor n cazul un an nainte de faliment;
funcie de scor n cazul doi ani nainte de faliment;
funcie de scor n cazul trei ani nainte de faliment.
4. Construcia unui model de scoring
Tehnica cea mai indicat pentru rezolvarea problemei de credit
scoring este cea oferit de analiza discriminrii factoriale (vezi Capitolul 4,
4.2.2) pentru cazul particular n care variabila rspuns este nominal cu
dou modaliti. Indicatorul-sintez este exprimat prin funcia de
discriminare
z = u1 x1 + u 2 x 2 + ... + u p x p

(2)

n care u = (u1 , u 2 ,..., u p ) este versorul axei de discriminare.


Pentru aflarea axei de discriminare, a componentei principale
asociate, precum i a bonitii discriminrii se aplic etapele prezentate n
4.2.2.
Analiza prin tehnicile de discriminare factorial n cazul particular
a dou clase are ca scop aflarea unei noi axe (de discriminare), care s aib
proprietatea c proieciile punctelor (aici coordonatele firmelor) din spaiul
variabilelor (indicatorilor) pe ea s formeze tot dou clase, iar separarea
dintre ele s fie maxim (adic zona de incertitudine s fie minim).
Reamintim c se folosiete descompunerea matricei varianeicovarianei totale V n cele dou componente naturale ale sale, i anume
variana-covariana W din interiorul claselor i variana-covariana B dintre
clase. Etapele parcurse pentru aflarea axei de discriminare, a componentelor
factoriale i a bonitii separrii n clase sunt urmtoarele.
1). Aflarea unui versor u = (u1 , u 2 ,..., u p ) , ce d prima (i unica) ax
de discriminare. n ideea minimizrii varianei-covarianei W proiectat pe
aceast ax, adic a mrimii u T Wu , avem de rezolvat urmtoarea problem
de optimizare cu restricie egalitate

max

u T Bu

u T Vu
u =1

ceea ce revine la aflarea vectorilor proprii (corespunztori valorilor proprii)


ai matricei V 1 B . Astfel, primul vector propriu u * asociat valorii proprii *
(cea mai mare din spectrul matricei V 1 B ) este prima ax de discriminare.
Cum raportul

(u * )T Bu *
* T

este tocmai * (prima valoare proprie),

(u ) Vu
aceasta va exprima, procentual, gradul de discriminare al primei axe.

Pentru cazul unei variabile de discriminare cu doar dou modaliti,


problema se simplific. n acest caz avem o singura ax de discriminare u * ,
ea este calculat simplu u * = V 1 (m 2 m1 ) unde (m1 , m 2 ) este vectorul
centrelor de greutate pentru cele dou clase iniiale ale populaiei.
2) Aflarea componentelor de discriminare (adic a vectorului
scorurilor pe axa de discriminare) se realizeaz dup aflarea axei de
discriminare. Astfel, dac u * = (u1* , u 2* ,..., u *p ) este versorul axei de
discriminare, atunci componenta de discriminare (unic) este C 1 = Xu * .
3) n cazul unei variabile de discriminare cu doar dou modaliti,
pentru analiza ratei succesului tehnicii de discriminare se folosete tabelul
urmtor
Grupul
iniial

Numr de indivizi n
grupul iniial

Grupul dup reclasificare


1
2

n1

n11

n12

n2

n21

n22

Observaie: Cu ct elementele de pe diagonala principal sunt mai


mari, cu att rata succesului discriminrii este mai mare. Se folosete
n + n22
ce exprim proporia elementelor diagonale, iar
raportul p S = 11
n1 + n2
orice valoare a sa peste 50% este considerat ca validnd succesul tehnicii.
(Comparativ cu situaia n care am dispune de o procedur aleatoare, de
repartizare uniform n cele dou clase, pentru care raportul p S are evident
valoarea 50%.)

5. Aplicaie exemplu
S presupunem c dorim s gsim un model de scoring atunci cnd
dispunem de un eantion de 12 firme asupra crora s-au nregistrat 2
datorii totale
active circulante
i I 2 =
.
indicatori, i anume I1 =
capitaluri proprii
datorii pe termen scurt
Datele privind nivelul acestor indicatori financiar-contabili precum
i starea fiecrei firme sunt prezentate n tabelul urmtor (am notat cu F o
firm n stare de faliment i cu B o firm n stare bun)
Firma
1
2
3
4
5
6
7
8
9
10
11
12
13
14

I1 =

datorii totale
capitaluri proprii
0.6
1
0.9
0.65
1.1
0.6
0.9
0.3
0.4
0.68
0.4
0.25
0.57
0.45

I2 =

active circulante
datorii pe termen scurt
0.2
0.4
0.7
0.65
1.1
1.1
1.5
0.55
0.7
0.95
1.05
1.25
1.47
1.68

Starea
firmei
F
F
F
F
F
F
F
B
B
B
B
B
B
B

S presupunem c cei doi indicatori financiar-contabili urmeaz, att


pentru populaia de firme n stare bun, ct i pentru populaia de firme n
stare proast, repartiii normale (vezi graficele din figura 9 i figura 10).
S analizm mai nti indicatorul I1 (vezi figura 9). Pentru firmele
n stare bun indicatorii de centrare (media, mediana, ) au valori mici,
n timp ce pentru firmele n stare proast aceiai indicatori de centrare au
valori mari. Evident, va exista un nivel al acestui indicator I1, fie acesta ,
care are proprietatea c ori de cte ori indicatorul ia valori mai mici dect
este foarte probabil ca firma s fie din clasa n stare bun i ori de cte ori
indicatorul ia o valoare mai mare dect este foarte probabil ca firma s fie
n clasa n stare proast. Exist i o zon de incertitudine, vecintate a
nivelului , ce are proprietatea c dac indicatorul I1 ia valori n acea zon
nu putem decide asupra strii firmei (ea poate fi sau proast, sau bun).

stare proast

stare bun

Figura 9. Repartiiile valorilor indicatorului I1

Aceeai analiz se poate face i pentru indicatorul I2 (vezi figura


10), cu o singur deosebire: de data aceasta, pentru firmele n stare bun
valorile indicatorilor de centrare sunt mari n timp ce pentru firmele n stare
proast indicatorii de centrare au valori mici. Nivelul de separare apare i
n acest caz (l-am notat cu ) aa cum apare i zona de incertitudine ntr-o
vecintate a nivelului , pentru care nu putem decide starea firmei.

stare proast
stare bun

Figura 10. Repartiiile valorilor indicatorului I2

Figura 11. Firmele n planul indicatorilor

Am descris o posibil analiz uni-dimensional lund pe rnd cte


un indicator financiar-contabil i comportamentul firmelor n raport cu
valoarea acestuia. Aceast analiz nu este ns suficient de relevant.
Tehnicile de analiz a discriminrii ne permit s analizm indicatorii n
ansamblul lor, surprinznd i aciunea lor comun. O prim analiz a celor
doi indicatori n ansamblul lor se poate face urmrind figura 11, n care
firmele sunt prezentate n planul indicatorilor financiar-contabili I1 i I2. n
aceast figur firmele n stare bun (marcate cu codul B) sunt delimitate
destul clar de cele n stare proast (marcate cu codul F), aprnd dou clase
cu intersecia nevid (intersecie pe care o putem asimila cu o zon de
incertitudine a clasificrii unei firme). Pentru o analiz complet urmrim
rezultatele urmtoare:
1) Mediile pe ntregul eantion sunt grupate n vectorul
m = (0.6285, 0.950) iar mediile pentru cele dou clase sunt
coninute

vectorii

m B = (0.4357, 1.092)

respectiv

m F = (0.8214, 0.8071) .
2) Abaterile standard sunt s = (0.263, 0.437) pentru ntregul eantion i s B = (0.149, 0.404) pentru clasa de firme n stare bun
respectiv s F = (0.203, 0.451) pentru cele n stare proast.

3) Matricea de varian-covarian pentru interiorul claselor este


0.0273 0.0168
iar matricea de varian-covarian
W =
0.0168 0.1575
0.0645 0.0107
.
pentru ansamblul firmelor este V =
0.0107 0.1779
4) Matricele de corelaie pentru interiorul claselor i total sunt
0.256
0.100
1
1

respectiv
.
1
1
0.256
0.100
5) Analiza indicatorului financiar-contabil cel mai discriminat se
face folosind tabelul urmtor, ce conine valori ale statisticii F i
Lambda a lui Wilks
Wilks'
Lambda

Partial
Lambda

F-remove
(1,11)

I1

0.885

0.399

16.519

0.0018

I2

0.423

0.835

2.1671

0.1690

Indicatorul

p-level

Aadar, indicatorul cel mai discriminat este I1, lui corespunzndu-i o valoare mai mare pentru statistica F (care este raportul
dintre mprtierea dintre clase i mprtierea din interiorul
claselor).
6) Funcia de discriminare standardizat este

z = 0.997 I1 + 0.522 I 2 .
Cum centrele de greutate ale celor dou clase de firme sunt
proiectate pe axa de discriminare n punctele 1.25 respectiv
1.25 (prima valoare reprezint centroidul firmelor n stare bun
iar cea de-a doua valoare reprezint centroidul firmelor n stare
proast) putem considera scorul de tiere z c = 0 .
7) Scorurile firmelor obinute pe baza funciei de discriminare (de
la punctul 6) sunt (prezentate n ordine cresctoare) urmtoarele:
Firma
2
5

Clasa iniial/ clasa


repartizat
Faliment/Faliment
Faliment/Faliment

Scor pentru funcia z


gsit
-2.7442
-2.4499

3
7
1
4
10
6
13
9
8
11
14
12

Faliment/Faliment
Faliment/Faliment
Faliment/Faliment
Faliment/Faliment
Bun/faliment
Faliment/bun
Bun/bun
Bun/bun
Bun/bun
Bun/bun
Bun/bun
Bun/bun

-1.8203
-0.8458
-0.7540
-0.4851
-0.2872
0.3422
0.9605
0.9719
1.3476
1.3982
1.8864
2.4795

8) Matricea succesului discriminrii este


Rata succesului
Clasa1 1/clasa 1
Clasa 2/clasa 2
Total

Corect
85.714
85.714
85.714

p=.50000
6
1
7

p=.50000
1
6
7

adic rata succesului discriminrii este de 85.71% (= (6 + 6) / 14) .


9) Interpretarea axei de discriminare se face utiliznd urmtorul
tabel al coeficienilor de corelaie
Indicatorul

Coeficientul de corelaie cu axa

I1

-0.863

I2

0.266

Observm c coeficientul de corelaie ntre indicatorul I1 i axa


de discriminare este 0.863, iar coeficientul de corelaie ntre
indicatorul I2 i ax este 0.266. Prin urmare, cel mai discriminant
datorii totale
este indicatorul I1 =
, care d i o interpretare
capitaluri proprii
unicei axe de discriminare.

5.3 Analize pe tabele de contingen. Analiza corespondenelor


n marketing
Tabelele de contingen descrise n 1.4 se pot crea ori de cte ori
populaia studiat este mprit n subpopulaii prin variabile categoriale
nominale. Informaii de acest gen provin de obicei din chestionare.
De regul, se grupeaz cte dou variabile categoriale i se obin aanumitele tabele cu dubl intrare, ce conin frecvenele absolute pe nivele.
Fie de exemplu dou variabile categoriale X1 i X2, prima avnd r
modaliti iar cea de-a doua avnd c modaliti. S notam cu N matricea ce
conine frecvenele absolute pentru modalitile cele dou variabile, adic
Modaliti
X1\X2
1

Total pe
linii

n 11

n 12

n1 j

n 1c

n1

n 21

n 22

n2 j

n 2c

n2

n i2

n i1

n ic

ni

n r1

n r2

n 1

n 2

r
Total
coloane

n ij

n rj

n rc

nr

n j

n c

Evident, elementul n ij din tabelul anterior exprim numrul de


indivizi (din totalul celor n) pentru care variabila X1 are modalitatea i i
variabila X2 are modalitatea j. Aa cum am precizat n 1.4, matricea este
bordat cu o coloan a totalurilor pe linii i cu o linie a totalurilor pe
coloane.
n aplicaii se obinuiete a se asocia matricei N dou alte matrice
(tabele) i anume:
a) matricea frecvenelor condiionate relativ la linii, numit i
matricea profil-linie;
b) matricea frecvenelor condiionate relativ la coloane, numit i
matricea profil-coloan.
Vom prezenta n cele ce urmeaz modul de construire a celor dou
matrice i proprietile lor.

Matricea profil-linie se obine din matricea iniial N mprind


fiecare element al acesteia prin totalul liniei corespunztoare, adic
n ij
. Noua
elementul de pe linia i i coloana j va fi n matricea profil-linie
ni
matrice astfel obinut o vom nota L.
Dac vom considera toate liniile matricei profil-linie L, ele vor forma
n spaiul R c al modalitilor variabilei X2 un nor alctuit din r puncte.
Centrul de greutate al acestui nor de puncte se calculeaz folosind
1
matricea de ponderi
D1 . Matricea D1 este o matrice diagonal (de
n
dimensiune r r) a totalurilor pe linii:

n1

0
D1 = 0

..
0

0
n2
0
..

. .

... nr

0 ..
0 ..
n3 ...
... ...

0
0
0

Fie m l = ( m1 , m 2 ,..., m j ,..., mc ) vectorul centrului de greutate.


Componenta sa m j se obine ca o sum ponderat a elementelor coloanei j
din
matricea
profil-linie,
adic
din
vectorul
coloan
nij
n rj
n1 j n 2 j

,
,...,
,...,
n n

n
n
1
2

ponderile fiind coninute n vectorul coloan

n
n
n1 n2
,
,..., i ,..., r .

n
n
n n
Prin urmare, componenta m j a centrului de greutate a matricei
r

profil-linie va fi m j =

k =1

nkj nk n j
=
iar centrul de greutate va avea
nk n
n

coordonatele:
T

n j
n
n
,..., c .
m = 1 ,...,
n
n
n
l

Matricea profil-coloan se obine din matricea iniial N mprind


fiecare element al acesteia prin totalul corespunztor pe coloan, adic
n
ij
.
elementul de pe linia i i coloana j va fi n matricea profil-coloan
n j

Vom nota cu C noua matrice format.


Dac vom considera toate coloanele matricei profil-coloan C, ele
vor forma, n spaiul R r al modalitilor variabilei X1, un nor alctuit din c
puncte.
Centrul de greutate al acestui nor de puncte se calculeaz folosind
1
acum matricea de ponderi D2 unde matricea D2 este matricea diagonal a
n
totalurilor pe coloane
n1

0
D2 = 0

..
0

0
n2
0
..
0

. .

... nc

0 ..
0 ..
n3 ...
... ...
0

0
0
0

Fie m c = (m1 , m2 ,..., mi ,..., mr ) T vectorul centrului de greutate al


acestui nor de puncte. Componenta sa mi se obine ca o sum ponderat a
elementelor liniei i din matricea profil-coloan, adic din vectorul coloan
T

ni1 ni 2
nij
n

,
,...,
,..., ic i ponderile
n1 n2
n j
nc

Prin urmare, mi =

n
k =1

nik nk ni
=
n
k n

matricei profil-coloan va avea coordonatele:


T

n
n
n
m = 1 ,..., i ,..., r .
n
n
n
c

n j
n1 n2
n c

.
,
,...,
,...,
n n

n
n

iar centrul de greutate al

Observaii: Cum condiia de independen a celor dou variabile


nij ni n j
pentru orice i i j, vom obine
categoriale X1 i X2 nseamn
=
n
n n
urmtoarele egaliti:

a)

nij
ni

n j

ni
pentru orice i = {1,2,..., r} i j = {1,2,..., c}.
n

pentru orice i = {1,2,..., r} i j = {1,2,..., c}

i
b)

nij
n j

Condiia a) nseamn c, n cazul n care variabilele categoriale sunt


independente statistic, toate punctele norului de puncte ale matricei profilT

n j
n
n
linie vor coincide cu centrul lor de greutate m = 1 ,...,
,..., c .
n
n
n
l

Analog, condiia b) nseamn c, n cazul n care variabilele


categoriale sunt independente statistic, toate punctele norului de puncte ale
matricei profil-coloan vor coincide cu centrul lor de greutate
T

n
n
n
m = 1 ,..., i ,..., r .
n
n
n
c

Atunci cnd variabilele nu sunt independente statistic este important s


evalum ct de aproape sau de departe sunt punctele de centrul lor de
greutate.
S revenim la matricea profil-linie n care considerm dou linii i i i
ale

cror

elemente

sunt

ni ' j
ni '1 ni '2
n

,
,...,
,..., i 'c
n
ni '
ni '
i ' ni '

nij
ni1 ni 2
nic

n , n ,..., n ,..., n
i
i
i i

respectiv

ntre aceste linii privite ca puncte n spaiul R c calculm distana


ponderat dat de metrica 2 i anume
d 22 (i, i ' )

j =1

n nij ni ' j

n j ni ni '

n consecin, putem calcula distana de la o linie i a matricei profilT

n j
n
n
,..., c prin formula:
linie la centrul de greutate m = 1 ,...,
n
n
n
l

d 22 (i, m l )

j =1

n nij n j

n j ni
n

care d o msur 2 a deprtrii punctului i de centrul norului.


Putem s calculm distana (ponderat) de la toate punctele (linii) ale
matricei profil-linie la centrul lor de greutate m l obinnd ceea ce se
numete ineria norului de puncte
r

i =1

ni 2
d 2 (i, m l ) =
n

i =1 j =1

ni n nij n j

n n j ni
n

Un simplu calcul ne va conduce la urmtoarea expresie a ineriei


norului de puncte (abatere faa de centrul de greutate)
1
=
n
2

i =1 j =1

(nij ni n j / n) 2

(3)

ni n j / n

(recunoatem n expresia de mai sus i valoarea statisticii 2).


Analog, putem s introducem o msur de tip 2 ntre coloanele
matricei profil-coloan i apoi s calculm distana ponderat a punctelor
T

n
n
n
din nor la centrul lor de greutate m = 1 ,..., i ,..., r ; obinem
n
n
n
aceeai expresie (3).
c

Observaii: 1) Norul de puncte asociat matricei profil-linie formeaz


un subspaiu W1 n spaiul R c ;

2) vectorul 0m l (din spaiul R c ) este un vector ortogonal n sensul


metricii 2 pe subspaiul W1.
Analiza corespondenelor este analiza componentelor principale
aplicat celor dou matrice profil-linie i profil-coloan asociate matricei de
contingen. Principiile aflrii axelor principale i ale componentelor

principale fiind cele prezentate n 3.1, practic avem de rezolvat urmtoarele


dou sisteme de ecuaii algebrice duale i anume:
LC T a = a i C T Lb = b
(4)
Propoziia 1. Ambele sisteme (4) au soluia 0 = 1 (valoare proprie
a matricei LC T i C T L ). Mai mult, n caz c r c spectrul matricei LC T
se regsete n spectrul matricei C T L , iar n caz c r > c spectrul matricei
C T L se regsete n spectrul matricei LC T .
n analiza factorilor i componentelor principale valoarea proprie
0 = 1 se elimin, aa cum se elimin i vectorul propriu corespunztor,
reinndu-se restul de r1 factori a respectiv c1 factori b.
Propoziia 2. Cu notaiile de mai sus, ntre vectorii proprii a i
vectorii proprii b exist urmtoarele legturi:

bj =

i =1

nij
j

ai i ai =

nij

j =1

bj .

n tabelul urmtor prezentm sintetic descrierea factorilor principali i


a componentelor principale ca vectori proprii ai matricelor LC T i C T L .
ACP pentru matricea
ACP pentru matricea
profil-linie
profil-coloan
Vectorii proprii ai matricei Vectorii proprii ai matricei

Factorii
principali

CTL

Componentele principale

LC T

Vectorii proprii a ai matricei Vectorii proprii b ai matricei

LC T ,
normalizai
prin C T L ,
normalizai
prin
1 T
1 T
a D1a =
b D2 b =
n
n
n cazul analizei corespondenelor nu are sens s calculm corelaiile
dintre componentele principale i coloanele respectiv liniile din matricele
profil corespunztoare. Interpretarea componentelor principale se face prin
evaluarea aa-numitei contribuii a liniei respectiv a coloanei la ineria
total a norului de puncte.
Ineria recuperat de o ax (fie c aceast ax este a sau b) poate fi
evaluat astfel
1
J=
n

i =1

1
ni ( a i ) =
n
2

j (b j )

j =1

prin urmare vom defini contribuia liniei i din matricea profil-linie la ineria
norului (pe o ax a) prin formula:
ni
(ai ) 2
n
CTR (i ) =
J
n
i vom avea n atenie acele linii i pentru care CTR(i) > i .
n
Analog, vom defini contribuia coloanei j din matricea profil-coloan
la ineria norului (pe o ax b) prin
n j
(b j ) 2
CTR ( j ) = n
J
n j
i vom avea n atenie acele coloane pentru care CTR ( j ) >
.
n
Aplicaie - exemplu. ntr-un sondaj de opinie lansat de o fabric de
bere n scopul obinerii datelor necesare elaborrii strategiei de extindere i
diversificare a produciei, una dintre temele urmrite a fost dependena de
categoria de venit a mrcii de bere consumate. A fost chestionat un eantion
reprezentativ format din 1355 de consumatori, iar datele obinute sunt
prezentate n tabelul de contingen urmtor. Evident, pe linii apar mrcile
de bere indicate, iar pe coloane 6 categorii de venit (ordonate de la venit
foarte mic pn la venit foarte mare)
C.Venit V1
V2
V3
V4
V5
V6 Total
Azu
12
24
30
14
8
6
94
Buc
8
14
23
22
11
16
94
Bra
11
22
23
11
12
13
92
Cis
18
30
11
6
10
5
90
Fav
9
15
14
8
8
6
60
Gam
8
14
12
17
12
5
68
Mam
11
20
18
22
15
13
99
Ori
1
7
14
16
11
17
76
Rah
12
30
47
27
14
12
152
Sil
17
23
25
26
15
17
123
Urs
10
20
16
26
4
4
80
Bws
3
11
5
6
1
3
29
Dab
5
2
8
11
18
23
46
Dre
10
21
13
8
7
3
62
Efe
13
23
8
11
9
3
67
Hpk
6
12
5
8
8
2
41

C.Venit V1
V2
V3
V4
V5
V6 Total
Tub
15
14
18
20
9
6
82
Total
169
302
290
259
182
153 1355

S parcurgem cteva etape de analiz plecnd de la acest tabel de


contingen.
1) Matricea profil-linie L este prezentat n tabelul urmtor (n care
pe ultima linie apare vectorul-centroid al norului de puncte)
C.Venit
Azu
Buc
Bra
Cis
Fav
Gam
Mam
Ori
Rah
Sil
Urs
Bws
Dab
Dre
Efe
Hpk
Tub

ml

V1
0.128
0.085
0.120
0.200
0.150
0.118
0.111
0.013
0.079
0.138
0.125
0.103
0.109
0.161
0.194
0.146
0.183

V2
0.255
0.149
0.239
0.333
0.250
0.206
0.202
0.092
0.197
0.187
0.250
0.379
0.043
0.339
0.343
0.293
0.171

V3
0.319
0.245
0.250
0.122
0.233
0.176
0.182
0.184
0.309
0.203
0.200
0.172
0.174
0.210
0.119
0.122
0.220

V4
0.149
0.234
0.120
0.067
0.133
0.250
0.222
0.211
0.178
0.211
0.325
0.207
0.239
0.129
0.164
0.195
0.244

V5
0.085
0.117
0.130
0.111
0.133
0.176
0.152
0.145
0.092
0.122
0.050
0.034
0.391
0.113
0.134
0.195
0.110

V6
0.064
0.170
0.141
0.056
0.100
0.074
0.131
0.224
0.079
0.138
0.050
0.103
0.500
0.048
0.045
0.049
0.073

0.125 0.223 0.214 0.191 0.134 0.113

Pentru fiecare linie (marc de bere) se identific acea categorie de


venit ai crei consumatori consum cel mai mult marca respectiv.
2) Matricea profil-coloan C este prezentat transpus n tabelul
urmtor (mpreun cu vectorul-centroid al norului de puncte):
C.Ven Azu Buc
V1 0.07 0.05
V2 0.08 0.05
V3 0.10 0.08
V4 0.05 0.08
V5 0.04 0.06
V6 0.04 0.10
mc 0.07 0.07

Bra Cis Fav Gam Mam Ori Rah Sil Urs Bws Dab Dre Efe Hpk Tub
0.07 0.11 0.05 0.05 0.07 0.01 0.07 0.10 0.06 0.02 0.03 0.06 0.08 0.04 0.09
0.07 0.10 0.05 0.05 0.07 0.02 0.10 0.08 0.07 0.04 0.01 0.07 0.08 0.04 0.05
0.08 0.04 0.05 0.04 0.06 0.05 0.16 0.09 0.06 0.02 0.03 0.04 0.03 0.02 0.06
0.04 0.02 0.03 0.07 0.08 0.06 0.10 0.10 0.10 0.02 0.04 0.03 0.04 0.03 0.08
0.07 0.05 0.04 0.07 0.08 0.06 0.08 0.08 0.02 0.01 0.10 0.04 0.05 0.04 0.05
0.08 0.03 0.04 0.03 0.08 0.11 0.08 0.11 0.03 0.02 0.15 0.02 0.02 0.01 0.04
0.07 0.07 0.04 0.05 0.07 0.06 0.11 0.09 0.06 0.02 0.03 0.05 0.05 0.03 0.06

Pentru fiecare linie (ce reprezint aici categoria de venit) se


identific acea marc/acele mrci de bere consumate maximal de ctre
categoria respectiv.
3) Evaluarea acoperirii ineriei totale a norului de puncte prin
axele factoriale, evaluare ce utilizeaz valorile proprii ale
matricei L C T (sau ale matricei C T L ) este urmtoarea:
Nr.

Val. proprie

% inerie

% cumulat

0.1013

62.5%

62.5%

0.0323

19.9%

82.4%

0.0178

11.0%

93.4%

0.0043

2.7%

96.1%

0.0064

3.9%

100.0%

Se observ c primele dou axe factoriale acoper peste 82% din


ineria norului de puncte, ceea ce se consider a fi relevant pentru analiz.
4) Continum aadar cu 2 axe factoriale. Pentru fiecare dintre
acestea putem folosi formula
1
J=
n

i =1

1
ni ( a i ) =
n
2

j (b j )

j =1

pentru a-i evalua ineria. Apoi, contribuia fiecrei coloane j la


aceast inerie se obine din formula
1 n j
CTR ( j ) =
(b j ) 2
J n
iar contribuia fiecrei linii i la ineria asociat axei este dat de:
1 n
CTR(i) = i (ai ) 2 .
J n
Concret, rezultatele obinute din analiza coloanelor sunt urmtoarele:
Ineria:

0.1358

0.1711

C.Venit

Axa1

Axa2

V1

0.084

0.158

V2

0.279

0.087

V3

0.011

0.371

V4

0.003

0.195

V5

0.103

0.170

V6

0.520

0.020

Prin urmare, contribuia maxim la prima ax factorial aparine


categoriei de venit V6 (foarte ridicat), iar la a doua ax factorial aparine
categoriei de venit V3 (mic spre mediu).
Analog, rezultatele obinute din analiza liniilor sunt urmtoarele:
ineria
Marca
Azu
Buc
Bra
Cis
Fav
Gam
Mam
Ori
Rah
Sil
Urs
Bws
Dab
Dre
Efe
Hpk
Tub

0.0409
Axa1
0.037
0.029
0.000
0.076
0.005
0.000
0.005
0.127
0.008
0.003
0.032
0.015
0.539
0.052
0.055
0.009
0.007

0.0575
Axa2
0.045
0.060
0.003
0.257
0.008
0.000
0.000
0.028
0.196
0.001
0.086
0.000
0.112
0.026
0.120
0.050
0.009

Prin urmare, contribuia maxim la prima ax factorial aparine


mrcii Dab, iar la a doua ax factorial aparine mrcii Cis.
5) ncheiem analiza cu reprezentarea grafic a ambelor seturi de
modaliti n planul celor 2 axe factoriale. (Fiecare modalitate,
fie c este o categorie de venit, fie ca este o marc de bere, va fi
reprezentat prin cel dou componente principale ale sale.)
Graficul este prezentat n figura 12.
Se observ c prima ax factorial exprim opoziia dintre veniturile
mici i cele mari. De asemenea, este destul de clar asocierea dintre marca
Dab i categoria de venit V6.
S presupunem c iniiatorul acestei anchete este, de exemplu, marca
Tub. Constat c se afl n zona de indiferen, dar constat i poziia
concurenilor si. Este vizibil c ecartul su fa de categoria V6 este mai
mare dect cel fa de categoria V4. n consecin, politica sa de
diversificare ar trebui s se adreseze acestui segment de consumatori.

V3
V4
R ah
B uc

U rs
Azu

O ri
Tub
S il
M a mG a m
B ra
Fav
V6

Bws

D re
V2
Hp k
Ef e

D ab

V5

C is

V1

Figura 12. Reprezentarea simultan n planul factorial

Ca un alt exerciiu de aplicare a analizei corespondenelor se pot


folosi datele din tabelul urmtor 1 . Datele sunt prelevate dintr-un eantion de
10000 de studeni la diferite faculti (Fac) i provenind din categorii socioprofesionale ale prinilor (CSP) dup cum urmeaz: fermier (Ferm),
muncitor agricol (MAgr), patron (Patr), profesie liberal (PLib), cadre medii
(CMed), salariat (Salr), muncitor (Munc), personal de serviciu (Serv), alte
profesii (Alte).
CSP\Fac

Drept

Economice

Litere

tiine

Medicin

Farmacie

Fac.
tehn.

Alte
fac.

Ferm

80

36

134

99

65

28

58

11

511

MAgr

15

39

Patr

168

74

312

137

208

53

62

21

1035

PLib

470

191

806

400

876

164

79

45

3031

CMed

236

99

493

264

281

56

87

36

1552

Salr

145

52

281

133

135

30

54

20

850

Munc

166

64

401

193

127

23

129

28

1131

Serv

16

27

11

80

Alte

305

115

624

247

301

47

90

42

1771

Total

1592

639

3093

1490

1005

404

571

206

10000

Total

G. Saporta, Probabilits, Analyse des Donnes et Statistique, Ed. Technip, Paris 1990

Se va ncerca a da rspuns urmtoarelor ntrebri:


1)

Ce studii urmeaz copiii avnd prini dintr-o categorie socioprofesional?

2)

Ce origine socio-profesional au studenii de la diverse faculti?

3)

Alegerea unei faculti depinde sau nu de categoria socioprofesional a prinilor i, dac da, cum anume?

S-ar putea să vă placă și