Sunteți pe pagina 1din 109

Academia de Studii Economice

Facultatea de Cibernetic|, Statistic| i Informatic| Economic|


Masterat Baze de date - suport pentru afaceri

Prof. univ. dr. Gheorghe RUXANDA

ANALIZA
MULTIDIMENSIONAL{ A
DATELOR

Bucure ti
2005

Cuprins
Tema 1. Probleme ale m|sur|rii i cuantific|rii economico-sociale . . . . . . . . . . . . . . . . . . . . . . 1
1.1 Necesitatea i rolul analizei datelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Specificitatea dom eniului econom ico-social i modalit|i de abordare . .
1.2.1 Abordarea sistemic | . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.2 Abordarea statistic | . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.3 Abordarea bazat| pe modelarea matematic | i inform atic | . . . . .
1.3 M |surarea i cuantificarea n dom eniul econom ico-social . . . . . . . . . .
1.3.1 Unit|ile de m |sur | . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.2 Par ialitatea informa iilor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.3 Erorile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Erorile cu caracter sistem atic . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Erorile cu caracter accidental . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.4 M |surarea indirect| . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4. Definirea analizei datelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5 Clasificarea metodelor de analiz| a datelor . . . . . . . . . . . . . . . . . . . . . . .
1.5.1 Metode de analiz| a dependen ei . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5.2 Metode de analiz| a interdependen ei . . . . . . . . . . . . . . . . . . . . . .
1.6 Analiza prelim inar | a datelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.7 Suportul software n analiza datelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...

....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..

1
1
3
3
3
4
4
5
5
5
5
6
6
7
8
8
9
9

Tema 2. Concepte i operaii specifice econometriei i analizei datelor . . . . . . . . . . . . . . . . . . 10


2.1 Concepte fundamentale ale analizei datelor . . . . . . . .
2.1.1 Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.2 Popula ia i e antionul
...........
2.1.3 Caracteristici i variabile . . . . . . . . . . . . . . . . .
2.1.4 Observa ii . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Tipuri de date prim are . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Date experim entale i date non-experimentale
2.2.1.1 Date experim entale . . . . . . . . . . . . . . . .
2.2.1.2 Date non-experim entale . . . . . . . . . . . .
2.2.2 Date de tip profil, serii de tim p i date panel . .
2.2.2.1 Date de tip profil . . . . . . . . . . . . . . . . . .
2.2.2.2 Date de tip serii de tim p . . . . . . . . . . . . .
2.2.2.3 Date de tip panel . . . . . . . . . . . . . . . . . .
2.2.3 Scala de m |surare a variabilelor . . . . . . . . . . .
2.2.3.1 Definirea scalei . . . . . . . . . . . . . . . . . . .
2.2.3.2 Tipuri de scale . . . . . . . . . . . . . . . . . . . .
2.2.3.2.1 Scala nominal| . . . . . . . . . . . . . .
2.2.3.2.2 Scala ordinal| . . . . . . . . . . . . . . .
2.2.3.2.3 Scala interval . . . . . . . . . . . . . . .
2.2.3.2.4 Scala raport . . . . . . . . . . . . . . . . .
2.3 Moduri de reprezentare a datelor . . . . . . . . . . . . . . . .
2.3.1 M atrici de observa ii . . . . . . . . . . . . . . . . . . . . .
2.3.2 M atrici de contingen | . . . . . . . . . . . . . . . . . . .
2.3.3 Matrici de proximitate . . . . . . . . . . . . . . . . . . .

...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...

....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....

....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....

....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....

....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....

....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....

....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....

....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....

..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..

10
10
10
11
12
12
12
12
12
13
13
13
13
14
14
14
14
15
15
16
16
16
17
17

Tema 3. Transformarea i sumarizarea datelor primare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18


3.1 Transformarea datelor prim are . . . . . . . . .
3.1.1 Rafinarea datelor . . . . . . . . . . . . . . .
3.1.1.1 Interpolarea datelor . . . . . . . .
3.1.1.2 Extrapolarea datelor . . . . . . .
3.1.1.3 Ajustarea datelor . . . . . . . . . .
3.1.2 Prelucrarea prelim inar | a datelor . .
3.1.2.1 Centrarea observa iilor . . . . . . . . .
3.1.2.2 Standardizarea observa iilor . . . . .

...
...
...
...
...
...
...
...
a

.
.
.
.
.
.
.
.

...
...
...
...
...
...
...
...

.
.
.
.
.
.
.
.

...
...
...
...
...
...
...
...

.
.
.
.
.
.
.
.

...
...
...
...
...
...
...
...

.
.
.
.
.
.
.
.

...
...
...
...
...
...
...
...

.
.
.
.
.
.
.
.

...
...
...
...
...
...
...
...

.
.
.
.
.
.
.
.

...
...
...
...
...
...
...
...

.
.
.
.
.
.
.
.

...
...
...
...
...
...
...
...

.
.
.
.
.
.
.
.

...
...
...
...
...
...
...
...

.
.
.
.
.
.
.
.

...
...
...
...
...
...
...
...

.
.
.
.
.
.
.
.

...
...
...
...
...
...
...
...

.
.
.
.
.
.
.
.

...
...
...
...
...
...
...
...

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

18
18
18
18
18
18
19
20

3.2 Sum arizarea datelor prim are . . . . . . . . . . . . . . . . . . . . . .


3.2.1 M |sura tendin ei centrale . . . . . . . . . . . . . . . . . . . .
3.2.2 M |sura variabilit|ii . . . . . . . . . . . . . . . . . . . . . . . .
3.2.3 M |sura leg |turii de tip liniar . . . . . . . . . . . . . . . . .
3.2.4 M |suri generalizate ale variabilit|ii . . . . . . . . . . .
3.2.4.1 Varian a total| . . . . . . . . . . . . . . . . . . . . . . .
3.2.4.2 Varian a generalizat| . . . . . . . . . . . . . . . . .
3.3 Matrici utilizate n analiza multidim ensional| a datelor .
3.3.1 M atricea observa iilor centrate . . . . . . . . . . .
3.3.2 M atricea observa iilor standardizate . . . . . . .
3.3.3 M atricea produselor ncruciate . . . . . . . . . .
3.3.4 Matricea de covarian | . . . . . . . . . . . . . . . . . .
3.3.5 Matricea de corela ie . . . . . . . . . . . . . . . . . . .

....
....
....
....
....
....
....
....
....
....
....
....
....

....
....
....
....
....
....
....
....
....
....
....
....
....

....
....
....
....
....
....
....
....
....
....
....
....
....

....
....
....
....
....
....
....
....
....
....
....
....
....

....
....
....
....
....
....
....
....
....
....
....
....
....

....
....
....
....
....
....
....
....
....
....
....
....
....

....
....
....
....
....
....
....
....
....
....
....
....
....

....
....
....
....
....
....
....
....
....
....
....
....
....

....
....
....
....
....
....
....
....
....
....
....
....
....

..
..
..
..
..
..
..
..
..
..
..
..
..

21
21
22
23
23
24
24
26
26
26
26
27
27

Tema 4. Spaii i distane utilizate n analiza datelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28


4.1 Reprezentarea geom etric | a observa iilor i variabilelor
4.1.1 Spa iul variabilelor . . . . . . . . . . . . . . . . . . . . . . . .
4.1.2 Spa iul observa iilor . . . . . . . . . . . . . . . . . . . . . . .
4.2 Distan a n analiza datelor . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Distan a euclidian | . . . . . . . . . . . . . . . . . . . . . . . .
4.2.2 Distan a euclidian | ponderat| . . . . . . . . . . . . . . .
4.2.3 Distan a standardizat| . . . . . . . . . . . . . . . . . . . . .
4.2.4 Distan a Mahalanobis . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

..
..
..
..
..
..
..
..

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

..
..
..
..
..
..
..
..

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

..
..
..
..
..
..
..
..

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

..
..
..
..
..
..
..
..

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

..
..
..
..
..
..
..
..

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

..
..
..
..
..
..
..
..

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

..
..
..
..
..
..
..
..

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

..
..
..
..
..
..
..
..

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

...
...
...
...
...
...
...
...

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

28
28
29
30
30
31
31
32

Tema 5. Analiza intragrupal| i analiza intergrupal| . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33


5.1 Analiza de tip intragrupal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.2 Analiza de tip intergrupal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

Tema 6. Analiza componentelor principale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36


6.1 Necesitatea i im portan a simplific |rii spa iului cauzal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1.1 Sim plificarea structurii dependen ei cauzale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1.1.1 Elim inarea redundan elor informa ionale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1.2 Reducerea dimensionalit|ii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1.3 Necesitatea reducerii dimensionalit|ii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1.3.1 Selectarea variabilelor de influen | . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1.3.2 Sim plificarea m odelelor m atematice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1.3.3 Com presia i restaurarea datelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1.3.4 Vizualizarea unor rela ii de cauzalitate complexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1.4 Dom enii ale utiliz |rii analizei com ponentelor principale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Definirea analizei com ponentelor principale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.3 Definirea com ponentelor principale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.3.1 Caracteristici ale componentelor principale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.4 Logica analizei com ponentelor principale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.4.1 Rota ia axelor i maxim izarea varian ei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.4.2 Transform area coordonatelor obiectelor prin rota ia axelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.4.3 Corelarea variabilelor i com ponentelor principale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.5 Modelul matem atic al com ponentelor principale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.5.1 Rela iile de definire a com ponentelor principale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.5.2 Form ularea modelului matem atic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.5.3 Form ularea problemei de maxim izare a varian ei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.5.4 Deducerea com ponentelor principale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.6 Propriet|ile com ponentelor principale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.6.1 Distribuirea dup | legea norm al| . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.6.2 Conservarea varian ei totale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.6.3 Conservarea varian ei generalizate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.6.4 Dependen a de unit|ile de m |sur | . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.7 Matricea factor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

36
37
37
37
39
39
39
40
40
40
41
41
42
42
43
45
47
49
49
50
51
52
54
54
55
55
55
56

Tema 7. Analiza factorial| . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58


7.1 Scopul analizei factoriale . . . . . . . . . . . . . . . . . . . . . .
7.2 Im portan a i necesitatea sintetiz|rii cauzalit|ii . . . .
7.2.1 M |surarea factorilor neobservabili . . . . . . . . .
7.2.2 Detectarea substan ei inform a ionale com une

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

...
...
...
...

.
.
.
.

...
...
...
...

.
.
.
.

...
...
...
...

.
.
.
.

...
...
...
...

.
.
.
.

...
...
...
...

.
.
.
.

...
...
...
...

.
.
.
.

...
...
...
...

.
.
.
.

..
..
..
..

58
58
58
59

7.3 Dom enii ale utiliz |rii analizei factoriale . . . . . . . . . . . . . . . . . . . . . .


7.4 Definirea analizei factoriale i a conceptelor acesteia . . . . . . . . . . .
7.4.1 Definirea conceptelor fundam entale . . . . . . . . . . . . . . . . . . .
7.4.2 Definirea analizei factoriale . . . . . . . . . . . . . . . . . . . . . . . . . .
7.4.3 Tipurile analizei factoriale . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.5 Structura general| a modelului factorial . . . . . . . . . . . . . . . . . . . . .
7.6 Descom punerea variabilit|ii spa iului iniial . . . . . . . . . . . . . . . . .
7.6.1 Spa iul factor i exprim area con inutului s|u inform a ional
7.6.2 Com ponentele varian ei . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.7 Configura ia factor i structura factor . . . . . . . . . . . . . . . . . . . . . . .
7.7.1 Definirea configura iei factor . . . . . . . . . . . . . . . . . . . . . . . .
7.7.2 Definirea structurii factor . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.8 Calculul scorurilor factoriale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.9 Criterii de alegere a num |rului de factori . . . . . . . . . . . . . . . . . . . .
7.9.1 Criteriul procentului de acoperire . . . . . . . . . . . . . . . . . . . . .
7.9.2 Criteriul lui Kaiser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.9.3 Criteriul "granulozit|ii" . . . . . . . . . . . . . . . . . . . . . . . . . . . .

....
....
....
....
....
....
....
...
....
....
....
....
....
....
....
....
....

....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....

....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....

....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....

....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....

....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....

....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....
....

..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..

60
60
60
63
63
64
65
65
66
68
68
68
69
74
74
74
74

Tema 8. Metode i tehnici de recunoatere a formelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75


Im portan a i necesitatea recunoa terii form elor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Definirea recunoa terii form elor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Concepte fundamentale ale teoriei recunoa terii form elor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
Formularea problem ei generale de clasificare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
Sisteme de recunoa tere a form elor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
8.5.1 Sisteme de recunoa tere necontrolat| . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
8.5.2 Sisteme de recunoa tere controlat| . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
8.6 Analiza cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
8.6.1 Tipul informa iilor prim are utilizate n analiza cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
8.6.2 Evaluarea distan elor dintre obiecte i tipuri de distan e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
8.6.3 Evaluarea distan elor dintre clustere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
8.6.3.1 Metoda celor m ai apropia i vecini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
8.6.3.2 M etoda celor m ai dep |rta i vecini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
8.6.3.3 Metoda distan ei medii dintre perechi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
8.6.3.4 Metoda centroidului . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
8.6.3.5 M etoda lui Ward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
8.6.4 M etode i tehnici de analiz| cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
8.6.4.1 Analiza cluster de tip ierarhic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
8.6.4.1.1 Metode de clasificare ierarhic | prin agregare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
8.8.4.1.1.1 M etoda agreg |rii simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
8.8.4.1.1.2 M etoda agreg |rii complete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
8.8.4.1.1.3 M etoda agreg |rii medii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
8.8.4.1.1.4 Metoda centroidului . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
8.8.4.1.1.5 M etoda lui Ward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
8.6.4.1.2 Metode de divizare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
8.6.4.2 Algoritmi de partiionare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
8.7. Recunoa terea form elor cu ajutorul tehnicilor de analiz| discrim inant| . . . . . . . . . . . . . . . . . . . . . . . . . 94
8.7.1. Definirea problem ei analizei discrim inante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
8.7.2 Separarea claselor n spa iul form elor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
8.7.3 Clasificatorii de tip liniar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
8.7.4 Definirea func iilor discrim inant ale lui Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
8.1
8.2
8.3
8.4
8.5

Bibliografie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

Tema 1. Probleme ale m|sur|rii i cuantific|rii economico-sociale


1.1 Necesitatea i rolul analizei datelor
Cunoa terea tiin ific | din orice domeniu de activitate uman | presupune, indiferent de natura i specificul obiectivelor
concrete urm |rite, o complex | i riguroas | analiz | cantitativ | a fenomenelor i proceselor care fac obiectul cercet|rii. Este
vizibil pentru oricine, i din ce n ce mai mult, c | n epoca modern | aproape orice individ angrenat ntr-o activitate uman | se
ocup |, ntr-un fel sau altul, n mod direct sau indirect, cu date i informa ii, cu colectarea, prelucrarea i interpretarea acestora.
Desf |urarea oric |rei activit|i umane implic | o produc ie continu | de date sau informa ii, care se acumuleaz | n timp i
care pot fi folosite pentru cunoa terea structural| i evolutiv | a fenomenelor la care se refer | aceste informa ii, n scopul
fundament |rii corecte i eficiente a deciziilor care trebuie luate. M ai mult dect att, desf |urarea activit|ilor umane nici m |car
nu poate fi conceput| n zilele noastre f|r | un consum continuu, din ce n ce mai mare, de informa ie. Din acest punct de vedere,
se poate spune c | informa ia a devenit unul dintre factorii de produc ie importan i i activi, un factor de progres i civiliza ie.
Totdeauna, mulimile de date con in, ntr-un mod amalgamat i invizibil, att aspecte semnificative, ct i aspecte
nesemnificative, ale manifest |rii fenomenelor. Deoarece cunoa terea tiin ific | vizeaz | n mod exclusiv aspectele informa ionale semnificative, apare necesitatea utiliz |rii unor metode i tehnici specifice analizei datelor, cu ajutorul c |rora informaia semnificativ | s | poate fi detectat|, separat| de informa ia nesemnificativ | i exprimat | sub o form | clar | i interpretabil|.
Metodele i tehnicile de analiz | a datelor sunt cele mai adecvate instrumente utilizabile pentru identificarea unor structuri
cauzale, pentru decelarea unor tendin e i configura ii specifice pe mulimea datelor analizate i ob inerea unor reprezent|ri
simplificate ale informa iilor de mare complexitate.
Utilitatea i eficien a utiliz |rii metodelor i tehnicilor de analiz | a datelor sunt maxime n situa iile n care informa iile
supuse studiului sunt n cantit |i foarte mari. Din acest punct de vedere, domeniul economic poate fi considerat ca fiind un
domeniu privilegiat. n cea mai mare parte a lor, metodele i tehnicile de analiz | a datelor au natur | multidimernsional|, astfel
nct, comparativ cu metodele i tehnicile de analiz | statistic | descriptiv |, ele permit i investigarea leg |turilor i
interdependen elor eviden iate la nivelul mulimilor de date.
Materia prim | utilizat| n orice activitate de analiz | a datelor este reprezentat| de o colec ie sau mulime de date sau
informa ii cantitative, referitoare la st |rile sau evolu iile unei mulimi de fenomene. Aceste date pot fi ob inute fie pe cale
observa ional|, fie pe cale experimental|.
Din punct de vedere al analizei datelor, orice mulime de informa ii supus | studiului este privit| ca fiind o reprezentare
codificat|, ntr-o form | mai mult sau mai pu in implicit |, a unor aspecte informa ionale referitoare la niveluri i varia ii ale unor
fenomene, evolu ii i tendin e relevante, leg |turi i influen e semnificative, ierarhii i configura ii structurale specifice.
Datele supuse unui proces de analiz | nu eviden iaz |,n mod direct i explicit, prin ele nsele, informa ia util | i semnificativ |. De regul|, datele con in informa ia util| i semnificativ | sub o form | mascat|, ascuns |, amestecat| ntr-un mod
nediferen iat i f|r | o logic | aparent|, cu informa ia nesemnificativ |, rezultat| din influen e accidentale i marginale. n acest
sens, se poate spune c | la nivelul datelor primare supuse analizei, informa ia semnificativ | se g |se te sub o form | diluat| i
disipat| ntr-o mulime informa ional| complex |, neordonat| i nestructurat| dup | vreun criteriu logic existent aprioric.
Rolul analizei datelor este acela de a prelucra i filtra informa iile con inute n datele supuse studiului, cu scopul de a capta
sau de a extrage esen a informa ional| con inut| n aceste date i de a eviden ia aceast| esen | informa ional| ntr-o form | de
reprezentare inteligibil|, sugestiv |, simplificat| i sintetizatoare. Atingerea acestui scop presupune realizarea unei succesiuni
de transform |ri efectuate asupra datelor primare i implic | utilizarea unor metode i tehnici specifice. Aceste transform |ri au
scopul de a maximiza relevan a i interpretabilitatea datelor i presupun, printre altele, eliminarea informa iilor redundante
sau lipsite de semnifica ie i generalitate, care au natur | accidental| sau marginal|. Din acest punct de vedere, procesul de
analiz | a datelor apare ca fiind un proces specific de transformare informa ional|, proces care are ca intr |ri datele primare, iar
ca ie iri informa ii sintetizatoare.
Avnd n vedere modul n care se efectueaz |, precum i natura instrumentelor pe care le folose te, analiza datelor este, prin
excelen |, o analiz | de tip multidimensional, reprezentnd, n compara ie cu analiza simpl |, unidimensional|, o schimbare de
natur | calitativ |. Analiza statistic | descriptiv | permite reprezentarea unor colec ii foarte mari de date ntr-o manier | sugestiv |
i asimilabil|, simplificat| i schematizant |. Spre deosebire de aceasta, analiza multidimensional| constituie o generalizare
natural| a logicii i informa iilor referitoare la mai multe variabile sau dimensiuni.
Activit|ile de manipulare a datelor i informa iilor, de prelucrare i interpretare corect| i eficient | a acestora, presupun
existen a unui cadru conceptual adecvat i utilizarea unor metode i instrumente specifice. Att cadrul conceptual necesar, ct
i metodele i tehnicile utilizabile n prelucrarea, analiza i interpretarea datelor i informa iilor, sunt subsumate de obiectul unei
discipline tiin ifice numit| analiza datelor.

1.2 Specificitatea domeniului economico-social i modalit|i de abordare


De i metodele i tehnicile de analiz | a datelor sunt utilizate n majoritatea domeniilor activit|ii umane, putem afirma c |
analiza datelor are cea mai larg | utilizare n domeniul economico-social, iar eficien a utiliz |rii ei n acest domeniu are o eficien a
extrem de ridicat|. A a cum cum o s | ar|t|m n continuare, activitatea de cunoa tere tiin ific | din domeniul economico-social
este caracterizat| de anumite accente specifice, n compara ie cu alte domenii ale cunoa terii umane. n virtutea acestor elemente
de specificitate, domeniul economico-social pare a fi cel mai potrivit domeniu pentru utilizarea metodelor i tehnicilor de analiz |
1

multidimensional| a datelor.
Dintre toate elementele de specificitate a domeniului economico-social, dou | consider |m a fi mai importante i mai
relevante din punct de vedere al utiliz |rii analizei datelor: complexitatea ridicat| a fenomenelor economico-sociale i natura
cantitativ | a acestor fenomene. mpreun | cu multe alte caracteristici specifice, aceste dou | caracteristici fundamentale impun
modalit|i specifice de abordare pentru cunoa terea tiin ific | din domeniul economico-social.
Necesitatea de a sintetiza i de a simplifica n procesul de cunoa tere a realit|ii, este impus | att de faptul c | datele
utilizabile ntr-o analiz | mascheaz |, ascund, anumite aspecte, ci i de faptul c | realitatea analizat| este caracterizat| de o
complexitate foarte ridicat|, care nu poate fi cuprins | i n eleas| numai pe baza intuiiei.
n activitatea de analiz | cantitativ |, pe care se bazeaz | n mod direct cunoa terea tiin ific | din cele mai multe domenii de
activitate, sunt implicate trei categorii esen iale de elemente: teorii i principii teoretice generale i specifice domeniului
investigat, informa ii cantitative i calitative referitoare la fenomenele supuse studiului, metode i tehnici de cuantificare,
evaluare, estimare i testare a m |rimilor specifice i a rela iilor existente la nivelul realit|ii investigate.
Teoriile i principiile teoretice care stau la baza oric |rei analize cantitative sunt reprezentate de mulimea cuno tiin elor
tiin ifice acumulate n decursul timpului, de realiz |rile ob inute pe plan tiin ific, att la nivelul general al cunoa terii umane,
ct i la nivelul cunoa terii n domeniul abordat.
Inform a iile cantitative i calitative referitoare la fenomenele i procesele studiate exprim | o mulime de st |ri i evolu ii
concrete din realitatea investigat| i sunt rezultatul unui laborios proces de observare, m |surare i evaluare, proces n care
intervin o serie de norme, principii, metodologii i instrumente specifice procesului de m |surare. Informa iile ob inute din
realitatea investigat|, n urma unor procese de observare i de m |surare, sunt cunoscute sub numele de date. Datele reprezint|
materialul brut, empiric, care st | la baza tuturor deciziilor din orice domeniu de activitate, iar de calitatea acestora depinde, n
mod direct, calitatea respectivelor decizii.
Metodele i tehnicile reprezint| un set de reguli, principii i proceduri de analiz|, prelucrare i interpretare a datelor.n
analiza datelor, metodele i tehnicile se refer | la cuantificare, evaluare, estimare i testare, i sunt reprezentate de o mulime
extins | i variat| de proceduri i instrumente statistico-matematice. Aceste proceduri sunt aplicate, sub o form | sau alta,
informa iilor cantitative i calitative, datelor de intrare, n scopul deducerii anumitor rezultate i concluzii. De calitatea
metodelor i tehnicilor utilizate ntr-o activitate de analiz | i de eficien a utiliz |rii lor depind, n mod direct i ntr-o propor ie
foarte mare, att semnifica ia i validitatea concluziilor ob inute, ct i calitatea rezultatelor ob inute.
Combinarea, la nivelul analizei cantitative, a celor trei categorii de elemente men ionate anterior, conduce la ob inerea unor
rezultate i concluzii, care contribuie la adncirea procesului de cunoa tere a realit|ii studiate i care se pot concretiza sub mai
multe forme:
ob inerea de informa ii relevante suplimentare privind starea, evolu ia i conexiunile componentelor realit|ii investigate;
relevarea unor noi principii i legit|i care guverneaz | micarea fenomenelor i proceselor din aceast | realitate;
formularea unor concluzii cu privire la existen a unor leg |turi i specificit|i ce caracterizeaz | realitatea studiat|;
validarea unor ipoteze formulate cu privire la popula iile reprezentate de fenomenele i procesele studiate;
identificarea unor tipologii i structuri specifice pe mulimea de fenomene i procese analizate;
estimarea unor efecte i influen e caracteristice interdependen elor dintre fenomene i procese;
deducerea unor modele statistico-matematice, care s | descrie comportamentul fenomenelor i proceselor;
efectuarea de predic ii cu privire la evolu ia fenomenelor i proceselor;
efectuarea de simul|ri privind evolu ia fenomenelor i a interdepende elor manifestate ntre acestea.
Fenomenele economico-sociale i micarea acestora n timp i spa iu, adic | procesele, au o caracteristic | ce le face s | se
deosebeasc | n mod esen ial, fundamental, de fenomene i procese specifice altor domenii de activitate. Aceast | caracteristic |
este dat| de faptul c | manifestarea la nivel observabil a acestor fenomene i a mic |rii lor, este extrem de complex | i mbrac |
o deosebit de mare varietate de forme, fiecare fenomen sau proces economico-social existnd sub form | multiplicat| pe o scar|
foarte m are. Proprietatea de multiplicitate la o scar | foarte mare, pe care o au existen a i manifestarea fenomenelor economice
i sociale, este cunoscut| n literatura domeniului sub numele de caracter de mas | al fenom enelor econom ico-sociale.
Formele sub care se manifest | fenomenele economice i sociale apar, de regul|, ca o amalgamare de aspecte esen iale i
neesen iale, legate direct sau indirect de con inutul fenomenului, de ceea ce este esen ial i stabil n comportamentul acestuia,
fiind caracterizate n timp, cel pu in la suprafa |, de un grad relativ ridicat de instabilitate. Partea consistent |, semnificativ | i
stabil| a unui fenomen economico-social este, de obicei, ascuns | de aceast | multitudine de manifest |ri, astfel nct cunoa terea
acesteia nu se poate face dect rareori prin observare direct|, fiind necesar, de cele mai multe ori, un demers logic extrem de
complex, n cadrul c |ruia se urm |re te eliminarea a ceea ce este accidental, conjunctural, neesen ial i nesemnificativ n
manifestarea fenomenului, re inndu-se ceea ce este trainic, cu caracter de regularitate, esen ial i semnificativ.
O alt| caracteristic | a fenomenelor economico-sociale este cea legat| de multitudinea i eterogenitatea acestor fenomene,
de dimensiunile la care are loc desf |urarea acestora, de numeroasele leg |turi func ionale existente ntre acestea i de multiplele
interdependen e i condiion |ri dintre fenomenele economico-sociale i fenomenele specifice altor domenii. Gradul ridicat de
interconectare a elementelor i multitudinea factorilor de influen |, implica i n manifestarea rela iilor de cauzalitate, reprezint|
caracteristici definitorii pentru majoritatea fenomenelor i proceselor de natur | socio-economic |.
Amploarea complexit|ii din domeniul economico-social rezult| i din faptul c | natura i intensitatea rela iilor de interdependen | cunosc o m are variabilitate n tim p i spa iu, c | sensul rela iilor de cauzalitate este reversibil, chiar contradictoriu,
i c |, din cauza gradului ridicat de interconectare, manifestarea cauzalit|ii are loc, n multe situa ii, sub forma unor "reac ii
n lan ". Specificitatea domeniului economico-social i caracteristicile care l fac s | se diferen ieze fundamental de celelalte
domenii de activitate, impun ca procesul de cunoa tere n acest domeniu, investigarea tiin ific | a fenomenelor i proceselor
de natur | economico-social| s | poarte o amprent| specific |, particular |.
Caracterul complex al manifest |rii fenomenelor economice i sociale face ca activitatea de cunoa tere n acest domeniu
s | fie puternic condiionat| att de m odalitatea concret| de abordare a obiectului studiat, ct i de natura i puterea metodelor,
tehnicilor i instrumentelor de investigare utilizate.
Faptul c | fenomenele economice i sociale se caracterizeaz | printr-un grad de complexitate foarte ridicat face ca activitatea

de investigare a comportamentului acestora s | fie deosebit de dificil| i rezultatele acesteia s | aib | un grad ridicat de relativitate
din punct de vedere al semnifica iei i exactit|ii. n aceste condiii, succesul investiga iilor socio-economice, valabilitatea i
stabilitatea concluziilor rezultate din analizele efectuate, depind n mod direct de compatibilitatea dintre natura instrumentelor
de investigare folosite i specificul fenomenelor investigate.
Alegerea modalit|ilor de abordare i a celor mai potrivite metode i tehnici de analiz | sau predic ie reprezint| condiia
de baz | pentru ob inerea unor rezultate satisf|c |toare n activitatea de cunoa tere a fenomenelor din domeniul economico-social.
n ceea ce prive te modalit|ile de abordare, cele mai des utilizate n analiza datelor sunt: abordarea sistemic |, abordarea
statistic | i abordarea bazat| pe modelarea matematic | i informatic |.

1.2.1 Abordarea sistemic|


O principal | modalitate de abordare, esen ial| pentru orice proces de investigare tiin ific |, impus | cu necesitate mai ales
n cazurile n care domeniul vizat este caracterizat de un grad ridicat de complexitate, este cea cunoscut| sub numele de
abordare sistem ic |.
Att n sens teoretic, ct i n sens practic, abordarea sistemic | se deta eaz | ca metod | general|, universal | utilizat | n
investigarea tiin ific |, indiferent de domeniul concret al investig |rii tiin ifice. n cazul particular al analizei datelor, abordarea
sistemic | are o importan | special|, att n faza de analiz | propriu-zis |, ct i n faza de interpretare sa rezultatelor.

1.2.2 Abordarea statistic|


Caracterul de mas | pe care l au fenomenele economice i sociale determin | ca manifestarea acestora, n timp i spa iu,
s | intre sub inciden a unui principiu universal de regularitate i stabilitate, specific fenomenelor cu frecven | foarte mare de
existen | i apariie, principiu sintetizat sub forma uneia din cele mai importante legi din domeniul cunoa terii umane: legea
num erelor mari.
Regularitatea i stabilitatea comportamentului fenomenelor economice i sociale sunt asigurate, n virtutea acestui
principiu, de tendin a de com pensare a influen elor cu sensuri contrarii, pozitive i negative, exercitate de factorii neesen iali,
nesemnificativi i accidentali implica i n determinarea rela iilor de cauzalitate dintre fenomenele socio-economice.
O consecin | direct| i imediat| a acestui principiu const | n faptul c | investigarea comportamentului fenomenelor economice i sociale i formularea de concluzii sintetizatoare cu privire la amploarea sau sensul evolu iei acestor fenomene sunt cu
mult mai u or de realizat i caracterizate de un grad mult mai ridicat de semnifica ie i exactitate n cazul n care sunt supuse
studiului colectivit |i mari de fenomene comparativ cu situa ia n care studiul vizeaz | fenomene individuale, izolate.
Necesitatea de a fructifica n procesul cunoa terii fenomenelor i proceselor economice sau sociale facilit|ile ce rezult|
din faptul c | acestea au caracter de mas |, impune ca n ntreaga activitate de analiz | a datelor din domeniul economico-social
s | prevaleze m odalitatea de abordare statistic | i folosirea metodelor i tehnicilor oferite de teoria probabilit|ilor i statistica
m atem atic |.
Modalitatea de abordare statistic | este impus | ca modalitate de investigare a fenomenelor de natur | socio-economic | i
de faptul c | manifestarea acestora este caracterizat| de un grad ridicat de incertitudine i im previzibilitate.
Elementele vizate n mod direct n cadrul investiga iilor tiin ifice bazate pe utilizarea metodelor i tehnicilor proprii
analizei datelor, sunt reprezentate de fenomenele cu natur | stohastic |, adic | de fenomenele al c |ror comportament are caracter
aleatoriu, dar care manifest | o anumit| regularitate mai mult sau mai pu in evident |.
Definiie: Fenom enul stohastic este acel fenomen observabil, ale c |rui manifest |ri particulare sunt incerte, dar care
eviden iaz | o anumit| regularitate a formelor de manifestare, o anumit| leg |tur | ntre aceste forme de manifestare.
Necesitatea utiliz |rii n procesul de investigare a fenomenelor economice i sociale a modalit|ii de abordare statistic | este
determinat| i de caracterul de relativitate, par ialitate i inexactitate al informa iei din acest domeniu.
Imposibilitatea de a ob ine informa ii cu caracter exhaustiv despre desf |urarea fenomenelor economice i sociale impune
ca activitatea de cunoa tere a ansamblului acestei desf|ur |ri s| se bazeze pe informa ii cu caracter par ial, ob inute pe baz |
de sondaj. Extinderea concluziilor rezultate din analiza informa iilor ob inute prin sondaj la nivelul ntregului ansamblu de
fenomene investigate de sondaj se bazeaz | pe metodele i tehnicile inferen ei statistice.
Una din cerin ele de baz | impuse de modalitatea de abordare statistic | oric |rui demers tiin ific ce are ca obiect
investigarea comportamentului unor fenomene i procese economice sau sociale poate fi exprimat | prin necesitatea de a studia
variabilele ce descriu acest comportament, n interdependen a i sim ultaneitatea lor.
Analiza izolat| a comportamentului fiec |rei variabile este incompatibil| cu modalitatea de abordare sistemic | i duce la
o pierdere important | de informa ie semnificativ | n cazul n care variabilele sunt interdependente. Mai mult dect att,
concluziile par iale desprinse n urma unei astfel de analize nu pot fi generalizate i nu au valabilitate la nivelul comportamentului "legat" al variabilelor, influen a interac iunii dintre acestea fiind, de cele mai multe ori, covr itoare.
De regul|, analiza comportamentului individual al unui fenomen, n sensul s|u unidimensional, face obiectul analizei
statistice descriptive. Analiza statistic | descriptiv | permite reprezentarea unor colec ii foarte mari de date ntr-o manier |
sugestiv | i asimilabil|, simplificat| i schematizant |.
Considernd o mulime de variabile aleatoare ce descriu un anumit fenomen economic sau social, vom ob ine rezultate total
diferite dac | vom studia, de exemplu, reparti ia fiec |reia dintre ele izolat, separat de celelalte, comparativ cu situa ia n care
n studiu ar fi vizat| reparti ia comun |, legat| a acestor variabile. Studiul comportamentului simultan, interdependent, al unei
mulimi de variabile presupune metode i tehnici de complexitate i rafinament mult mai ridicate dect studiul comportamentului
izolat al acestora i face obiectul unei discipline aparte, i anume analiza statistic | multidim ensional| sau m ultivariat|.

1.2.3 Abordarea bazat| pe modelarea matematic| i informatic|


A a cum am ar |tat anterior, complexitatea ridicat| ce caracterizeaz | domeniul economico-social i celelalte elemente de
specificitate ale fenomenelor apar innd acestuia, determin | ca orice demers tiin ific ntreprins n scopul adncirii cunoa terii

n acest domeniu s | presupun |, cu necesitate, utilizarea unor metode i tehnici de lucru corespunz |toare.
Din rndul instrumentelor de investigare tiin ific |, a c |ror utilitate n contracararea dificult|ilor ridicate de gradul sporit
de complexitate al domeniului studiat este de nenlocuit i a c |ror utilizare nso e te ast|zi demersul tiin ific din aproape oricare
domeniu al cunoa terii umane, se deta eaz | m odelarea matem atic | i tehnica de calcul.
Ca unul dintre cele mai utile i eficiente instrumente de cunoa tere a realit|ii, m odelarea matem atic | reprezint| procesul
de descriere a comportamentului unor fenomene din natur | i societate sub o form | sintetic |, logic | i formalizat| matematic.
Descrierea sub o form | matematic | a comportamentului fenomenelor i proceselor din cele mai diverse domenii de activitate
a devenit ast |zi dorin a i, de cele mai multe ori, scopul oric |rui cercet|tor, indiferent de domeniul n care acesta activeaz |.
Surprinderea interdependen elor, a legit|ilor i func ionalit|ilor ce caracterizeaz | fenomenele sau procesele din lumea
ce ne nconjoar |, sub forma sintetic | a unui model matematic, este, probabil, cea mai relevant | m |sur | a nivelului la care a ajuns
gradul de cunoa tere uman |.
Din punct de vedere informa ional, modelul matematic, n forma sa final|, poate fi privit ca un "concentrat informa ional",
avnd att calitatea de acumulator al informa iei receptate din segmentul de realitate economic | sau social| pe care l descrie,
ct i de generator de informa ie nou |, inexistent | n momentul construirii lui.

1.3 M|surarea i cuantificarea n domeniul economico-social


Posibilitatea efectu |rii analizelor sau predic iilor din domeniul economico-social este strict condiionat| de existen a unei
baze informa ionale care s | cuprind | informa iile necesare cu privire la nivelul, structura sau evolu ia n timp a fenomenelor
i proceselor supuse investig |rii, sau cu privire la condiion |rile cauzale ale acestor fenomene i procese.
Ob inerea informa iilor necesare pentru activitatea de analiz | a datelor este, de regul|, rezultatul unor procese de observare
i m |surare a fenomenelor i proceselor supuse studiului i presupune existen a unor instrumente adecvate.
Informa iile referitoare la un anumit fenomen supus studiului, informa ii necesare analizei comportamentului respectivului
fenomen, reprezint| rezultatul unui proces de m |surare. Acest proces reprezint|, de fapt, o ac iune de atribuire de valori
numerice pentru caracteristicile respectivului fenomen.
Definiie: Prin proces de m |surare se n elege totalitatea activit|ilor de atribuire a unor valori numerice pentru
caracteristicile fenomenului analizat.
n cea mai mare parte a lor, informa iile necesare efectu |rii analizelor sau predic iilor din domeniul economico-social
trebuie s | aib | natur | cantitativ |, s | reprezinte exprim area sub form | num eric | a caracteristicilor specifice fenomenelor
analizate. Aceast | condiie presupune, n mod implicit, necesitatea existen ei unor unit|i de m |sur |, prin intermediul c |rora
diferitele caracteristici ale fenomenelor economice sau sociale s | poat | fi exprimate, a unor instrum ente adecvate pentru
m |surarea caracteristicilor fenomenelor i a unor m odalit|i de exprim are numeric |.
Din nefericire ns |, att unit|ile de m |sur |, ct i instrumentele utilizate pentru exprimarea sub o form | cantitativ | a
caracteristicilor fenomenelor economice i sociale, sunt caracterizate de inexactitate i instabilitate, iar utilizarea acestora este
generatoarea unei multitudini de erori cu natur | extrem de variat|.
Exprimarea sub o form | numeric | a caracteristicilor fenomenelor i proceselor economice sau sociale presupune un proces
de observare a formelor individuale prin intermediul c |rora se manifest | acestea i de nregistrare a valorilor pe care le iau
aceste caracteristici n momentul observ |rii.
Odat| cu activitatea de nregistrare a m |rimilor caracteristicilor fenomenelor i proceselor economico-sociale, adic | a
valorilor luate de variabilele supuse studiului, are loc i un proces implicit de m |surare, de cuantificare, proces ce presupune
folosirea unor unit|i de m |sur | specifice i instrumente de lucru adecvate. De regul|, informa ia rezultat| n urma acestui proces
este o informa ie brut|, primar |, care este cunoscut| sub numele de dat|.
Cele mai dificile probleme cu care este confruntat| investigarea fenomenelor economice sau sociale, de-a lungul ntregului
ir de procese de culegere, prelucrare i interpretare a informa iilor referitoare la aceste fenomene, apar tocmai n cadrul
procesului de observare i nregistrare, de m |surare i cuantificare a caracteristicilor fenomenelor. n general, putem spune c |
m |surarea i cuantificarea din domeniul socio-economic au ca obiective principale:
stabilirea nivelului sau volumului fenomenelor economice i sociale;
eviden ierea alc |tuirii lor structurale;
caracterizarea evolu iei lor n timp sau spa iu;
exprimarea leg |turilor acestora cu alte fenomene sau procese.
Din punct de vedere conceptual, toate aspectele fenomenelor sau proceselor care fac obiectul m |sur |rii i cuantific |rii sunt
reunite sub termenul generic de caracteristici ale acestor fenomene sau procese.
n activitatea de m |surare i cuantificare din domeniul economico-social apar o serie de dificult|i, determinate de
specificitatea acestui domeniu, cum ar fi: problema unit|ilor de m |sur |, par ialitatea informa iilor, problema erorilor, problema
imposibilit|ii m |sur |rii directe etc.

1.3.1 Unit|ile de m|sur|


O problem | dificil| i complex | care apare n mod frecvent n procesul de m |surare din domeniul economico-social, este
cea dat| de faptul c | unit|ile de m |sur | utilizate pentru exprimarea sub form | numeric | a caracteristicilor unui anumit fenomen
nu sunt stabile. Cu o problem | de acest fel este confruntat|, n special, activitatea de m |surare i cuantificare din domeniul
economic.
Spre deosebire de cele mai multe domenii ale tiin ei, n domeniul economic, unit|ile de m |sur | cunosc modific |ri substan iale n timp, modific |ri ce confer | rezultatelor m |sur |torilor un puternic caracter de instabilitate. De cele mai multe ori,
varia ia unit|ilor de m |sur | este indus | chiar de modific |ri, de un anumit tip, ale fenomenelor i proceselor studiate, ale
fenomenelor cu care acestea sunt, direct sau indirect, legate sau chiar a unor fenomene independente de fenomenele studiate.

1.3.2 Parialitatea informaiilor


O alt| problem | ce ridic | o serie de dificult|i n m |surarea i cuantificarea din domeniul economico-social, este cea legat|
de par ialitatea informa iilor disponibile pentru activit|ile de analiz | a datelor.
Complexitatea fenomenelor economice i sociale, multitudinea a formelor de manifestare n timp i spa iu a acestora, fac
ca ob inerea de informa ii printr-o observare complet| a desf |ur |rii acestor fenomene s | fie de cele mai multe ori imposibil|.
n aceste condiii, modalitatea cea mai comod |, dar i cea mai eficient |, de ob inere a informa iilor necesare efectu |rii analizelor
sau realiz |rii predic iilor este cea a observ |rii selective a manifest |rii fenomenelor.
Aceast | modalitate de investigare se bazeaz | pe faptul c |, n anumite condiii, cunoa terea caracteristicilor ntregii popula ii
poate fi ob inut| prin studierea direct| numai a unui anumit num |r de unit|i ce intr | n componen a acesteia, num |r care este
mult mai redus n compara ie cu volumul total al popula iei. Alegerea unit|ilor ce vor fi efectiv supuse procesului de m |surare
i nregistrare se face dup | criterii i reguli foarte precise, fundamentate riguros din punct de vedere statistico-matematic.
Valorile pe care le iau caracteristicile unit|ilor studiate prin intermediul acestui procedeu alc |tuiesc a a-numitul e antion de
observa ii.
Investigarea fenomenelor i proceselor economice sau sociale pe baza informa iilor provenite din observ |ri selective i
concluziile rezultate n urma acestei investig |ri sunt puternic influen ate de gradul n care informa iile ce alc |tuiesc e antionul
sunt reprezentative la nivelul ntregii popula ii de la care au fost ob inute. De regul|, gradul de reprezentativitate al unui e antion
este invers propor ional cu gradul de eterogenitate a popula iei i direct propor ional cu num |rul de unit|i incluse n e antion.
n condiiile n care informa iile ob inute de la unit|ile selectate n e antion nu reproduc ntr-o m |sur | acceptabil| comportamentul fenomenului la nivelul ntregii popula ii, rezultatele analizelor efectuate vor fi incorecte, iar concluziile formulate pe
baza acestora vor fi eronate. De aceea, n toate cazurile n care baza informa ional| utilizat| n procesele de analiz | a datelor
este ob inut| pe calea observ |rii selective, este necesar | o laborioas | activitate de verificare a semnifica iei rezultatelor i de
validare a concluziilor desprinse pe baza acestor rezultate.
Implica iile negative ale caracterului de par ialitate a informa iilor din domeniul economico-social asupra valabilit|ii
concluziilor formulate n urma prelucr|rii acestor informa ii, pot fi mult diminuate, dac | organizarea cercet|rii selective este
f|cut | innd cont de o serie de principii de baz | ale teoriei selec iei, dac | n procesul de prelucrare a informa iilor sunt utilizate
metodele i tehnicile statistico-matematice cele mai potrivite i dac | n extinderea rezultatelor nu sunt nc |lcate o serie de
principii statistice elementare.
Respectarea cu stricte e a cerin elor de acest tip poate conduce la ob inerea unor rezultate cu adev |rat excep ionale, chiar
atunci cnd cantitatea de informa ie disponibil| este neglijabil| n raport cu dimensiunea i propor iile fenomenului studiat.

1.3.3 Erorile
Impactul numeroaselor imperfec iuni legate de m |surarea i cuantificarea din domeniul economico-social este concretizat,
din punct de vedere al proceselor de analiz | a datelor, n manifestarea unor distorsiuni i inexactit|i informa ionale.
n mai toate cazurile, informa iile disponibile pentru efectuarea unor analize sau prognoze sunt afectate de erori. Faptul
c | informa iile disponibile sunt puternic afectate de erori, ale c |ror surse sunt numeroase, variate i dificil de controlat, impune
utilizarea unor modalit|i specifice de abordare i a unor instrumente de lucru corespunz |toare.
Erorile ce nso esc observa iile rezultate din m |surarea i cuantificarea fenomenelor i proceselor economice sau sociale
pot fi grupate n dou | mari categorii: erori cu caracter sistematic i erori cu caracter accidental, aleator.

Erorile cu caracter sistematic


Sunt erorile care afecteaz | n mod substan ial, semnificativ, natura i semnifica ia informa iilor i care pot determina
denaturarea drastic | a rezultatelor ob inute i formularea unor concluzii fundamental eronate.
Sursele erorilor cu caracter sistematic sunt numeroase i extrem de variate: gradul redus de reprezentativitate a
informa iilor ob inute pe baz | de e antionare, imperfec iunile metodologice specifice calculului unor indicatori economici,
raport|rile incorecte determinate de interesele de natur | fiscal| ale agen ilor economici, falsific |rile informa ionale la nivel
guvernamental etc.
Definiie: Eroarea cu caracter sistematic poate fi definit| ca reprezentnd diferen a dintre valoarea adev |rat| a unei
m |rimi la nivel de popula ie i valoarea ob inut| pentru aceast| m |rime n urma m |sur |rii tuturor unit|ilor elementare
ale popula iei.
Problema cea mai dificil | legat | de impactul negativ al erorilor cu caracter sistematic este aceea c |, spre deosebire de
erorile cu caracter ntmpl|tor, n cazul acestor erori nu se manifest | tendin a de compensare, astfel nct distorsionarea
informa iei determinat| de aceste erori are loc numai ntr-un sens.
n cazul erorilor de natur | sistematic |, influen a negativ | a acestora nu mai poate fi estompat | de caracterul de mas | al
fenomenelor economico-sociale, care n cazul altor tipuri de erori poate conduce la compensarea efectelor erorilor.

Erorile cu caracter accidental


Sunt erorile a c |ror influen | asupra semnifica iei informa iilor este neglijabil|; distorsiunile provocate de acest tip de erori
la nivelul datelor ce descriu comportamentul fenomenelor economice sau sociale sunt, de regul|, de sens opus, astfel nct n
numeroase situa ii are loc o compensare a influen elor acestora.
Definiie: Eroarea cu caracter accidental, aleator poate fi definit| ca reprezentnd diferen a dintre valoarea unei
m |rimi calculate pe baza unit|ilor apar innd unui e antion i valoarea aceleia i m |rimi calculat| pe baza tuturor
unit|ilor popula iei.
Faptul c | erorile de acest tip sunt distribuite dup | legea de probabilitate normal| ofer | posibilitatea abord |rii statistice a
influen elor cu caracter distorsionant pe care le pot avea acestea asupra datelor.
Pe de alt| parte, n virtutea legii numerelor mari, are loc un efect de compensare a erorilor de tip accidental, impactul
negativ al acestora asupra calit|ii informa iilor utilizate n analiz | devenind neglijabil.
5

n principal, sursele erorilor cu caracter accidental, ntmpl|tor, in de o serie de factori cum ar fi: imperfec iunile instrumentelor de m |surare, deficien e n nregistrarea valorilor caracteristicilor urm |rite, efectuarea inexact| a unor calcule etc.
O nsemn |tate cu adev |rat excep ional| pentru procesele de m |surare i cuantificare n care intervin erori cu caracter
ntmpl|tor, o are faptul c | erorile de acest tip sunt distribuite dup | legea normal|, de medie nul|.
Aceast | proprietate este deosebit de util| att pentru m |surarea impactului pe care erorile l au asupra informa iilor ob inute
n urma proceselor de m |surare, de cuantificare i de analiz | a datelor, ct i pentru dezvoltarea unor proceduri specifice care
au ca scop minimizarea influen ei erorilor asupra rezultatelor ob inute n analiza datelor.
Formarea valorii unei m |sur |tori individuale, sub influena erorilor sistematice i accidentale, poate fi descris | cu ajutorul
rela iei urm |toare:

Efectuarea analizelor de date n condiiile existen ei i manifest |rii erorilor de tip accidental, determin | necesitatea utiliz |rii
unor metode i tehnici adecvate, de natur | statistico-matematic |.

1.3.4 M|surarea indirect|


n numeroase situa ii din investigarea tiin ific |, este imposibil| m |surarea direct| a unor fenomene sau procese specifice
domeniului economico-social. Situa iile de acest fel sunt ntlnite n cazul existen ei factorilor laten i sau ascun i, care au
caracter neobservabil i care, n mod implicit, nu pot fi supu i unui proces direct de m |surare.
Factorii laten i sunt expresia manifest |rii unor fenomene de maxim | generalitate, cu semnifica ie i consisten | foarte
importante, caracterizate printr-o mare stabilitate a manifest |rilor lor. Ei reprezint| agreg |ri ale manifest |rilor unei multitudini
complexe de fenomene cu natur | particular |. Datorit | semnifica iei i importan ei prin care factorii laten i se deta eaz | de
fenomenele care reprezint| forme particulare de manifestare ale acestora, n numeroase investiga ii tiin ifice scopurile urm |rite
sunt direct i strns legate ntr-o m |sur | mult mai mare de existen a factorilor laten i, n compara ie cu manifest |rile particulare
ale acestora. De i au caracter neobservabil, factorii laten i se manifest | totdeauna n mod indirect, prin intermediul unor forme
particulare de manifestare, forme care pot avea caracter observabil i care pot fi supuse unui proces de m |surare.
n analiza datelor, se consider | c | formele particulare prin care se manifest | factorii laten i reprezint| indicatori ai factorilor
laten i. n acest fel, informa iile disponibile cu privire la ace ti indicatori pot fi folosite pentru a deduce informa ii cantitative
i calitative despre factorii laten i.
Problema m |sur |rii indirecte, prin intermediul unor indicatori specifici, a factorilor cu natur | latent |, apare n mod frecvent
n cazul investig |rii unor caracteristici psihosociale, n cercet|rile legate de cuantificarea nivelului de dezvoltare economic |,
nivelului de dezvoltare social| sau nivelului progresului tehnic, n construirea unor indicatori agrega i etc. n aceste cazuri, se
apeleaz | la proceduri speciale de estimare, la metode i tehnici de m |surare indirect| sau la metode de analiz| multidimensional|, cum ar fi: analiza componentelor principale, analiza factorial| sau analiza coresponden elor.

1.4. Definirea analizei datelor


Analiza datelor are ca obiectiv fundamental extragerea informa iei relevante, semnificative, care este con inut| n date,
n informa ia primar |. Aceast | informa ie este utilizat|, n continuare, pentru rezolvarea unor probleme specifice ale analizei
datelor: testare, estimare, interpretare, predic ii etc.
Conceptul de analiz | a datelor este un concept extrem de cuprinz |tor i dificil de definit din punct de vedere al sferei de
cuprindere, iar metodele i tehnicile utilizate n analiza datelor variaz | de la cele mai simple modalit|i de prezentare grafic |
a datelor i calcul al unor indicatori statistici specifici, pn | la cele mai sofisticate metode de analiz | multidimensional|.
Definiie: Activitatea de analiz| a datelor poate fi definit| ca reprezentnd o succesiune de opera ii de prelucrare i
interpretare, opera ii efectuate asupra unor informa ii primare referitoare la fenomene i procese din realitatea economico-social| i bazate pe o mare varietate de metode i tehnici specifice, n scopul adncirii cunoa terii comportamentului
acestor fenomene i procese i al formul|rii unor concluzii cu privire la specificitatea manifest |rii lor.
n figura urm |toare, este eviden iat| o reprezentare simplificat| a procesului general de analiz | cantitativ |, a modului n
care intervin cele trei elemente men ionate anterior i a principalelor faze ale acestui proces.

Figura 1.1: Reprezentarea simplificat| a unui proces general de analiz | cantitativ |


6

Privit ntr-un mod foarte general, procesul de analiz | a datelor poate fi prezentat ca o succesiune de opera ii sintetizate sub
forma urm |toarelor activit|i:
form ularea ipotezelor cu privire la comportamentul fenomenului ce constituie obiectul studiului;
organizarea experim entelor necesare m |sur|rii caracteristicilor fenomenului studiat;
culegerea datelor privind comportamentul fenomenului ;
analiza i interpretarea datelor disponibile;
form ularea concluziilor, efectuarea predic iilor i luarea deciziilor.
Scopul urm |rit n cele mai multe probleme de analiz | a datelor este legat de crearea condiiilor informa ionale necesare
pentru efectuarea de predic ii cu privire la comportamentul fenomenelor investigate.
De i ntre activitatea de analiz | a datelor i activitatea de predic ie exist| numeroase deosebiri, legate n primul rnd de
natura celor dou | activit|i, totu i, ntre cele dou | genuri de activit|i exist| o important | suprapunere. Aceast | suprapunere
este determinat| de existen a unor modalit|i comune de abordare, de utilizarea unor concepte teoretice identice i de folosirea
aceleia i game de instrumente de lucru.
Cu toate c | obiectivele intermediare urm |rite n activitatea de predic ie sunt similare celor urm |rite n analiza datelor,
totu i, scopul final al oric |rei activit|i de predic ie este legat n mod direct de prefigurarea evolu iei viitoare a fenomenelor i
proceselor economice sau sociale, a modific |rilor structurale ce pot fi nregistrate n viitor de aceste fenomene i procese.
Atingerea acestui scop este ns | condiionat| de desf |urarea unei laborioase activit|i de analiz | a datelor cu privire la
realitatea fenomenului care face obiectul predic iei, activitate care, de regul|, precede procesul de predic ie propriu-zis.
Con inutul activit|ii de analiz | a datelor din domeniul economico-social este strns legat de natura claselor de probleme
supuse rezolv |rii. n func ie de aceast | natur |, analiza datelor poate presupune o anumit| succedare de activit|i specifice,
utilizarea unei anumite game de metode i tehnici de lucru, urm |rirea anumitor obiective.
n rndul categoriilor de probleme a c |ror rezolvare conduce la efectuarea unui proces de analiz | a datelor men ion |m:
identificarea legit|ilor ce guverneaz | micarea fenomenelor i proceselor economice sau sociale, a principalelor
tendin e i regularit |i specifice evolu iei acestora;
identificarea principalilor factori sub a c |ror influen | se formeaz | comportamentul unor fenomene i procese;
stabilirea sensului i intensit|ii leg |turilor cauzale manifestate ntre diferite fenomene i procese;
determinarea gradului n care o mulime de factori de influen | contribuie la formarea unui anumit efect;
verificarea unor ipoteze cu privire la existen a unor leg |turi de tip cauzal, la posibilitatea ca anumite caracteristici
ale unor fenomene s | nregistreze anumite valori specifice etc;
ierarhizarea factorilor ce determin | un anumit efect n func ie de importan a i semnifica ia influen ei acestora;
stabilirea modului n care comportamentul fenomenelor este afectat de anumite decizii sau m |suri de politic |
economic | i social|;
identificarea principalelor posibilit|i prin intermediul c |rora comportamentul fenomenelor s| poat | fi influen at ntrun sens dorit;
determinarea sensurilor n care comportamentul unui anumit fenomen poate evolua, a st |rilor posibile n care acesta
se poate afla n spa iu i timp sau efectuarea de predic ii privind st|rile i evolu ia acestui fenomen.
n func ie de specificul fiec |reia din aceste clase de probleme, activitatea de analiz | a datelor se poate concretiza printr-un
anumit gen de opera ii de modelare statistico-matematic | i prelucrare informa ional| viznd:
simplificarea i sintetizarea rela iilor de cauzalitate;
m |surarea interdependen elor, cuantificarea influen elor i verificarea semnifica iei acestora;
descrierea statistico-matematic | a comportamentului fenomenelor;
efectuarea de predic ii;
m |surarea gradului de omogenitate sau eterogenitate pentru anumite categorii de fenomene;
clasificarea i ierarhizarea fenomenelor.
Fiecare din aceste tipuri de opera ii presupune utilizarea unor instrumente de lucru corespunz |toare, eficiente n raport cu
specificul problemei considerate. Dintre principalele metode i tehnici proprii analizei multidimensionale a datelor i utilizate
pentru rezolvarea problemelor enumerate anterior men ion |m: analiza componentelor principale, analiza factorial|, analiza
coresponden elor, tehnicile de scalare multidimensional|, metodele i tehnicile de estimare, analiza corela iilor canonice,
analiza varian ei, analiza regresiei liniare i neliniare, metodele i tehnicile de recunoa tere a formelor.

1.5 Clasificarea metodelor de analiz| a datelor


n general, n analiza de date, obiectul studiului este reprezentat de c |tre o mulime de date structurat| sub forma unui
anumit num |r de variabile i a unui anumit num |r de observa ii. Aceast | structur | informa ional| este reprezentat| prin
intermediul unei entit|i cunoscute sub numele de matrice de observa ii.
n func ie de natura variabilelor analizate i de informa iile existente aprioric cu privire la natura leg |turilor cauz |-efect
n care sunt implicate variabilele, metodele de analiz | a datelor pot fi grupate n dou | mari categorii: metode de analiz| a
dependen ei i metode de analiz| a interdependen ei.
Metodele de analiz| a dependen ei sunt metode statistice utilizate n cazul n care variabilele considerate n cadrul unei
analize pot fi grupate n dou | submulimi i au ca scop testarea prezen ei sau absen ei unor interdependen e ntre cele dou |
submulimi de variabile.
n situa ia n care exist| informa iile necesare, astfel nct, variabilelor dintr-un set li se poate atribui semnifica ia de
variabile dependente, iar variabilelor din cel|lalt set li se poate atribui semnifica ia de variabile independente, metodele de
analiz | a dependen ei au ca scop de a determina dac | i cum variabilele independente influen eaz| variabilele dependente, att
n manier | individual|, ct i n manier | comun |, simultan |.
De regul|, dndu-se o mulime de date reprezentate de observa iile efectuate asupra unor variabile, cu ajutorul metodelor
statistice se poate verifica doar dac | exist| leg |turi, interdependen e ntre variabile, putndu-se, eventual, determina sensul

leg |turilor (directe sau inverse) sau chiar m |sura intensitatea acestor leg |turi. Ceea ce nu se poate stabili cu ajutorul metodelor
i tehnicilor statistice este natura, sensul rela iilor de cauzalitate, respectiv, care sunt variabilele dependente i care sunt
variabilele independente ce determin | evolu ia, micarea celor dependente. Pentru a stabili cu exactitate rela ia cauz|-efect este
nevoie de informa ii suplimentare, apriorice, exogene n raport cu metodele i tehnicile statistice utilizate.
Exist| un anumit context al analizei datelor, n cadrul c |ruia delimitarea variabilelor dependente de variabilele independente
este foarte clar |, neechivoc |. Acest context este ntlnit n cadrul experimentelor controlate, cnd, n urma stabilirii unor
combina ii de nivele ale variabilelor independente, sunt m |surate nivelele nregistrate pentru variabilele dependente, ca urmare
a influen ei exercitate de fiecare combina ie de nivele ale variabilelor dependente.
n multe situa ii, analiza datelor este efectuat| pe mulimi de variabile pentru care nu exist| nici interesul i nici posibilitatea
conceptual| de a separa din mulimea variabilelor analizate o submulime care s | reprezinte variabilele dependente i o alt|
submulime care s | reprezinte variabile independente. n aceste situa ii, sunt utilizate metode de analiz | specifice, cunoscute
sub numele de metode de analiz| a interdependen ei.
Metodele de analiz| a interdependen ei sunt metodele statistice utilizate n cazul n care nu exist| posibilitatea de a
identifica n mulimea variabilelor analizate variabile dependente i variabile independente i care au scopul de a stabili din ce
cauz| i n ce m |sur | variabilele analizate sunt legate ntre ele. Utilizarea acestor metode are o mare varietate de scopuri, dintre
care, printre cele mai importante, amintim: m |surarea gradului de interdependen |, identificarea variabilelor cu semnifica ie
relevant|, identificarea unor categorii sau clase de variabile.

1.5.1 Metode de analiz| a dependenei


Metodele de analiz | a dependen ei pot fi clasificate n func ie de mai multe criterii, dintre care cele mai importante sunt
urm |toarele:
num |rul de variabile dependente: o singur | variabil| dependent| sau mai multe variabile dependente;
num |rul de variabile independente: o singur | variabil| independent| sau mai multe variabile independente;
tipul scalei pe care sunt m |surate variabilele dependente: scal| non-metric | sau scal| metric |;
tipul scalei pe care sunt m |surate variabilele independente: scal| non-metric | sau scal| metric |;
Metodele de analiz | a dependen ei pot fi clasificate n func ie de num |rul de variabile dependente i de num |rul de
variabile independente n dou | grupe:
metode unidimensionale de analiz| a dependen ei;
metode multidimensionale de analiz| a dependen ei.
n categoria metodelor unidimensionale se ncadreaz | analiza regresiei simple, analiza discriminantului, procedurile unidimensionale de verificare a unor ipoteze etc.
Metodele de analiz | multidimensional| a dependen ei se mpart, n func ie de num |rul variabilelor dependente, n dou |
categorii:
metode de analiz| multidimensional| cu o singur | variabil| dependent|;
metode de analiz| multidimensional| cu mai multe variabile dependente.
n rndul metodelor de analiz | multidimensional| cu o singur | variabil| dependent | pot fi men ionate: analiza regresiei
multiple, analiza discriminantului, analiza varian ei etc.
Ca metode de analiz | multidimensional| cu mai multe variabile dependente putem men iona: analiza corela iilor canonice,
analiza multidimensional| a varian ei etc. O clasificare sintetic | a metodelor de analiz | a dependen ei, n func ie de criteriile
de mai sus, este prezentat| n tabelul urm |tor.
Clasificarea metodelor de analiz | a dependen ei
Num |r
variabile
independente

Num |r variabile dependente


O variabil|
Scal| non-metric|

O variabil|

Mai multe
variabile

Scal| nonmetric |

Analiza discriminantului (discret|)

Scal|
metric |

Mai multe variabile

Scal| metric|

Scal| non-metric|

Scal| metric|

Analiza multigrup a
discriminantului
(discret|)

Analiza multidimensional| a varianei


(MANOVA)

Analiza
Regresie
discriminantului
simpl|
Regresie logistic|

Analiza multigrup a
discriminantului

Analiza corelaiilor
canonice

Scal| nonmetric |

Analiza discrimi- Analiza


nantului (discret|) ANOVA
Analiza simultan|
(MONANOVA)

Analiza multigrup a
discriminantului
(discret|)

Analiza multidimensional| a varianei


(MANOVA)

Scal|
metric |

Analiza
Regresie
discriminantului
multipl|
Regresie logistic|

Analiza multigrup a
discriminantului

Analiza corelaiilor
canonice

testul t

1.5.2 Metode de analiz| a interdependenei


Analiza interdependen ei are ca scop s | identifice i s| eviden ieze situa iile n care variabilele sunt corelate ntre ele i s|
explice modul n care are loc corelarea variabilelor supuse analizei. n func ie de num |rul de variabile analizate, metodele de
8

analiz | a interdependen ei se mpart n dou | categorii:


metode de analiz| a interdependen ei dintre dou | variabile;
metode de analiz| a interdependen ei dintre mai multe variabile.
n cadrul metodelor de analiz | a interdependen ei dintre dou | variabile putem men iona: analiza corela iei simple, analiza
bazat| pe tabele de contingen | etc.
Dintre metodele de analiz| a interdependen ei dintre mai multe variabile putem men iona: analiza componentelor principale,
analiza factorial|, analiza coresponden elor, analiza cluster etc. n tabelul urm |tor este prezentat| sintetic clasificarea metodelor
i tehnicilor de analiz | a interdependen ei.
Clasificarea metodelor de analiz | a interdependen elor
Num |r
variabile

Tipul scalei
Scal| non-metric |

Scal| metric |

Dou | variabile

Tabele de contingen|
(bidimensionale)
Modele log-liniare

Analiza corelaiei simple

Mai multe
variabile

Analiza corespondenelor
Modele log-liniare
Tabele de contingen|
(multidimensionale)

Analiza componentelor
principale
Analiza factorial|

1.6 Analiza preliminar| a datelor


Una din cele mai importante etape ale procesului de analiz | a datelor din domeniul economico-social este cea a analizei
prelim inare, cunoscut| i sub numele de analiz| exploratorie a datelor. Analiza preliminar| este o activitate anterioar |,
preg |titoare, a analizei propriu-zise a datelor, care are ca scop iniializarea procesului de analiz |. n cadrul acestei etape, informa iile primare disponibile sunt supuse unui proces de prelucrare n cadrul c |ruia are loc o filtrare a informa iilor din punct de
vedere al semnifica iei i utilit|ii pe care le au acestea n raport cu scopurile urm |rite. Activitatea de analiz | preliminar| a
datelor presupune utilizarea unei game variate de metode i tehnici statistico-matematice n scopul ob inerii unei sugestive
caracteriz |ri statistice a acestor informa ii.
Preponderent| ca utilizare n faza de analiz | preliminar| a datelor i cu o utilitate de necontestat pentru activitatea tiin ific |
din aceast | etap |, este analiza grafic |. Utilizarea tehnicilor de analiz | grafic | n faza preliminar| a analizei datelor vizeaz |,
n principal, urm |toarele categorii de probleme:
identificarea principalelor tendin e manifestate la nivelul observa iilor disponibile;
depistarea principalelor leg |turi existente ntre variabilele supuse analizei;
detectarea valorilor extreme, izolate, a c |ror apari ie n mulimea datelor analizate nu se justific | din punct de
vedere statistic.
Exist| n prezent numeroase instrumente software, cu ajutorul c |rora pot fi efectuate, ntr-o manier | comod | i eficient |,
cele mai complexe reprezent |ri grafice.

1.7 Suportul software n analiza datelor


Apariia calculatoarelor bazate pe microprocesoare i larga accesibilitate a acestora din punct de vedere al pre ului i
software-ului aplicativ au f|cut ca, n prezent, s | nu existe domeniu de cercetare n care calculatorul electronic s | nu fie instrumentul cel mai frecvent folosit pentru rezolvarea celor mai diverse probleme. Prelucrarea unui volum uria de informa ii, pe
baza unor algoritmi de o complexitate deosebit| i n condiii de precizie ridicat|, nu se poate realiza dect cu ajutorul calculatorului electronic, chiar a unui calculator electronic performant.
n domeniul analizei datelor, exist| zeci i zeci de produse software, de dat| mai mult sau mai pu in recent|. O inventariere,
pe care nu o putem pretinde a fi exhaustiv |, dar care poate fi considerat| ca fiind minimal |, pe care am f|cut-o n anul 2005,
cu privire la instrumentele software existente n lume la acest moment, ne-a condus la identificarea a peste 100 de astfel de
instrumente software specializate. Num |rul lor este cu att mai semnificativ cu ct aceste produse software sunt de notorietate
mondial|, avnd o larg | utilizare n domeniul analizei datelor.
Printre cele mai noi i mai performante instrumente software existente n prezent, destinate, total sau par ial, activit|ilor
de analiz | a datelor, putem men iona:
SPSS 10.0, SPSS Inc., Chicago, IL, USA, 1999;
STATISTICA 6.0, StatSoft Inc., Tulsa, OK, USA,2001;
S-PLUS 2000, MathSoft Inc., Seattle, W ashington, USA, 1999;
SAS 8.2, SAS Institute Inc., Cary, NC, USA, 2001;
SYSTAT 9.0, SPSS Inc., Chicago, IL, USA, 1999;
MATHEMATICA 4.0, W olfram Research, Champaign, IL, USA,1999;
EVIEWS 3.0, Quantitative Micro Software, Irvine, CA, USA, 2000.
n afar | de existen a unei mari variet|i de instrumente software destinate analizei datelor, n prezent se poate identifica
o tendin | de dezvoltare exploziv | a preocup |rilor din acest domeniu, tendin | determinat| de necesit|ile informa ionale tot
mai mari i mai rafinate ale indivizilor i entit|ilor economice i sociale.
9

Tema 2. Concepte i operaii specifice econometriei i analizei datelor


2.1 Concepte fundamentale ale analizei datelor
Teoria i practica analizei datelor se bazeaz | pe o serie de concepte fundamentale, a c |ror definire este deosebit de
important | pentru n elegerea demersului tiin ific presupus de acest tip de analiz |, pentru definirea i n elegerea procedurilor
i instrumentelor specifice ale acestei discipline, pentru desf |urarea eficient| a organiz |rii i proiect|rii activit|tilor de analiz |
i pentru interpretarea rezultatelor ob inute din analiz |.
Conceptele utilizate n analiza datelor i definirea riguroas | a acestora prezint| importan | nu numai pentru a facilita
definirea i n elegerea procedurilor, metodelor i tehnicilor de analiz | a datelor, ci i pentru asigurarea unei modalit|i coerente
i sugestive de interpretare i prezentare a concluziilor rezultate din analiz |. Pe lng | conceptele proprii, specifice, n analiza
datelor sunt utilizate numeroase concepte care in de domenii nrudite cu analiza datelor, cum ar fi: teoria probabilit|ilor i
statistica, econometria, teoria economic |, informatica etc. Din acest motiv, mulimea conceptelor cu care se opereaz | n
domeniul analizei datelor este extrem de cuprinz |toare i extrem de variat|.

2.1.1 Data
Conceptul cel mai important i cel mai frecvent ntlnit n analiza datelor, care, de fapt, intr | i n alc |tuirea numelui acestui
tip de activitate tiin ific |, este reprezentat de dat|. Importan a acestui concept pentru domeniul analizei datelor este, cu
adev |rat, covr itoare, deoarece el este cel care define te att intr |rile oric |rui proces de analiz | a datelor, materia prim | supus |
prelucr|rii, ct i, ntr-un sens general, ie irile sale, rezultatele i concluziile ob inute.
Datele pot fi privite ca reprezentnd semnale i mesaje provenite din realitatea nconjur |toare, pe baza c |rora receptorul
i poate forma o anumit| imagine despre respectiva realitate, poate ob ine un anumit grad de cunoa tere a acelei realit|i.
Imaginea format| este cu att mai fidel| n raport cu realitatea, cu ct cantitatea semnalelor i mesajelor este mai mare, respectiv,
cu ct acestea sunt mai pu in afectate de perturba ii i de distorsiuni. De regul |, datele nu sunt recep ionate n mod pasiv de
beneficiarul lor, f|r | nici un efort din partea acestuia. Aproape f|r | excep ie, ob inerea datelor necesare pentru orice activitate
de analiz | constituie un proces costisitor i laborios.
n analiza datelor, datele reprezint| expresia cantitativ | sau calitativ | a unor fapte reale, care sunt manifest |ri ale
fenomenelor i proceselor investigate. Eterogenitatea fenomenelor i a manifest |rii concrete a acestora face ca datele referitoare
la ele s | fie extrem de variate.
Definiie: Datele reprezint| expresii cantitative i calitative ale unor fenomene i procese din realitatea nconjur |toare.
Datele pot s| difere n func ie de mai muli factori: de sursa care le-a generat, de tipul i de natura lor. Indiferent de
varietatea lor, datele pot fi grupate n trei categorii fundamentale: date cantitative, date calitative i date mixte. Toate cele trei
tipuri de date pot fi, ns |, exprimate sub form | cantitativ |.

2.1.2 Populaia i eantionul


Unul din conceptele fundamentale ale analizei datelor, de care este legat| definirea multora dintre conceptele uzuale ale
acestei discipline este cel de popula ie statistic |.
n raport cu acest concept fundamental sunt definite majoritatea celorlalte concepte utilizate n analiza datelor: e antion,
caracteristici, variabile, observa ii, parametri, grade de libertate.
Definiie: Popula ia sau colectivitatea general| este reprezentat| de mulimea tuturor m |sur |torilor efective sau
conceptuale care prezint| interes pentru cercet|tor sau experimentator.
n general, se poate spune c | popula ia statistic | reprezint|, obiectul de studiu global al analizei datelor. Aceasta deoarece
majoritatea tehnicilor i instrumentelor de analiz | a datelor au ca scop deducerea unor legit|i care guverneaz | popula ia
statistic |, ob inerea unor estima ii pentru o serie de m |rimi specifice aceleia i popula ii statistice, efectuarea de predic ii
referitoare la structurarea pe tipologii sau la evolu ia popula iei statistice.
De i popula ia reprezint| obiectul investiga iei tiin ifice, totu i, analiza datelor vizeaz | n mod direct, aproape exclusiv,
observa iile de la nivelul e antionului.
Popula ia statistic | poate fi definit| ca reprezentnd totalitatea observa iilor posibile dintr-un studiu. Generic, o unitate
component | a unei popula ii statistice se nume te unitate elementar |, element, individ, subiect, obiect, profil, form |, articol
sau caz. Ca exemple de unit|i elementare ale unei popula ii statistice putem men iona: cump |r |torul, firma, locuitorul unei |ri
sau al unui ora , produsul, familia etc.
n func ie de num |rul, finit sau infinit, al elementelor din care este alc |tuit | o popula ie statistic |, aceasta poate fi de dou |
tipuri: popula ie finit| i popula ie infinit|.
Teoretic, ntr-o problem | de analiz | a datelor pot fi studiate, fie toate observa iile posibile, adic | ntreaga popula ie, fie
o parte, mai mare sau mai mic | a acestora, numit| e antion.
Definiie: E antionul reprezint| o submulime de m |sur |tori selectate dintr-o popula ie, o submulime a popula iei
statistice supus | investiga iei tiin ifice.
E antionul are o importan | fundamental| n analiza datelor deoarece acesta, i nu popula ia total|, reprezint|, de fapt, baza
informa ional| utilizat| n procesele de analiz | a datelor. Informa iile primare manipulate n activitatea de analiz | a datelor sunt
10

de fapt rezultatele m |sur |torilor efectuate la nivel de e antion.


O modalitate de vizualizare a rela iei, a raportului n care se g |se te e antionul fa | de popula ia statistic | este prezentat|
n figura urm |toare.

Figura 2.1: Ilustrarea rela iei dintre e antion i popula ie


O foarte mare importan | principial| pentru analizele cantitative bazate pe studiul e antioanelor, o are postulatul statistic
n conformitate cu care un e antion exprim | informa ional ntr-o oarecare m |sur | popula ia din care a fost extras, propriet|ile
i structura popula iei fiind cu att mai fidel exprimate de e antion cu ct volumul acestuia este mai mare.

2.1.3 Caracteristici i variabile


Din punct de vedere al informa iei statistice, o popula ie statistic | prezint| interes nu n raport cu unit|ile, ca atare, din
care este alc |tuit | popula ia, ci n raport cu tr |s |turile, propriet|ile acestor unit|i.
Propriet|ile unit|ilor elementare apar innd unei popula ii statistice sunt numite n analiza datelor caracteristici sau
atribute. Fiecare unitate elementar | a popula iei investigate poate avea o singur | caracteristic | sau mai multe caracteristici. n
cel de-al doilea caz, n studierea popula iei statistice apare necesitatea abord |rii multidimensionale, necesitatea utiliz |rii unor
instrumente i tehnici de analiz | specifice caracterului multidimensional.
n func ie de natura lor, caracteristicile unit |ilor unei popula ii pot fi de dou | tipuri: caracteristici calitative i
caracteristici cantitative.
Caracteristicile sau atributele unit|ilor elementare ce alc |tuiesc o anumit| popula ie sunt elemente ale unei realit|i date,
de natur | empiric |. De regul|, n activitatea tiin ific | nu se opereaz | cu elementele realit|ii ca atare, ci cu sim boluri care sunt
reprezent|ri abstracte ale realit|ii.
M |surarea caracteristicilor unit|ilor unei popula ii este echivalent | cu atribuirea de simboluri, numerice sau nenumerice,
acelor caracteristici. n general, simbolurile care pot s| ia o varietate de valori se numesc variabile.
n cadrul demersurilor tiin ifice care au ca scop investigarea fenomenelor i proceselor economice sau sociale,
caracteristicile unit|ilor unei popula ii sunt reflectate prin intermediul conceptului de variabile, tocmai pentru a sugera natura
schimb |toare a acestora, variabilitatea lor n timp i spa iu. Variabila este, poate, cel mai important concept vehiculat n cadrul
oric |rui proces de analiz | a datelor, n raport cu care se define te ntreaga succesiune de opera ii de prelucrare specifice acestui
proces.
Informa iile care sunt elemente de intrare n procesele de analiz | a datelor, reprezint|, aproape f|r | excep ie, m |sur |tori
asupra unor caracteristici, m |sur |tori care definesc valori ale variabilelor ce simbolizeaz | caracteristicile popula iei analizate.
Definiie: Variabila reprezint| o abstractizare a mulimii de valori posibile pe care le poate nregistra o caracteristic |
a unui anumit fenomen.
Varietatea fenomenelor economico-sociale i modalit|ile diferite de exprimare a caracteristicilor acestora fac ca variabilele
prin intermediul c |rora sunt descrise aceste caracteristici s| aib | natur | diferit|. Ca i caracteristicile popula iilor, dup | natura
pe care o au, variabilele pot fi de dou | tipuri: variabile calitative i variabile cantitative.
n analiza datelor apare necesitatea trat|rii diferen iate a datelor de tip calitativ i cantitativ deoarece exist| diferen e substan iale ntre aceste tipuri de date att din punct de vedere al modalit|ilor de abordare i interpretare, ct i din punct de vedere
al metodelor i tehnicilor utilizate n analiz |. Din aceste motive, se face o deosebire net| ntre variabilele de tip calitativ i
variabilele de tip cantitativ.
Definiie: Variabilele calitative sunt variabile ce difer | prin tip, se refer | la propriet|i nenumerice ale unit|ilor
elementare apar innd unei popula ii i nu pot fi exprimate numeric.
n cazul n care, n mod conven ional, valorile lor sunt codificate prin numere, aceast| exprimare nu este relevant|
numeric. Variabile calitative sunt: sexul, op iunea cump |r |torului, op iunea aleg |torului, profesia, starea civil | etc.
Definiie: Variabilele cantitative sunt variabile care difer | prin m |rime, se refer| la propriet|i numerice ale unit|ilor
elementare dintr-o popula ie i sunt exprimate n unit|i numerice: de lungime, de greutate, valorice etc.
Variabile cantitative sunt: pre ul unui produs, cheltuielile lunare ale unei familii, salariul mediu lunar, venitul na ional,
volumul fizic al produc iei etc.
n func ie de natura valorilor pe care le iau, variabilele se mpart n dou | categorii: variabile de tip discret i variabile de
tip continuu.
Definiie: Variabilele de tip discret sunt variabile care pot lua o mulime limitat|, finit| de valori i care se mai numesc
i variabile categoriale.
Valorile luate de variabilele discrete se numesc alternative, categorii, variante sau m odalit|i. De regul|, variabilele

11

calitative sunt variabile de tip discret. Variabile de tip discret pot fi ns | i unele variabile cantitative.
Definiie: Variabilele de tip continuu sunt variabile care pot lua valori apar innd unui interval continuu.
Practic, mulimea valorilor posibile ale variabilelor de tip continuu este o mulime infinit |. De regul|, variabilele calitative
nu sunt variabile de tip continuu.

2.1.4 Observaii
Strns legat de conceptul de variabil|, este un alt concept, la fel de important i frecvent utilizat n analiza datelor, i anume,
conceptul de observa ie.
Definiie: Observa ia este reprezentat| de valoarea sau setul de valori nregistrate pentru o anumit| unitate elementar |
a popula iei, la una sau mai multe caracteristici ale acesteia.
De fapt, observa iile sunt valori pe care le iau variabilele supuse analizei, valori care sunt rezultate din m |sur |torile
efectuate asupra caracteristicilor unit|ilor apar innd popula iei investigate.
Observa ia reprezint| n procesul de analiz | a datelor unitatea elementar | de informa ie utilizat| n procesele de prelucrare,
mulimea observa iilor constituind baza informa ional| a analizei datelor. Practic, mulimea de observa ii supuse procesului
de analiz | este echivalent | cu e antionul, care, la rndul s|u, nu este altceva dect tot o mulime de observa ii.
De cele mai multe ori, prin observa ie se n elege chiar entitatea elementar | care intr | n alc |tuirea popula iei analizate i
de la care se ob in informa ii. n acest sens, observa ia este sinonim | cu cazul, obiectul, individul, subiectul, articolul.

2.2 Tipuri de date primare


n func ie de modul n care sunt ob inute, datele primare pot fi clasificate n mai multe categorii. Vom prezenta, n
continuare, dou | dintre clasific |rile cele mai importante ale datelor primare: clasificarea n func ie de natura contextului n care
acestea sunt ob inute i clasificarea n func ie de modul de ob inere a acestora.

2.2.1 Date experimentale i date non-experimentale


Din punct de vedere al naturii contextului n care datele sunt ob inute, al modului n care investigatorul controleaz | sau
nu, n procesul ob inerii datelor, popula ia supus | studiului, datele pot fi grupate n dou | categorii:
date experim entale;
date non-experim entale sau date observa ionale.
Diferen ele dintre datele experimentale i non-experimentale in nu numai de natura contextului n care ele sunt ob inute,
ci i de modul n care ele sunt utilizate n analiza datelor, de metodele, instrumentele i procedurile utilizate pentru prelucrarea
acestora.

2.2.1.1 Date experimentale


Datele experimentale sunt datele ob inute prin organizarea unor experimente de tip controlat, desf |urate n condiii clare
i prestabilite. Contextul ob inerii datelor de tip experimental este restric ionat, prin impunerea unor reguli specifice.
n general, organizarea unui experiment controlat presupune, n primul rnd, izolarea fenomenelor i proceselor studiate,
precum i eliminarea, n ct mai mare m |sur |, a influen elor externe, care nu prezint | interes pentru analiz |. O alt| etap |
important | a experimentului controlat este aceea a stabilirii factorilor i cauzelor importante, cu semnifica ie, care i exercit|
influen a asupra m |rimilor exogene, precum i a alegerii nivelelor la care influen a acestora va fi urm |rit |. Cea de-a treia etap |
a procesului de ob inere a datelor experimentale const | n desf|urarea experimentului propriu-zis, etap | n care sunt doza i,
n condiii specifice, factorii de influen |. n aceast | etap |, se fixeaz | nivele concrete pentru fiecare din factorii de influen |,
se creaz| condiiile necesare pentru exercitarea influen elor factorilor i se m |soar | efectul influen ei factorilor asupra m |rimii
sau m |rimilor de ie ire.
Datele ob inute n urma unui astfel de proces, adic | datele experimentale, sunt reprezentate de dou | categorii de informa ii:
valorile fixate pentru nivelurile factorilor de influen | i valorile rezultate pentru variabila sau variabilele dependente, n urma
exercit|rii acestor influen e.
Definiie: Datele experim entale reprezint| informa ii ob inute prin organizarea unor experimente controlate, n care
influen ele factorilor asupra efectului sunt controlate n mod direct, prin fixarea unor combina ii precise de influen e.
Datele experimentale sunt caracteristice doar unor domenii de cercetare, i anume acelor domenii n care pot fi organizate
experimente specifice, necesare ob inerii acestor date. Experimentarea este posibil| doar n anumite domenii ale cunoa terii,
cum ar fi, de exemplu, domeniul tiin elor naturale: fizic |, chimie, biologie etc.
ntr-o alt| modalitate de exprimare, se poate spune c | datele experimentale sunt date de laborator, prin laborator
n elegnd aici o serie de condiii speciale, care se refer | att la o serie de restric ii i instrumente specifice de m |surare, ct la
modalitatea de desf |urare a unor procese cauzale specifice.
Spre deosebire de aceste domenii, n domeniul economico-social experimentarea este fie total imposibil|, fie posibil|, dar
numai foarte rar i n condiii foarte restrictive i costisitoare.

2.2.1.2 Date non-experimentale


Datele non-experimentale, care se mai numesc i date observa ionale, sunt datele ob inute prin observarea fenomenelor
i proceselor n micarea lor natural|, liber |, f|r | impunerea unor restric ii, f|r | a se exercita un control de un anumit fel asupra
fenomenelor i proceselor investigate.

12

Definiie: Datele non-experim entale reprezint| informa ii ob inute prin observarea liber | a mic |rii fenomenelor i
proceselor studiate, f|r | interven ia direct| a investigatorului asupra condiiilor n care se desf |oar | acest | micare.
Ob inerea datelor de tip non-experimental reprezint| rezultatul observ |rii pasive, constat|rii. Interven ia observatorului,
a celui care face m |sur |torile, este de tip ex-post, are loc dup | ce desf |urarea fenomenelor i proceselor reale a avut loc.
Datele de tip non-experimental sunt datele specifice domeniului economico-social, domeniu n care organizarea de
experimente este fie dificil|, fie imposibil|. Mai mult dect att, complexitatea influen elor din domeniul economico-social,
multitudinea interac iunilor din acest domeniu, determin | o relevan | foarte sc |zut | pentru eventualele date de natur |
experimental|.

2.2.2 Date de tip profil, serii de timp i date panel


Din punct de vedere cronologic, observarea unei popula ii de fenomene sau procese, n scopul ob inerii informa iilor
necesare, poate avea loc sub dou | forme diferite: static i dinamic. Din acest punct de vedere, datele primare pot s| constituie
fie o imagine de tip static a popula iei, n care aceste date s | reprezinte informa ii legate de starea unit|ilor popula iei la un
moment dat, fie o imagine de tip dinamic, evolutiv, n care datele s | reprezinte informa ii legate de evolu ia n timp a unei sau
unor unit|i ale popula iei.
Avnd n vedere aceste dou | modalit|i de a observa unit|ile unei popula ii, datele primare pot fi grupate n trei categorii:
date de tip profil;
date de tip serii de tim p;
date de tip panel;
Ca i n cazul datelor experimentale, analiza datelor diferen iaz | semnificativ modalit|ile de abordare, n raport cu fiecare
din aceste categorii de date. Din acest motiv, consider |m c | este necesar | o scurt| prezentare a acestor trei tipuri de date.

2.2.2.1 Date de tip profil


Datele de tip profil reprezint| rezultate ale unor m |sur |tori efectuate, la un moment dat, asupra uneia sau mai multor
caracteristici, de-a lungul unit|ilor popula iei, adic | pe mulimea unit|ilor sau obiectelor care sunt supuse studiului.
Datele de tip profil se mai numesc date de tip secven | sau date de tip sec iune i reprezit| t|ieturi informa ionale
efectuate ntr-o anumit| popula ie la un moment dat, t|ieturi care sunt de tip transversal, n raport cu axa timpului.
Definiie: Datele de tip profil reprezint| informa ii ob inute prin m |sur |tori de natur | static |, efectuate asupra
caracteristicilor unor unit|i ale unei popula ii, la acela i moment de timp.
O observa ie n contextul datelor de tip profil este reprezentat| de valoarea sau de valorile unei singure entit|i, ale unei
singure unit|i din popula ie. Num |rul de observa ii coincide, n cazul datelor de tip profil, cu num |rul de unit|i observate i
nregistrate. D atele de tip profil nu ncorporeaz | n semnifica ia pe care acestea o poart|, influen a timpului asupra form |rii
caracteristicilor la nivelul popula iei i sensul scurgerii timpului, nici n mod explicit i nici n mod implicit.
Ca exemple de date de tip profil, putem men iona: datele referitoare la salariul individual dintr-o lun | al lucr|torilor unei
firme; datele referitoare la popula ia medie a statelor lumii ntr-un anumit an; datele referitoare la rata infla iei nregistrat| de
|rile lumii ntr-o anumit| perioad |; sexul cump |r |torilor ce cump |r | un anumit bun ntr-o anumit| perioad |; num |rul mediu
nregistrat de popula ia jude elor unei |ri ntr-un anumit an; volumul anual al vnz |rilor unor m |rci de autoturisme, num |rul
voturilor nregistrate de partidele nscrise ntr-o campanie electoral| etc.
De regul|, datele de tip profil se refer | la starea pe care o au la un anumit moment indivizii apar innd unor anumite
colectivit|i, gospod |riile, firmele, ramurile, unit|ile administrativ-teritoriale, |rile lumii etc.

2.2.2.2 Date de tip serii de timp


Datele de tip serii de tim p, numite i serii cronologice sau, pur i simplu, serii de tim p, reprezint| rezultate ale unor
m |sur |tori efectuate asupra caracteristicilor unei unit|i a popula iei studiate, de-a lungul timpului, la momente succesive ale
evolu iei acesteia, la anumite intervale de timp.
Intervalele de timp pentru care se fac m |sur |torile pot fi reprezentate de: ore sau frac iuni de ore, zile, s |pt|mni, decade,
luni, trimestre, semestre, ani. Deoarece intervalele sunt egale i reprezint| scurgerea timpului, observa iile rezultate n urma
acestor m |sur |tori sunt succesive i, de regul|, echidistante n timp.
Definiie: Datele de tip serii de tim p sau seriile cronologice reprezint| informa ii ob inute prin m |sur |tori de natur |
dinamic |, efectuate asupra caracteristicilor unei unit|i a unei popula ii la momente sau n intervale succesive de timp.
Datele reprezentate de seriile de timp se refer | la evolu ia n timp a st|rii unui individ, gospod |rii, zone geografice, |ri
etc. Datele de acest tip pot fi date de tip interval sau date de tip moment.
Datele de tip interval sunt datele care se refer | la caracteristici care sunt m |rimi de tip stoc, n timp ce datele de tip moment
sunt date care se refer | la caracteristici care sunt m |rimi de tip flux. i n acest caz, datele de tipul seriilor de timp pot fi privite
ca reprezentnd sec iuni informa ionale, ns | aceste sec iuni sunt de-a lungul axei timpului, de-a lungul evolu iei, adic | sunt
sec iuni longitudinale n raport cu axa timpului.

2.2.2.3 Date de tip panel


Datele de tip panel sunt date care reprezint| combina ii, mixturi ale datelor de tip profil i datelor de tipul seriilor de timp.
Ele sunt rezultate ale m |sur |torilor efectuate asupra caracteristicilor unor unit|i individuale, att de-a lungul unit|ilor
individuale, ct i de-a lungul timpului.
Definiie: Datele de tip panel reprezint| informa ii ob inute prin m |sur |tori mixte, de natur | static | i de natur | dinamic |, efectuate asupra caracteristicilor acelora i unit|i ale unei popula ii la momente sau n intervale succesive de timp.
Datele de tip panel pot fi imaginate ca reprezentnd t|ieturi informa ionale mixte, transversale i longitudinale, n raport
13

cu axa timpului. n cazul datelor de tip panel, observarea se face ntr-o not| de simultaneitate: att asupra mai multor unit|i
ale popula iei, ct i asupra evolu iei n timp a acestor unit|i. Exemplul cel mai sugestiv pentru datele de tip panel este cel al
bugetelor de familie, n contextul c |rora se fac nregistr |ri pe perioade de mai muli ani a veniturilor i cheltuielilor tuturor
familiilor care alc |tuiesc e antionul respectiv.

2.2.3 Scala de m|surare a variabilelor


A a cum am men ionat anterior, materia prim | n analiza datelor este reprezentat| de m |sur |torile efectuate asupra unor
caracteristici ale popula iei statistice. n analiza datelor, aceste m |sur |tori sunt considerate a reprezenta valori ale unor variabile
definite n raport cu caracteristicile analizate. Indiferent de tipul ei, valoarea nregistrat| de o caracteristic | la nivelul unui obiect
este totdeauna rezultatul exprim |rii univoce a valorii respectivei caracteristici n func ie de grada iile unei anumite scale.

2.2.3.1 Definirea scalei


M |surarea reprezint| un proces prin intermediul c |ruia se asociaz | numere sau simboluri unor caracteristici sau propriet|i
ale unor obiecte sau ale unor subiec i, care constituie obiectul studiului.
Atribuirea de numere sau simboluri pentru caracteristicile sau propriet|ile unor obiecte se face pe baza respect|rii unor
reguli prestabilite i prin utilizarea unor proceduri specifice. De exemplu, dac | obiectul studiului este reprezentat de indivizi
care sunt poten iali cump |r |tori ai unui anumit produs, atunci caracteristicile c |rora este necesar a li se atribui numere sau
simboluri pot fi: vrsta, venitul, sexul, profesia etc.
M |surarea caracteristicilor sau propriet|ilor unor obiecte sau subiec i este totdeauna caracterizat| de o anumit|
specificitate, determinat| de natura caracteristicii m |surate, i presupune, cu necesitate, existen a unor repere, a unor sisteme
de referin |, cunoscute sub numele de scal|. Ca element fundamental al procesului de m |surare a caracteristicilor fenomenelor
i proceselor economice, scala poate fi definit| sub forma urm |toare.
Definiie: O scal| reprezint| un etalon corespunz |tor, care stabile te modul dup | care sunt atribuite valori variabilelor;
a defini o scal| de m |surare este echivalent cu:
a stabili o mulime de valori posibile ale variabilei, mulime numit| i spa iu de selec ie;
a preciza regulile dup | care sunt atribuite simboluri pentru elementele unei realit|i date, adic | a defini o structur | a spa iului de selec ie.
n func ie de natura variabilelor exprimate cu ajutorul lor, exist| patru tipuri de scale, pe care le von defini n cele ce
urmeaz |.

2.2.3.2 Tipuri de scale


Ca i procesul de m |surare ca atare, scala sau sistemul de referin | este, de asemenea, specific | naturii pe care o are
caracteristica supus | procesului de m |surare. Din acest punct de vedere, exist | mai multe tipuri de scale de m |surare: scala
nominal|, scala ordinal|, scala interval i scala raport. Primele dou | tipuri de scale sunt scale de tip non-m etric, iar ultimele
dou | sunt scale de tip m etric.

2.2.3.2.1 Scala nominal|


Scala nominal| este o scal| non-m etric |, pe baza c |reia valorile variabilelor sunt definite prin intermediul simbolurilor
nenumerice. M |surarea variabilelor pe scala nominal| este echivalent | cu procesul de codificare a variabilelor. Chiar n cazul
n care pentru codificare sunt folosite numere, aceste numere sunt, totu i, pur conven ionale.
Definiie: Scala nominal| este o scal| non-metric |, prin intermediul c |reia valorilor posibile ale caracteristicilor
m |surate li se atribuie simboluri f|r | relevan | numeric |, n func ie de natura acestor valori.
Scala nominal| este utilizat| pentru a m |sura caracteristici ale c |ror valori sunt de natur | calitativ |, necuantificabil|.
Valorile pe care pot s| le ia caracteristicile de acest tip sunt cunoscute sub numele de categorii sau alternative. Variabilele
m |surate pe scala nominal| se numesc variabile nom inale i sunt variabile a c |ror form | de exprimare este de tip atributiv i
care pot fi folosite numai pentru stabilirea apartenen ei la o anumit| clas | a entit|ii descrise prin intermediul variabilei.
O clas | special| a variabilelor de tip nominal o reprezint| variabilele binare, care sunt variabile ce pot s | ia doar dou |
valori de tip nenumeric.
Variabilele de tip nominal sunt variabile discrete i pot fi utilizate numai n scopuri de clasificare de tip calitativ, natura
nenumeric | a acestor variabile f|cnd imposibil| utilizarea lor pentru compara ii, ierarhiz |ri sau ordon |ri.
n cazul m |sur |rii pe scala nominal|, valorilor pe care pot s| le ia caracteristicile supuse m |sur |rii, respectiv categoriilor
sau alternativelor, li se atribuie sim boluri, care sunt de natur | nenumeric |.
Pe scala nominal|, dou | valori diferite ale caracteristicii m |surate sunt eviden iate prin intermediul a dou | simboluri
diferite. Elementele scalei nominale, diviziunile acesteia, sunt reprezentate de simbolurile atribuite valorilor caracteristicii
studiate, sau, mai exact, de categoriile respectivei caracteristici. Scala nominal| este reprezentat| chiar de mulimea acestor
simboluri. De exemplu, mulimile:
,
,
,
reprezint| scale de tip nominal utilizate pentru a m |sura caracteristici cum ar fi sexul, domeniul de activitate, categoria social|,
profesia.
Ceea ce este caracteristic scalei nominale este faptul c | subiec ii studia i nu pot fi compara i din punct de vedere al valorii
pe care o nregistreaz | la caracteristica m |surat| pe aceast | scal|. Pe baza valorilor nregistrate pe scara nominal| nu se poate
afirma care subiect este mai bine situat din punct de vedere al caracteristicii studiate sau, cu att mai pu in, n ce m |sur |
un subiect este situat mai bine dect altul.

14

Tot pe aceast | scal|, caracteristicilor li se pot atribui i numere, numai c | aceste numere nu au sensul propriu-zis de num |r,
avnd practic aceea i semnifica ie ca i simbolurile. Att simbolurile propriu-zise, ct i numerele cu rol de simbol, atribuite
caracteristicilor pe aceast | scal| de m |surare, au numai rol de clasificare n anumite grupe a subiec ilor sau de contorizare a
num |rului de subiec i din fiecare categorie, neputnd fi folosite n nici un tip de calcul numeric. Prin intermediul valorilor
m |surate pe scala nominal| subiec ii se diferen iaz | ntre ei doar din punct de vedere al apartenen ei la o anumit| clas | sau al
apartenen ei la o anumit| categorie. Aceasta nseamn | c | utilizarea scalei nominale pentru m |surarea caracteristicilor
m |surabile pe aceast | scal| genereaz | clase sau categorii de subiec i.
Pentru caracteristicile m |surate pe scala nominal|, poate fi calculat un num |r limitat de indicatori statistici, care reprezint|,
de fapt, contoriz |ri ale simbolurilor ap |rute pe scala nominal|. Ace ti indicatori sunt modulul i frecven a. n cazul
caracteristicilor m |surate pe scala nominal| poate fi eviden iat| i distribu ia de frecven |.
ntr-o analiz | de date, variabilele nominale pot fi reprezentate de o serie de variabile cum ar fi: sexul, categoria social|,
tipul familiei, profesia, marca unui produs etc.
Unica transformare de tip invariant a scalei nominale este reprezentat| de opera ia de recodificare, aceast| opera ie
neafectnd apartenen a la o anumit| clas | a valorilor m |surate pe acest| scal|.

2.2.3.2.2 Scala ordinal|


Scala ordinal| este o scal| non-m etric |, similar | scalei nominale, adic | o scal| de codificare cu deosebirea c | pe aceast|
scal| este posibil| ordonarea valorilor variabilelor. Aceast | scal| este folosit| cu prec |dere pentru m |surarea preferin elor
consumatorilor.
Scala ordinal| permite clasificarea valorilor unei variabile n func ie de rangul acestora, ns | diferen ele ntre ranguri nu
sunt relevante i nu au sens. Acest tip de scal| nu d | posibilitatea stabilirii gradului n care caracteristicile a dou | entit|i
distincte difer | ntre ele (mai mult, mai pu in).
Definiie: Scala ordinal| este o scal| non-metric |, prin intermediul c |reia valorilor posibile ale caracteristicilor li se
atribuie numere de ordine sau ranguri, n func ie de poziia acestor valori ntr-o ierarhie.
Variabilele m |surate pe aceast | scal| se numesc variabile ordinale, sunt variabile calitative de tip discret i nu pot fi
exprimate sub o form | numeric | real|. Ca exemple de variabile ordinale putem men iona: categoria de venit (mic, mediu, mare),
nivelul studiilor (elementare, medii, superioare), preferin a consumatorilor pentru un anumit produs (foarte mare, mare, mic |,
foarte mic |, deloc), nivelul calitativ al unui produs sau serviciu (inferior, mediu, superior), starea economic | (recesiune,
stagnare, expansiune) etc.
Scala ordinal| este utilizat| n cazul n care caracteristica subiec ilor supu i analizei determin | o diferen iere a subiec ilor
din punct de vedere al poziiei pe care fiecare dintre ace tia o ocup | ntr-o ierarhie, ntr-o ordonare, adic | n cazul n care
caracteristica ia valori de tip ordinal. Valorile pe care pot s| le ia caracteristicile m |surate pe scala ordinal| sunt valori ordinale
sau note, cunoscute i sub numele de ranguri. Acestor valori li se atribuie fie numere de ordine, fie simboluri care eviden iaz |
o anumit| ordine a valorilor caracteristicii.
Pe scala ordinal|, dou | valori diferite ale unei caracteristici sunt eviden iate prin intermediul a dou | ranguri diferite, adic |
prin intermediul a dou | pozi ii diferite n cadrul ierarhiei. Elementele scalei ordinale, diviziunile acesteia, sunt reprezentate
de numerele sau de simbolurile folosite pentru reprezentarea rangurilor, respectiv de poziiile posibile n respectiva ordonare.
Scala nominal| este reprezentat| chiar de mulimea acestor numere sau simboluri.
Cu toate c | valorile caracteristicilor de tip ordinal nu sunt numere propriu-zise, ele diferen iaz |, totu i, pozi ia unui subiect
n raport cu un alt subiect, spun ceva despre aceast | pozi ie. Valorile unei caracteristici m |surate pe scala ordinal| permit doar
ordonarea subiec ilor din punct de vedere al acestei caracteristici, determinnd o ierarhizare a subiec ilor sau obiectelor.
Prin intermediul valorilor pe care le pot lua caracteristicile m |surate pe scala ordinal|, indivizii se diferen iaz | ntre ei doar
din punct de vedere al rangului, al locului pe care l ocup | n ierarhia generat| de scala ordinal|. Aceasta nseamn | c |
utilizarea scalei ordinale pentru m |surarea caracteristicilor m |surabile pe aceast | scal| genereaz | ierarhii, ordon |ri ale
subiec ilor.
M |surarea pe scala ordinal| permite compara ii ntre subiec i din punct de vedere al caracteristicii m |surate, dar aceste
compara ii se refer | numai la modul n care un subiect este situat n raport cu altul, f|r | a se putea spune i n ce m |sur |
subiec ii difer | ntre ei dup | caracteristica respectiv |. Diferen ele dintre dou | valori succesive de pe scala ordinal| nu pot fi
considerate ca fiind egale, ele nedeterminnd o distan are egal| ntre indivizi, astfel nct s| se poat | afirma, de exemplu, c |
subiectul situat pe primul loc este de trei ori mai bun dect subiectul situat pe locul al treilea.
Pentru caracteristicile m |surate pe scala ordinal|, pot fi calcula i o serie de indicatori statistici cum ar fi: modulul, mediana,
coeficientul de corela ie a rangurilor, frecven a. De asemenea, pentru caracteristicile de tip ordinal se poate eviden ia i
distribu ia de frecven |. Este important s| se fac |, n acest context, precizarea c | media i diferen ele valorilor variabilelor
ordinale sunt nerelevante, nu au sens informa ional i nici sens logic.
Singura transformare invariant | a scalei ordinale este transla ia, adic | transformarea care p |streaz | ordinea valorilor unei
variabile. Analitic, acest tip de transformare invariant | a scalei ordinale poate fi definit astfel:
unde a este o constant |, pozitiv | sau negativ |, care d | sensul i m |rimea transla iei valorilor scalei ordinale, valori reprezentate
de x.

2.2.3.2.3 Scala interval


Este o scal| quasi-m etric | pe care se poate defini un punct de referin |, dar acest punct nu este o origine "zero" real|, ci
conven ional|, arbitrar |. Valoarea "zero" pe acest tip de scal| nu indic | nicidecum absen a fenomenului m |surat. Deci, pentru
scala de tip interval, originea scalei este arbitrar |, avnd importan | doar scalarea valorilor n interiorul intervalului.
Aceast | scal| permite scalarea valorilor unei variabile n cadrul unui interval de valori reale, f|r | a avea ns | o origine
precis | a acestor valori. Cu valorile m |surate pe aceast | scal| pot fi efectuate diferen e, raporturi ale diferen elor, dar nu are
sens determinarea raportului a dou | valori.
15

Definiie: Scala interval este o scal| quasi-metric |, prin intermediul c |reia valorilor posibile ale caracteristicilor
m |surate li se atribuie valori numerice, f|r | ca pentru aceste valori numerice s | existe o origine prestabilit|.
Variabilele m |surate pe scala interval se numesc variabile tip interval i sunt variabile cantitative. Ele pot fi utilizate n
compara ii al c |ror rezultat permite o exprimare numeric |.
n cazul m |sur |rii pe scala interval, diferen a dintre dou | valori succesive ale scalei are o semnifica ie numeric | sigur |,
permind m |surarea modului n care subiec ii se distan eaz| din acest punct de vedere. O astfel de scal| este, de exemplu, cea
n contextul c |reia m |surarea caracteristicilor const | n acordarea unui num |r de puncte sau n acordarea unei note, n func ie
de importan a pe care o are caracteristica respectiv | la nivelul unui subiect, n func ie de magnitudinea sa.
O caracteristic | a scalei de tip interval este aceea c | evaluarea caracteristicii m |surate nu este afectat| dac | scala este
translatat| sau dac | scala este multiplicat| cu o anumit| constant|. Translatarea este echivalent | cu o schimbare a originii, care,
oricum, este o origine arbitrar |. Multiplicarea este echivalent | cu o m |rire propor ional| a distan elor dintre valorile scalei, adic |
o m |rire care conserv | propor iile ntre aceste distan e. n consecin |, se poate spune c | transformarea pn | la care scala interval
r |mne invariant |, este transformarea de tip liniar urm |toare:
unde a i b reprezint| dou | constante reale, iar x i y reprezint| valorile scalei originale, respectiv cele ale scalei transformate.
Opera iile care pot fi efectuate cu valorile m |surate pe scala de tip interval sunt mai numeroase dect cele care sunt posibile
pe scala nominal| i ordinal |. n plus fa | de opera iile permise pe primele dou | scale, scala interval mai permite: calculul
mediei, calculul abaterii standard, calculul momentelor, calculul coeficien ilor de corela ie Pearson. Ca exemplu de variabil|
tip interval, putem men iona variabila reprezentat| de durata programului de lucru, timpul, ca variabil| specific | seriilor
cronologice etc.

2.2.3.2.4 Scala raport


Scala de tip raport este scala care are toate propriet|ile scalei de tip interval, ns |, n plus fa | de aceasta, are o origine
natural|, neconven ional|, care nu poate fi schimbat|. Este o scal| m etric |, pe care valorile sunt exprimate sub form | numeric |,
dar, spre deosebire de variabilele de tip interval, aceste valori sunt definite n raport cu o anumit| origine.
Originea scalei indic | absen a propriet|ii, caracteristicii. n plus fa | de scalele precedente, pe aceast | scal| este definit
i raportul valorilor, adic | se poate compara de cte ori o valoare este mai mare dect alta.
Definiie: Scala raport este o scal| metric |, prin intermediul c |reia valorilor posibile pe care le pot lua caracteristicile
m |surate li se atribuie numere definite in raport cu o origine prestabilit|.
Scala raport este invariant | pn | la o transformare propor ional| pozitiv |, adic | pn | la transformarea:
Variabilele m |surate pe scala raport se numesc variabile tip raport i sunt variabile cantitative. Cu aceste variabile sunt
permise toate opera iile definite pentru variabilele numerice.
Ca exemple de variabile tip raport putem men iona: pre ul, venitul, vrsta, salariul, profitul, volumul vnz |rilor, num |rul
cump |r |torilor etc.

2.3 Moduri de reprezentare a datelor


Pentru a se asigura o manipulare mai convenabil| i mai eficient |, datele utilizate n analiza datelor sunt reprezentate sub
o form | specific |, numit| forma matricial|. Aceast | form | de reprezentare a datelor ofer | att avantajul unei structur |ri simple
i clare a datelor, ct i avantajul de a oferi posibilitatea generaliz |rii conceptului de mulime de date.
n cele mai multe ipostaze din analiza datelor, matricea este entitatea care define te i, n acela i timp, con ine totalitatea
informa iilor, totalitatea datelor, supuse procesului de analiz |.
n principiu, datele primare sunt reprezentate n analiza de date sub trei forme matriciale principale: m atrici de observa ii,
m atrici sau tabele de contingen | i m atrici sau tabele de proximitate.

2.3.1 Matrici de observaii


O m atrice de observa ii este un tablou rectangular n care liniile reprezint| obiectele supuse m |sur |torilor, iar coloanele
reprezint| caracteristicile obiectelor. Elementele tabloului reprezint| valori nregistrate n procesul de m |surare pentru
caracteristicile obiectelor supuse m |sur |torilor. Aceste valori mai poart| i numele generic de scoruri. Matricile de observa ii
se mai numesc i matrici de tip "obiectecaracteristici".
Pentru o analiz | de date n care num |rul obiectelor supuse analizei este T, iar num |rul de caracteristici ale obiectelor este
n, matricea de observa ii are forma urm |toare:

unde un element x ij reprezint| valoarea nregistrat| pentru cea de-a j-a caracteristic | a obiectului i. O linie i a matricii de
observa ii X define te un obiect O i i reprezint| valorile nregistrate de acest obiect la cele n caracteristici pe care le posed |.
O coloan | j a matricii de observa ii X reprezint| valorile nregistrate de caracteristica j pe mulimea tuturor celor T obiecte
supuse analizei. De regul|, n analiza de date, fiecare linie a matricii de observa ii X este numit| observa ie i fiecare coloan |
a acestei matrici este numit| variabil|.

16

n multe situa ii, nu pot fi ob inute informa ii despre toate caracteristicile tuturor obiectelor supuse analizei. n cazul n care
datele ce definesc obiectele nu sunt complete, matricea de observa ii definit| mai sus poart| numele de m atrice de observa ii
cu valori om ise.

2.3.2 Matrici de contingen|


Sunt tablouri rectangulare de dimensiune mn, utilizate pentru reprezentarea datelor referitoare la frecven ele relative sau
absolute nregistrate pe o mulime de obiecte de valorile a dou | variabile de tip discret, prima variabil|, notat| cu u, avnd m
valori posibile, iar cea de-a doua variabil|, notat| cu v, avnd n valori posibile. Liniile unei matrici de contingen | reprezint|
valorile posibile ale primei variabile discrete, iar coloanele acestei matrici reprezint| valorile posibile ale celei de-a doua
variabile discrete. n analiza datelor, matricile de contingen | se mai numesc i matrici de tip "m odalit|im odalit|i".
Un element
reprezint| frecven a, absolut| sau relativ |, a obiectelor pentru care prima variabil| ia valoarea i cea de-a
doua variabil| ia valoarea

. Acest element arat| la cte obiecte cele dou | variabile analizate au simultan valorile

2.3.3 Matrici de proximitate

Sunt matrici p |tratice de dimensiune nn, utilizate pentru reprezentarea datelor cu privire la similaritatea sau nesimilaritatea
unor obiecte. Ordinul matricilor de proximitate este determinat de num |rul obiectelor supuse studiului.Elementele unei matrici
de proximitate reprezint| coeficien i de similaritate, coeficien i de nesimilaritate sau distan e. Un element
din aceast | matrice
m |soar | gradul de proximitate dintre obiectul i i obiectul j.
Matricile de proximitate se mai numesc i matrici de tip "obiecteobiecte" i sunt utilizate n problemele de clasificare cu
ajutorul tehnicilor de tip cluster i n problemele de scalare multidimensional|.

17

Tema 3. Transformarea i sumarizarea datelor primare


3.1 Transformarea datelor primare
Sub forma lor iniial|, rezultat| din procesul de m |surare pe o scal | corespunz |toare i nesupuse nici unui proces de
transformare sau de prelucrare, datele sunt cunoscute sub numele de date primare, date brute sau date originale. n majoritatea
cazurilor, n analizele propriu-zise datele nu sunt folosite sub forma lor primar |, brut |. De obicei, nainte de a fi utilizate, datele
brute sunt supuse la dou | categorii de opera ii preliminare: opera ii de rafinare i opera ii de transformare.

3.1.1 Rafinarea datelor

Sunt situa ii n care, din diferite motive, este imposibil| utilizarea datelor sub forma lor brut|, primar |. Pentru a putea fi
utilizate, datele primare trebuie s | fie supuse mai nti unui proces de purificare, de rafinare, care s | le asigure consisten |,
relevan | i comparabilitate.
Necesitatea rafin |rii datelor este determinat| de numero i factori, ns | cei mai importan i dintre ace tia sunt cei lega i de
existen a datelor omise i a datelor necomparabile.
Un exemplu care poate s | sugereze necesitatea i utilitatea opera iilor de rafinare este cel reprezentat de necesitatea de a
asigura comparabilitatea unor date privind indicatorii macroeconomici.
Deoarece majoritatea indicatorilor macroeconomici sunt exprima i sub form | valoric |, m |rimea acestora este artificial i
puternic influen at| de evolu ia pre urilor. Aceast | influen | face ca valorile din diferite perioade ale acestor indicatori s | nu
fie comparabile ntre ele, deoarece influen a perturbatorie a evolu iei pre urilor nu este uniform | de la o perioad | la alta. De
aceea, seriile de timp referitoare la evolu ia indicatorilor macroeconomici trebuie supuse unor opera ii de cur|ire, de rafinare.
Rafinarea datelor include o serie de opera ii specifice, dintre care mai frecvent utilizate sunt cele de interpolare, de extrapolare
i de ajustare.

3.1.1.1 Interpolarea datelor


Necesitatea interpol|rii datelor apare n leg |tur | cu seriile de timp, n situa iile n care, n datele analizate, exist| observa ii
omise. Interpolarea reprezint| una dintre metodele cele mai frecvent utilizate pentru completarea datelor omise.
Prin metoda interpol|rii, completarea unei valori omise se face pe baza utiliz |rii celor dou | valori care o ncadreaz |, adic |
a celor dou | valori vecine. Pentru a deduce din cele dou | valori cunoscute valoarea pentru observa ia omis |, se pot folosi mai
multe modalit|i de interpolare: liniar |, exponen ial| etc.
n cazul interpol|rii liniare valoarea care va nlocui observa ia omis | se determin | ca medie aritmetic | a celor dou | valori
care ncadreaz | valoarea omis |. Aceast | metod | poate fi aplicat| numai n cazul n care observa iile sunt egal distan ate n timp.
O alt| modalitate de interpolare a valorilor omise este aceea a folosirii analizei de regresie. Pentru aceasta se construie te
un model de regresie adecvat, n care variabila dependent | este reprezentat| de variabila ale c |rei observa ii con in valori omise,
iar variabila independent | este timpul.
Forma modelului se alege n func ie de tendin a manifestat| de observa iile variabilei dependente. Pe baza observa iilor
existente cu privire la variabila dependent |, mai pu in cele omise, se estimeaz | parametrii modelului, dup | care, cu ajutorul
modelului i a valorilor cunoscute pentru variabila timp, se determin | valorile care vor nlocui observa iile omise.

3.1.1.2 Extrapolarea datelor


Este o alt| metod | de rafinare a datelor, care se folose te tot pentru completarea unor valori omise, ns | n cazuri mai
speciale. Spre deosebire de cazul precedent, valorile omise sunt la una din extremit|ile seriilor de timp, astfel nct aceste valori
au doar un singur vecin, ceea ce face imposibil| ob inerea valorilor pentru observa iile omise prin interpolare, adic | prin
medierea dup | o anumit| regul| a valorilor vecine.
Completarea valorilor omise poate fi f|cut | n acest caz aplicnd aceea i tehnic | i acelea i reguli ca mai sus, adic |
utiliznd analiza de regresie. Cu ajutorul modelului rezultat n urma estim |rii, pot fi produse valori care s | nlocuiasc |
observa iile omise att de la nceputul, ct i de la finalul seriei de timp, prin simpla introducere n model a valorii momentului
de timp ce corespunde observa iilor omise.

3.1.1.3 Ajustarea datelor


Opera iile de ajustare a datelor se aplic | tot n cazul datelor de tipul seriilor de timp, i anume n situa iile n care datele
con in o serie de perturba ii cunoscute sub numele de zgomote. Cele mai frecvent ntlnite perturba ii care influen eaz | datele
sunt perturba iile aleatoare, cunoscute i sub numele de zgomot alb.
Opera iile de ajustare au ca scop netezirea seriilor de date, prin eliminarea perturba iilor ncorporate n datele seriei de timp,
perturba ii care pot fi reprezentate componente accidentale sau ciclice ale evolu iei fenomenelor sau proceselor studiate.
Opera iile de ajustare a seriilor de timp mai sunt cunoscute i sub numele de opera ii de filtrare a datelor, iar seriile de date
rezultate n urma acestor opera ii sunt cunoscute sub numele de trend.

3.1.2 Prelucrarea preliminar| a datelor


A a cum am ar |tat anterior, nainte de utilizarea lor n analiza datelor, datele originale sunt supuse unui proces de
transformare, de prelucrare preliminar |.
Dou | dintre cele mai caracteristice opera ii pentru acest proces sunt reprezentate de opera ia de centrare a datelor
originale i de opera ia de standardizare a datelor originale.

18

3.1.2.1 Centrarea observaiilor


Opera ia de centrare a datelor const | n substituirea valorii fiec |rei observa ii apar innd unei variabile cu o nou | valoare,
reprezentnd abaterea valorii originale fa | de media calculat| prin luarea n considerare a observa iilor iniiale.
Dac | analiza presupune existen a unui num |r de n variabile i a unui num |r de T observa ii, atunci opera ia de centrare a
observa iilor variabilei
const | n calculul noilor observa ii, adic | al valorilor centrate, dup | rela ia:
,
unde

reprezint| media celei de-a i-a variabile.


Datorit | faptului c | suma abaterilor valorilor originale ale observa iilor fa | de medie este totdeauna nul |, adic |:
.

opera ia de centrare a valorilor observa iilor efectuate asupra unei caracteristici va face ca variabilele centrate s | aib | media
nul|:
.
n cazul n care variabilele originale sunt centrate, ca urmare a faptului c | aceste variabile sunt de medie nul|, varian a unei
variabile este propor ional| cu p |tratul lungimii vectorului reprezentat de observa iile respectivei variabile, iar abaterea standard
este propor ional| cu lungimea aceluia i vector.
Dac | v este o variabil| centrat |, atunci cele T observa ii ale acesteia,
, definesc un punct sau un vector v n
spa iul T-dimensional al observa iilor. Varian a variabilei centrate v este, n acest caz:
.
Aceasta nseamn | c | varian a variabilei centrate v poate fi scris | n func ie de lungimea vectorului v, astfel:
,
unde

reprezint| lungimea vectorului v:


.
n mod similar, abaterea standard a variabilei centrate v poate fi scris | n func ie de lungimea vectorului v astfel:
.

Dac | v i w sunt dou | variabile centrate, atunci covarian a dintre aceste variabile poate fi exprimat | n func ie de produsul
scalar al vectorilor v i w care reprezint| observa iile celor dou | variabile. Covarian a dintre variabilele centrate v i w este dat|
de rela ia:
.
Rezult| c |, n cazul variabilelor centrate v i w, covarian a este propor ional| cu produsul scalar al vectorilor v i w care
reprezint| observa iile celor dou | variabile:
,
reprezint| produsul scalar al vectorilor v i w.
Coeficien ii de corela ie de tip Pearson pentru variabile centrate pot fi i ei exprima i n aceea i manier |. Coeficientul de
corela ie dintre variabilele centrate v i w este dat de rela ia:
unde

Rezult| c |, n cazul variabilelor centrate, coeficientul de corela ie dintre dou | variabile este raportul dintre produsul scalar
al vectorilor ce reprezint| observa iile asupra variabilelor i produsul lungimilor acestor vectori:
.
Deoarece raportul dintre produsul scalar a doi vectori i produsul lungimilor acestor doi vectori este egal cu cosinusul
unghiului dintre cei doi vectori, rezult| c |:
,
unde

reprezint| unghiul format de cei doi vectori v i w.

19

3.1.2.2 Standardizarea observaiilor


Opera ia de standardizare a valorilor unei variabile const| n substituirea valorilor fiec |rei observa ii cu o nou | valoare
reprezentnd raportul dintre valoarea centrat| a respectivei opera ii i abaterea standard a respectivei variabile. n condiiile
nota iilor utilizate mai nainte, opera ia de standardizare a valorilor variabilei
presupune calculul noilor valori dup | rela ia:
,
unde

reprezint| media celei de-a i-a variabile, iar

reprezint| abaterea standard a variabilei

, adic | r |d |cina p |trat| a

varian ei, calculat| cu ajutorul rela iilor:


pentru cazul deplasat:
;
pentru cazul nedeplasat:
.
n mod similar cu cazul variabilelor centrate, variabilele standardizate sunt variabile care au media aritmetic | nul|:
.
n plus fa | de aceasta, variabilele standardizate au proprietatea c | varian a lor este egal| cu unitatea:
.
De asemenea, variabilele standardizate au proprietatea c | au covarian ele scalate n intervalul

.
n cazul n care covarian a are valoarea egal| cu 1, se consider | c | exist| o perfect| asociere liniar | direct| ntre cele dou |
variabile, iar n cazul n care covarian a are valoarea egal| cu -1 se consider | c | ntre cele dou | variabile exist| o perfect|
asociere liniar | indirect|. De asemenea, dac | valoarea covarian ei este nul|, se consider | c | nu exist| asociere de tip liniar ntre
cele dou | variabile. O consecin | important| a acestei ultime propriet|i este reprezentat| de faptul c |, n cazul variabilelor
standardizate, covarian ele sunt chiar coeficien i de corela ie Pearson.
Dac | este o variabil| standardizat|, atunci cele T observa ii ale acesteia,
, definesc un punct sau un vector z
n spa iul T-dimensional al observa iilor. Varian a variabilei standardizate z este, n acest caz:
.
n aceste condiii, varian a variabilei standardizate z poate fi scris | n func ie de lungimea vectorului z astfel:
,
unde

reprezint| lungimea vectorului z:


.
n mod similar, abaterea standard a variabilei standardizate z poate fi scris | n func ie de lungimea vectorului z astfel:
.
Proprietatea variabilelor standardizate de a avea varian a i, implicit, abaterea standard egale cu unitatea, eviden iaz |

proprietatea conform c |reia, lungimea vectorului ce reprezint| observa iile unei variabile standardizate este egal| cu
adic |:

.
Cele de mai sus arat| c | pentru a normaliza vectorii observa iilor standardizate este suficient a mp |r i fiecare component |
a acestora cu m |rimea

, adic |:
.

Tot n condiiile stabilite anterior, covarian a dintre dou | variabile standardizate z i w poate fi exprimat | n func ie de
vectorii z i w care reprezint| observa iile celor dou | variabile. Covarian a dintre variabilele standardizate z i w este dat| de
rela ia:

20

.
Rezult| c |, n cazul variabilelor standardizate z i w, covarian a este propor ional| cu produsul scalar al vectorilor z i w,
care reprezint| observa iile celor dou | variabile:
,
reprezint| produsul scalar al vectorilor z i w.
i n cazul variabilelor standardizate, coeficien ii de corela ie de tip Pearson pot fi exprima i prin intermediul produsului
scalar i lungimilor vectorilor corespunz |tori. Astfel, coeficientul de corela ie dintre variabilele standardizate z i w este dat
de rela ia:
unde

.
Rezult| c |, n cazul variabilelor standardizate, coeficientul de corela ie dintre dou | variabile este identic cu covarian a i
este propor ional cu produsul scalar al vectorilor ce reprezint| observa iile asupra variabilelor:
.

3.2 Sumarizarea datelor primare


De cele mai multe ori, n analiza datelor nu sunt utilizate datele primare, brute, ci date derivate ob inute din transformarea
celor primare. Analiza datelor presupune c | datele de intrare au o anumit| form | specific |, n func ie de natura metodelor,
instrumentelor i procedurilor de analiz | folosite.
n scopul ob inerii informa iilor sub forma care este necesar | pentru o analiz | a datelor, pe baza datelor primare disponibile
pentru analiz |, se calculeaz | o serie de m |rimi statistice cum ar fi: media, suma de p |trate, varian a, covarian a, corela ia etc.
Aceste m |rimi reprezint | esen ializ|ri particulare ale datelor primare, caracterizeaz | anumite aspecte ale datelor primare,
reprezentnd, n acela i timp, elemente de intrare pentru orice analiz | de date. Pe de alt| parte, prin intermediul acestor m |rimi,
o foarte mare varietate de date, nedecelabil| i dificil| din punct de vedere al n elegerii i interpret|rii semnifica iei pe care
ea o reprezint|, poate fi sintetizat| informa ional, rezumat| numeric, sintetizare care este important | i util| att pentru modul
de prezentare a unor date extrem de variate, ct i pentru modul de n elegere a semnifica iei reprezentat| de datele respective.
n continuare, vom face o scurt| prezentare a principalelor m |suri specifice sintetiz |rii numerice i a principalelor
modalit|i de exprimare a acestora prin intermediul unor m |rimi specifice. De asemenea, vom face i o scurt| descriere i
prezentare a con inutului acestor m |rimi i a modului de calcul al acestora.

3.2.1 M|sura tendinei centrale


Una dintre m |surile cele mai importante i mai relevante pentru descrierea valorilor unei caracteristici este cea reprezentat|
de tendin a central|.
M |surarea tendin ei centrale are ca scop principal determinarea unei m |rimi care s | sintetizeze, s | rezume, multitudinea
de valori reprezentate de observa iile efectuate asupra unor variabile, din punct de vedere al magnitudinii acestora.
Este evident c |, pentru a fi relevant |, m |rimea utilizat| pentru m |surarea tendin ei centrale trebuie s | fie un fel de centru
de greutate al observa iilor disponibile, valorile observa iilor fiind repartizate n jurul acestei m |rimi.
n figura urm |toare este eviden iat| pozi ia posibil| a m |rimii care m |soar | tendin a central|, m |rime notat| cu c.

Figura 3.1: Pozi ionarea indicatorului ce m |soar | tendin a central|


Din punct de vedere geometric, determinarea unei m |suri pentru exprimarea tendin ei centrale este echivalent | cu a g |si
un vector care s | aib | acela i sens i aceea i direc ie cu vectorul ale c |rui componente sunt egale cu unitatea i care s | fie ct
mai apropiat de vectorul observa iilor. n acest sens, se poate spune c |, n cazul metricii euclidiene, m |rimea care exprim | n
mod optimal tendin a central| este media aritmetic |.
Tendin a central| poate fi eviden iat| prin intermediul unor indicatori statistici, ntre care cei mai importan i sunt: media,
mediana i modulul. Fiecare dintre ace ti indicatori exprim |, ntr-un fel sau altul, mai mult sau mai pu in sugestiv, nivelul
caracteristicii analizate de-a lungul obiectelor.

21

3.2.2 M|sura variabilit|ii


O alt| m |sur | important | pentru sintetizarea valorilor unei caracteristici este aceea a variabilit|ii ce caracterizeaz |
observa iile variabilei, a mpr |tierii, a dispersiei acestor valori. Un indicator sintetic, utilizat pentru m |surarea i exprimarea
variabilit|ii valorilor unei caracteristici, este varian a.
Variabilitatea care caracterizeaz | mulimea observa iilor efectuate asupra unei anumite caracteristici este eviden iat| prin
diferen ele care exist| ntre valorile pe care le nregistreaz | caracteristica pe mulimea subiec ilor, prin m |rimea varia iilor
valorilor caracteristicii de la un subiect la altul.
Variabilitatea este important| att din punct de vedere informa ional, ct i ca m |rime n contextul c |reia poate fi judecat|
relevan a mediei. Cu ct variabilitatea unei mulimi de observa ii este mai mic |, cu att media constituie o sintetizare, o
rezumare mai potrivit | i mai relevant | pentru mul imea de observa ii.
Pe de alt| parte, cu ct variabilitatea este mai mare, cu att mai pu in media poate fi considerat| o expresie sintetic |
relevant | a valorilor observate. Prin urmare, se poate spune c | ncrederea mai mare sau mai mic | pe care o putem acorda mediei
ca m |rime ce sintetizeaz | valorile observate depinde de m |rimea variabilit|ii acestor valori. Aceasta nseamn | c | pentru a avea
o m |sur | a relevan ei mediei este necesar s| se stabileasc | o m |sur | a variabilit|ii.
n principiu, o m |sur | a variabilit|ii valorilor unei caracteristici s-ar putea deduce prin luarea n considerare a varia iilor
succesive, de la un individ la altul, nregistrate de valorile acestei caracteristici. O astfel de construc ie nu ar fi ns | consistent |
i m |sura rezultat| n urma acestei construc ii nu ar fi relevant|, din cauza faptului c | varia iile succesive ale valorilor
caracteristicii pe mulimea indivizilor analiza i nu ar avea comparabilitate, ele fiind determinate, de fiecare dat|, n raport cu
un reper variabil.
Varian a este direct propor ional| cu m |rimea varia iei valorilor caracteristicii m |surate sau cu m |rimea informa iei care
este con inut| de observa iile disponibile pentru analiza de date. n condiiile nota iilor anterioare, varian a variabilei , notat|
cu

, se determin | cu ajutorul formulei urm |toare:


.

n mod concret, varian a reprezint| suma p |tratelor abaterilor valorilor individuale n raport cu media ce revine, n medie,
pe fiecare valoare individual|, adic | pe fiecare observa ie efectuat| asupra variabilei.
Ca rezultat al faptului c | variabilitatea poate exista sau nu poate exista, varian a, ca m |sur | a acestei variabilit |i, este
totdeauna o m |rime nenegativ |. Acesta este i unul din motivele pentru care varian a poate fi considerat| ca o m |sur |
informa ional|, ca o m |sur | a cantit|ii de informa ie con inut | n observa iile disponibile.
Pornind de la modul n care varian a m |soar | variabilitatea i de la importan a pe care o are aceast| variabilitate n analiza
datelor, se poate face afirma ia c |, ntr-un anumit sens, varian a reprezint| o m |sur | a informa iei con inute n datele analizate.
Aceast | proprietate remarcabil| a varian ei poate fi foarte simplu intuit | dac | ne gndim c | o mulime de date cu variabilitate
nul|, pentru care, implicit, varian a este egal| cu zero, nu spune nimic din punct de vedere statistic, nu explic | nimic din ceea
ce se ntmpl| cu fenomenul la care se refer |. De fapt, n acest caz, deoarece toate observa iile sunt egale, exist| o redundan |
informa ional| maxim |, toate observa iile reprezentnd, n fond, aceea i informa ie.
Pe de alt| parte, o mare variabilitate a datelor este semnul faptului c | fiecare observa ie este purt|toarea unei informa ii
specifice, diferit| de informa ia con inut| n celelalte observa ii. Cu ct variabilitatea este mai mare, cu att observa iile difer |
mai mult ntre ele i fiecare din ele eviden iaz | o informa ie cu relevan | mai mare, explicnd ntr-o m |sur | din ce n ce mai
mare natura fenomenului analizat i modul de micare a acestuia.
O deficien | major | a varian ei, ca indicator de m |surare a variabilit|ii, a cantit|ii de informa ie con inut| n datele
primare, este legat| de faptul c | varian ele a dou | caracteristici sau a dou | variabile exprimate n unit|i de m |sur | diferite nu
pot fi comparate. Compara ia varian elor este, totui, posibil| numai n cazul n care m |sur |torile caracteristicilor sunt exprimate
n acelea i unit|i de m |sur |.
Tot n acest sens, exist| i o alt| deficien | important | a varian ei: aceea c | ea este o m |rime nescalat|. Cu toate c |
m |rimea varian ei este limitat| inferior, ea avnd o margine inferioar | reprezentat| de valoarea zero i eviden iind lipsa
variabilit|ii sau constan |, ea nu este limitat| superior, nu are o margine superioar |:
.
Din acest motiv, apar dificult|i legate de interpretarea magnitudinii varian ei i de utilizarea acesteia pentru efectuare de
compara ii.
O alt| problem | dificil|, care apare n leg |tur | cu varian a, este aceea c | unit|ile de m |sur | n care aceasta este exprimat |
sunt diferite de unit|ile de m |sur | ale caracteristicii a c |rei variabilitate o m |soar |.
De fapt, varian a este m |surat| n unit|i de m |sur | care reprezint| p |trate ale unit|ilor de m |sur | ale observa iilor
efectuate asupra caracteristicii considerate. Aceast | tr |s |tur | a varian ei creaz | o serie de dificult|i legate de interpretarea
concret| a m |rimii acestui indicator al varia iei.
Datorit | lipsei de semnifica ie a unit|ilor de m |sur | ale varian ei, pentru m |surarea varia iei se utilizeaz | i un alt
indicator, derivat din varian | i reprezentat de r |d |cina p |trat| a varian ei. Acest indicator este cunoscut sub numele de abatere
standard i se calculeaz | cu ajutorul rela iei:

22

.
Spre deosebire de varian |, exprimat | n unit|i de m |sur | nefire ti, nenaturale, abaterea standard este exprimat | n acelea i
unit|i de m |sur | ca i observa iile efectuate asupra caracteristicii.

3.2.3 M|sura leg|turii de tip liniar


Intensitatea i sensul leg |turii sau asocierii de tip liniar dintre dou | caracteristici ale unor obiecte sau indivizi reprezint|
o alt| m |sur | important | utilizabil| n sintetizarea numeric | a datelor.
M |sura asocierii de tip liniar poate fi exprimat | prin intermediul corel|rii varia iilor simultane sau covaria iilor a dou |
caracteristici pe o mulime de obiecte sau indivizi. Aceast | m |sur | eviden iaz | cum se coreleaz |, cum se asociaz | valorile a
dou | caracteristici la nivelul unei mulimi de indivizi care posed | aceste caracteristici. M |rimea de baz | utilizat| pentru
exprimarea varia iilor simultane a dou | caracteristici este reprezentat| de indicatorul cunoscut sub numele de covarian |. Pentru
cazul a dou | variabile
i , covarian a acestora se calculeaz | cu ajutorul formulei:
,
care, n cazul n care cele dou | variabile coincid, adic |

, covarian a coincide cu varian a:


.

Covarian a este o m |sur | a varia iei simultane a dou | variabile, ea fiind, n valoare absolut|, cu att mai mare cu ct valorile
absolute ale varia iilor celor dou | variabile n jurul mediei sunt mai apropiate ca magnitudine, eviden iind o anumit| proporionalitate pe mulimea subiec ilor studia i. Covarian a este considerat| a fi o expresie numeric | a gradului de asociere a dou |
caracteristici ca urmare a faptului c |, n toate cazurile n care dou | variabile sunt semnificativ legate ntre ele, o varia ie ntr-un
sens a uneia dintre ele va determina o varia ie propor ional| de acela i sens (n cazul leg |turii directe) sau de sens contrar (n
cazul leg |turii inverse) a celeilalte variabile.
n mod similar cu varian a, i n cazul exprim |rii covarian ei apare problema unor unit|i de m |sur | nefire ti, nenaturale.
Dup | modul n care este definit|, covarian a este exprimat | n unit|i de m |sur | care sunt de fapt produs al unit|ilor de m |sur |
ale caracteristicilor considerate. Ca i n cazul varian ei, exist| o dificultate i mai mare n leg |tur | cu m |sura numit| covarian |.
Aceasta const| n faptul c | ea este o m |rime nescalat|. De i, n valoare absolut|, covarian a are o margine inferioar |,
reprezentat| de valoarea zero i care eviden iaz | lipsa asocierii de tip liniar, ea nu este limitatat| superior, nu are o margine
superioar |:
.
Ca urmare a acestei propriet|i, apar dificult|i legate de interpretarea magnitudinii covarian ei i de utilizarea acesteia
pentru efectuare de compara ii.
O m |sur | scalat| a gradului de asociere liniar | ntre dou | variabile, care elimin | unele deficien e ale covarian ei ca
indicator de m |surare a asocierii de tip liniar, o reprezint| coeficientul de corela ie Pearson. Pentru cazul a T observa ii
existente cu privire la dou | variabile
, coeficientul de corela ie Pearson este dat de rela ia:

Spre deosebire de covarian |, coeficientul de corela ie este o m |rime scalat| n intervalul nchis
.

O valoare nul| a coeficientului de corela ie eviden iaz | absen a leg |turii de tip liniar ntre cele dou | variabile, dup | cum
o valoare absolut| egal| cu unitatea eviden iaz | o leg |tur | liniar | perfect|, leg |tur | care este direct| dac | valoarea este egal|
cu 1 i invers | dac | valoarea este egal| cu -1.

3.2.4 M|suri generalizate ale variabilit|ii


A a cum am v |zut mai nainte, n accep iunea sa comun |, varian a reprezint| o m |sur | a variabilit|ii individuale, la nivelul
fiec |rei caracteristici. Fiecare din aceste varian e individuale reprezint| o m |sur | a unei p |r i din variabilitatea ce caracterizeaz |
observa iile variabilelor analizate, oferind doar o imagine par ial| a variabilit|i con inute n aceste observa ii.
n mod corespunz |tor, mulimea valorilor varian elor tuturor variabilelor supuse analizei, constituie o imagine mai
cuprinz |toare a variabilit|ii con inut| n observa iile respectivelor variabile. Din nefericire ns |, n acest caz, exprimarea
variabilit|ii nu este sintetizat|, cum ar fi de dorit, prin intermediul unui singur indicator, ci prin intermediul unei ntregi mulimi
de indicatori.
Una dintre posibilit|ile de a da un r |spuns corespunz |tor problemei rezultate din necesitatea de a exprima ct mai adecvat
23

i mai sintetic variabilitatea con inut| n observa iile variabilelor analizate const| n definirea altor doi indicatori ai varian ei:
varian a total| i varian a generalizat|.

3.2.4.1 Variana total|


Am ar |tat anterior c | m |surarea variabilit|ii este o problem | dificil| i c | utilizarea varian ei simple pentru sintetizarea
acesteia nu este satisf|c |toare. O modalitate de a elimina acest neajuns o reprezint| deducerea unei m |suri globale, unice, pentru
variabilitatea ce caracterizeaz | observa iile variabilelor studiate.
O astfel de m |sur | a variabilit|ii este varian a total|, care este unul dintre indicatorii importan i n analiza datelor, utilizat
n numeroase proceduri de analiz | a datelor.
Definiie: Varian a total| m |soar | variabilitatea ce caracterizeaz | observa iile unei mulimi de variabile i se define te
ca sum | a varian elor individuale ale variabilelor:

Cu toate c | varian a total| ofer | o imagine cuprinz |toare asupra variabilit|ii globale ce caracterizeaz | observa iile
variabilelor analizate, ea m |soar | aceast| variabilitate doar n sens individual, nelund n considerare variabilitatea comun |,
simultan | a observa iilor, adic | variabilitatea interac iunilor.
O m |sur | interesant| a variabilit|ii totale, care ine seama att de variabilitatea individual|, ct i de variabilitatea rezultat|
din interac iuni, este reprezentat| de varian a generalizat|.

3.2.4.2 Variana generalizat|


O extindere important | a conceptului de m |sur | a variabilit|ii o reprezint| varian a generalizat| care m |soar |
variabilitatea ce caracterizeaz | observa iile mulimii de variabile, att din punct de vedere individual, ct i din punct de vedere
al simultaneit|ii, al interactivit|ii informa ionale ce caracterizeaz | variabilele.
Pentru a da o interpretare intuitiv | varian ei generalizate, vom porni de la o construc ie geometric |. n acest scop, vom
considera c | variabilele
i
reprezint| doi vectori n spa iul observa iilor.
Exist| o strns | leg |tur | ntre m |rimea unghiului format de cei doi vectori i corela ia dintre cele dou | variabile. Aceasta
const | n faptul c |, de fapt, coeficientul de corela ie este cosinusul unghiului dintre vectorii ce reprezint| cele dou | variabile.
ntr-adev |r, dac | unghiul dintre cei doi vectori este zero, adic | vectorii se suprapun, leg |tura perfect| existent | n aceast |
situa ie este eviden iat| att printr-o valoare a coeficientului de corela ie egal| cu unitatea, ct i prin valoarea unitar | a
cosinusului unghiului respectiv. Invers, dac | unghiul dintre vectori este de 90 de grade, adic | vectorii sunt ortogonali, inexisten a
leg |turii specifice acestei situa ii este eviden iat| prin faptul c | att coeficientul de corela ie, ct i cosinusul unghiului respectiv
sunt egale cu zero. Cele trei situa ii de corelare posibil| a dou | variabile
i , ale c |ror observa ii sunt reprezentate prin
, sunt eviden iate n graficele din figura 3.2.

intermediul vectorilor

Figura 3.2: Situa ii posibile de corelare a dou | variabile reprezentate prin


intermediul vectorilor
Vom presupune c | unghiul format de cei doi vectori este n i c | cei doi vectori sunt scala i prin nmulirea cu m |rimea
, adic | cei doi vectori scala i au componentele de forma:
.
Lungimea unui astfel de vector va fi:
,
unde

reprezint| cea de-a t-a observa ie efectuat| asupra variabilei x.


Dac | variabilele

sunt variabile centrate, adic | de medie nul|, atunci p |tratul lungimii vectorilor

reprezint| chiar varian ele celor dou | variabile:

24

.
n cazul lipsei de corela ie, eviden iat| prin ortogonalitatea celor doi vectori, aria paralelogramului este maxim |. Aceasta
corespunde unei situa ii n care redundan a informa ional| aferent| observa iilor efectuate asupra celor dou | variabile este nul|.
n cazul n care corela ia este perfect|, adic | cei doi vectori sunt coliniari, aria paralelogramului este minim |. n aceast | situa ie
redundan a informa ional| corespunz |toare observa iilor efectuate asupra celor dou | variabile, este maxim |. n figura 3.3, este
reprezentat| aria paralelogramului avnd ca laturi vectorii ce definesc cele dou | variabile analizate.

Figura 3.3: Interpretarea redundan ei informa ionale prin intermediul ariei


paralelogramului
Din punct de vedere al analizei datelor, situa ia de redundan | minim | este ideal|, aceasta eviden iind faptul c | ntre cele
dou | variabile men ionate nu exist| nici o suprapunere informa ional|. n aceast | situa ie, variabilitatea indus | de cele dou |
variabile este maxim |, ceea ce din punct de vedere geometric este echivalent cu faptul c | vectorii sunt ortogonali, respectiv c |
aria paralelogramului este maxim |. Pe de alt| parte, situa ia de redundan | maxim | este cea mai pu in dorit |, aceasta nsemnnd
c | cele dou | variabile reprezint| unul i acela i lucru din punct de vedere informa ional. n acest caz, variabilitatea
corespunz |toare celor dou | variabile este minim | i este eviden iat| de coliniaritatea vectorilor ce reprezint| cele dou | variabile,
adic | de faptul c | aria paralelogramului este nul|.
n afar | de pozi ia pe care o au cei doi vectori unul fa | de altul, aria paralelogramului depinde i de lungimea fiec |ruia
dintre vectori, fiind cu att mai mare, cu ct lungimea celor doi vectori este mai mare.
Deoarece p |tratul lungimii fiec |ruia din cei doi vectori
este chiar varian a corespunz |toare variabilei pe care
acesta o reprezint|, este evident c | aria paralelogramului este i m |sur | a varian ei variabilelor standardizate.
Cele men ionate anterior eviden iaz | un fapt de o nsemn |tate excep ional| pentru problematica m |sur |rii variabilit|ii
individuale i comune ce caracterizeaz | observa iile unei mulimi de variabile: aria paralelogramului poate fi folosit| ca m |sur |
comun | att pentru variabilitatea individual|, exprimat| prin intermediul varian elor variabilelor, ct i pentru variabilitatea
comun |, exprimat| prin intermediul covarian elor dintre aceste variabile.
Cele dou | situa ii men ionate eviden iaz | faptul c | aria paralelogramului determinat de cei doi vectori poate fi utilizat|
pentru determinarea unei m |suri a redundan ei inform a ionale i a variabilit|ii generale ce caracterizeaz | observa iile
variabilelor. O astfel de m |sur | este reprezentat| de p |tratul ariei paralelogramului ce corespunde celor doi vectori i este
cunoscut| sub numele de varian | generalizat|.
Deoarece baza paralelogramului este reprezentat| de lungimea vectorului

, adic | de m |rimea

, iar

n |limea paralelogramului este dat| de rela ia:


,
aria paralelogramului va fi:
.
n cazul n care exist| un num |r de n variabile, varian a generalizat| corespunz |toare acestora este chiar p |tratrul volumului
hiperparalelipipedului format de cei n vectori n spa iul observa iilor.
Din cele ar |tate mai sus rezult| c |, n sens geometric, varian a generalizat| poate fi definit| sub forma urm |toare:
Definiie: Varian a generalizat| corespunz |toare spa iului observa iilor celor dou | variabile considerate este dat| de
rela ia:

Se poate ar |ta c | varian a generalizat| este reprezentat| de determinantul matricii de covarian | ce corespunde variabilelor
supuse studiului, respectiv:
.
Varian a generalizat| este o m |sur | extrem de important| a variabilit|ii totale, format| att ca urmare a variabilit|ii

25

individuale ce caracterizeaz | variabilele, ct i ca urmare a variabilit|ii comune ce caracterizeaz | interac iunea variabilelor.

3.3 Matrici utilizate n analiza multidimensional| a datelor


n urma efectu |rii unor opera ii preliminare asupra datelor primare, reprezentate prin intermediul matricii de observa ii X:

rezult| urm |toarele trei tipuri de matrici foarte importante n analiza datelor:
matricea observa iilor centrate;
matricea observa iilor standardizate;
matricea produselor ncruci ate,
pe care le vom defini n continuare.

3.3.1 Matricea observaiilor centrate


Matricea observa iilor centrate poate fi ob inut| ca diferen | ntre matricea de observa ii i matricea
sunt mediile celor n variabile:

ale c |rei coloane

3.3.2 Matricea observaiilor standardizate


Matricea observa iilor standardizate poate fi ob inut| ca produs ntre matricea variabilelor centrate i inversa matricii
diagonale V, ale c |rei elemente sunt abaterile standard ale celor n variabile:

3.3.3 Matricea produselor ncruciate


Matricea produselor ncruciate poate fi determinat| att pentru variabilele originale, ct i pentru variabilele centrate i
standardizate. Pentru cazul variabilelor originale, matricea produselor ncruciate se ob ine ca produs ntre transpusa matricii
X i matricea X:

Utiliznd scrierea bazat| pe lungimile vectorilor de observa ii i pe produsele scalare ale acestora, matricea produselor
ncruciate pentru situa ia n care variabilele sunt sub forma original| poate fi scris | sub forma:

unde

este vectorul observa iilor variabilei

n cazul n care variabilele sunt centrate, matricea produselor ncruciate poate fi determinat| astfel:

26

Folosind lungimile vectorilor de observa ii centrate i produsele scalare ale acestora, matricea produselor ncruciate pentru
situa ia n care variabilele sunt centrate poate fi scris | sub forma:

3.3.4 Matricea de covarian|


Matricea de covarian | constituie una dintre cele mai frecvent utilizate matrici n analiza datelor, majoritatea tehnicilor de
analiz | a datelor presupunnd calculul acestei matrici. Pentru situa ia n care num |rul de variabile analizate este egal cu n,
covarian ele dintre orice dou | variabile pot fi aranjate sub forma unei matrici p |trate i simetrice, de dimensiune
, numit|
m atrice de covarian |:

, unde

n condiiile nota iilor anterioare, matricea de covarian | pentru variabilele originale poate fi scris | cu ajutorul matricii
produselor ncruciate pentru cazul variabilelor centrate, sub forma:

3.3.5 Matricea de corelaie


Matricea de corela ie este o alt| matrice important | n contextul multor metode i tehnici de analiz | a datelor. Matricea
de corela ie este o matrice important | n analiza datelor, n primul rnd, pentru faptul c | o serie de metode i tehnici ale analizei
datelor i bazeaz | procedurile pe analiza spectral| a acestei matrici.
n mod similar cu matricea de covarian |, se define te matricea de corela ie corespunz |toare celor n variabile originale,
care este o matrice simetric | avnd urm |toarea form |:

, unde

Matricea de corela ie a variabilelor originale poate fi scris | cu ajutorul matricii produselor ncruciate pentru cazul
variabilelor standardizate, astfel:

27

Tema 4. Spaii i distane utilizate n analiza datelor


Interpretarea geometric | a obiectelor i variabilelor ca puncte din spa ii cu mai multe dimensiuni i, n mod implicit, ca
vectori din aceste spa ii este foarte util| pentru n elegerea unor metode i tehnici de analiz | a datelor i pentru simplificarea
interpret|rii unor rezultate ob inute n urma analizei.

4.1 Reprezentarea geometric| a observaiilor i variabilelor


n func ie de elementele care fac obiectul reprezent |rii, obiecte sau observa ii, respectiv variabile, n analiza datelor sunt
definite dou | tipuri de spa ii: spa iul variabilelor i spa iul observa iilor. Aceste dou | spa ii au un rol fundamental n numeroase
ra ionamente i n definirea multor tehnici de analiz | multidimensional| a datelor. n fiecare din cele dou | spa ii sunt definite,
n principal, dou | opera ii importante: determinarea gradului de apropiere dintre punctele spa iului i determinarea gradului
de asociere dintre punctele spa iului.

4.1.1 Spaiul variabilelor


Obiectele sau observa iile disponibile ntr-o analiz | de date pot fi privite ca puncte sau ca vectori dintr-un spa iu ale c |rui
dimensiuni sunt reprezentate de variabilele ce caracterizeaz | obiectele. ntr-o astfel de reprezentare, axele spa iului corespund
variabilelor, iar valorile nregistrate de obiecte la fiecare din variabilele analizate sunt proiec ii ale punctelor reprezentate de
observa ii pe axele spa iului.
Spa iul n care sunt reprezentate observa iile sau obiectele analizate este cunoscut n analiza datelor sub numele de spa iul
variabilelor. Dac | num |rul de observa ii dintr-o analiz | de date este T, iar num |rul de variabile este n, cele T observa ii pot
fi privite ca puncte din spa iul real n-dimensional.
Definiie: Se nume te spa iul variabilelor, spa iul real n-dimensional
analizei i ale c |rui axe sunt reprezentate de variabilele analizate.

n care sunt reprezentate obiectele supuse

n spa iul variabilelor, un obiect, de exemplu cel de-al i-lea, este reprezentat prin intermediul vectorului n-dimensional:

ntr-un astfel de spa iu, pot fi determinate distan ele dintre obiecte, poate fi eviden iat| i m |surat| variabilitatea obiectelor
de-a lungul axelor, pot fi determinate i m |surate eventuale leg |turi ntre obiecte etc.
Reprezentarea obiectelor n spa iul variabilelor este foarte util| i sugestiv | pentru n elegerea tehnicilor de analiz | a
discriminantului i de analiz | cluster, metodelor i tehnicilor de analiz | a leg |turilor etc.
Figura urm |toare con ine reprezentarea grafic | a celor dou | obiecte n spa iul variabilelor, ale c |rui axe sunt reprezentate
de caracteristicile obiectelor.

Figura 4.1: Reprezentarea obiectelor

n spa iul variabilelor

n spa iul variabilelor, obiectele analizate sunt reprezentate sub forma unui nor de puncte, centrul de greutate al norului
de puncte fiind chiar punctul care reprezint| mediile caracteristicilor obiectelor, punct care se nume te centroid al obiectelor.
Definiie: Se nume te centroid n spa iul variabilelor punctul ale c |rui coordonate sunt reprezentate de mediile celor
n variabile analizate, adic | punctul

Cele n coordonate ale centrului de greutate sau ale centroidului obiectelor n spa iul variabilelor sunt date de rela iile
urm |toare:

28

,
unde

reprezint| coordonata celui de-al t-lea obiect n raport cu cea de-a j-a ax | a spa iului variabilelor.

Dac | obiectele din spa iul variabilelor sunt privite ca vectori din acest spa iu, atunci cosinusul unghiului dintre doi vectori
ce definesc dou | obiecte reprezint| m |sura leg |turii liniare ce exist| ntre cele dou | obiecte.
Ceea ce are importan | pentru caracterizarea obiectelor este poziia pe care fiecare obiect o are n spa iul variabilelor,
poziie att n raport cu axele spa iului, ct i n raport cu alte obiecte.
Cea mai important | opera ie n spa iul variabilelor este aceea a determin |rii gradului de apropiere sau de dep |rtare dintre
obiecte, astfel nct, m |rimea cea mai relevant | pentru caracterizarea obiectelor reprezentate n spa iul variabilelor este distan a.
Definirea i evaluarea distan ei n spa iul variabilelor sunt posibile numai n condiiile n care pe spa iul respectiv este
definit| o anumit| metric |.
Conceptul care st| la baza definirii unei metrici ntr-un anumit spa iu este produsul scalar. n cazul spa iului real ndimensional
, produsul scalar dintre doi vectori x i y este num |rul real definit astfel:
.
Cu ajutorul produsului scalar poate fi definit| lungimea unui vector din spa iul n-dimensional

i distan a euclidian | dintre doi vectori din spa iul n-dimensional

, respectiv:
.

Metrica n spa iul variabilelor este introdus | prin intermediul distan ei euclidiene, n conformitate cu care, distan a dintre
dou | obiecte
este dat| de r |d |cina p |trat| a sumei p |tratelor diferen elor coordonatelor celor dou | obiecte:
.
Analiza varian ei obiectelor de-a lungul axelor este extrem de important | deoarece, n cazul n care de-a lungul unei axe,
varian a este nesemnificativ | n raport cu varian ele obiectelor n raport cu celelalte axe, se poate renun a la acest | ax |,
considerndu-se c | variabila ce reprezint| respectiva ax | nu are o semnifica ie relevant | n definirea obiectelor. Aceasta este
de fapt ideea central| care st | la baza tehnicilor de simplificare i de reducere a dependen elor cauzale.

4.1.2 Spaiul observaiilor


n numeroase situa ii concrete, apare necesitatea analizei variabilelor ce definesc obiectele, analizei leg |turilor care exist|
ntre acestea sau a modului n care variabilele se asociaz |, astfel nct, analizele vizeaz | nu obiectele ca atare, ci caracteristicile
acestora, variabilele. Analizele de acest fel se afl| ntr-un anumit raport de dualitate cu analizele care se fac n spa iul
variabilelor i presupun definirea unui spa iu adecvat acestei situa ii: spa iul observa iilor.
n mod similar cu cazul obiectelor, variabilele implicate ntr-o analiz | de date pot fi reprezentate ca puncte sau ca vectori
ntr-un spa iu ale c |rui dimensiuni sunt reprezentate de obiectele supuse analizei. Axele spa iului n care sunt reprezentate
variabilele corespund observa iilor sau obiectelor analizate.
Coordonatele variabilelor n spa iul observa iilor sunt valorile nregistrate de variabile la nivelul fiec |rui obiect, adic |
proiec ii ale punctelor reprezentate de variabile pe axele acestui spa iu.
Spa iul n care sunt reprezentate variabilele analizate este cunoscut n analiza datelor sub numele de spa iul observa iilor.
n cazul n care num |rul de variabile supuse analizei este n, iar num |rul de observa ii din aceast | analiz | este T, cele n variabile
pot fi privite ca puncte sau vectori din spa iul real T-dimensional.
Definiie: Se nume te spa iul observa iilor, spa iul real T-dimensional
, n care sunt reprezentate variabilele supuse
analizei i ale c |rui axe sunt reprezentate de observa iile sau obiectele analizate.
n spa iul observa iilor, o variabil|, de exemplu cea de-a j-a, este reprezentat| prin intermediul vectorului T-dimensional:

n spa iul observa iilor, pot fi determinate i m |surate leg |turile de tip liniar dintre variabile, poate fi stabilit modul n care
variabilele sau caracteristicile obiectelor se asociaz |, pot fi stabilite distan e ntre variabile etc. Ca i n cazul reprezent |rii
obiectelor n spa iul variabilelor, reprezentarea variabilelor n spa iul observa iilor este util| n numeroase analize de tip
multidimensional, ntre cele dou | tipuri de reprezentare fiind o leg |tur | de tip dual.
Variabilele analizate reprezint| n spa iul observa iilor un nor de puncte, al c |rui centru de greutate este numit centroid
al variabilelor.

29

Definiie: Se nume te centroid n spa iul observa iilor punctul ale c |rui coordonate sunt reprezentate de mediile celor
T observa ii analizate, adic | punctul

Cele T coordonate ale centroidului variabilelor n spa iul observa iilor sunt date de rela iile:
,
unde

reprezint| valoarea medie nregistrat| de cele n variabile la cel de-al t-lea obiect. Reprezentarea variabilelor n spa iul

observa iilor i a centroidului acestora sunt eviden iate n figura urm |toare.

Figura 4.2: Reprezentarea variabilelor

n spa iul observa iilor

Ca i n cazul spa iului variabilelor, definirea produsului scalar n spa iul observa iilor permite definirea conceptului de
distan | euclidian | ntre dou | variabile. De i aceast| distan | nu are relevan a pe care o are n cazul obiectelor, exist| situa ii
n care m |surarea distan ei dintre variabile are o importan | practic |. Distan a euclidian | dintre variabilele
n spa iul
observa iilor este:
.

4.2 Distana n analiza datelor


n orice proces de analiz | a datelor apare o foarte important| problem | de natur | metodologic |: m |surarea distan ei dintre
dou | obiecte sau indivizi. Alegerea modalit |ii de exprimare a distan ei dintre obiecte este anterioar | analizelor efective i
influen eaz | n mod direct i sensibil calitatea rezultatelor ob inute. Din aceste motive, consider |m c | este foarte util| definirea
conceptului de distan | i eviden ierea modalit|ilor care sunt cele mai potrivite pentru exprimarea acesteia.
Distan a reprezint| unul dintre cele mai importante i mai frecvent utilizate concepte din domeniul analizei datelor. n
acela i timp, distan a constituie una dintre cele mai relevante modalit|i de sumarizare a informa iilor manipulate n analiza
datelor, mai ales n situa iile n care sunt investigate interdependen ele dintre fenomene i procese. Ca m |rime, distan a se
calculeaz | pentru a evalua apropierea sau dep |rtarea dintre obiectele sau caracteristicile care se supun studiului, pentru a m |sura
gradul de similitudine sau nesimilitudine dintre acestea, din punct de vedere al caracteristicilor studiate.
Definirea i interpretarea conceptului de distan | presupune, n mod implicit, existen a unui spa iu n raport cu care are loc
nu numai definirea, ci i evaluarea numeric | a distan ei. Spa iul n care este posibil a fi definit| o distan | se nume te spa iu
metric i poate fi spa iul variabilelor sau spa iul observa iilor.
Corespunz |tor celor dou | modalit|i de reprezentare, n spa iul variabilelor i n spa iul observa iilor, distan a poate fi
utilizat| pentru a evalua apropierea sau dep |rtarea dintre puncte ale unui spa iu multidimensional, puncte ce pot reprezenta att
obiecte, ct i caracteristici.
Definiie: Func ia real|
urm |toarele propriet|i:
a. este nenegativ |:

se nume te distan | dac |, fiind date punctele

, verific |

b. este simetric |:
c. verific | inegalitatea triunghiului:
n func ie de modul n care distan a este evaluat|, adic | n func ie de modul n care se evalueaz | gradul de dep |rtare sau
apropiere dintre dou | obiecte, exist| mai multe tipuri importante de distan e: distan a euclidian |, distan a statistic |, distan a
standadizat|, distan a Mahalanobis etc.

4.2.1 Distana euclidian|


Cea mai cunoscut | distan | utilizat| pentru a m |sura dep |rtarea sau apropierea unor puncte dintr-un spa iu
multidimensional este distan a n linie dreapt|, cunoscut| sub numele de distan | euclidian |.

30

Definiie: Se nume te distan | euclidian | ntre dou | puncte x i y din spa iul n-dimensional
astfel:

, func ia real| definit|

,
unde

reprezint| cea de-a i-a coordonat| a punctelor x, respectiv y.

Pentru a ilustra geometric distan a euclidian |, vom considera cazul unui spa iu bidimensional
puncte x i y sunt reprezentate de vectorii x i y din figura urm |toare.

, presupunnd c | cele dou |

Figura 4.3: Distan a euclidian | dintre dou | puncte x i y


Dup | cum se poate observa, n conformitate cu teorema lui Pitagora, lungimea segmentului ce une te punctele x i y, adic |
distan a dintre cele dou | puncte este:
.
Rezult| c | distan a euclidian | dintre dou | puncte este num |rul nenegativ reprezentat de r |d |cina p |trat| a sumei p |tratelor
diferen elor coordonatelor omoloage ale respectivelor puncte. Altfel spus, p |tratul distan ei euclidiene dintre dou | puncte este
egal cu suma p |tratelor diferen elor dintre coordonatele omoloage ale celor dou | puncte.

4.2.2 Distana euclidian| ponderat|


Din cauza specificit|ii domeniilor n care este utilizat| analiza datelor, folosirea distan ei euclidiene pentru a m |sura gradul
de apropiere sau de dep |rtare dintre obiecte ridic | dou | importante dificult|i. Prima dificiltate se refer | la faptul c |, n analiza
datelor, dimensiunile spa iului n care se face evaluarea distan ei nu sunt de aceea i natur |, nu sunt omogene. n domeniul fizicii,
m |surarea distan elor prin intermediul distan ei euclidiene are consisten a necesar |, deoarece toate dimensiunile spa iului n
care se face m |surarea sunt omogene, au aceea i natur |, adic | sunt exprimate n unit|i de m |sur | comparabile.
Spre deosebire de fizic |, n domeniul economic, punctele ce reprezint| obiectele studiate au de obicei caracteristici
eterogene, cu importan | diferit | i exprimate n unit|i de m |sur | diferite, astfel nct, distan a euclidian |, care presupune
nsumarea p |tratelor unor diferen e de natur | diferit|, i pierde relevan a.
O modalitate simpl | de asigurare a comparabilit|ii caracteristicilor obiectelor studiate, din punct de vedere al importan ei
pe care acestea o de in n caracterizarea obiectelor const | n definirea unor ponderi sau unor coeficien i de importan | pentru
caracteristicile studiate i utilizarea acestora n calculul unei distan e euclidiene ponderate.
Definiie: Considernd c |

sunt ponderile atribuite celor n caracteristici ale obiectelor, distan a euclidian |

ponderat| este definit| de rela ia:

Calculul distan ei euclidiene ponderate este echivalent cu calculul distan ei euclidiene, dar pentru cazul n care observa iile
fiec |rei a i-a caracteristici au fost multiplicate cu m |rimea

4.2.3 Distana standardizat|


Dou | obiecte pot fi considerate a fi mai apropiate ntre ele dac | ele provin dintr-o popula ie cu o mpr |tiere mai mare,
i mai dep |rtate dac | provin dintr-o popula ie cu o mpr |stiere mai mic |. Aceast | constatare determin | necesitatea ca distan a
euclidian | s | fie supus | unei transform |ri, unei adapt|ri, pentru a putea surprinde cele men ionate mai sus. O astfel de
transformare este cea reprezentat| de distan a standardizat|.
O m |sur | de natur | statistic | a distan ei ntre obiecte, care ine seama de mpr |tierea popula iilor din care provin obiectele
este distan a standardizat|.
n cazul multidimensional, cnd obiectele reprezint| puncte din spa iul real n-dimensional, distan a standardizat| ntre
obiectele
se calculeaz | astfel:

31

4.2.4 Distana Mahalanobis


Distan a standardizat| ia n considerare numai variabilitatea individual| ce caracterizeaz | observa iile variabilelor, ceea
ce echivaleaz |, n mod implicit, cu faptul c |, n calculul acestei distan e variabilele sunt presupuse a fi necorelate.
O generalizare a distan ei standardizate, care, spre deosebire de distan a standardizat|, ia n considerare i variabilitatea
interac iunii dintre variabile, o reprezint| distan a Mahalanobis.
Distan a Mahalanobis ia n considerare att variabilitatea individual| con inut| n observa iile efectuate asupra variabilelor,
ct i variabilitatea comun | con inut| n respectivele observa ii.
Pentru a fi senzitiv | n raport cu variabilitatea individual|, n construc ia distan ei Mahalanobis sunt implicate varian ele
variabilelor, iar pentru a fi senzitiv | n raport cu variabilitatea comun |, n construc ia distan ei Mahalanobis sunt implicate
covarian ele i coeficien ii de corela ie.
Definiie: n cazul bidimensional, n care se consider | obiecte avnd cte dou | caracteristici,
Mahalanobis dintre dou | obiecte

, distan a

este dat| de rela ia:


,

unde r reprezint| coeficientul de corela ie dintre cele dou | variabile ce reprezint| caracteristicile obiectelor,
reprezint| varian ele, iar

reprezint| abaterile standard ale celor dou | variabile.

Este important s| observ |m c | distana standardizat| i distan a euclidian | sunt cazuri particulare ale distan ei Mahalanobis.
ntr-adev |r, dac | cele dou | variabile ce caracterizeaz | obiectele sunt necorelate, adic |
, distan a Mahalanobis coincide cu
distan a standardizat|. Pe de alt| parte, dac | varian ele variabilelor sunt egale cu unitatea i variabilele sunt necorelate, distan a
Mahalanobis coincide cu distan a euclidian |.
Definiie: n cazul obiectelor multidimensionale, adic | al obiectelor caracterizate prin intermediul a n variabile,
distan a Mahalanobis este definit| de m |rimea:

unde
obiectelor

sunt vectori n-dimensionali ale c |ror componente sunt reprezentate de valorile caracteristicilor
, iar S este matricea de covarian |.

Dac | cele n variabile ce caracterizeaz | obiectele sunt necorelate, matricea de covarian | S este o matrice diagonal|, elemenele diagonale ale acesteia reprezentnd varian ele variabilelor. n cazul n care variabilele sunt standardizate i necorelate,
matricea de covarian | S este matricea unitate, ceea ce nseamn | c | distan a Mahalanobis se reduce la distan a euclidian |.

32

Tema 5. Analiza intragrupal| i analiza intergrupal|


n analiza datelor apar foarte multe situa ii n care este necesar | analiza comparativ | a datelor provenind din popula ii
diferite sau analiza caracteristicilor care determin | diferen ierea unor grupe de obiecte din mulimea obiectelor analizate.
n anumite situa ii care apar n diferite analize de date, obiectele supuse analizei sunt caracterizate de o mare eterogenitate
dup | anumite caracteristici, astfel nct, pentru ob inerea unor rezultate relevante este necesar ca analiza s | se fac | n mod
diferen iat, n func ie de grupele care se contureaz | pe mulimea obiectelor n contextul respectivei eterogenit|i.
O alt| conjunctur | n care analiza datelor conduce la investigarea grupelor de obiecte i a interrela iilor dintre acestea este
aceea n care apare necesitatea clasific |rii unor obiecte n grupe cunoscute aprioric sau, mai general, necesitatea gener |rii unei
clasific |ri sau partaj |ri a obiectelor supuse analizei.
n general, analiza caracteristicilor de grupare sau analiza grupelor are ca scop s | verifice sau s | determine gradul de
omogenitate din interiorul grupelor i gradul de eterogenitate dintre grupe. n plus fa | de aceasta, n analiza caracteristicilor
de grupare se urm |re te i modul n care variabilele supuse analizei contribuie la diferen ierea grupelor de obiecte, la
discriminarea observa iilor sau obiectelor. Necesitatea de a analiza observa iile sau obiectele diferen iate pe grupe apare n
contextul a numeroase probleme din domeniul analizei datelor, n cazul unora din ele avnd o importan | de excep ie.
n cele ce urmeaz |, vom face o scurt| prezentare a modului n care datele primare pot fi supuse unui proces de prelucrare
preliminar|, care s | implice analiza rela iilor intragrupale i intergrupale.

5.1 Analiza de tip intragrupal


Analiza intragrupal| are ca scop principal eviden ierea gradului de omogenitate a obiectelor din fiecare grup |, determinarea
unei m |suri comune a similarit|ii obiectelor din fiecare grup |. O astfel de m |sur | este dat| de elementele matricii comune de
covarian |, care m |soar | similaritatea obiectelor n raport cu fiecare din variabilele care definesc obiectele analizate.
n general, dac | num |rul de grupe este G, num |rul de observa ii din cele G grupe este
, iar matricile produselor
ncruciate ale grupelor sunt

, atunci m atricea comun | a produselor ncruciate este definit| astfel:


.

M atricea com un | de covarian | este definit| ca fiind matricea rezultat| din mp |r irea elementelor matricii comune a
produselor ncruciate la num |rul gradelor de libertate:
,
adic | matricea:

unde

este element al matricii comune a produselor ncruciate.

Matricea comun | de covarian | exprim | cantitatea de varia ie prezent | n observa iile fiec |reia din cele G grupe de
observa ii. M atricea comun | de covarian | este foarte important| n analiza datelor grupate, deoarece ea furnizeaz | informa ia
cu privire la omogenitatea sau similaritatea din interiorul grupelor, adic | omogenitatea intragrupal|.
De exemplu, dac | obiectele reprezentate de observa iile fiec |rei grupe sunt identice din punct de vedere al tuturor
variabilelor, adic | toate observa iile unei variabile coincid cu media, atunci elementele matricii comune de covarian | vor fi
nule, ceea ce eviden iaz | omogenitate perfect| n interiorul grupelor. Valori mai mari dect zero ale elementelor matricii comune
de covarian | eviden iaz | un anumit grad de eterogenitate a observa iilor n cadrul grupelor, eterogenitate care este cu att mai
mare cu ct valorile elementelor matricii comune de covarian | sunt mai mari.

5.2 Analiza de tip intergrupal


Analiza intergrupal| se bazeaz | pe studierea abaterilor nregistrate de mediile grupelor fa | de media general|, adic | media
calculat| prin luarea n considerare a tuturor observa iilor, f|r | a ine seama de apartenen a acestora la grupele existente. Aceste
medii sunt definite n raport cu fiecare din variabilele analizate.
Elementul cheie n analiza intergrupal| este reprezentat de suma p |tratelor abaterilor dintre grupe. Aceast | m |rime se
33

define te i se calculeaz | pentru fiecare din variabilele analizate. Pentru cea de-a i-a variabil|, suma p |tratelor abaterilor dintre
grupe este dat| de rela ia:
,
unde G reprezint| num |rul grupelor,

reprezint| num |rul de observa ii din cea de-a j-a grup |,

de cea de-a i-a variabil| la nivelul celei de-a j-a grupe, iar

reprezint| media nregistrat|

reprezint| media celei de-a i-a variabile la nivelul tuturor

observa iilor din cele G grupe.


O matrice important | utilizat| n analiza intergrupal| este m atricea produselor ncruciate intergrupale, care se define te
astfel:

Matricea produselor ncruci ate intergrupal| este extrem de important | n analiza grupelor sau a caracteristicilor de
grupare, deoarece ea furnizeaz | informa ia cu privire la eterogenitatea grupelor de observa ii.
Ea reprezint| o m |sur | a diferen elor care exist| ntre grupele de observa ii, ar |tnd care este rolul variabilelor n
diferen ierea grupelor de observa ii.
Cu ajutorul matricii produselor ncruciate intergrupale poate fi calculat| m atricea de covarian | intergrupal|:

Matricea de covarian | intergrupal| exprim | informa ia referitoare la eterogenitatea intergrupal|, ar |tnd ct de mult se
diferen iaz | grupele dup | fiecare din variabilele analizate.
Considernd c | num |rul total de observa ii este T i notnd cu
matricea produselor ncruci ate pentru totalitatea
observa iilor centrate, indiferent de mp |r irea lor pe grupe, adic | matricea:

este verificat| rela ia fundamental|:


.
Aceast | rela ie, foarte important | n analiza datelor, eviden iaz | faptul c | matricea general| sau total| a produselor
ncruci ate ( ) poate fi descompus | sub forma a dou | matrici: matricea comun | sau cum ulat| a produselor ncruci ate (
)

i matricea produselor ncruciate intergrupale (

).

n termeni informa ionali, rela ia precedent | eviden iaz | faptul c | informa ia total|, exprimat | de variabilitatea ce
caracterizeaz | toate observa iile, poate fi mp |r it| pe dou | componente:
informa ia reprezentat| de variabilitatea existent| n interiorul grupelor i care este m |surat| prin matricea
comun | a produselor ncruci ate
;

34

informa ia reprezentat| de variabilitatea existent| ntre grupe i care este m |surat| prin intermediul matricii
produselor ncruci ate intergrupale
;
A a cum am mai men ionat, cu ajutorul matricii comune de covarian | se exprim | similaritatea, omogenitatea intragrupal|,
iar cu ajutorul matricii de covarian | intergrupal| se exprim | eterogenitatea intergrupal|.
Din punct de vedere al unei singure variabile, se poate spune c |, exist| diferen e cu att mai mari ntre grupe cu ct suma
p |tratelor abaterilor intergrupale este mai mare n compara ie cu suma p |tratelor abaterilor intragrupale.
Aceast | afirma ie furnizeaz | implicit criteriul teoretic ideal pentru construirea celui mai bun algoritm de clasificare:
maximizarea sumei p |tratelor abaterilor intergrupale i minimizarea sumei p |tratelor abaterilor intragrupale.
n mod similar cu descompunerea matricii totale a produselor ncruci ate pe cele dou | componente, se poate defini i o
rela ie de descompunere a gradelor de libertate ce corespund totalit|ii observa iilor, notate cu df, astfel:
,
unde

reprezint| gradele de libertate corespunz |toare variabilit|ii intragrupale, adic |:


,

iar

reprezint| gradele de libertate corespunz |toare variabilit|ii intergrupale, adic |:


.
Dup | cum se poate observa, ntr-adev |r suma

reprezint| num |rul de grade de libertate ce caracterizeaz | cele T

observa ii:
.
Analiza caracteristicilor de grupare i matricile definite n leg |tur | cu aceasta sunt utilizate frecvent n probleme de
clasificare i discriminare. n capitolul destinat prezent|rii tehnicilor de recunoa tere a formelor, vom discuta, detaliat, modul
n care pot fi folosite procedurile de analiz | a grupelor.

35

Tema 6. Analiza componentelor principale


6.1 Necesitatea i importana simplific|rii spaiului cauzal
Demersul tiin ific implicat n cadrul oric |rei probleme de analiz | i predic ie din domeniul economico-social include, ca
o etap | important | a sa, o detaliat| investigare a leg |turilor func ionale existente ntre variabilele explicative. Variabilele
explicative care intervin ntr-un demers tiin ific de acest fel, variabile cunoscute i sub numele de variabile independente,
reprezint| simboluri care exprim | diferite aspecte cantitative sau calitative ale unor fenomene care au calitatea de factori de
influen | sau de cauze pentru alte fenomene sau procese.
n domeniul analizei datelor se consider | c | ansamblul variabilelor explicative implicate ntr-o analiz | multidimensional|
particular | define te un anumit spa iu numeric numit spa iu iniial de cauzalitate. Dimensiunea acestui spa iu este dat| de
num |rul de variabile cauzale implicate n analiz |, ceea ce nseamn | c | num |rul i natura axelor acestui spa iu sunt determinate
de num |rul i natura variabilelor analizate. Fiecare variabil| cauzal| este reprezentat| pe cte o ax | a acestui spa iu, un punct
de pe o anumit| ax | a spa iului reprezentnd o valoare posibil| pe care o poate lua variabila asociat| cu axa respectiv |. Punctele
spa iului cauzal sunt reprezentate de obiectele supuse investiga iei, iar proiec iile acestor obiecte pe axele spa iului sunt valorile
nregistrate de obiecte la caracteristicele asociate cu axele.
Remarc |: Analiza componentelor principale asigur | o descompunere exprimat | printr-un num |r redus de componente
i neredundant| a variabilit|ii totale din spa iul cauzal iniial.
Din punct de vedere al analizei datelor, cea mai important| caracteristic | pe care o poate eviden ia spa iul de cauzalitate,
caracteristic | fundamental|, de fapt, pentru toate tehnicile de analiz | multidimensional| a datelor, o reprezint| variabilitatea
acestui spa iu de cauzalitate.
Ca expresie direct| i suficient de cuprinz |toare a cantit|ii de informa ie semnificativ | pe care o con in datele supuse
analizei, variabilitatea spa iului cauzal, pe de o parte, precum i modalit|ile prin intermediul c |rora aceasta poate fi exprimat |
sub cea mai simplificat| i sugestiv | form |, pe de alt| parte, definesc esen a i con inutul celor mai multe metode de analiz |
multidimensional| a datelor.
A a cum o s | vedem n continuare, variabilitatea con inut | n spa iul cauzal determinat de variabilele explicative poate fi
exprimat | sub mai multe forme posibile, forme mai mult sau mai pu in eficiente din punct de vedere al posibilit|ilor acestora
de a eviden ia rela iile de cauzalitate care au relevan | pe mulimea variabilelor explicative. Din acest punct de vedere, analiza
componentelor principale poate fi privit| ca o tehnic | de descompunere a variabilit|ii totale din spa iul cauzal iniial pe un
num |r mai redus de componente i f|r | nici o suprapunere a contribu iilor individuale la formarea acestei variabilit|i.
Remarc |: Analiza componentelor principale este o tehnic | de analiz | multidimensional | care are ca scop
descompunerea variabilit|ii totale din spa iul cauzal iniial sub forma unui num |r redus de componente i far | ca aceast|
descompunere s | con in | redundan e informa ionale.
n cazul specific al investiga iilor din domeniul economico-social, ca rezultat direct al numeroaselor i variatelor interdependen e manifestate pe mai multe paliere ntre variabilele explicative, spa iul de cauzalitate este caracterizat de o complexitate
deosebit|. Acest grad ridicat de complexitate a manifest |rii leg |turilor cauzale dintre variabilele explicative determin | serioase
dificult|i legate de exprimarea i interpretarea facil| a raporturilor de cauzalitate, astfel nct apare necesitatea unei reduceri,
unei simplific |ri a spa iului cauzal. Aceast | reducere sau simplificare se refer | la reducerea dimensionalit|ii spa iului cauzal,
la reducerea num |rului de axe n func ie de care se face reprezentarea punctelor n acest spa iu.
Modalitatea cea mai adecvat| pentru realizarea acestui obiectiv de mare importan | i utilitate, este aceea a utiliz |rii
tehnicilor de analiz | multidimensional| cunoscute sub numele de analiza componentelor principale.
Remarc |: Analiza componentelor principale este o tehnic | de analiz | multidimensional| care are ca scop reducerea
dimensionalit|ii spa iului cauzal iniial, n condiiile unei pierderi informa ionale minime.
ntr-o exprimare extrem de sintetic |, se poate spune c | analiza componentelor principale este o metod | de analiz |
multidimensional| care are ca scop g |sirea unei anumite m odalit|i de transformare a caracteristicilor iniiale ale unor obicte
sau forme, astfel nct, pe baza acestei transform |ri, s | se asigure o reprezentare optim al| a acestora, n condiiile folosirii unui
num |r mult mai redus de caracteristici.
Noile caracteristici rezultate n urma transform |rii caracteristicilor iniiale, al c |ror num |r este semnificativ mai redus, sunt
a a-numitele componente principale.
Caracterul de optimalitatate pe care transformarea men ionat| trebuie s |-l asigure noii modalit|i de reprezentare a
obiectelor se refer | la pierderea de informa ie referitoare la obiecte, care are loc odat| cu trecerea de la vechile la noile
caracteristici.
Se consider | c | noile caracteristici asigur | o reprezentare optimal | a obiectelor dac | i numai dac | trecerea de la vechea
reprezentare la noua reprezentare se face sub restric ia minimiz |rii pierderii de informa ie. Aceasta nseamn | c | transformarea
caracteristicilor se determin | n a a fel nct pierderea de informa ie antrenat| de reducerea dimensionalit|ii caracteristicilor
36

s | fie minim |. Realizarea acestei cerin e impuse transform |rii caracteristicilor presupune definirea unei performan e, unei func ii
obiectiv specifice, astfel nct transformarea s | asigure, dup | caz, fie minimizarea, fie maximizarea acestei func ii obiectiv.
n cazul concret al analizei componentelor principale, performan a este reprezentat| de maximizarea varian ei
caracteristicilor obiectelor, iar transformarea este o transformare de tip liniar.
Sintetiznd cele men ionate anterior, putem spune c | analiza componentelor principale este utilizabil| pentru rezolvarea
a dou | categorii generale de probleme: simplificarea structurii dependen ei cauzale i reducerea dimensionalit|ii spa iului
cauzal.

6.1.1 Simplificarea structurii dependenei cauzale


Leg |turile func ionale dintre variabilele explicative pot fi eviden iate prin intermediul definirii unei structuri a dependen ei
acestor variabile i m |surate, de obicei, cu ajutorul coeficien ilor de covarian | i corela ie.
Remarc |: Sub forma sa cea mai simpl |, structura dependen ei este reprezentat| de mul imea variabilelor cauzale
supuse analizei.
Necesitatea eviden ierii structurii dependen ei cauzale i a interpret|rii corecte a acesteia apare n orice analiz | care are
ca scop investigarea cauzalit|ilor i este fundamental| pentru orice proces de cunoa tere tiin ific |.
Pentru a facilita posibilitatea unei interpret|ri sugestive a cauzalit|ii este necesar ca structura dependen ei specifice unei
mulimi de variabile cauzale s | fie ct mai simplu i mai clar exprimat |, f |r | manifestarea perturbatorie a unor redundan e
informa ionale. Eviden ierea unei structuri a dependen ei ct mai simple i mai clare reprezint|, de fapt, unul dintre principalele
scopuri urm |rite n analiza datelor. Pe baza unei astfel de structuri pot fi formulate concluzii mai clare cu privire la rela iile de
cauzalitate manifestate la nivelul ansamblului de variabile explicative.
De cele mai multe ori ns |, datorit | complexit|ii leg |turilor cauzale i naturii specifice a informa iilor ce caracterizeaz |
variabilele analizate, o exprimare simpl | i clar |, sintetic | i neredundat| a cauzalit|ilor este deosebit de dificil| i nu poate
fi ob inut| n mod direct. Realizarea acestui deziderat poate fi ob inut| ns | indirect, prin utilizarea unor instrumente specifice,
cu ajutorul c |rora s | se poat | face o anumit| sim plificare a spa iului cauzal determinat de variabilele explicative.
Remarc |: Prin simplificarea spa iului cauzal se n elege reducerea dimensionalit|ii acestuia, astfel nct s| se ob in |
un spa iu cauzal de dimensiune mai mic | (spa iul redus) i care s | permit| o reprezentare mai simpl | i mai sugestiv | a
obiectelor.
n spa iul cauzal rezultat n urma acestei simplific |ri, spa iu a c |rui cardinalitate este mult mai redus | n compara ie cu
spa iul cauzal iniial, este mult mai u or s| se eviden ieze morfologia leg |turilor cauzale i s| se exprime o structur | adecvat|
a dependen elor.

6.1.1.1 Eliminarea redundanelor informaionale


n situa ia n care investiga ia tiin ific | are ca obiect direct spa iul cauzal iniial, este foarte dificil s | se deduc | i s| se
exprime o dependen | structural | care s | eviden ieze cu claritate contribu iile nete ale variabilelor analizate la formarea
variabilit|ii ntregului spa iu cauzal, mai ales atunci cnd aceste variabile sunt intercorelate.
Corelarea variabilelor cauzale determin | o structur | complicat| i amalgamat| a dependen ei, o structur | redundant|, care
include anumite suprapuneri informa ionale ale influen elor variabilelor cauzale. Faptul c | structura cauzal| iniial| este
complicat| i include numeroase suprapuneri informa ionale genereaz | o serie de dificult|i privind n elegerea clar | a
raporturilor de cauzalitate i formularea unor concluzii pertinente privind structurile de cauzalitate analizate.
O alt| problem | important | a analizei datelor, complementar | ntr-un anumit sens redundan ei informa ionale, const | n
aceea c | variabilitatea con inut| n spa iul iniial nu este la fel de semnificativ | n toate direc iile, de-a lungul tuturor axelor
spa iului, existnd situa ii n care, dup | o anumit| direc ie, variabilitatea s | fie neglijabil| din punct de vedere al magnitudinii.
n situa ii de acest fel se poate renun a la includerea n analiz | a informa iei corespunz |toare acestor direc ii, aceast|
renun are fiind echivalent | cu a considera n analiz | un spa iu de cauzalitate de dimensiune mai redus |.

6.1.2 Reducerea dimensionalit|ii


n viziunea specific | analizei componentelor principale, unit|ile elementare ale popula iei, obiectele supuse studiului, sunt
considerate a fi puncte dintr-un spa iu ale c|rui axe reprezint| caracteristicile posedate de respectivele obiecte. Aceasta nseamn |
c | n contextul analizei componentelor principale valorile caracteristicilor, adic | observa iile, sunt coordonate ale punctelor ce
definesc elementele popula iei analizate.
La baza analizei componentelor principale st | ideea c | reprezentarea unit|ilor n sistemul iniial de coordonate, adic | n
sistemul pe ale c |rui axe sunt m |surate caracteristicile originale ale unit|ilor, nu este totdeauna cea mai potrivit |, considernduse c | poate exista a alt| modalitate de reprezentare mai relevant|, mai eficient| din punct de vedere informa ional.
Aceast | modalitate de reprezentare, mai avantajoas | din punct de vedere informa ional, poate fi ob inut| considernd un
nou spa iu de reprezentare, spa iu care define te prin axele sale, n mod implicit, noi caracteristici ale obiectelor. Coordonatele
obiectelor n acest nou spa iu sunt valorile nregistrate de obiecte la aceste noi caracteristici.
n contextul simboliz |rii cu ajutorul variabilelor, noile caracteristici sunt numite componente principale, iar valorile
nregistrate de obiecte la aceste noi caracteristici sunt numite scoruri.
Avnd n vedere logica pe care se bazeaz | determinarea lor, se consider | c | noile caracteristici sunt mai relevante i mai
adecvate pentru evaluarea informa ional| a obiectelor. Este evident c | problema realiz|rii noii reprezent |ri i pierde sensul dac |
37

noile caracteristici nu preiau, ntr-un fel sau altul, con inutul informa ional al caracteristicilor iniiale. Mai mult dect att, noua
reprezentare se construie te n a a fel nct conservarea informa ional| s | fie maxim |, acceptndu-se, totu i, o pierdere
informa ional| minimal|.
Din punct de vedere geometric, analiza componentelor principale este echivalent | cu o rescriere a unit|ilor unei
popula ii ntr-un nou sistem de axe, cu o reprezentare mai adecvat| din punct de vedere informa ional a acestor unit|i. Noul
sistem de coordonate rezultat din analiza componentelor principale este caracterizat prin trei tr |s |turi fundamentale:
are o dimensiune redus|;
axele sale sunt ortogonale;
coordonatele n acest sistem sunt maximizatoare de varian |.
Problema reprezent |rii ntr-un spa iu mai redus este cunoscut | sub numele de problem | a reducerii dimensionalit|ii. Din
acest motiv, analiza componentelor principale este cunoscut| i ca tehnic | de reducere a dimensionalit|ii.
Dac | vom considera c | exist| n variabile originale, reprezentate de elementele mulimii
, esen a analizei
componentelor principale poate fi reprezentat| n mod simplificat prin intermediul transform |rii urm |toare:
,

unde

reprezint| mulimea componentelor principale, iar transformarea

este astfel nct asigur |, prin

intermediul componentelor principale, conservarea variabilit|ii din spa iul cauzal iniial ntr-o propor ie maxim posibil|.
Pentru a ilustra restric iile sub care poate fi f|cut | reducerea dimensionalit|ii, vom considera reprezent |rile grafice din
figura urm |toare, referitoare la un num |r de 10 obiecte care posed | cte dou | caracteristici. Obiectele au fost alese astfel s |
sugereze att con inutul procesului de reducere a dimensionalit|ii, ct i necesitatea acestui proces.
n aceast | figur | sunt eviden iate dou | modalit|i de reprezentare a celor 10 obiecte: prima este cea original|, adic | aceea
n care obiectele sunt reprezentate n coordonatele iniiale, netransformate, iar cea de-a doua este cea rezultat| n urma reducerii
dimensionalit|ii.

Figura 6.1: Exemplificarea reducerii dimensionalit|ii


de la dou | axe i
, la o singur | ax | - W
n cadrul primei reprezent |ri, obiectele sunt considerate a fi puncte din planul
dintre aceste puncte, m |surate pe axele reprezentate de

, cele dou | coordonate ale fiec |ruia

, fiind evalu |ri ale dou | presupuse caracteristici. Ceea ce este

deranjant n contextul acestei reprezent |ri iniiale a obiectelor este faptul c | rezolu ia acestor obiecte de-a lungul axei

este

foarte mic |. Obiectele pot fi distinse cu dificultate unele de altele, unele fiind chiar confundabile. n termeni statistici, rezolu ia
sc |zut | a obiectelor n sistemul de coordonate ini ial este echivalent | cu o variabilitate sc |zut | a primei caracteristici, de-a
lungul obiectelor. Mai departe, aceast| variabilitate sc |zut | poate fi interpretat| ca nsemnnd o semnifica ie redus | a primei
caracteristici, din punct de vedere ale puterii ei de a diferen ia obiectele analizate.
Reducerea dimensionalit|ii const |, n acest caz, n trecerea de la dou | dimensiuni la o singur | dimensiune. Ca urmare a
reducerii dimensionalit|ii, se trece de la reprezentarea obiectelor prin intermediul a dou | coordonate la reprezentarea obiectelor
prin intermediul unei sinngure coordonate. Aceasta nseamn | trecerea de la reprezentarea n plan la reprezentarea pe o dreapt|.
Noua ax | rezultat| n urma reducerii dimensionalit|ii, notat| n grafic cu W, poate fi interpretat| ca fiind expresia unei
caracteristici noi, rezultat| din combinarea ntr-o anumit| form |, a celor dou | caracteristici originale.
Se poate observa c | reprezentarea rezultat| n urma reducerii dimensionalit|ii cre te rezolu ia obiectelor. Aceasta nseamn|
c | noua caracteristic |, simbolizat| prin intermediul variabilei W , este caracterizat| de o mai mare variabilitate de-a lungul
obiectelor, comparativ cu caracteristica simbolizat| prin intermediul variabilei
. Noua variabil| W poate fi interpretat| ca

38

fiind o component| principal|.


n urma reducerii dimensionalit|ii s-a ob inut o nou | entitate informa ional|, care poate fi interpretat| ca reprezentnd o
nou | caracteristic | a obiectelor. Informa ia con inut| n aceast| nou | entitate este mai relevant | dect informa ia con inut| n
observa iile f|cute asupra primei caracteristici a obiectelor.

6.1.3 Necesitatea reducerii dimensionalit|ii


Necesitatea de a simplifica spa iul cauzal iniial, de a exprima cauzalitatea sub o form | mai simpl |, prin intermediul unui
num |r mai redus de variabile, apare n numeroase probleme de analiz | a datelor i, n plus, condiioneaz | posibilit|ile de
aplicare a multor proceduri specifice analizei datelor.
Problema reducerii dimensionalit|ii define te n mod sintetic att esen a tehnicilor de analiz | a componentelor principale,
ct i scopul majorit |ii modalit|ilor de utilizare a acestor tehnici.
Anterior am eviden iat faptul c | n orice activitate de cunoa tere tiin ific | apare necesitatea identific |rii unei structuri
simple i clare a dependen ei, ar |tnd c |, pentru realizarea acestui scop, trebuie s | se fac | o reducere, o simplificare a
cauzalit|ii. Modalitatea de abordare cea mai adecvat| pentru realizarea acestui scop este cea bazat| pe tehnicile oferite de
analiza componentelor principale.
Separat de aceast | important | i general| modalitate de utilizare, reducerea dimensionalit|ii spa iului de cauzalitate este
deosebit de util | i pentru rezolvarea unor probleme concrete cum ar fi cele legate de selectarea variabilelor de influen |,
simplificarea modelelor matematice, eliminarea redundan elor informa ionale, vizualizarea rela iilor de cauzalitate complexe,
compresia i restaurarea datelor n informatic | etc.
n continuare, vom face o scurt| prezentare a modului n care analiza componentelor principale poate fi folosit| pentru
solu ionarea fiec |reia dintre problemele men ionate.

6.1.3.1 Selectarea variabilelor de influen|


Caracteristica principal | a celor mai multe probleme de analiz | i predic ie din domeniul economico-social este dat| de
faptul c | dimensiunea spa iului cauzal investigat, dimensiune determinat| de num |rul de variabile ce pot fi identificate drept
cauze care determin | evolu ia unui fenomen efect, este foarte mare.
Deoarece nu toate variabilele de influen| au aceea i importan | n formarea caracteristicilor fenomenului efect, este necesar
ca aceste variabile s | fie supuse unui proces de filtrare, prin intermediul c |ruia unele variabile s | fie eliminate, iar altele re inute,
n func ie de semnifica ia fiec |reia dintre acestea.
Selectarea variabilelor independente, n func ie de semnifica ia influen ei pe care o au acestea asupra caracteristicilor
fenomenului efect, poate fi f|cut | i cu ajutorul tehnicilor de reducere a dimensionalit|ii.
n afara procesului de filtrare a variabilelor independente n func ie de importan a acestora, n analiza datelor apare frecvent
necesitatea de a grupa sau categorisi variabilele independente n func ie de natura influen ei pe care acestea o exercit|.
Clasificarea variabilelor explicative este foarte important| mai ales n domeniul economico-financiar, unde apare n mod
frecvent necesitatea identific |rii unor grupe specifice de variabile, care eviden iaz | anumite caracteristici globale ale structurilor
economice, cum ar fi: dezvoltarea economic |, dezvoltarea social|, for a financiar | etc.
De i exist | numerose metode i tehnici care pot fi utilizate scopul grup |rii variabilelor de influen |, totu i, analiza
componentelor principale este printre metodele cele mai simple i mai eficiente n acest sens.

6.1.3.2 Simplificarea modelelor matematice


n condiiile n care specificitatea investiga iilor din domeniul economico-social este reprezentat| de complexitate, apare
necesitatea ca n procesul de modelare a fenomenelor i proceselor economico-sociale s| se ia n considerare o mulime foarte
mare de variabile cauzale. Aceasta determin | ns | ob inerea unor modele prea complicate, care includ un num |r mult prea mare
de variabile cauzale i care creaz | numeroase dificult|i de ordin metodologic i tehnic.
Exist| multe motive care fac dificil| i incomod | re inerea n cadrul unui model matematic de analiz | sau predic ie a unui
num |r foarte mare de variabile i care conduc la necesitatea unei anumite simplific |ri a modelului din acest punct de vedere.
n primul rnd, semnifica ia fiec |rei variabile ntr-un model care include un num |r prea mare de variabile este foarte mult
diminuat|. De exemplu, dac | n construc ia unui model au fost re inute peste 100 de variabile i presupunnd pentru simplificare
c |, din punct de vedere al scopului urm |rit, semnifica ia fiec |rei variabile este comparabil| cu a celorlalte, ar rezulta pentru
fiecare variabil| o "contribu ie" mai mic | dect un procent. n acest fel, semnifica ia fiec |rei variabile apare mult diminuat|,
devine aproape neglijabil|, ea fiind mai redus | chiar dect cea a erorilor de observare sau a factorilor cu influen | accidental|.
n al doilea rnd, ob inerea informa iilor necesare estim |rii unui model care con ine un num |r foarte mare de variabile
ar implica un efort i un cost prohibitive, n anumite situa ii fiind greu sau chiar imposibil de ob inut informa ii semnificative
pentru toate variabilele; n cazul unui astfel de model, pentru a p |stra un num |r de grade de libertate suficient de ridicat n
vederea asigur |rii unei semnifica ii rezonabile pentru estimarea parametrilor modelului, ar fi necesar un num |r foarte mare de
observa ii efectuate asupra fiec |rei variabile.
n al treilea rnd, este posibil ca n cazul unui num |r mare de variabile s | avem o probabilitate ridicat| de existen | a unor
variabile foarte puternic intercorelate, includerea acestor variabile n model nsemnnd, n afara introducerii unui anumit grad
de redundan | informa ional|, i dificult|i serioase de estimare a modelului ca urmare a apariiei fenomenului de colinearitate
sau m ulticolinearitate.
n al patrulea rnd, un num |r foarte mare de variabile re inute ntr-un model ar ridica serioase probleme de complexitate

39

a calculului chiar n raport cu ridicatele performan e ale configura iilor hardware actuale, presupunnd implicit costuri foarte
ridicate de prelucrare.
Avnd n vedere cele men ionate, rezult| c | procesul de construire a modelului presupune necesitatea efectu |rii unor
simplific |ri i unor transform |ri corespunz |toare asupra mul imii de variabile independente.
n toate situa iile de acest fel, analiza componentelor principale poate servi ca un puternic instrument complementar, att
n faza de construire a modelelor, ct i n faza de estimare a parametrilor acestor modele.

6.1.3.3 Compresia i restaurarea datelor


O problem | important | din domeniul informaticii, legat| n special de eficien a cu care are loc transmiterea i stocarea
informa iei, este aceea a compresiei i restaur |rii datelor.
Analiza componentelor principale este una dintre tehnicile cele mai frecvent utilizate pentru solu ionarea unei astfel de
probleme, pentru activitatea de dezvoltare a algoritmilor de comprimare i restaurare a datelor. Eliminarea redundan elor
informa ionale, asigurat| prin intermediul utiliz |rii analizei componentelor principale, ofer | un foarte mare avantaj pentru orice
proces de stocare i transmitere de informa ie din sistemele informa ionale.
Dac | noua reprezentare a obiectelor asigurat| prin aplicarea tehnicilor de analiz | a componentelor principale este nso it|
de o pierdere informa ional| neglijabil|, atunci att n stocarea, ct i n transmiterea de informa ie, pot fi utilizate ca purt|toare
de informa ie noile caracteristici ale obiectelor. Cum num |rul acestora este mult mai redus n compara ie cu num |rul
caracteristicilor iniiale, rezult| c | manipularea informa iei se poate face cu consum mai mic de resurse, cu costuri mai reduse.

6.1.3.4 Vizualizarea unor relaii de cauzalitate complexe


n situa ia n care num |rul de variabile explicative este mai mare dect trei, nu mai exist| posibilitatea de a vizualiza
poziionarea obiectelor ale c |ror caracteristici sunt decrise prin intermediul acestor variabile, dep |indu-se limita maxim posibil|
a reprezent |rilor grafice, limit| dat| de contextul tridimensional.
Chiar i n cazul n care num |rul de variabile explicative este egal cu trei, reprezentarea grafic | tridimensional| a obiectelor
devine greoaie i, de cele mai multe ori, este lipsit| de relevan |.
Prin intermediul analizei componentelor principale pot fi create condiiile necesare pentru ca s | poat| fi reprezentate grafic
chiar obiecte ce sunt caracterizate de un num |r foarte mare de variabile.
Modalitatea concret| de reprezentare grafic | a obiectelor const | n determinarea primelor dou | componente principale,
corespunz |toare variabilelor originale i reprezentarea obiectelor ntr-un spa iu ortogonal ale c |rui axe sunt reprezentate de cele
dou | componente principale.
Calitatea reprezent |rii grafice realizat| prin intermediul acestei modalit|i depinde de m |sura n care cele dou | componente
principale exprim | con inutul informa ional al variabilelor originale, respectiv de propor ia pe care componentele principale
o preiau din varian a spa iului cauzal iniial.
Situa iile men ionate mai sus contureaz | cteva dintre cele mai importante argumente justificative pentru necesitatea de
a efectua o simplificare, o reducere a complexit|ii cauzalit|ii, f|r | ns | ca aceast| reducere s | determine o pierdere important |
din informa ia semnificativ |, relevant|.
O astfel de simplificare este echivalent | cu o reducere, de dorit ct mai semnificativ |, a dimensiunii spa iului cauzal, o
trecere de la un spa iu cu un num |r foarte mare de dimensiuni la un spa iu cu un num |r mai redus de dimensiuni ,asigurnd
prin aceast | trecere un procent ct mai ridicat de conservare a informa iei con inut| n spa iul cauzal iniial.
Orientarea axelor spa iului redus trebuie s | fie astfel nct s| permit| o descompunere neredundant | a variabilit|ii
spa iului cauzal iniial pe factori de influen |, o exprimare a structurii dependen ei f|r | nici o suprapunere a contribu iilor
individuale ale factorilor cauzali.
Remarc |: Prin descompunere neredundant| a variabilit|ii spa iului cauzal iniial se n elege exprimarea varian ei
totale care caracterizeaz | acest spa iu ca sum | a varian elor unui num |r mai mic de noi variabile, n condiiile n care
acestea sunt necorelate ntre ele.
Este evident c | ob inerea unei astfel de simplific |ri nu poate avea loc printr-o reducere a dimensiunii spa iului cauzal iniial
f|cut | n mod simplist, bazat| pe renun area arbitrar | la unele din variabilele cauzale i re inerea variabilelor cauzale r |mase,
mai ales atunci cnd importan a aprioric | a variabilelor pare a fi aproximativ egal|.
Singura posibilitate de a face o astfel de simplificare, sub restric iile men ionate mai sus, este cea a definirii unor noi variabile, mai pu ine la num |r dect variabilele iniiale, care s | exprime ntr-o manier | consistent | semnifica ia informa ional| a
variabilelor originale i care s | asigure ntr-o m |sur | suficient de mare "conservarea" informa iei con inute n variabilele iniiale.

6.1.4 Domenii ale utiliz|rii analizei componentelor principale


Exist| numeroase situa ii concrete n care se dore te ob inerea unor informa ii cu caracter mai special, care s | eviden ieze
profunzimea i subtilitatea interdependen elor existente la nivelul unei realit|i oarecare. Aceste situa ii conduc, n mod
inevitabil, la necesitatea utiliz |rii tehnicilor specifice analizei componentelor principale.
Pentru a ilustra natura situa iilor n care apare necesitatea utiliz |rii tehnicilor de analiz | a componentelor principale,
men ion |m urm |toarele exemple:
ntr-o cercetare intrepins| la nivelul unui num |r de firme dintr-un anumit domeniu, n scopul determin |rii for ei
financiare a acestora, a fost identificat un num |r foarte mare de indicatori economico-financiari, astfel nct este foarte
dificil| deducerea unei ierarhii financiare pe mulimea firmelor analizate; pentru opera ionalizarea informa iilor repre40

zentate de ace ti indicatori i pentru cre trea relevan ei acestora este necesar | utilizarea analizei componentelor principale;
o investiga ie tiin ific | n domeniul social are ca scop identificarea unor tipologii socio-culturale, specifice unor
zone geografice; informa iile de natur | social| i cultural| disponibile pot fi utilizate pentru construirea acestor tipologii
numai n condiiile existen ei unor metode i tehnici adecvate, n rndul c |rora analiza componentelor principale ocup |
cel mai important loc;
n activitatea de control al calit|ii produc iei se dore te ca, pe baza a numeroase informa ii privitoare la desf |urarea
procesului de fabrica ie, s | se defineasc | un num |r mic de indicatori relevan i pentru a aprecia dac | procesul se desf |oar |
n parametrii calitativi corespunz |tori; ace ti indicatori pot fi ob inu i prin utilizarea tehnicilor specifice analizei
componentelor principale;
ntr-o cercetare din domeniul economico-financiar a fost identificat un model n care variabilele independente sunt
afectate de fenomenul de colinearitate; n aceste condi ii este posibil ca erorile standard ale estima iilor parametrilor s|
fie foarte mari, astfel nct calitatea modelului s| fie negativ afectat|; pentru a putea ob ine estima ii corespunz |toare este
necesar ca variabilele originale s | fie substituite cu alte variabile noi, necorelate, cum ar fi componentele principale.
Analiza datelor, indiferent dac | respectivele date sunt de natur | economic |, social|, medical|, biologic | sau tehnic |, reprezint| domeniul predilect al utiliz |rii analizei componentelor principale. Utilizarea analizei componentelor principale n analiza
datelor are loc att n sens individual, ca tehnic | independent| de analiz | a datelor, ct i mpreun |, n complementaritate, cu
alte metode i tehnici de analiz |.
Analiza componentelor principale este folosit| n probleme de analiz | a datelor att n faza iniial| a acestora, ca tehnic |
de analiz| preliminar |, ct i n fazele ulterioare ale acestor analize, n special n faza de interpretare a rezultatelor.
n cele ce urmeaz |, vom preciza cteva dintre cele mai importante domenii i activit|i ale analizei datelor, n care utilizarea
analizei componentelor principale este nu numai posibil|, ci i strict necesar |.
analiza preliminar| a datelor;
construirea modelelor matematice;
solu ionarea problemelor de analiz | factorial|;
scalarea multidimensional|;
recunoa terea formelor;
analiza grafic |;
prezentarea i interpretarea rezultatelor.
Anterior, am eviden iat necesitatea simplific |rii spa iului cauzal i am men ionat unele din situa iile n care aceast |
simplificare se impune. Tehnica specific | folosit| pentru reducerea dimensiunii spa iului cauzal iniial, n sensul prezentat
anterior, poart| numele de analiza com ponentelor principale, iar noile variabile care definesc spa iul redus de cauzalitate se
numesc com ponente principale. n cadrul paragrafelor urm |toare, vom face o definire a analizei componentelor principale,
precum i a noilor variabile construite n contextul acestei analize, respectiv a componentele principale.

6.2 Definirea analizei componentelor principale


n mod concret i ntr-o viziune simplificat|, tehnica pe care se bazeaz | analiza componentelor principale const | n calculul
proiec iilor fiec |rui punct din spa iul iniial, determinat de variabilele originale supuse analizei, pe axele unui nou spa iu, a
c |rui dimensiune este semnificativ mai redus|. n sens riguros, dar totu i foarte general, analiza componentelor principale poate
fi definit| sub urm |toarea form |:
Definiie: Analiza com ponentelor principale este o metod | de analiz | multidimensional| care are ca scop determinarea
unor noi variabile, numite com ponente principale i exprimate sub forma combina iilor liniare de variabilele originale,
astfel nct aceste variabile noi s| fie caracterizate de o variabilitate maxim |.
n mod firesc, num |rul de combina ii liniare posibil a fi formate cu variabilele originale este extrem de mare. Deoarece,
din punct de vedere al principiilor pe care se bazeaz | activitatea de analiz | a datelor, prezint| interes deosebit numai acele
combina ii liniare semnificative din punct de vedere informa ional, caracterizate de o mare variabilitate, este necesar | o triere,
o selectare a acestor combina ii liniare. Efectuarea acestei select|ri presupune definirea unui criteriu care s | stea la baza deciziei
de re inere sau de eliminare a unei anumite combina ii liniare.
n cadrul analizei componentelor principale acest criteriu este bazat pe magnitudinea varian ei fiec |rei combina ii liniare
i poate fi formulat astfel: se elimin | combina iile liniare cu varian | mic |, nesemnificativ | i se re in pentru studiu acele
combina ii liniare care au o varian | maxim |.
Re inerea n analiz | doar a acelor combina ii liniare care au varian | maxim | are ca scop final realizarea unui eventual
context n care variabilele originale s | poat | fi nlocuite cu un num |r mult mai mic de astfel de combina ii liniare, n condiiile
n care prin intermediul combina iilor liniare re inute se preia o parte ct mai mare din variabilitatea con inut| n observa iile
variabilelor originale.

6.3 Definirea componentelor principale


Dup | cum am mai ar |tat, componentele principale sunt noi variabile al c |ror con inut informa ional, preluat n exclusivitate
de la variabilele originale, este definit, mai ales, n raport cu leg |turile care exist| ntre variabilele originale.
41

Sintetiznd cele men ionate pn | acum n leg |tur | cu componentele principale, putem da urm |toarea definiie a acestora:
Definiie: Com ponentele principale sunt variabile vectoriale abstracte, definite sub forma unor combina ii liniare de
variabilele originale i care au urm |toarele dou | propriet|i fundamentale:
sunt necorelate dou | cte dou | i suma p |tratelor coeficien ilor care definesc combina ia liniar | ce corespunde
unei componente principale este egal| cu unitatea;
prima component | principal | este o combina ie liniar | normalizat| a c |rei varian | este maxim |, cea de-a doua
component | principal | este o combina ie liniar | necorelat| cu prima component | principal | i care are o varian | ct
mai mare posibil|, ns | mai mic | dect cea a primei componente etc.
Verificarea primei propriet|i de c |tre coeficien ii combina iilor liniare ce definesc componentele principale face ca ace ti
coeficien i, privii sub form | vectorial|, s | alc |tuiasc | un sistem ortonormal.
Componentele principale sunt vectori ortogonali care preiau ct mai mult din varian a variabilelor vector originale astfel:
prima component | principal | preia maximul posibil din varian a variabilelor originale, a doua component | principal | preia
maximul din varian a r |mas | dup | ce este eliminat| varian a preluat| de prima component | .a.m.d.
Verificarea primei propriet|i de c |tre coeficien ii combina iilor liniare ce definesc componentele principale face ca ace ti
coeficien i, privii sub form | vectorial|, s | alc |tuiasc | un sistem ortonormal.
Componentele principale sunt vectori ortogonali care preiau ct mai mult din varian a variabilelor vector originale astfel:
prima component | principal | preia maximul posibil din varian a variabilelor originale, a doua component | principal | preia
maximul din varian a r |mas | dup | ce este eliminat| varian a preluat| de prima component | .a.m.d.

6.3.1 Caracteristici ale componentelor principale


n calitatea lor de construc ii abstracte, rezultate din utilizarea unor tehnici specifice, componentele principale reprezint|
noi variabile care, prin propriet|ile interesante pe care acestea le au, ofer | noi i subtile posibilit|i de analiz | i interpretare
informa ional| a datelor originale.
Din punct de vedere geometric, variabilele numite componentele principale definesc un nou spa iu al obiectelor, n
contextul c |ruia sunt verificate urm |toarele propriet|i relevante pentru definirea analizei componentelor principale:
axele noului spa iu sunt ortogonale dou | cte dou | i definesc noile variabile numite componente principale;
coordonatele obiectelor n noul spa iu, adic | proiec iile obiectelor pe axele acestuia, sunt evalu |ri obiectelor
n raport cu noile variabile i se numesc scoruri ale componentelor principale sau scoruri principale.
din punct de vedere teoretic, num |rul de componente principale este egal cu num |rul de variabile originale;
nu toate componentele principale au ns | o semnifica ie informa ional| considerabil |, astfel cele mai pu in
semnificative din punct de vedere informa ional sunt eliminate;
componentele principale sunt combina ii liniare de varian | maximal| ale variabilelor originale;
componentele principale sunt scalate n func ie de magnitudinea varian ei acestora, prima fiind componenta
principal | cu varian | maxim |, iar ultima fiind componenta principal | cu varian | minim |;
componentele principale sunt necorelate dou | cte dou |;
suma varian elor componentelor principale coincide cu suma varian elor variabilelor originale, astfel nct
componentele principale preiau n totalitate variabilitatea con inut| n variabilele originale.
Sintetiznd cele ar |tate mai sus, putem spune c | analiza componentelor principale este o metod | de reexprimare a
variabilelor originale sub forma unui num |r mai mic de noi variabile, numite componente principale, care sunt combina ii liniare
de varian | maxim | ale variabilelor originale.
Cu ajutorul componentelor principale se poate defini o structur | a dependen ei dintre variabilele originale mai simpl | i
mai clar |, deci mai u or de interpretat. n cazul n care num |rul de componente principale este egal cu num |rul variabilelor
originale putem privi analiza componentelor principale ca pe o metod | de rota ie, de regul| ortogonal|, a axelor spa iului iniial,
semnifica ia fiec |rei noi axe fiind m |surat| prin varian a asociat| unei componente principale.

6.4 Logica analizei componentelor principale


Cele mai interesante i mai utile aspecte ale analizei componentelor principale sunt n primul rnd legate, nu de aparatul
matematic pe care aceast| analiz | se bazeaz |, ci de multiplele i nuan atele interpret|ri posibile pe care aceasta le ofer |.
Pentru a da o ilustrare intuitiv | clar |, bazat| pe o interpretare geometric | simplificat|, ra ionamentului primar care st | la
baza analizei componentelor principale, vom dedica aceast| parte, n exclusivitate, interpret|rilor i exemplific |rilor numerice.
n acest sens, vom considera contextul numeric oferit de exemplul urm |tor, context care va servi ca referin | pentru multe din
interpret|rile i exemplific |rile ulterioare.
Exem plul 6.1
Vom considera cazul unui num|r de 10 obiecte sau observaii, referitoare la dou| variabile,

. Tabelul urm|tor conine

observaiile iniiale disponibile pentru cele dou| variabile, precum i valorile centrate ce corespund acestor observaii.

42

Valorile observaiilor iniiale i centrate


Tabelul 6.1
Valori centrate

Valori iniiale
Observaia
O1
O2
O3
O4
O5
O6
O7
O8
O9
O10
Media
Variana

7,0
5,0
10,0
2,0
5,0
6,0
7,0
9,0
7,0
6,0

10,0
11,0
15,0
5,0
10,0
13,0
12,0
11,0
8,0
10,0

0,6
-1,4
3,6
-4,4
-1,4
-0,4
0,6
2,6
0,6
-0,4

-0,5
0,5
4,5
-5,5
-0,5
2,5
1,5
0,5
-2,5
-0,5

6,4

10,5

4,933

7,389

4,933

7,389

Variana individual| pentru fiecare din cele dou| variabile este 4,933, respectiv 7,389, iar variana total|, corespunz|toare celor dou|
variabile,
, este 12,322:
.
n aceste condiii, se poate spune c| rolul informaional al celor dou| variabile este aproximativ acelai, c| cele dou| variabile au
aproximativ aceeai contribuie la formarea variabilit|ii totale ce caracterizeaz| spaiul cauzal iniial. Prima variabil| are o contribuie la
formarea varianei totale de 46,45%, iar cea de-a doua variabil| contribuie cu 53,55% la formarea varianei totale:
.
Pentru observaiile din tabelul anterior, matricea produselor ncruciate, matricea de covarian| i matricea de corelaie, corespunz|toare
celor dou| variabile
, sunt urm|toarele:
.
n cazul observaiilor centrate, matricea produselor ncruciate, matricea de covarian| i matricea de corelaie sunt urm|toarele:
.
Dup| cum se poate observa, n urma operaiei de centrare se modific| doar matricea produselor ncruciate, matricea de covarian| i
matricea de corelaie r|mnnd neschimbate. Matricea de corelaie evideniaz| faptul c| cele dou| variabile sunt corelate, la nivelul unui
coeficient de corelaie de 0,736, adic|:
.
Avnd n vedere intensitatea relativ ridicat| a leg |turii dintre cele dou | variabile originale, este de a teptat ca aceste variabile s | poat | fi sintetizate prin intermediul unei singure componente principale, n condiiile unei pierderi informa ionale minime.

6.4.1 Rotaia axelor i maximizarea varianei


Logica analizei componentelor principale se bazeaz | pe ideea fundamental| c | se pot face anumite transform |ri asupra
observa iilor iniiale, care s | determine maximizarea varian ei individuale pentru anumite variabile i minimizarea varian ei
pentru alte variabile. Pe aceast | cale, se accentueaz | semnifica ia logico-informa ional| a unor variabile i se diminueaz | cea
a altor variabile.
Maximizarea varian ei unor variabile, n detrimentul varian ei celorlalte variabile, conduce la cre terea contribu iei
variabilelor a c |ror varian | este maximizat| la formarea varian ei totale. Maximizarea varian ei unor variabile i, pe aceast |
baz |, accentuarea semnifica iei informa ionale a acestor variabile n raport cu celelalte este cu att mai relevant | cu ct ntre
variabilele originale exist| leg |turi mai puternice, respectiv sunt mai puternic corelate. A a cum o s | ar |t|m n continuare,
transform |rile care asigur | maximizarea varian elor individuale ale unor variabile sunt reprezentate de transform |rile de
coordonate corespunz |toare efectu |rii unor rota ii ortogonale ale axelor originale.
Pentru a eviden ia modul n care pot fi deduse componentele principale, adic | noile variabile care au proprietatea de a
conserva variabilitatea ce caracterizeaz | spa iul cauzal iniial i care sunt necorelate, vom proceda la rota ii succesive ale celor
dou | axe iniiale, m |surnd varian a ce caracterizeaz | cele dou | variabile pentru fiecare pozi ie modificat| prin rota ie a
sistemului de axe. Ca urmare a faptului c | sistemul de axe este rotit cu un anumit num |r de grade, coordonatele celor dou |
variabile se modific | n mod corespunz |tor, astfel nct, reprezentarea observa iilor n noile coordonate este diferit|.
Dac | vom considera c | n sistemul iniial de axe punctul reprezentat de cea de-a t-a observa ie are coordonatele
,
43

atunci rota ia axelor cu un anumit unghi va determina o modificare a coordonatelor acestui punct, respectiv a valorilor celor
dou | observa ii.
n cazul n care unghiul de rota ie este , noile coordonate ale punctului
, notate
i
, sunt date de rela iile
urm |toare:
.
Prin intermediul exemplului urm |tor se eviden iaz | modul n care se schimb | varian a fiec |rei variabile odat | cu efectuarea
unei rota ii a axelor originale.
Exem plul 6.2
Considernd datele din Exemplul 6.1, pentru o rotaie a axelor cu un unghi de 10 grade, coordonatele primei observaii centrate,
respectiv coordonatele punctului (0,6; -0,5), devin 0,504 i -0,597:
.
n tabelul urm|tor sunt prezentate coordonatele celor dou| variabile ntr-un sistem de axe n care axele sunt rotite cu 10, 30, 45, 60 i
90 grade. Penultima linie a tabelului conine varianele celor dou| variabile, calculate pentru fiecare poziie obinut| din rotaia axelor cu
un num|r de grade.
Dup| cum se poate observa, varianele celor dou| variabile sunt diferite pentru diferitele poziii ale axelor, dei suma acestor variane,
adic| variana total|, r|mne neschimbat| prin rotaia axelor. Aceasta nseamn| c| variabilitatea coninut| n observaiile corespunz|toare
sistemului de axe iniial este integral conservat| odat| cu rotaia axelor.
Coordonatele observaiilor variabilelor n condiiile rotaiei axelor
Tabelul 6.2
Coordonatele variabilelor pentru diferite unghiuri de rotaie
Observaia

10 grade

0,504
-1,292
4,327

-0597

30 grade

45 grade

0,269 -0,733

60 grade

0,071 -0,778 -0,133 -0,769 -0,500

0,736 -0,962

1,133 -0,636

1,343 -0,267

3,806

2,097

0,636

5,368

5,728

-0,60

0,500 1,400
4,500

-3,60

-5,288 -4,652 -6,561 -2,563 -7,000 -0,778 -6,963

1,060 -5,500 4,400

-1,466 -0,249 -1,462

0,267 -1,343

0,636 -1,133

0,962 -0,500 1,400

0,040

2,531

0,904

2,365

1,485

2,051

1,965

1,596

2,500 0,400

0,851

1,373

1,269

0,999

1,485

0,636

1,599

0,230

1,500

-0,60

2,647

0,041

2,502 -0,867

1,733 -2,002

0,500

-2,60

0,157 -2,566 -0,730 -2,465 -1,343 -2,192 -1,865 -1,769 -2,500

-0,60

6,527

Variana total|

1,462

5,697 -0,868

2,192 -1,485

-0,481 -0,423 -0,596 -0,233 -0,636 -0,071 -0,633


Variana

90 grade

5,795

12,322

9,396

2,926 10,606

12,322

1,716 10,624

12,322

0,096 -0,500 0,400


1,698

12,322

7,389 4,933
12,322

Este evident c| rotaia axelor cu 90 de grade, determin| interschimbarea valorilor observaiilor celor dou| variabile. n mod
corespunz|tor, are loc i interschimbarea valorilor varianelor celor dou| variabile.
Pentru a ilustra modificarea valorilor pe care le iau varianele, n tabelul urm|tor sunt prezentate varianele individuale ale celor dou|
variabile, variana total| i ponderile varianelor individuale n variana total|, pentru coordonatele calculate corespunz|tor unor rotaii ale
axelor iniiale din 5 n 5 grade.
Schimbarea varianelor individuale pentru diferite unghiuri de rotaie a axelor
Tabelul 6.3
Procent fa| de variana
Variana individual|
Unghi
Varian|
total| (%)
de rotaie
total|
0

4,9333

7,3888

12,3221

46,45

53,55

5,7237

6,5984

12,3221

52,97

47,03

10

6,5274

5,7947

12,3221

59,41

40,59

44

Unghi
de rotaie

Variana individual|

Varian|
total|

Procent fa| de variana


total| (%)

15

7,3200

5,0021

12,3221

65,55

34,45

20

8,0774

4,2448

12,3221

71,23

28,77

25

8,7765

3,5456

12,3221

76,25

23,75

30

9,3962

2,9259

12,3221

80,49

19,51

35

9,9175

2,4046

12,3221

83,79

16,21

40

10,3248

1,9973

12,3221

86,07

13,93

45

10,6055

1,7166

12,3221

87,25

12,75

50

10,7512

1,5709

12,3221

87,30

12,70

52,7214
55

10,7720
10,7574

1,5501
1,5647

12,3221
12,3221

87,42
86,22

12,58
13,78

60

10,6240

1,6982

12,3221

84,03

15,97

65

10,3549

1,9672

12,3221

80,82

19,18

70

9,9584

2,3637

12,3221

76,66

23,34

75

9,4466

2,8756

12,3221

71,70

28,30

80

8,8349

3,4872

12,3221

66,08

33,92

85

8,1420

4,1802

12,3221

59,96

40,04

90

7,3888

4,9333

12,3221

81,59

18,41

n figura urm|toare este reprezentat| variana variabilei

pentru fiecare rotaie cu corespunz|toare rotaiei axelor din 5 n 5 grade.

Figura 6.2: Reprezentarea grafic | a varian ei primei variabile n func ie de


m |rimea unghiului de rota ie a axelor
Dup| cum se poate observa, pe m|sur| ce unghiul de rotaie crete, variana crete, atingnd un maxim pentru un unghi de rotaie de
52,7 grade, dup| care variana ncepe s| se reduc|. Pe de alt| parte, pe m|sur| ce variana primei variabile crete, variana celei de-a doua
variabile scade, astfel nct suma celor dou| variane sau variana total| r|mne constant|. Similar, sc|derea varianei primei variabile este
nsoit| de creterea varianei celei de-a doua variabile. Aceasta nseamn| c| atunci cnd variana variabilei este maxim|, variana variabilei
este minim|. n final, se spoate spune c|, rotaia axelor iniiale cu un unghi de 52,7 grade maximizeaz| variana variabilei i minimizeaz|
variana variabilei

. Aceast| rotaie a axelor cu un unghi de 52,7 grade este chiar transformarea de care este nevoie pentru a maximiza

relevana observaiilor primei variabile.


Exemplul precedent eviden iaz | faptul c | prin rota ia axelor cu un anumit num |r de grade se poate ob ine o diferen iere
a semnifica iei variabilelor originale, din punct de vedere al propor iei pe care acestea o explic | din varian a total|. n aceste
condiii, se pune problema de a g |si o rota ie optimal | a axelor, astfel nct n noul sistem de axe semnifica iile informa ionale
ale variabilelor s| fie ct mai accentuate, problem | care define te n mod sintetic i sugestiv esen a logicii componentelor
principale.

6.4.2 Transformarea coordonatelor obiectelor prin rotaia axelor


Ca urmare a rota iei axelor cu un num |r oarecare de grade are loc, n mod implicit, o modificare a coordonatelor iniiale
ale obiectelor. Pentru ilustrarea modului n care are loc modificarea coordonatelor obiectelor, ca urmare a rota iei axelor, vom
considera exemplul urm |tor.
Exem plul 6.3
Presupunnd contextul informaional din Exemplul 6.1, vom calcula coordonatele ce corespund obiectelor n condiiile n care axele
45

sunt rotite n aa fel nct s| asigure maximizarea varianei primei variabile. Coordonatele noilor punctelor, reprezentate de observaiile celor
dou| variabile n sistemul de axe rotit cu un unghi de 52,7 grade, sunt prezentate n tabelul urm|tor.
Coordonatele observaiilor n sistemul de axe rotit cu 52,7 grade
Tabelul 6.4
Coordonate transformate
Observaia
-0,344

-7,803

-4,502

14,168

57,611

-1,388

-70,414

1,696

-12,458

8,111

17,469

18,325

15,569

4,312

19,727

-17,659

-16,258

-19,917

-6,401

0,154

10,7720

1,5501

Media
Variana

Dac| vom presupune c| cele dou| serii de observaii din tabel, rezultate n urma transform|rii reprezentate de rotaia axelor cu un unghi
de 52,7 grade, sunt observaiile corespunz|toare unor noi variabile, notate cu
, vom putea spune c| am definit dou| noi variabile,
care sunt necorelate i care au varianele n aa fel nct variana primei variabile este maximal|. Aceste noi variabile sunt chiar
componentele principale, iar observaiile corespunz|toare acestora i definite de relaiile:
,
reprezint| scorurile componentelor principale.
Prima component| principal| are variana 10,772, iar cea de-a doua component| principal| are variana 1,5501. n acest fel, prima
component| principal| preia 87,42% din variana total| i deci sintetizeaz|, explic| ntr-o proporie suficient de mare cele dou| variabile
originale. Matricea produselor ncruciate, matricea de covarian| i matricea de corelaie pentru cele dou| componente principale sunt:
.
n consecin|, n locul observaiilor ce corespund celor dou| variabile originale, n analiz| pot fi utilizate observaiile corespunz|toare
primei componente principale, adic| scorurile acesteia, n condiiile unei pierderi informaionale de 12,78%.
Axele noului spaiu, rezultate din rotaia axelor iniiale cu 52,7 grade, sunt definite, n mod similar, de urm|torii doi vectori:
,
Cei doi vectori,

respectiv:

, care definesc noile axe, sunt vectori de lungime unitar| i sunt ortogonali, adic| verific| urm|toarele relaii:

.
Unghiul dintre vectorul

, reprezentnd prima ax| nou|, i vectorul

, reprezezntnd prima din axele iniiale, reprezint| chiar unghiul

de rotaie a axelor, respectiv 52,72 grade. n virtutea ortogonalit|ii, aceeai valoare o are i unghiul dintre vectorul

i vectorul

Cosinusurile unghiurilor dintre vectorii fiec|reia dintre cele cele dou| perechi vor fi:

iar acestora le vor corespunde acelai unghi, de 52,72 grade:


.
n graficul din figura urm|toare este sunt reprezentate att axele iniiale, ct i noile axe, adic| axele rotite cu 52,72 grade. Coordonatele
observaiilor n noile axe, adic| valorile din tabelul anterior, reprezint| proieciile punctelor pe noile axe ale spaiului.

46

Figura 6.3: Reprezentarea grafic | a observa iilor n sistemul de axe


rotite cu 52,72 grade

Referitor la exemplificarea anterioar | cu privire la logica determin |rii componentelor principale, putem face urm |toarele
observa ii finale:
rota ia axelor iniiale cu un anumit unghi, n vederea maximiz |rii varian ei de-a lungul unei axe, nu modific | pozi ia
sau configura ia punctelor reprezentate de observa iile originale; ceea ce se schimb | sunt doar coordonatele acestora n
raport cu noile axe;
noile axe rezultate n urma rora iei care maximizeaz | varian a dup | prima ax | definesc dou | noi variabile, numite
com ponente principale i care au proprietatea c | au media nul|;
cele dou | variabilele numite componente principale reprezint| combina ii liniare de variabilele originale i sunt
necorelate ntre ele;
coordonatele noilor variabile sunt proiec iile punctelor reprezentate de observa iile iniiale i se numesc scoruri ale
com ponentelor principale;
cele dou | componente principale conserv | integral varian a total| corespunz |toare variabilelor originale, adic |
suma varian elor celor dou | componente principale este egal| cu suma varian elor celor dou | variabile originale;
prima component | principal | are varian | maxim al|, prelund maximum posibil din varian a total| ce
caracterizeaz | variabilele originale.

6.4.3 Corelarea variabilelor i componentelor principale


Eficien a exprim |rii variabilelor originale prin intermediul componentelor principale este strns legat| de gradul de
corelare a variabilelor originale i, mai ales, de felul n care sunt structurate aceste variabile din punct de vedere al corel|rii.
n leg |tur | cu gradul de corelare a variabilelor originale, se poate face o observa ie extrem de interesant| din punct de
vedere teoretic i foarte util| din punct de vedere practic. Aceast| observa ie se refer | la faptul c | exist| o puternic | leg |tur |
ntre gradul de corelare a variabilelor originale i num |rul de componente principale cu ajutorul c |rora pot fi reexprimate,
n mod eficient, variabilele originale.
Dac | pe mulimea variabilelor originale se eviden iaz | cu claritate existen a unor submulimi formate din variabile care
au proprietatea c | sunt foarte puternic corelate ntre ele, pe de o parte, i foarte slab corelate cu variabile apar innd altor
submulimi, pe de alt| parte, atunci se poate face afirma ia c | variabilele originale pot fi reexprimate suficient de bine printr-un
num |r de componente principale egal cu num |rul de submulimi de acest fel.
Remarc |: Se poate spune c |, n general, num |rul de componente principale este egal cu num |rul grupelor de variabile
care sunt foarte puternic corelate ntre ele.
Cu ct gradul de corelare a variabilelor din interiorul fiec |rei submulimi este mai ridicat i al variabilelor din mulimi
diferite este mai sc |zut, cu att este mai mare puterea de reprezentare a informa iei iniiale prin intermediul unui num |r de
componente principale egal cu num |rul submulimilor.
De pild |, dac | gradul de corelare a oric |ror dou | variabile din mulimea de variabile originale este foarte sc |zut, exist|
pu ine anse de reu i s| se exprime convenabil variabilele originale printr-un num |r componente principale mai mic dect al
variabilelor originale. Dac |, dimpotriv |, corelarea oric |ror dou | dou | variabile este foarte puternic |, atunci variabilele originale
pot fi exprimate suficient de bine chiar prin intermediul unei singure componente principale.
Vom ilustra leg |tura direct| care exist| ntre gradul de corelare al variabilelor i num |rul de componente principale cu
ajutorul urm |torului exemplu.
Exem plul 6.4
n cadrul acestui exemplu vom ar|ta cum, n funcie de diferite moduri n care se coreleaz| variabilele originale, rezult| diferite
posibilit|i de reprezentare a acestora prin intermediul componentelor principale. Pentru nceput, vom considera cazul unui num|r de 5
variabile originale, care au proprietatea c| sunt foarte slab corelate ntre ele. Matricea de corelaie pentru aceste variabile, matrice care
evideniaz| necorelarea variabilelor, este urm|toarea:

47

Valorile proprii pentru aceast| matrice de corelaie i semnificaiile lor relative se g|sesc n tabelul urm|tor.
Informaii cu privire la valorile proprii ale matricii de corelaie
Tabelul 6.5
Valori proprii

Pondere (%)

Pondere
cumulat| (%)

1,292867

25,857

25,857

1,112724

22,255

48,112

0,965477

19,309

67,421

0,893816

17,877

85,298

0,735115

14,702

100,000

Nr. Crt.

Analiza valorilor proprii prezentate n tabel arat| c| exprimarea prin intermediul componentelor principale a celor 5 variabile originale
poate fi satisf|c|toare numai dac| se folosesc 4 sau chiar 5 componente principale. Acest lucru se ntmpl| deoarece chiar contribuia
ultimelor componente principale la explicarea varianei totale este relativ ridicat|, astfel nct renunarea la ele este echivalent| cu o pierdere
semnificativ| de informaie.
Cazul limit| pentru situaia de necorelare a variabilelor originale este cel n care matricea de corelaie este egal| cu matricea unitate.
n acest caz, toate valorile proprii sunt egale cu unitatea, iar contribuia fiec|reia la formarea varianei totale este de 20%, adic| un procent
relativ ridicat. Rezult| c| pentru a asigura conservarea varianei totale n proporie de peste 80% este necesar| luarea n considerare a tuturor
componentelor principale.
Vom considera acum o a doua situaie, opus| celei precedente, i anume aceea n care toate variabilele originale sunt puternic corelate.
Matricea de corelaie presupus| pentru acest caz este:
.

Tabelul urm|tor conine situaia celor 5 valori proprii corespunz|toare matricii de corelaie considerate.
Informaii cu privire la valorile proprii ale matricii de corelaie
Tabelul 6.6
Nr.
Crt.

Valori proprii

Pondere (%)

Pondere
cumulat| (%)

4,828053

96,561

96,561

0,082870

1,657

98,218

0,067152

1,343

99,561

0,017526

0,351

99,912

0,004399

0,088

100,000

n acest caz, o singur| component| principal|, i anume prima, poate fi folosit| pentru a sintetiza din punct de vedere informaional toate
cele 5 variabile originale. Prin intermediul acestei componente principale se asigur| conservarea a peste 96% din variabilitatea coninut| n
spaiul cauzal iniial, determinat de cele 5 variabile.
i n aceast| situaie exist| un caz limit|, anume acela n care matricea de corelaie are toate elementele egale cu unitatea, expresie a
unei corel|ri perfecte a oric|ror dou| variabile originale. n acest caz, prima valoare proprie este egal| cu 5,0, iar celelalte patru valori proprii
sunt nule. Aceasta nseamn| c| prima component| principal| asigur| captarea ntregii variabilit|i individuale, variana ei fiind egal| cu
variana total| din spaiul cauzal iniial.
Rezult| c| prima component| principal| exprim| din punct de vedere informaional toate cele 5 variabile originale, f|r| pierdere de
informaie. Acest lucru este natural deoarece corelarea perfect| a oric|ror dou| variabile originale nu nseamn| altceva dect c| aceste
variabile sunt identice.
n sfrit, o a treia situaie pe care vrem s-o lu|m n considerare este aceea n care pe mulimea variabilelor originale se evideniaz| grupe
de variabile puternic corelate.Vom considera cazul a 6 variabile originale, pe mulimea c|rora se evideniaz| trei grupe de variabile puternic
corelate. Matricea de corelaie care exprim| o astfel de situaie este urm|toarea:
48

Din analiza matricii de corelaie se poate observa c| exist| trei grupe de variabile corelate puternic:

, respectiv

. Pe de alt| parte, ntre cele trei grupe exist| leg|turi foarte slabe. Aceasta nseamn| c| pentru a exprima cele 6 variabile sunt suficiente, practic, doar trei componente principale, care vor acoperi variabilitatea din spaiul celor 6 variabile ntr-o proporie foarte mare. n
tabelul urm|tor sunt prezentate cele 6 valori proprii ale acestei matrici de corelaie i informaiile privind ponderea fiec|rei valori proprii.
Informaii cu privire la valorile proprii ale matricii de corelaie
Tabelul 6.7
Nr.
Pondere
Valori proprii
Pondere (%)
Crt.
cumulat| (%)
1

2,308133

38,469

38,469

1,766032

29,434

67,903

1,750709

29,178

97,071

0,132365

2,206

99,287

0,042761

0,713

100,000

0,000000

100,000

100,000

ntr-adev|r valorile proprii i ponderea lor n variana total| arat| c| primele trei componente principale preiau din variabilitatea spaiului
iniial 97,071%. Fiecare dintre aceste trei componente principale exprim| variabilele originale din fiecare cele trei grupe de varibile corelate.
Astfel, se justific| ideea c| num|rul de componente principale este egal cu num|rul de submulimi de variabile originale puternic corelate.

6.5 Modelul matematic al componentelor principale


n scopul formul |rii modelului matematic care st| la baza analizei componentelor principale, vom considera c | spa iul
cauzal iniial supus investig |rii este determinat de un num |r de n variabile explicative notate
. Aceste variabile
simbolizeaz | caracteristici ale obiectelor supuse analizei, ceea ce nseamn | c | fiecare obiect este presupus a fi caracterizat de
n variabile.
Activitatea de determinare a componentelor principale poate fi descris | prin intermediul unei transform |ri de tipul urm |tor:
,
unde
sunt dou | spa ii vectoriale reale, iar dimensiunea celui de-al doilea spa iu este mult mai mic | dect dimensiunea
primului spa iu, respectiv
.
Prin intermediul transform |rii

, un anumit obiect x, apar innd spa iului n-dimensional

obiect w, apar innd spa iului k-dimensional


reducerea num |rului acestor coordonate.
Vom ar |ta n continuare c |, dac |
i

, este transformat ntr-un

. Transformarea vizeaz | att modificarea coordonatelor obiectului, ct i


, atunci transformarea

este o aplica ie liniar | de tipul urm |tor:

,
unde A este o matrice de numere reale, de dimensiune
.
Rezolvarea problemei const | n determinarea matricii A, astfel nct un obiect w s| constituie o reprezentare ct mai bun |
pentru obiectul x.

6.5.1 Relaiile de definire a componentelor principale


Am anticipat anterior c |, de fapt, componentele principale sunt combina ii liniare de variabilele originale, combina ii care
au ns | o serie de propriet|i. n condiiile ipotezelor i preciz |rilor anterioare, putem privi cele n componente principale,
corespunz |toare spa iului cauzal analizat, sub forma unui vector n-dimensional, notat cu w:

49

Fiecare coordonat|

a acestui vector reprezint| o component | principal | definit| n raport cu variabilele originale, cu

ajutorul combina iei liniare urm |toare:


(6.1)
Este evident c | pentru determinarea componentei principale

este necesar | determinarea coeficien ilor

, care definesc

combina ia liniar | corespunz |toare acestei componente principale.


A a cum o s | vedem n continuare, coeficien ii
covarian | a variabilelor originale

sunt chiar coordonatele vectorilor proprii corespunz |tori matricii de

, iar varian ele componentelor principale sunt chiar valorile proprii ale acestei

matrici.
Conform definiiei componentelor principale, determinarea acestor coeficien i trebuie s | se fac | n a a fel nct componenta
principal |
s | aib | varian a maxim |.
Considernd c | cei n coeficien i

ai combina iei liniare de mai sus sunt coordonatele vectorului n-dimensional

, respectiv:

putem defini componenta principal |

sub forma urm |toare:


(6.2)

unde coordonatele vectorului

sunt alese astfel nct s| se asigure maximizarea varian ei componentei principale

Deoarece ccea de-a i-a component | principal |,

, este n realitate o transformare liniar | a elementelor vectorului x,

presupus a fi repartizat normal, de medie : i matrice de covarian | G, rezult| c | aceast| component | principal | este ea ns |i,
de asemenea, o variabil| aleatoare, repartizat| normal.
Pe baza rela iei (6.2), care define te componenta principal |
, pot fi deduse media i varian a acestei componente
principale astfel:
.
Rezult| c |:
.
Avnd f|cute preciz |rile de mai sus, vom trece n continuare la descrierea modelului matematic pe care se bazeaz | analiza
componentelor principale.

6.5.2 Formularea modelului matematic


Am ar |tat anterior c | solu ionarea problemei de analiz | a componentelor principale din punct de vedere matematic este
echivalent | cu rezolvarea problemei de extrem urm |toare:
,
unde criteriul de optim poate fi maxim sau minim, n func ie de natura func iei
. Dac | func ia
este o func ie de tip distan |,
atunci criteriul de optim va fi reprezentat de minimizarea func iei
. n cazul n care func ia
este o m |sur | a cantit|ii de
informa ie adus | de noua modalitate de reprezentare a obiectelor, criteriul de optim va i reprezentat de maximizarea func iei
.
O astfel de situa ie este specific | variantei standard de solu ionare a problemei componentelor principale, n care se urm |re te
maximizarea varian ei componentelor principale, ca m |sur | a cantit|ii de informa ie exprimat | de fiecare dintre acestea.
n scopul definirii modelului matematic al analizei componentelor principale, vom considera c | vectorii "(i) reprezint|
coloanele unei matrici A de dimensiune nn de forma:

De asemenea, vom presupune c | x este vectorul ale c |rui coordonate sunt variabilele originale

50

i c | w este

vectorul ale c |rui coordonate sunt componentele principale

. n aceste condiii, combina iile liniare care definesc

componentele principale pot fi scrise sub forma:

sau, n scriere matricial|, sub forma:

Pe baza acestor nota ii, m odelul matem atic al analizei com ponentelor principale poate fi definit astfel:
(6.3)
A a cum vom vedea n continuare, cele n coloane ale matricii A reprezint| de fapt vectorii proprii normaliza i ai matricii
de covarian | G, iar varian a fiec |rei componente principale
, care este o varian | maximal | n raport cu varian ele
componentelor principale anterioare, este reprezentat| chiar de valoarea proprie

a aceleea i matrici de covarian |. Aceast |

modalitate de determinare a elementelor matricii A este echivalent | cu calculul proiec iilor obiectelor de tip
liniar generat de vectorii coloanelor matricii A.
Am v |zut anterior c | cele n componente principale ale spa iului cauzal determinat de variabilele originale

pe subspaiul
, sunt

definite de combina iile liniare:


,
ale c |ror ponderi

se determin | n a a fel nct s| maximizeze varian a componentelor principale

n scopul simplific |rii nota iilor, vom renun a, temporar, la unii dintre indicii care apar n rela ii. Astfel, vom considera
n continuare c | w este nota ia generic | pentru o anumit| component | principal |, iar " este nota ia generic | pentru vectorul
coeficien ilor ce definesc combina ia liniar | pentru aceast | component | principal |.
n acest sens, vom avea grij | s | specific |m explicit, la fiecare apariie a nota iei w, dac | este vorba de vectorul w sau de
componenta principal | w i s| men ion |m explicit indicele componentei principale atunci cnd o privim ca pe un element al
vectorului componentelor principale w.

6.5.3 Formularea problemei de maximizare a varianei


Din punct de vedere teoretic, problema determin |rii componentele principale poate fi formulat| ca o problem | de
maximizare cu restric ii, iar elementele implicate n definirea componentelor principale sunt solu iile acestei probleme. Criteriul
de optim ata at acestei probleme de extrem este reprezentat de maximizarea varian ei componentelor principale, astfel nct
acestea s | preia o propor ie ct mai mare din variabilitatea spa iului cauzal iniial. n condiiile folosirii nota iei simplificate,
men ionat| anterior, varian a componentei principale w poate fi scris | astfel:
.
Principala problem | care se pune n leg |tur | cu definirea componentelor principale este aceea a determin|rii necunoscutelor
reprezentate de coordonatele vectorului " astfel nct varian a componentei principale w, adic | Var(w), s | fie maxim |. Din
nefericire, problema determin |rii acestor necunoscute este o problem | nedeterminat|. Astfel, admi nd c | vectorul " este o
solu ie a problemei, rezult| c | i produsul a ", unde a este o constant | arbitrar |, este o solu ie a aceleia i probleme, iar varian a
componentei principale w este cu att mai mare cu ct lu |m o valoare mai mare pentru constanta a.
Pentru a avea asigurarea c | problema enun at| este bine determinat|, va trebui s| impunem o restric ie asupra vectorului
necunoscut " , cea mai natural| restric ie fiind dat|, n acest caz, de condiia ca lungimea vectorului " s | fie unitar |:
.
Verificarea acestei restric ii n definirea componentelor principale este echivalent| cu o fixare a scalei coeficien ilor i ofer |
asigurarea c | efectuarea oric |rei opera ii de scalare asupra coeficien ilor combina iilor liniare care definesc componentele
principale, nu determin | modificarea varian elor acestora.
n aceste condiii, problema determin |rii componentelor vectorului " ce definesc combina ia liniar | reprezentnd
componenta principal | w se reduce la rezolvarea urm |toarei probleme de extrem cu leg |turi:

51

(6.4)

unde variabilele de alegere sau necunoscutele problemei sunt reprezentate de componentele vectorului ". Vectorul , care este
solu ie a acestei probleme, define te o component | principal| de varian | maximal |.
Rezolvarea problemei de extrem condiionat precedente poate fi f|cut | cu ajutorul metodei multiplicatorilor lui Lagrange,
metod | care reduce problema de extrem condiionat la o problem | de extrem liber. Func ia Lagrangean asociat| problemei de
extrem (6.4), folosit| pentru rezolvarea indirect| a acestei probleme de extrem, are forma urm |toare:
(6.5)
Condiiile necesare de extrem pentru func ia Lagrangean definit| de rela ia (6.5) sunt date de anularea derivatelor par iale
n raport cu componentele vectorului " i cu multiplicatorul 8, respectiv:

(6.6)

Din prima condiie necesar | de extrem, care mai poate fi scris | i sub forma urm |toare:
.
rezult| c | solu ia
a problemei de extrem (6.4) este chiar unul din vectorii proprii ai matricii de covarian | G, anume cel
asociat valorii proprii
de extrem

, egal| cu

a aceleia i matrici. Mai mult, se observ | c | valoarea maxim | a formei p |tratice

este, n punctul

, respectiv:

.
Aceast | ultim | rela ie eviden iaz | faptul c | varian a unei componente principale este egal| cu o valoare proprie a matricii
de covarian |.

6.5.4 Deducerea componentelor principale


Rezultatele ob inute mai sus arat| c | determinarea coeficien ilor combina iei liniare ce define te componenta principal |
w, n condiiile maximiz |rii varian ei acestei componente principale, este echivalent | cu a alege dintre cele n valori proprii ale
matricii de covarian | G pe cea mai mare i a determina componentele vectorului de ponderi " ce define te respectiva
component | pricipal | prin calculul vectorului propriu al matricii G asociat cu acea valoare proprie.
A a cum vom vedea n continuare, pentru fiecare valoare proprie
din cele n valori proprii ale matricii de covarian | G,
vom avea cte o solu ie a problemei de maxim de mai sus, adic | cte un vector "(i) i deci cte o component | principal |

Presupunnd c | cele n valori proprii ale matricii de covarian | G sunt ordonate n a a fel nct:
,
prima component | pricipal | w 1, care va avea varian a maxim | 81, este dat| de combina ia liniar |:
.
Vectorul "

(1)

este acel vector propriu al matricii de covarian | G c |ruia i corespunde valoarea proprie cea mai mare,

adic | este vectorul care verific | restric iile de mai jos:


.
Valoarea proprie 81 este r |d |cin | a ecua iei caracteristice:
,
iar I este nota ia pentru matricea unitate.
Determinarea n acest fel a componentei principale

, face

ca aceasta s | aib | propriet|ile ilustrate prin rela iile urm |toare:


.

Dup | determinarea primei componente principale w 1, urmeaz | determinarea celei de-a doua componente principale w,
component | care trebuie s | fie caracterizat|, la rndul s |u, de urm |toarele propriet|i: s | aib | varian | maximal| i s | fie
necorelat| cu prima component| principal| w 1.
Exem plul 6.5
Pentru a ilustra modul de calcul implicat de analiza componentelor principale, vom considera cazul unui num|r de 10 obiecte, fiecare
obiect avnd un num|r de 5 caracteristici exprimate prin intermediul variabilelor
. M|sur|torile efectuate asupra
caracteristicilor celor 10 obiecte sunt presupuse a fi cele din tabelul urm|tor.

52

Observaii iniiale
Tabelul 6.8
Caracteristici
Obiecte
O1

3,31

3,02

4,27

5,31

4,24

O2

2,76

3,94

4,14

8,07

11,08

O3

10,86

15,16

15,19

6,42

6,55

O4

9,29

9,71

10,94

8,15

11,34

O5

8,36

9,12

11,91

7,13

8,33

O6

12,07

11,12

13,69

8,05

11,01

O7

4,73

2,99

4,76

18,12

28,21

O8

8,77

14,13

13,56

6,17

5,99

O9

18,10

21,00

13,67

11,16

23,39

O10
Medie

4,58

8,83

7,43

14,84

16,97

8,283

9,902

9,957

9,342

12,711

Abatere
4,716
5,798
4,378
4,150
7,845
standard
Estimaia pentru matricea de covarian| corespunz|toare celor 5 variabile originale este urm|toarea:

iar valorile proprii ale matricii de covarian| sunt:


Suma celor 5 valori proprii, reprezentnd varianele celor 5 componente principale, este egal| cu suma varianelor variabilelor originale:
.
Vectorii proprii ai matricii de covarian| E, corespunz|tori valorilor proprii menionate anterior sunt prezentai sub forma liniilor matricii
urm|toare:

Cei 5 vectori proprii sunt de lungime egal| cu unitatea i sunt ortogonali doi cte doi, astfel nct matricea U este ortogonal|. Deoarece
suma varianelor primelor dou| componente principale reprezint| 96,623% din variana celor 5 variabile originale, adic|:
,

se poate considera c| cele 5 variabile originale pot fi reexprimate suficient de bine din punct de vedere informaional - n limita unei pierderi
de 3,4% - prin intermediul primelor dou| componente principale ale c|ror ecuaii sunt:
.
Coordonatele celor 10 obiecte n spaiul redus, ale c|rui axe sunt reprezentate de primii doi vectori ai matricii de covarian| E, sunt
prezentate n tabelul urm|tor:
Scorurile principale ale obiectelor
Tabelul 6.9
Coordonatele obiectelor
Obiectele
O1

-54,037

53

-101,762

Coordonatele obiectelor
Obiectele
O2

7,284

-82,893

O3

-78,067

44,211

O4

-17,385

3,534

O5

-44,532

-7,746

O6

-29,873

33,017

O7

174,078

-34,196

O8

-76,982

21,818

O9

56,611

144,532

O10

62,904

-20,515

n analiza componentelor principale coordonatele obiectelor n spaiul redus se mai numesc i scoruri principale ale obiectelor.
Dac| vom presupune c| au fost reinute p componente principale i dac| vom nota cu matricea de dimensiune
, ale c|rei coloane
sunt cei p vectori proprii care definesc cele p componente principale, atunci matricea scorurilor poate fi determinat| astfel:
.
Liniile matricii W reprezint| scorurile corespunz|toare noilor variabile sau observaiile celor p componente principale. O dat|
determinate, scorurile principale pot fi folosite n analiz| ca substitut al observaiilor originale, simplificnd, n acest fel, baza informaional|
iniial|. n leg|tur| cu aceast| problem|, consider|m c| este extrem de important s| facem precizarea c| scorurile principale sunt mai potrivite
pentru a fi folosite n analize deoarece sunt mai puin afectate de erori, n comparaie cu m|sur|torile originale. Faptul c| scorurile principale
sunt mai robuste n raport cu perturbaiile introduse de erori, c| au o anumit| invarian| n raport cu erorile, le face s| devin| mai importante
din punct de vedere informaional dect observaiile originale. Deoarece noul spaiu redus are numai dou| axe, cele 10 obiecte pot fi reprezentate grafic n acest spaiu. Reprezentarea grafic| din figura urm|toare arat| poziionarea celor 10 obiecte n raport cu axele noului spaiu.

Figura 4.6: Reprezentarea obiectelor n spa iul redus


n condiiile n care obiectele reprezint| entit|i reale, un astfel de grafic poate servi ca baz| eficient| pentru o analiz| a mulimii de
obiecte. Poziionarea obiectelor n raport cu cele dou| axe ofer| o prim| imagine cu privire la leg|turile dintre obiecte, evideniind cu claritate
similarit|ile sau nesimilarit|ile dintre acestea.

6.6 Propriet|ile componentelor principale


Componentele principale au o serie de propriet|i extrem de interesante, care decurg chiar din modul lor de definire i care
sunt importante pentru a n elege natura i con inutul acestor construc ii abstracte.
Una dintre propriet|ile men ionate se refer | la faptul c | varian a fiec |rei componente principale este maxim | i este egal|
cu o valoare proprie a matricii de covarian |. Alt| proprietate a componentelor principale este aceea c | ele sunt necorelate
dou | cte dou |, aceast| proprietate fiind echivalent |, n cazul n care componentele principale sunt distribuite dup | legea de
probabilitate normal|, cu proprietatea de independen |.
n afara acestor propriet|i, implicate de ns |i modul lor de definire, componentele principale au o alt| serie de propriet|i
deosebit de importante pentru modelarea matematic |, n general, i pentru analiza economic |, n special. n continuare, vom
prezenta pe scurt fiecare dintre aceste propriet|i.

6.6.1 Distribuirea dup| legea normal|


n condiiile n care variabilele originale sunt repartizate normal, vectorul componentelor principale w este repartizat

54

i matricea de covarian | 7, adic |:

norm al cu media

,
unde 7 este matricea diagonal| ale c |rei elemente sunt valorile proprii

ale matricii de covarian | G.

Normalitatea celor n variabile reprezentnd componentele principale rezult| din faptul c | acestea sunt combina ii liniare
de cele n variabile originale, care, prin ipotez |, sunt variabile normale. Pentru a ar |ta c | matricea de covarian | a vectorului
w este matricea 7 este suficient s| ar |t|m c | dac |:
,
x fiind repartizat normal, cu matricea de covarian | G, atunci matricea de covarian | a transform |rii liniare w este:
.

6.6.2 Conservarea varianei totale


Componentele principale au o proprietate care le face s | fie adecvate din punct de vedere informa ional pentru a substitui
variabilele originale. Aceast | proprietate se refer | la faptul c | prin intermediul componentelor principale se asigur | conservarea
variabilit|ii din spa iul cauzal iniial.
Componentele principale
asigur | conservarea integral| a varian ei totale a variabilelor originale
,
ceea ce nseamn | c |:
.

Exem plul 6.6


Vom presupune c| estimaia pentru o matrice de covarian| corespunz|toare observaiilor efectuate asupra a 3 variabile este de forma
urm|toare:
.

Elementele diagonale ale acestei matrici reprezint| varianele corespunz|toare celor trei variabile originale, respectiv:
.
Cele trei valori proprii corespunz|toare acestei matrici de covarian| au valorile urm|toare:
.
Aa cum se poate observa imediat, este verificat| proprietatea menionat| anterior, respectiv:
.

6.6.3 Conservarea varianei generalizate


Componentele componentele principale
originale

asigur | conservarea integral| a varian ei generalizate a variabilelor

. Aceasta nseamn | c |:
.

Aceast | proprietatea eviden iaz | calitatea informa ional| pe care o au componentele principale de a reprezenta o
reexprimare a variabilelor originale.
Exem plul 6.7
Considernd matricea de covarian| din exemplul precedent, se poate observa c| determinantul acestei matrici este egal cu produsul
celor trei valori proprii, respectiv este egal cu determinantul matricii de covarian| ce corepunde celor trei componente principale:
.

6.6.4 Dependena de unit|ile de m|sur|


Componentele principale
originale

i varian ele acestora depind de unit|ile de m |sur | n care sunt m |surate variabilele

. Aceasta nseamn | c |, odat | cu schimbarea unit|ilor de m |sur| ale variabilelor originale se schimb | att

componentele principale, ct i varian ele acestora.


Cunoa terea propriet|ilor pe care le au componentele principale este deosebit de important | n procesul de analiz | a
datelor, permind stabilirea modific |rilor induse asupra componentelor principale i asupra m |rimilor asociate acestora de c |tre
transform |rile aplicate asupra observa iilor variabilelor originale.

55

6.7 Matricea factor


O matrice important | utilizat | n contextul analizei componentelor principale, ale c |rei elemente ofer | premize pentru
interpret|ri interesante, este matricea factor, pe care o vom defini n continuare.
n acest scop, vom presupune c | cele n componente principale sunt reprezentate prin intermediul vectorului w, iar matricea
de covarian | a componentelor principale este matricea diagonal | . De asemenea, vom considera leg |tura dintre vectorul
variabilelor originale i vectorul componentelor principale ca fiind dat| de rela ia:
,
unde A este matricea vectorilor proprii ai matricii de covarian |
. Atunci matricea de covarian | dintre vectorul x al
variabilelor originale i vectorul w al componentelor principale poate fi definit| sub forma:
,
matricea de covarian | a componentelor principale 7 fiind matricea diagonal| format| din valorile proprii ale matricii de
covarian |
. Pe baza acestui rezultat, matricea de corela ie dintre vectorii n-dimensionali i w poate fi definit| sub forma:
,
unde Var(x) este matricea diagonal| ale c |rei elemente sunt reprezentate de varian ele variabilelor originale, iar Var(w) este
matricea diagonal| ale c |rei elemente sunt varian ele compontelor principale. Deci matricea Var(x) are forma:

iar matricea Var(w) este chiar matricea 7.


innd seama de exprimarea anterioar | a covarian ei dintre x i w, matricea de corela ie dintre x i w devine:
.
Matricea
este o matrice foarte important | pentru analiza componentelor principale i este cunoscut| sub numele de
m atrice factor. Modalitatea detaliat| n care aceast| matrice poate fi calculat| este definit| de rela ia:

Dup | efectuarea produselor matriciale n rela ia de mai sus, matricea

cap |t| forma urm |toare:

un element generic

din matricea factor

fiind determinat de rela ia:


.

Elementele matricii factor


se numes intensit |iale factorilor i au o interpretare deosebit de interesant| din punct de
vedere al leg |turii dintre variabilele originale
i componentele principale
. Astfel, elementul care se
g |se te la intersec ia liniei i cu coloana j n matricea factor
dintre cea de-a i-a variabil| standardizat|

, adic | elementul

i cea de-a j-a component| principal|

, reprezint| coeficientul de corela ie


.

Intensit|ile factorilor sunt indicatori ai m |surii n care variabilele originale particip | la formarea componentelor principale
sau, mai corect, ai m |surii n care componentele principale sintetizeaz | informa ia con inut| n variabilele originale. Cu ct este

56

mai mare valoarea coeficientului de corela ie dintr o variabil| original| i o component | principal |, cu att este mai adecvat|
i mai complet| exprimarea informa ional| a variabilei originale prin intermediul componentei principale respective.
Matricea factor este foarte important | deoarece, pe baza analizei valorilor elementelor ei, pot fi identificate o serie de
partiii sau cluster-e pe mulimea variabilelor, parti ii sau clustere care, asociate cu anumite componente principale, pot conduce
la stabilirea unor semnifica ii intuitive pentru acele componente. Aceasta nseamn | c | analiza elementelor matricii factor
poate permite identificarea acelor variabile originale care sunt reprezentate prin intermediul unei anumite componente principale
i, pe aceast | baz |, crearea posibilit|ii de atribuire a unei semnifica ii concrete pentru fiecare component| principal|.
n cazul n care variabilele care intr | n componen a vectorului x sunt standardizate, varian ele acestora sunt egale cu
unitatea, ceea ce nseamn | c | matricea
este egal| cu matricea unitate. Rezult| c |:
.
n acest caz, coeficientul de corela ie dintre ce-a de-a i-a variabil| original| i cea de-a j-a component | principal | este
definit sub forma:
.
n aceast | variant |, matricea factor are o proprietate important | care const | n aceea c | suma p |tratelor elementelor din
fiecare coloan | a sa coincide cu varian a componentei principale care se asociaz | cu respectiva coloan |, respectiv:
.
Ca rezultat al acestei propriet|i, p |tratul unui coeficient de corela ie din matricea factor poate fi interpretat ca m |sur | a
contribu iei pe care o are fiecare variabil| original| la formarea varian ei componentei principale.
Exem plul 6.8
Vom presupune c| pentru cazul a patru variabile originale matricea de covarian| este de forma urm|toare:

Valorile proprii ale acestei matrici sunt

corespunz|tori acestor valori proprii sunt reprezentai sub forma coloanelor matricii

. Vectorii proprii

Matricea factor, obinut| din nmulirea coloanelor matricii


cu r|d|cina p|trat| a valorii proprii corespunz|toare componentelor principale i din mp|rirea liniilor cu abaterea standard corespunz|toare variabilelor originale, este exprimat| prin intermediul urm|torului tablou:

Leg|tura foarte puternic| exprimat| de primii doi coeficieni de corelaie din prima coloan| evideniaz| faptul c| prima component|
principal| exprim| coninutul informaional al variabilelor originale
. n mod similar, corelaia foarte puternic| exprimat| de ultimii
doi coeficieni din cea de-a doua coloan| arat| c| cea de-a doua component| principal| sintetizeaz| informaional variabile originale
. Din faptul c| primele dou| valori proprii reprezint| 99,77% din suma tuturor valorilor proprii rezult| c| cele patru variabile
originale pot fi exprimate prin intermediul primelor dou| componente principale, cu pierdere neglijabil| de informaie.

57

Tema 7. Analiza factorial|


7.1 Scopul analizei factoriale
nc | de la nceputurile utiliz |rii sale n activitatea de cercetare tiin ific |, analiza factorial| a fost folosit|, aproape exclusiv,
pentru a fundamenta o serie de teorii psihologice referitoare la comportamentul i abilitatea uman |. Utilizarea analizei factoriale
n acest scop se bazeaz | pe o facilitatea extraordinar| pe care o ofer | acest instrument, facilitate care const | n existen a
posibilit|ii de m |surare indirect|, de cuantificare a unor factori neobservabili.
n psihologie, precum i n alte tiin e din domeniul economico-social, apare frecvent necesitatea identific |rii i studierii
unor entit|i informa ionale complexe, care nu pot fi observabile n sens statistic, ceea ce nseamn | c |, n mod implicit, aceste
entit|i nu pot fi direct m |surabile. Aceste entit|i sunt cunoscute n analiza factorial| sub numele de factori comuni i factori
specifici. Ca exemple de astfel de entit|i informa ionale de acest tip putem men iona statusul social, abilitatea managerial|,
inteligen a, profilul psihologic etc.
Exist| ns | posibilitatea de utiliza alte entit|i informa ionale, care au proprietatea c | sunt m |surabile i care reflect|
entit|ile informa ionale neobservabile men ionate anterior, astfel nct prin intermediul acestora putem face o evaluare indirect|
a entit|ilor neobservabile. Entit|ile informa ionale utilizate pentru aceast | evaluare indirect| sunt cunoscute n analiza
factorial| sub numele de indicatori.
n acest sens, analiza factorial| poate fi privit| ca o modalitate de a explica i interpreta leg |turile dintre anumite variabile
observabile (variabile indicator) n termeni de m |rimi care nu pot fi direct observabile (factori). De exemplu, rezultatele
nregistrate la anumite teste de performan |, care au natur | observabil| i direct m |surabil|, pot fi explicate i interpretate n
termenii unui factor abstract i neobservabil n mod direct, care este nivelul de inteligen | al celor testa i.

7.2 Importana i necesitatea sintetiz|rii cauzalit|ii


O problem | important| n cadrul procesului de studiere i descriere a rela iilor de cauzalitate dintre fenomenele i procesele
economice, cu o pondere foarte mare n analiza i predic ia din domeniul economico-social, este cea legat| de necesitatea de
a sintetiza rela iile de cauzalitate. Aceast | problem | este direct i strns legat| de o alt| problem | de importan | teoretic |
fundamental|, a c |rei rezolvare apare cu necesitate n orice investiga ie de natur | economico-social|, i anume problema
m |sur |rii indirecte, a m |sur |rii factorilor de natur | neobservabil|.
Necesitatea sintetiz |rii rela iilor de cauzalitate, a detect|rii unor rela ii de cauzalitate ascunse i a evalu |rii unor factori de
natur | neobservabil| apare n mod frecvent, n contextul solu ion |rii unor probleme de m |surare i cuantificare dintr-o mare
varietate de domenii: economic, social, politic, psihologic etc. n general, domeniile n care apar probleme de acest fel sunt
domenii caracterizate de complexitate i de imposibilitatea efectu |rii unor m |sur |tori experimentale.

7.2.1 M|surarea factorilor neobservabili


n orice investigare sau activitate de cercetare tiin ific | din domeniul economico-social intervine, aproape n mod
inevitabil, o problem | extrem de dificil|, a c |rei rezolvare dep |e te cadrul standard, presupunnd utilizarea unor ra ionamente
i instrumente de mare subtilitate i rafinament tiin ific. O astfel de problem | apare, cu exclusivitate, n cmpul m |sur|rii i
cuantific |rii economico-sociale, i este legat| de existen a factorilor laten i, a factorilor ascun i, a factorilor de natur |
neobservabil|. Ace ti factori sunt cunoscu i n analiza factorial| sub numele de factori comuni.
Exem plul 7.1
Este evident, de exemplu, c| fiecare ar| din lumea contemporan| are un anumit nivel de dezvoltare economic|, dispune de o anumit|
for| economic|. Aceast| caracteristic| este comun| tuturor |rilor lumii, ns| are valori diferite de la o ar| la alta.
Fora economic| de care dispune o anumit| ar|, la un moment dat, este o apreciere de natur| eminamente sintetic|, abstract|, care poate
fi considerat| ca rezultant| a compunerii i agreg|rii unui num|r foarte mare de fenomene i procese economice, de influene i
interdependene. Este evident c| este foarte dificil, chiar imposibil, ca o astfel caracteristic| extrem de complex| s| poat| fi apreciat| n mod
direct, doar prin intermediul unei singure m|rimi, pe baza unui singur indicator, indiferent dac| acest indicator este ritmul creterii economice,
volumul produsului intern brut, volumul schimburilor economice externe, rata inflaiei, rata omajului sau oricare alt indicator
macroeconomic. n aceste condiii, se poate afirma cu certitudine c| nu pot exista nici metodologia, nici unit|ile de m|sur| i nici
instrumentele cu ajutorul c|rora s| se poat| calcula, n mod direct i la un nivel de rigoare acceptabil, nivelul de dezvoltare a unei |ri.
Prin urmare, nivelul de dezvoltare economic| a unei |ri constituie un exemplu relevant de ceea ce nseamn| un factor neobservabil.
Cu toate acestea, prin utilizarea unor tehnici de analiz| specifice, pot fi deduse m|suri numerice unice, indicatori agregai, care s| reflecte
gradul de dezvoltare economic| a unei |ri n toat| complexitatea sa.
n obinerea m|surilor agregate de acest fel sunt utilizai indicatori macroeconomici pariali, din categoria celor enumerai anterior.
Informaiile purtate de aceti indicatori sunt considerate a fi semnale generate de factorul latent numit nivel de dezvoltare economic|.
Raionamentul teoretic pe care se fundamenteaz| evalu|rile de acest fel const| n presupunerea c| factorul latent induce variaii, mai
mult sau mai puin semnificative, n magnitudinea unor indicatori de natur| observabil|. Cu ct variaiie induse sunt mai puternice, cu att

58

se consider| c| respectivii indicatori au o capabilitate mai ridicat| de a servi la exprimarea, indirect|, a factorului latent. Astfel, pentru un
exemplu de tipul celui menionat anterior, se poate considera c| volumul produsului intern brut, ritmul creterii economice, productivitatea
social| a muncii, nivelul de instruire a populaiei, volumul schimburilor economice externe etc., sunt rezultate ale unui anumit nivel de
dezvoltare, sunt expresii ale acestui nivel de dezvoltare i, n consecin|, pot servi la evaluarea acestuia.
n ceea ce privete leg|tura dintre valoarea unei variabile indicator i factorul comun, facem precizarea c| m|rimea nregistrat| de
valoarea unui indicator nu este determinat| n mod exclusiv de factorul comun, ea depinznd, n afar| de acesta, i de influena altor factori,
cunoscui sub numele de factori specifici. Influena acestor factori este diferit| de la un indicator la altul i nu este comparabil| pe mulimea
acestor indicatori. Dat| fiind natura lor, din rndul factorilor specifici fac parte i erorile sau reziduurile.
De exemplu, produsul intern brut i volumul schimburilor economice externe au o determinare comun|, dat| de nivelul de dezvoltare
a economiei, dar au i o determinare specific|, dat| de m|rimea |rii, n cazul primului indicator, respectiv de poziia geografic| a |rii, n
cazul celui de-al doilea indicator. M|rimea |rii este factor specific pentru produsul intern brut, iar poziia geografic| a |rii este indicator
specific pentru volumul schimburilor externe.
Schematic, leg|turile dintre indicatori, pe de o parte, i factorul comun i specifici, pe de alt| parte poate fi prezentat| schematic sub
forma din figura urm|toare.

Figura 7.1: Exemplificarea unor leg |turi factoriale posibile

M |surarea influen ei specificului local asupra volumului vnz |rilor dintr-un produs, evaluarea aptitudinilor manageriale
ale unei persoane, cuantificarea imaginii pe care o firm | o are pe pia |, m |surarea for ei financiare a unei firme, aprecierea
gradului de dezvoltare economic | a |ri, evaluarea gradului de profitabilitate a unei firme etc., reprezint| probleme care conduc
la necesitatea efectu |rii unor evalu |ri de tip indirect, pe baz | de intermediere, f|cndu-se apel la o serie de entit|i observabile,
cunoscute sub numele de teste sau indicatori.
Pe baza informa iilor colaterale i cu ajutorul unor instrumente specifice, pot fi ob inute dimension |ri de natur | cantitativ |
pentru factorii neobservabili i pot fi construite scale de m |surare pe care ace tia s | poat | fi evalua i.
Un rol unic n acest sens, rol bine determinat i extrem de important n activitatea de evaluare i cuantificare a factorilor
de natur | neobservabil| i de construire a unor scale de m |surare pentru ace ti factori, revine tehnicilor de analiz | cunoscute
sub numele generic de analiz| factorial|.
Deducerea, pe cale indirect|, a informa iilor referitoare la factorii neobservabili se bazeaz | pe identificarea unor variabile
indicator sau pe construirea unor teste, care s | furnizeze informa iile necesare aplic |rii tehnicilor de analiz | factorial|.
Pe baza informa iilor referitoare la variabilele de tip indicator, analiza factorial| i propun | de deduc | substan a
informa ional| con inut| n observa iile acestor variabile indicator, substan | comun | tuturor acestor variabile.

7.2.2 Detectarea substanei informaionale comune


Ideea fundamental| care st | la baza oric |rui demers ce vizeaz | sintetizarea rela iilor de cauzalitate este aceea c |, n general,
influen ele exercitate de variabilele explicative ce intervin ntr-o rela ie de cauzalitate complex | reprezint| o intermediere a
influen elor unor ali factori, comuni unor submulimi ale acestor variabile i afla i n spatele acestora.
Cu alte cuvinte, se consider | c | influen ele exercitate de variabilele explicative, variabile care, n aparen |, par a fi cauze
directe ce determin | un anumit efect, nu sunt altceva dect forme particulare de manifestare indirect|, intermediar |, ale unor
alte influen e de natur | primordial| i sintetic |, influen e specifice unor factori neobservabili, cu caracter latent.
Acceptnd ipoteza c | influen ele fiec |ruia din ace ti factori comuni, cu natur | latent |, se manifest | prin intermediul uneia
sau a mai multor variabile explicative, putem separa aceste variabile n submulimi de variabile ce au un element comun, iar
prin intermediul acestor submulimi s| definim o corect| i sugestiv | structur | a dependen ei.
n sensul ideii exprimate anterior, problema sintetiz |rii rela iilor de cauzalitate devine echivalent | cu problema detect|rii
i cuantific |rii unei anumite substan e comune, de natur | pur informa ional|, con inut| de o submulime a variabilelor
explicative supuse studiului.
Aceast | substan | poate fi interpretat| ca fiind fundamentul informa ional comun al variabilelor explicative ce alc |tuiesc
respectiva submulime i care exist|, sub form | mascat| i latent |, dincolo de aparen a relevat| de valorile ob inute pe baza
59

m |sur |torilor efectuate asupra acestor variabile.


Din punct de vedere teoretic, se consider | c | m |rimea cantit|ii din aceast| substan | reg |sit| n fiecare variabil| este cea
care determin |, n cea mai mare parte, nivelul i evolu ia respectivelor variabile, constituind n acela i timp fundamentul
invizibil care genereaz | i dimensioneaz | rela iile de interdependen | dintre variabile.
n func ie de cantitatea din respectiva substan | comun |, con inut| n fiecare variabil| explicativ |, se poate determina o
structur | riguroas | a dependen ei acestora, se pot construi "cluster-e" de variabile explicative i se pot deduce informa ii a c |ror
natur | s | nu mai fie parazitat| de modalit|ile particulare de manifestare a formei fenomenelor descrise de respectivele variabile.

7.3 Domenii ale utiliz|rii analizei factoriale


Printre domeniile a c |ror investigare presupune cu preponderen | existen a unui instrument de analiz | care s | permit|
depistarea substan ei comune con inut| n variabilele urm |rite putem men iona pe cel sociologic i pe cel psihologic.
Instrumentul a c |rui opera ionalitate i eficien | sunt unanim recunoscute n rezolvarea problemelor care au ca scop
sintetizarea rela iilor de cauzalitate este analiza factorial|.
n domeniul economic aplica iile analizei factoriale sunt ntlnite n majoritatea analizelor i predic iilor care vizeaz |
prospectarea pie ii, fundamentarea strategiilor i deciziilor manageriale la nivelul agen ilor economici, comportamentul
consumatorilor sau procesul decizional din domeniul financiar-bancar.
Practic, nu exist| analiz | de date sau predic ie din domeniul economic care s | nu apeleze, cel pu in n faza preliminar|,
la utilizarea unui instrument cum este cel oferit de analiza factorial|.
Printre cele mai frecvent ntlnite aplica ii ale analizei factoriale n domeniul economic putem men iona pe cele care au
ca scop determinarea unor indici agrega i pentru diferite fenomene economice complexe sau pe cele care i propun clasificarea
i ierarhizarea unor op iuni sau entit|i economice n func ie de mai multe criterii economice i sociale.
Din ce n ce mai mult n ultimul timp folosirea analizei factoriale este ntlnit | i n domeniul politologiei. Studiile riguroase
de fundamentare a strategiilor politice folosesc analiza factorial| n special pentru determinarea op iunilor politice ale
electoratului naintea organiz |rii scrutinurilor i pentru cunoa terea motiva iilor concrete care determin | aceste op iuni.

7.4 Definirea analizei factoriale i a conceptelor acesteia


Analiza factorial| este unul dintre cele mai eficiente i mai frecvent utilizate instrumente utilizate n modelarea statisticomatematic | a problemelor economic-sociale. Posibilit|ile largi pe care acest instrument de lucru le ofer | n probleme de analiz |
tiin ific | i de interpretare a datelor sunt ilustrate prin existen a unui num |r foarte mare de aplica ii i prin bogata literatur | de
specialitate dedicat| problemelor teoretice i practice specifice domeniului.
Prin intermediul tehnicilor de acest fel se ncearc | aplicarea unor transform |ri i aproxim |ri, astfel nct s| se ob in |
reprezent|ri n subspa ii cu mai pu ine dimensiuni, respectiv n subspa ii unidimensionale, bidimensionale sau, cel mult, tridimensionale. Aceste transform |ri i aproxim |ri trebuie s | fie aplicate n a a fel nct s| se verifice condiia ca distan ele ob inute
n noul spa iu ntre obiecte sau variabile s | reflecte ct mai bine distan ele existente ntre acestea n spa iul original. Noul spa iu,
rezultat din efectuarea analizei factoriale, se nume te spa iu factor, spa iu redus sau spa iu factorial.
Utilizarea analizei factoriale n solu ionarea problemelor specifice analizei datelor se face sub forma a dou | modalit|i de
abordare: modalitatea exploratorie i modalitatea confirmatorie.

7.4.1 Definirea conceptelor fundamentale


n analiza factorial| sunt manipulate o serie de concepte importante, al c |ror con inut i interpretare se caracterizeaz |, de
cele mai multe ori, prin multiple i subtile aspecte informa ionale. Conceptul fundamental al analizei factoriale este cel de factor
comun sau de factor latent, celelelate concepte utilizate fiind definite, ntr-o m |sur | mai mare sau mai mic |, n raport cu acest
concept de referin |.
Factorul comun este o construc ie abstract|, care ncearc | s| exprime sub o form | numeric | o entitate informa ional|
neobservabil|, ascuns | n spatele unei mari variet|i de manifest|ri eterogene, dar a c |rei semnifica ie este extrem de important |,
att din punct de vedere teoretic, ct i practic. Factorul comun are o natur | similar | cu cea a unui factor cauzal cu semnifica ie
stabil| i consistent |, a c |rui existen | i manifestare influen eaz | valorile unei ntregi mulimi de variabile numite indicatori.
Definiie: Factorul com un sau factorul latent reprezint| o entitate informa ional| de natur | general|, care exprim |
o caracteristic | esen ial| a unui fenomen sau proces din realitate, i exercit| influen a asupra tuturor elementelor unei
mulimi de indicatori i care nu poate fi supus | unei proces direct de observare i m |surare.
Dup | cum rezult| i din definiie, caracteristica principal | a factorilor comuni const| n aceea c | ei sunt m |rimi
neobservabile. Cu toate c | factorii comuni nu pot fi m |sura i direct, pot fi definite i supuse procesului de observare i m |surare
o serie de alte entit|i informa ionale, care au proprietatea c | reflect|, ntr-o m |sur | mai mare sau mai mic |, factori comuni.
Aceste entit|i informa ionale sunt variabilele indicator, care sunt considerate a fi forme de manifestare cantitativ | indirect|
a factorilor comuni i care prin valorile lor indic | att prezen a factorilor comuni, ct i intensitatea cu care se manifest | ace tia.
Factorii comuni pot fi privii ca variabile aleatoare, care au o anumit| distribu ie de probabilitate. De regul|, se consider |
c | factorii comuni sunt repartiza i dup | legea de probabilitate normal |. Vom nota num |rul de factori comuni cu p, iar pentru
cei p factori comuni vom folosi nota iile
.
60

Ob inerea de informa ii necesare pentru deducerea unor aproxim |ri cantitative pentru factorii comuni este bazat| pe
existen a unor variabile speciale denumite indicatori, teste sau m |suri.
Definiie: Indicatorul sau testul este o variabil| ale c |rei observa ii, cunoscute sub numele de scoruri, sunt utilizate
n cadrul analizei factoriale n scopul de a produce evalu |ri numerice pentru factorul sau factorii comuni.
n analiza factorial| se presupune c | leg |tura dintre variabilele indicator i factorii comuni poate fi exprimat | sub o form |
liniar |, exprimare care conduce la necesitatea estim |rii coeficien ilor care intervin n definirea respectivei forme.
Prin raportare la contextul terminologiei utilizate n cadrul analizei componentelor principale, se poate spune c | indicatorii
sau testele sunt reprezentate de variabilele originale. Vom presupune n continuare c | n analiz | exist| n indicatori sau n teste
i vom simboliza ace ti indicatori cu
.
Observa iile existente cu privire la cei n indicatori, observa ii ob inute prin extragerea unui e antion aleator de volum T
din popula ia ale c |rei unit|i sunt caracterizate de cei n indicatori, reprezint| scorurile indicatorilor sau scorurile testelor.
O ipotez | important | a analizei factoriale const | n presupunerea conform c |reia nivelul unei variabile indicator se
formeaz | ca urmare a unor influen ei conjugate, exercitate att de factorul sau factorii comuni, ct i de un factor unic. n afara
acestor influen e cu natur | semnificativ |, asupra nivelului unei variabile indicator se mai exercit| i influen a erorilor de
m |surare, influen | considerat| a fi neglijabil|.
Departe de a avea o semnifica ie m |car comparabil| cu aceea a factorilor comuni, factorul unic are, totu i, o natur | similar |
cu cea a acestor factori: influen eaz | nivelul unei variabile indicator i are natur | neobservabil|. Spre deosebire de factorul
comun, a c |rui influen | se manifest | la nivelul tuturor variabilelor indicator, factorul unic este caracterizat prin aceea c |
influen a sa are o natur | particular |, unilateral|, considerat| a se exercita sau exprima numai la nivelul unei singure variabile
indicator. Din acest motiv, num |rul de factori unici coincide cu num |rul de indicatori sau de teste.
Vom folosi pentru notarea celor n factori unici, care sunt asocia i celor n indicatori, simbolurile
. Factorul unic
poate fi definit sub forma urm |toare:
Definiie: Factorul unic reprezint| o entitate informa ional| de natur | particular |, care i exercit| influen a n mod
unilateral, asupra unei singure variabile indicator, i care nu poate fi supus | unei proces direct de observare i m |surare.
n analiza factorial| variabilele indicator sunt considerate a fi dependente de factorii comuni i de factorul unic, n mod
similar cu dependen a descris | de modelele de regresie, n care variabila dependent| este reprezentat| de indicator sau test,
variabilele independente sunt reprezentate de factorii comuni, iar termenul eroare este reprezentat de factorul unic i de factorul
rezidual. Considernd cazul celei de-a i-a variabile indicator, un astfel de model de regresie are forma urm |toare:

Deosebirea acestui tip de model fa | de un model de regresie autentic, const | n aceea c | variabilele sale independente,
, sunt variabile aleatoare neobservabile.
Vom ilustra i vom concretiza con inutul celor trei m |rimi fundamentale definite anterior, respectiv indicator, factor comun
i factor unic, prin intermediul urm |torului exemplu.
Exem plul 7.2
n scopul evalu|rii nivelului de inteligen| general| i a capacit|ii de memorare ce caracterizeaz| fiecare dintre cei 10 studeni ai unei
grupe ipotetice, vom presupune c| dispunem de notele obinute de acetia la 5 examene: Matematic|, Informatic|, Economie, Istorie, Englez|.
Rezultatele se g|sesc n tabelul urm|tor.
Situaia notelor obinute de studenii unei grupe
Tabelul 7.1

Student

Note obinute
Matematic|

Informatic|

Economie

Istorie (h)

Englez| (g)

Medie
student
7,65
6,85
9,00
8,50
7,45
8,00
9,30
9,35
8,75
7,15

S1
S2
S3
S4
S5
S6
S7
S8
S9
S10

6,25
5,50
9,25
8,00
5,75
7,50
10,00
9,50
6,50
5,25

8,25
7,50
9,75
7,75
6,00
8,00
9,25
9,75
8,25
6,75

7,25
7,50
9,25
9,00
7,25
6,75
9,00
8,50
9,25
7,00

8,00
6,75
8,50
8,50
10,00
8,75
9,00
10,00
9,75
8,25

8,50
7,00
8,25
9,25
8,25
9,00
9,25
9,00
10,00
8,50

Media

7,350

8,125

8,075

8,750

8,700

3,1139

1,5035

1,0285

1,0139

0,6500

Variana

n limbajul analizei factoriale, cele cinci examene reprezint| variabilele indicator sau testele. Factorii comuni sunt, n acest caz,
inteligena i memoria. Notele obinute de studeni la examene reprezint| scorurile testelor.
61

Ipoteza raionamentului specific analizei factoriale este aceea c| rezultatele obinute de studeni sunt intercorelate, ca urmare a faptului
c| ele sunt influenate de dou| caracteristici care sunt comune tuturor studenilor: inteligena i capacitatea de memorare.
n tabelul urm|tor sunt prezentai coeficienii de corelaie dintre cele cinci variabile indicator. Faptul c| notele obinute la cele cinci
discipline sunt corelate, ntre ele, ntr-o m|sur| mai mare sau mai mic|, constituie suportul pentru a considera c| n obinerea acestor note
se manifest| ceva care este comun tuturor disciplinelor, indiferent de natura acestora. n aceste condiii, este natural a presupune c| elementele
comune, care determin| corelarea rezultatelor, in de inteligena nativ| a indivizilor i de capacitatea lor de memorare.
Matricea de corelaie a variabilelor indicator
Tabelul 7.2

Discipline

Matematic|

Informatic|

Economie

Istorie

Englez|

Matematic|

1,00

0,86

0,77

0,15

0,30

Informatic|

0,86

1,00

0,73

0,09

0,24

Economie

0,77

0,73

1,00

0,23

0,39

Istorie

0,15

0,09

0,23

1,00

0,73

Englez|
0,30
0,24
0,39
0,73
1,00
Inteligena i capacitatea de memorare reprezint| doi factori care influeneaz| notele obinute de fiecare student la fiecare dintre
examenele susinute, cu diferene de la student la student, n funcie de inteligena i memoria proprii fiec|ruia dintre studeni.
n afara celor doi factori comuni, nota obinut| de studeni la fiecare dintre examene este influenat| i de un factor unic, factor care
reprezint| aptitudinile studentului pentru domeniul de care aparine disciplina respectiv|. De exemplu, separat de nivelul de inteligen| i
de capacitatea de memorare, un student poate avea aptitudini speciale pentru domeniul Informaticii. Influena acestor aptitudini asupra notei
obinute la informatic| se va concretiza prin intermediul factorului unic asociat cu acest indicator, adic| prin intermediul factorului unic .
Rezult| c| performanele obinute de studeni la fiecare examen pot fi descrise cu ajutorul unor ecuaii de regresie de forma:
,
unde
influeneaz| notele, iar

definesc variabilele indicator, care reprezint| notele la cele cinci examene,

sunt cei doi factori comuni care

reprezint| factorii unici celor cinci discipline considerate. M|rimile

reprezint| coeficienii

corespunz|tori celor doi factori comuni.


Efectund analiza factorial| pe datele coninute n tabelul de mai sus, am obinut urm|toarele rezultate:
.
Cei doi factori comuni, inteligena i capacitatea de memorare, explic| o proporie semnificativ de mare din variana total| a variabilelor
indicator, respectiv un procent de 78,30%, din care primul factor deine 53,58%, iar cel de-al doilea 24,72%.
Cu toate acestea, rezultatele manifest| o inadverten| logic| legat| de interpretarea celui de-al doilea factor comun. Aceast| inadverten|
const| n faptul c|, n cazul variabilelor indicator Istorie i Englez|, coeficienii corespunz|tori factorului Memorie au valori negative.
Existena acestor coeficieni cu valori negative ridicate conduce la o interpretare aberant|, interpretare conform c|reia capacitatea de
memorare ar influena foarte puternic performanele la Istorie i Englez|, ns| n sens negativ.
Deoarece exist| soluia obinut| nu este unic|, poate fi c|utat| alt| soluie, care s| fie compatibil| cu o interpretare natural| i corect|
a factorilor. Aceast| soluie poate fi obinut| printr-o procedur| de transformare a coeficienilor factorilor, procedur| cunoscut| sub numele
de rotaia structurii factor. n urma aplic|rii acestei proceduri, poate obine o interpretare mai corect| a factorilor i o cretere a semnificaiei
acesteia, n condiiile n care contribuia total| a factorilor comuni la formarea variabilit|ii variabilelor indicator r|mne neschimbat|.
n cazul exemplului nostru, prin aplicarea procedurii de rotaie a structurii factor au fost obinute rezultate care conduc la urm|toarea
form| a modelului factorial:
.
Se poate observa c| inadvertena legat| de interpretarea celui de-al doilea factor a disp|rut, n condiiile n care proporia explicat| de
cei doi factori din variana total| a variabilelor indicator a r|mas tot la nivelul de 78,30%. Ceea ce s-a modificat n urma rotaiei este structura
acestei proporii pe cei doi factori, structur| conform c|reia, din procentul de 78,30%, primul factor deine 47,17%, iar cel de-al doilea
31,13%.
Rezultatele obinute evideniaz| c| indicatorii reprezentnd notele la Matematic|, Informatic| i Economie exprim| foarte bine nivelul
de inteligen| al studenilor, dup| cum indicatorii care reprezint| notele la Istorie i Englez| reflect| foarte bine capacitatea de memorare a
studentului. Contribuiile factorilor unici sunt relativ reduse, cu excepia Economiei, unde se nregistreaz| o contribuie ceva mai ridicat|
a factorului unic.
n graficul din figura urm|toare sunt prezentate leg|turile dintre cele trei categorii de m|rimi i sunt evideniate intensit|ile cu care
aceste leg|turi se manifest|.

62

Figura 7.2: Exemplificarea leg|turilor dintre notele la examene,


nivelul de inteligen | i capacitatea de memorare

7.4.2 Definirea analizei factoriale


Analiza factorial| este unul dintre cele mai puternice, mai subtile i mai utile instrumente de analiz | a datelor, eficien a
utiliz |rii ei fiind de necontestat n aproape toate fazele importante ale unui astfel de demers, inclusiv n faza exploratorie a
analizei. Scopul principal al analizei factoriale este acela al deducerii unor construc ii ipotetice, al identific |rii unor factori
esen iali, prin intermediul c |rora s | poat | fi explicate interdependen ele existente ntre elementele unei mulimi de variabile
indicator.
Spre deosebire de analiza componentelor principale, care are ca scop reexprimarea unei propor ii ct mai mari din variabilitatea spa iului cauzal iniial, analiza factorial| i propune s| g |seasc | cea mai bun | modalitate de reproducere a corela iilor
manifestate ntre elementele unei mulimi de indicatori, cea mai bun | modalitate de reexprimare a interdependen elor dintre
variabilele indicator. Din punct de vedere al acestui scop, analiza factorial| poate fi definit| sub forma urm |toare:
Definiie: Analiza factorial| este o analiz | multivariat|, care are ca scop s | explice corela iile manifestate ntre o serie
de variabile, numite indicatori sau teste, prin intermediul unui num |r mai mic de factori ordona i i necorela i, numii
factori comuni.
Proprietatea de necorelare a factorilor, care apare n definiia anterioar |, se refer | la definirea i determinarea acestora sub
restric ia inexisten ei redundan ei informa ionale. n mod similar, ordonarea factorilor se refer | la ierarhizarea acestora ntr-o
manier | descresc |toare, n func ie de m |rimea varian ei fiec |rui factor.
Ca metod | de analiz | multidimensional|, analiza factorial| este folosit|, n principal, n rezolvarea problemelor al c |ror
scop este legat de:
studierea nivelelor diferite de manifestare a interdependenelor dintre variabilele explicative, n special atunci cnd num|rul
acestora este foarte mare;
detectarea unei structuri simplificate i clare a relaiilor de interdependen| existente ntre variabilele explicative;
obinerea unei "cluster-iz|ri", unei clasific|ri a variabilelor explicative prin intermediul unor entit|i numite factori, astfel nct
variabilele aparinnd unui anumit factor s| fie puternic intercorelate;
obinerea unor informaii specifice, sub forma aa-numiilor factori, pe baza c|rora s| se poat| face o interpretare sintetic| a
relaiilor de cauzalitate;
verificarea unor ipoteze cu privire la existena unei structuri factoriale particulare sau cu privire la existena unui anumit num|r
de factori comuni;
sintetizarea potenialului cauzal comun al mai multor variabile explicative sub forma unui num|r ct mai redus de factori.
Privit| n sens restrns, ca mulime de proceduri logice i numerice executate pe date de un anumit tip, analiza factorial|
poate fi definit| ca reprezentnd un proces a c |rui desf |urare include urm |toarele etape esen iale:
determinarea num|rului minimal de factori comuni cu ajutorul c|ruia pot fi explicate n mod optimal corelaiile existente ntre
variabilele indicator;
efectuarea unor rotaii ale factorilor, n scopul determin|rii soluiei factor sub cea mai simpl| i mai clar| form|;
estimarea intensit|ilor factorilor, structurii leg|turilor, comunalit|ilor i varianelor factorilor unici;
deducerea unor interpret|ri adecvate pentru factorii comuni;
estimarea scorurilor factorilor.
Dintre toate activit|ile implicate de analiza factorial|, problema care ridic | cele mai multe dificult|i n executarea acestei
analize este aceea a estim |rii comunalit|ilor, sau, ceea ce este acela i lucru, estimarea intensit|ii factorilor comuni.

7.4.3 Tipurile analizei factoriale


n func ie modalitatea n care este implicat| n studiu i de scopul concret n care este folosit|, analiza factorial| poate fi
considerat| ca fiind de dou | tipuri: analiz| factorial| exploratorie i analiz| factorial| confirm atorie.
63

Definiie: Analiza factorial| exploratorie reprezint| acea modalitate de utilizare a analizei factoriale care are ca scop
detectarea unei structuri a dependen ei i generarea unor construc ii teoretice, cunoscute sub numele de factori comuni.
n varianta sa de analiz | exploratorie, analiza factorial| reprezint| o tehnic | de identificare a structurii dependen ei, de
generare a unor construc ii teoretice. Analiza factorial| de tip exploratoriu nu presupune cunoa terea aprioric | a structurii
dependen ei cauzale sau cunoa terea aprioric | a factorilor.
Definiie: Analiza factorial| confirm atorie reprezint| acea modalitate de utilizare a analizei factoriale, care are ca
scop confirmarea unor ipoteze i teorii privind structura unei dependen e cauzale.
n analiza factorial| confirmatorie, structura dependen ei cauzale sau construc ia cauzal| teoretic | sunt presupuse a fi
cunoscute, adic | date prin ipotez |. Prin intermediul teoriei de acest tip se urm |re te confirmarea unei anumite teorii, verificarea
acestei teorii pe cale empiric |.

7.5 Structura general| a modelului factorial


n formularea sa cea mai general|, formulare extrem de necesar | pentru preciz |ri cu caracter terminologic i pentru
formularera unor ipoteze de natur | teoretic |, modelul analizei factoriale are la baz | dou | ipoteze fundamentale.
Prima ipotez | se refer | la presupunerea c | c | nivelul sau valorile unui ansamblu de variabile aleatoare
se
formeaz | ca rezultat exclusiv al influen ei a trei categorii de factori:
o mulime format| din p factori comuni,
, a c |ror influen | se consider | a se exercita asupra fiec |reia
dintre cele n variabile considerate;
o mulime format| din n factori unici,

, a c |ror influen | se consider | a se exercita n mod individual,

fiecare factor unic influen nd una i numai una dintre variabilele considerate;
o mulime de n factori reziduali,
, a c |ror influen | se consider | a fi exercitat| tot n mod individual,
fiecare factor rezidual influen nd cte o singur | variabil|.
Din punct de vedere statistic, se consider | c | influen ele semnificative, care trebuie re inute n analiz |, sunt cele exercitate
de factorii comuni i unici, n timp ce influen ele factorilor reziduali, se consider | a avea caracter accidental, nesemnificativ.
La nivelul fiec |rei variabile, influena factorului rezidual corespunz |tor poate fi considerat| a fi neglijabil| i este asimilabil|
erorilor de m |surare. Din acest motiv, factorii reziduali se mai numesc i erori.
n ceea ce prive te factorii comuni, exist| posibilitatea ca n cazul anumitor variabile influen a lor asupra acestor variabile
s | fie neglijabil| sau chiar nul|, ceea ce nseamn | c | factorii respectivi pot fi elimina i din lista factorilor pentru variabila
respectiv |. n aceste condiii, este posibil ca schema de influen| pentru anumite variabile s | con in | mai muli factori comuni,
iar pentru alte variabile mai pu ini. Num |rul de factori comuni cu influen | semnificativ | asupra variabilei indicator determin |
complexitatea variabilei indicator respective.
Faptul c | influen ele considerate sunt structurate pe cele trei categorii de factori, determin | o anumit| structur | a modelului
factorial general, structur | eviden iat| de rea iile urm |toare:

unde func iile

sunt func ii reale de p+1 variabile, func ii care pot fi liniare sau nelininare n raport cu variabilele.

Cu toate c | func iile

pot fi, n principiu, liniare sau neliniare, aproape n toate cazurile, att n cele legate de teoria

analizei factoriale, ct i n cele legate de utilizarea acesteia n aplica ii, este considerat| varianta liniar |, ceea ce nseamn | c |
rela iile care definesc modelul au forma urm |toare:

Coeficien ii factorilor sunt cunoscu i sub numele de intensit|iale factorilor. Prin magnitudinea sa coeficientul m |soar |
intensitatea influen ei exercitate de factorul corespunz |tor asupra nivelului variabilei indicator, iar prin semnul s |u m |soar |
sensul influen ei exercitate.
Definiie: Se nume te intensitate a unui factor comun
cu cte unit|i se modific | nivelul variabilei indicator

n raport cu o variabil| indicator

, atunci cnd nivelul factorului

m |rimea

, care arat|

cre te cu o unitate.

Cea de-a doua ipotez | pe care se fundamenteaz | analiza factorial| este aceea c | n con inutul informa ional al variabilelor
aleatoare
se reg |sesc informa ii cu privire la factorii comuni i unici, ceea ce nseamn | c | ele pot fi folosite ca
indicatori ai acestor factori, ca semnale informa ionale generate de ace ti factori.
64

Avnd n vedere c | la nivelul unei variabile indicator, nu se poate face, sub nici o form |, o distinc ie clar | ntre factorul
unic i factorul rezidual, din motive legate de simplificare i de crearea posibilit|ilor de solu ionare efectiv | a problemei de
analiz | factorial|, factorul rezidual este neglijat sau, ceea ce nseamn | acela i lucru, este unificat cu factorul unic. n consecin |,
modelul factorial cap |t| forma urm |toare:

Dac | vom face nota iile urm |toare:

atunci modelul factorial poate fi scris sub forma urm |toare:


.
n raport cu aceast| ultim | form | a modelului factorial se define te conceptul de configura ie factorial|, concept care este
folosit i ntr-un sens mai larg, cu referire la ntregul set de ecua ii care define te modelul.
n continuarea prezent |rii, vom nota matricea de corela ie a variabilelor indicator cu , respectiv:

unde elementele diagonale sunt egale cu unitatea, respectiv

Deoarece, de regul| variabilele indicator sunt considerate a fi centrate, matricea de corela ie a acestora coincide cu matricea
de covarian |. n ceea ce prive te cei n factori comuni, vom nota matricea de covarian | a acestora sub forma urm |toare:

unde elementul diagonal


t| covarian a dintre factorul

din aceast | matrice reprezint| varian a factorului comun

, iar elementul nediagonal

. n anumite situa ii, pentru varian a factorului comun

reprezin-

se folose te nota ia

, adic |

. Dac | factorii comuni sunt m |rimi standardizate, atunci matricea de corela ie a factorilor comuni coincide cu matricea
de covarian | a acestor factori. n aceast| situa ie, elementele diagonale sunt egale cu unitatea, respectiv

7.6 Descompunerea variabilit|ii spaiului iniial


n mod similar cu analiza componentelor principale, analiza factorial| i propune s | reexprime variabilitatea con inut|
n spa iul cauzal iniial, ntr-o manier | diferen iat|, n func ie de rolul pe care l au n formarea acesteia factorii comuni, pe de
o parte, i factorii unici, pe de alt| parte.
n cadrul acestui paragraf, vom trata modul n care varian a unei variabile aleatoare poate fi descompus | n componente
relevante din punct de vedere al interpret|rilor interdependen elor cauzale.

7.6.1 Spaiul factor i exprimarea coninutului s|u informaional


Prin utilizarea tehnicile de analiz | multidimensional| care au ca scop reducerea dimensionalit|ii, variabilitatea spa iului
cauzal n-dimensional, determinat de mulimea de variabile indicator
, este conservat| ntr-o propor ie, mai mare sau
mai mic |, prin intermediul variabilit|ii induse de un num |r mai redus de factori abstrac i

, care sunt factorii

comuni. mpreun | cu factorul unic, ace ti factori determin | un spa iu (p+1)-dimensional numit spa iul test sau spa iul factor.
Definiie: Spa iul test sau spa iul factor este un spa iu real, de dimensiune (p+1), ale c |rui axe sunt ortogonale dou |
cte dou | i sunt reprezentate de factorii comuni
i de factorul unic .

65

Variabilitatea ce caracterizeaz | celor dou | spa ii implicate n analiz |, spa iul original i spa iul test, este m |surat| prin
intermediul varian ei sau dispersiei.
n analiza datelor se consider | c |, pentru oricare dintre variabilele care definesc spa iul cauzal original, varian a este o
m |sur | a informa iei con inut| n observa iile efectuate asupra respectivei variabile.
ntre gradul de variabilitate specific unei variabile i semnifica ia informa ional-statistic | produs | de observa iile f|cute
asupra respectivei variabile exist| un stabil raport de direct| propor ionalitate, considerndu-se c | o variabil| este cu att mai
semnificativ | cu ct variabilitatea sa este mai mare.

7.6.2 Componentele varianei


Dup | cum am mai eviden iat, spre deosebire de analiza componentelor principale, n contextul c |reia variabilitatea ce
caracterizeaz | spa iul cauzal iniial este privit| nediferen iat, n analiza factorial| variabilitatea spa iului cauzal iniial este
considerat| a fi o compunere de variabilit|i, care se formeaz | sub influen a factorilor considera i.
Corespunz |tor celor trei categorii generale de factori considera i a influen a variabila indicator , respectiv comuni, unici

i reziduali, n analiza factorial| se postuleaz | ipoteza conform | c |reia varian a

, corespunz |toare variabilei

, poate fi

mp |r it| n trei compomnente importante:


componenta
, numit| comunalitate, care este acea parte a varianei totale
ce exprim| informaia comun| tuturor
variabilelor care definesc spaiul cauzal n-dimensional i care se formeaz| sub influena factorilor comuni
.
componenta
, numit| unicitate, care este acea parte a varianei totale
ce exprim| informaie semnificativ| de natur|
specific|, caracteristic| variabilei particulare
i care se formeaz| sub influena factorului unic ;
componenta
, numit| rezidualitate sau eroare, care este acea parte a varianei totale
format| sub influena factorului
rezidual asociat cu variabila respectiv| i exprim| informaie nesemnificativ| cu caracter specific variabilei .
Pe baza celor trei tipuri de influen e men ionate anterior, varian a variabilei indicator

poate fi descompus | sub forma:

sau, utiliznd nota iile corespunz |toare, sub forma:

unde m |rimile

reprezint|, a a cum o s | ar |t|m n continuare, tot varian e. Aceast | rela ie define te descompunerea

varian ei unei variabile indicator n func ie de varian ele celor trei categorii factori care influen eaz | variabila respectiv |. De i
cele trei componente ale descompunerii au natur | de varian e, ele nu trebuie identificate ca reprezentnd varian e ale factorilor,
deoarece descompunerea este f|cut | doar n func ie de varian ele factorilor. Cu excep ia celei de-a treia componente a
descompunerii, care este chiar varian a factorului rezidual, primelor dou | componente nu li se poate atribui calitatea de varian e
ale factorilor.
Primele dou | componente sunt determinate de coeficien ii care pondereaz | varian elor factorilor, ceea ce nseamn | c | ele
reprezint| contribu ii ale varian elor factorilor la formarea varian ei variabilei indicator. De fapt, n condiiile unor ipoteze
privind necorelarea factorilor, forma complet| a rela iei de descompunere a varian ei variabilei indicator poate fi scris | astfel:
.
Este evident c | p |tratele coeficien ilor care pondereaz | varian ele factorilor reprezint| contribu ii ale factorilor la formarea
varian ei variabilei indicator. Forma simplificat| a descompunerii rezult| din impunerea ipotezei c | varian ele factorilor comuni
i unic sunt egale cu unitatea i din definirea comunalit|ii ca sum | a contribu iilor factorilor comuni la formarea varian ei
indicator, respectiv:
.
Componenta cea mai important | a varian ei variabila indicator

este comunalitatea, care exprim | contribu ia factorilor

comuni la formarea varian ei variabilei indicator i care poate fi privit|, la rndul s|u, ca o varian |.
Definiie: Com unalitatea este acea parte a varian ei unei variabile indicator, care exprim | variabilitatea indus | de
influen a factorilor comuni
.
Avnd n vedere c | la formarea variabilit |ii unei variabile indicator contribuie, n principiu, to i cei n factori comuni,
comunalitatea poate fi descompus |, la rndul s|u, n raport cu cele n influen e.
Cea de-a doua component | a varian ei variabilei indicator, numit| unicitate, exprim | contribu ia factorului unic la formarea
varian ei variabilei indicator i are, de asemenea, natur | de varian |. Ea se mai nume te i varian | unic |, i se define te astfel:
Definiie: Unicitatea este acea parte a varian ei unei variabile indicator, care exprim | variabilitatea indus | de influen a
factorului unic i care nu poate fi explicat| prin intermediul factorilor comuni.

66

Ultima component | a varian ei variabilei indicator, respectiv cea datorat| factorului rezidual, reflect| influen a erorilor de
m |surare asupra form |rii variabilit|ii variabilei indicator i se mai nume te i varian | rezidual| sau varian | eroare. De cele
mai multe ori, aceast| influen | este considerat| a fi neglijabil| n raport cu celelalte influen e.
Cu excep ia varian ei reziduale, care exprim | influen a factorilor cu natur | accidental|, a cauzelor aleatorii, imprevizibile
i nesemnificative, celelalte dou | componente, comunalitatea i unicitatea, exprim | influen e de natur | sistematic | asupra
form |rii variabilit|ii variabilei indicator, influen e cu caracter permanent i stabil. Din acest punct de vedere, varian a variabilei
indicator poate fi privit| ca fiind suma a dou | tipuri de varian e: varian a sistematic | i varian a rezidual|. Dac | vom nota
varian a sistematic | cu

, adic |:
,

atunci varian a variabilei indicator poate fi scris | sub forma:


.
Din aceast | reformulare rezult| c | varian a variabilei indicator poate fi descompus | ca sum | a dou | componente numite
sistematicitate i rezidualitate, respectiv:
.
Pe de alt| parte, influen a factorului unic

i influena factorului rezidual

se caracterizeaz | prin faptul c | au o

direc ionalitate specific |, bine determinat|, fiind raportate numai la o anumit| variabil| indicator. Din acest punct de vedere,
contribu ia celor doi factori la formarea varian ei variabilei indicator este numit| specificitate, care se define te sub forma:
.
Pe baza acestei noi redefiniri a componentelor, varian a variabilei indicator poate fi rescris | sub forma urm |toare:
,
ceea ce nseamn | c |:
.
Exem plul 7.3
Pentru a evidenia componentele prin intermediul c|rora poate fi descompus| variana variabilelor indicator, vom considera datele din
exemplul 7.1 i vom efectua analiza factorial| pe matricea de corelaie urm|toare:

Valorile proprii corespunz|toare matricii de corelaie evideiaz| faptul c| exist| doi factori comuni importani, care explic| un procent
de 78,30% din variana total| a variabilelor indicator. n tabelul urm|tor sunt prezentate informaiile referitoare la contribuia varianelor
factorilor la formarea varianei totale a variabilelor indicator.
Contribuiile iniiale ale varianelor factorilorla formarea varianei totale a variabilelor indicator
Tabelul 7.3

Factor
comun

Varian| explicat|

Procent varian| explicat|

Valoare
proprie

Individual

Cumulat

Individual

Cumulat

2,679102

2,358245

2,679102

53,58204

53,58204

1,235815

1,556673

3,914917

24,71630

78,29835

Diferen|
1,085083
5,000000
21,70164
100,00000
Dup| rotaia structurii factor, efectuat| n scopul asigur|rii unei interpretabilit|i mai corecte pentru cei doi factori, varianele factorilor
i contribuiile acestora la formarea varianei variabilelor indicator se modific| astfel:
Contribuiile modificate ale varianelor factorilor la formarea varianei totale a variabilelor indicator
Tabelul 7.4

Factor
comun

Varian| explicat|

Procent varian| explicat|

Valoare
proprie

Individual

Cumulat

Individual

Cumulat

2,358245

2,358245

2,679102

47,16490

47,16490

1,556673

1,556673

3,914917

31,13346

78,29836

Diferen|
1,085083
5,000000
21,70164
100,00000
n ceea ce privete descompunerea varianei variabilelor indicator pe componente, vom considera c| cele dou| componente sunt
reprezentate de comunalitate i specificitate, ceea ce nseamn| c| presupunem o comasare a factorului unic cu factorul rezidual. Rezultatele
67

descompunerii varianei sunt prezentate n tabelul urm|tor.


Descompunerea varianei variabilelor indicator
Tabelul 7.5

Variabila
indicator

Intensit|i

Tipuri de variane

Inteligen|

Memorie

Total|

Comunalitate

Specificitate

Matematic|

0,93797

0,13158

1,00000

0,89710

0,10290

Informatic|

0,90689

0,06630

1,00000

0,82685

0,17315

Economie

0,78539

0,25461

1,00000

0,68167

0,31833

Istorie

0,05008

0,78158

1,00000

0,61338

0,38662

Englez|

0,19147

0,92696

1,00000

0,89592

0,10408

Varian|
2,358245
1,556673
5,00000
3,91492
1,08508
Pentru fiecare variabil| indicator, prima component| a varianei, comunalitatea, reprezint| suma p|tratelor intensit|ilor celor doi factori.
De exemplu, pentru prima variabil| indicator, comunalitatea se obine astfel:
.
Informaiile referitoare la specificitate, adic| datele din ultima coloan|, au fost determinate prin diferen| ntre variana fiec|rei variabile
i comunalitatea corespunz|toare celor doi factori. De exemplu, pentru cazul primei variabile indicator, specificitatea se determin| astfel:
.
Facem precizarea c| aceast| component| a varianei include influena combinat| a factorului unic i a factorului rezidual. De asemenea,
se poate verifica faptul c| suma p|tratelor intensit|ilor care apar n coloana fiec|rui factor comun reprezint| variana factorului comun
respectiv. n cazul primului factor, vom avea:
.

7.7 Configuraia factor i structura factor


n analiza factorial| se definesc dou | concepte fundamentale, care sintetizeaz | o serie de m |rimi importante, specifice
analizei factoriale. Aceste m |rimi sunt reprezentate de coeficien ii factorilor i de coeficien ii de corela ie dintre variabilele
indicator i factori, iar sintetizarea este f|cut | prin intermediul conceptelor numite configura ie factor i structur | factor.

7.7.1 Definirea configuraiei factor


Conceptul de configura ie factor sau configura ie factorial| se refer | la intensit|ile factorilor comuni i poate fi definit
astfel:
Definiie: Se nume te configura ie factor mulimea intensit|ilor corespunz |toare factorilor comuni ce apar ntr-un
model factorial.
Dac | se inea seama i de interven ia ntr-un model de analiz | factorial| a factorului specific, atunci poate fi definit
conceptul de configura ie factor extins |.
Configura ia factor este foarte important | n cadrul analizei factoriale din mai multe puncte de vedere. n primul rnd,
elementele care intr | n alc |tuirea configura iei factor caracterizeaz | intensitatea i sensul influen elor exercitate de factori
asupra form |rii nivelului variabilelor indicator. De asemenea, configura ia factor, n varianta sa extins |, este important | deoarece
ea se constituie ca o reprezentare simplificat| i complet| a modelului factorial.
Un alt element de importan | pentru configura ia factorial| rezult| din faptul c | elementele acesteia stau la baza determin |rii elementelor structurii factor i pot fi utilizate n reproducerea, pe diferite nivele, a corela iilor dintre variabilele indicator.
n sfr it, configura ia factor este util| n efectuarea unor compara ii ntre diferite sisteme de factori, care sunt exprimabile prin
intermediul aceleia i combina ii de indicatori.

7.7.2 Definirea structurii factor


O problem | important | a analizei factoriale, a c |rei solu ionare ine de esen | analizei factoriale, este aceea a determin |rii
corela iilor dintre variabilele indicator i factorii comuni, pe de o parte, i dintre variabilele indicator i factorii specifici, pe de
alt| parte.
Pe baza conceptului de corela ie ntre variabilele indicator i factori, poate fi definit cel de-al doile concept, structura factor
sau structura factorial|. Structura factor mai este cunoscut| n teoria destinat| analizei factoriale i sub numele de m atrice
factor. Matricea factor are aceea i interpretare cu cea dat | n cazul componentelor principale.
Definiie: Se nume te structur | factor sau structur | factorial| mulimea coeficien ilor de corela ie dintre variabilele
indicator ale unui model factorial i factorii comuni inclu i n acest model.
Importan a structurii factor n cadrul analizei factoriale const | n aceea c | ea eviden iaz | corela iile existente ntre

68

variabilele indicator i factorii comuni i faciliteaz | interpretarea esen ei factorilor comuni, prin prisma naturii pe care o au
variabilele indicator. Spre deosebire de configura ia factorial| care sintetizeaz | exprimarea variabilelor indicatori sub form |
de combina ii liniare de factorii comuni i specifici, structura factorial| eviden iaz | schema leg |turilor existente ntre indicatori
i factori.
Structura factorial| este considerat| n cadrul analizei factoriale ca fiind una dintre numeroasele solu ii posibile pentru o
anumit| problem | concret|. De altfel, structura factorial| mai este cunoscut| n literatura de specialitate i sub numele de solu ie
factor sau solu ie factorial|.
n numeroase situa ii practice, solu ia factorial| ob inut| iniial nu ntrune te toate condiiile necesare pentru a permite o
interpretare facil | a factorilor. De multe ori, se poate ntmpla, ca elementele structurii factor s| sugereze interpret|ri ale
factorilor care s | vin | n contradic ie cu posibila esen | ce poate fi atribuit|, n mod logic, factorilor.
n aceste situa ii este necesar | g |sirea altor solu ii factor, care s | permit| o mai bun | interpretare i o mai consistent |
interpretare a factorilor. n scopul cre terii posibilit|ilor de interpretare i a consisten ei acestor interpret|ri, structura factor
poate fi supus | unei proces de rota ie, n urma c |ruia rezult| structura factor rotit|.

7.8 Calculul scorurilor factoriale


O anumit| observa ie, corespunz |toare unui factor dat, este determinat| sub forma unui scor corespunz |tor respectivului
factor, scor format pe baza contribu iei variabilelor originale. Exprimarea generic | a scorurilor pentru un anumit factor n func ie
de variabilele originale este dat| de urm |toarea rela ie:
,
unde b ij reprezint| coeficien ii scorurilor factor i sunt elemente ale transpusei matricii factor F. Sub form | matricial| aceast|
rela ie poate fi scris | astfel:
.
n mod practic, exprimarea celor T observa ii efectuate asupra variabilelor originale sub forma scorurilor factor, respectiv
calculul concret al scorurilor factor, se bazeaz | pe urm |toarele rela ii:
,
unde z kj reprezint| scorurile factorilor, b ki este elementul din linia k i coloana i a transpusei matricii factor, iar x ij este cea de-a
j-a observa ie efectuat| asupra celei de-a i-a variabile originale.
Dac | vom considera matricea de observa ii X, ale c |rei linii reprezint| cele n variabile originale i ale c |rei coloane
reprezint| cele T observa ii f|cute asupra acestor variabile, ca avnd forma urm |toare:

i matricea factor F definit| mai sus, atunci matricea Z de dimensiune pT definit| astfel:
,
se nume te m atricea scorurilor factor. Scorurile factor determinate n acest fel pot fi folosite n analize ulterioare, n locul
valorilor variabilelor originale.
Exem plul 7.4
n cadrul unei cercet|ri avnd ca obiectiv determinarea nivelului de dezvoltare economico-social| a 10 zone geografice din ar|, a fost
selectat un num|r de 6 indicatori de natur| economico-social|: capitalul industrial, cifra de afaceri a firmelor, profiturile obinute,
cheltuielile pentru nv||mnt, cheltuielile pentru cultur| i cheltuielile pentru s|n|tate. Valorile nregistrate, la nivelul unui an, de cele 10
zone geografice la cei ase indicatori sunt cuprinse n tabelul urm|tor.
Indicatori economico-sociali ai zonelor geografice
Tabelul 7.6
Capital
Cifra
Cheltuieli
Cheltuieli
Cheltuieli
Zona
Profituri
industrial
afaceri
nva|mnt
cultur|
s|natate

Z1
Z2
Z3
Z4
Z5
Z6
Z7

2148,900
1056,550
2198,990
2632,350
1636,510
2267,880
1906,490

1210,550
1213,010
1088,890
1820,490
1067,480
1647,610
1853,010

545,600
531,790
565,130
670,400
459,570
554,970
855,100

69

588,560
1045,790
956,020
925,580
635,510
737,490
656,820

257,860
424,770
418,230
292,300
263,940
255,550
290,810

501,650
631,150
698,470
679,330
451,970
520,530
628,740

Zona

Capital
industrial

Cifra
afaceri

Profituri

Cheltuieli
nva|mnt

Cheltuieli
cultur|

Cheltuieli
s|natate

Z8
Z9
Z10

2756,080
1299,630
1160,220

1708,620
1077,580
1059,650

724,730
401,760
305,210

754,030
768,900
459,540

320,480
205,690
206,590

454,930
592,250
477,780

1906,361

1374,690

561,427

752,824

293,622

563,680

600,378

338,329

158,985

180,565

76,285

93,416

Media
Abatere std

Matricea de corelaie corespunz|toare valorilor celor 6 variabile indicator din tabel, este urm|toarea:

Matricea de corelaie are primele dou| valori proprii

, ceea ce nseamn| c| exist| doi factori comuni asociai

acestor valori proprii, factori care justific| un procent de 73,02% din variana variabilelor indicator.
n tabelul urm|tor sunt prezentate informaii cu privire la modul n care variana total| a variabilelor indicator poate fi explicat| prin
intermediul a doi factori comuni.
Contribuiile iniiale ale varianelor factorilor la formarea varianei totale a variabilelor indicator
Tabelul 7.7
Factor
comun

Varian| explicat|

Procent varian| explicat|

Valoare
proprie

Individual

Cumulat

Individual

Cumulat

2,72029

2,72029

2,72029

45,3381

45,3381

1,66104

1,66104

4,38132

27,6839

73,0220

Diferen|
1,61868
6,00000
26,79797
100,00000
n tabelul urm|tor sunt prezentate informaii referitoare la o prim| soluie obinut| din aplicarea analizei factoriale. Tabelul conine
informaii cu privire la intensit|ile factorilor, la descompunerea varianei variabilelor indicator ntre factorii comuni i factorul specific,
dprecum i la coeficientul de corelaie multipl| dintre fiecare variabil| indicator i cei doi factori comuni.
Coeficienii factorilor comuni i componena varianei variabilelor indicator
Tabelul 7.8

Varian|
Indicatori

Total

Coeficienii
factorilor

Total|

Comun|
E

E+S

Specific|

0,60126 -0,37631

1,00000

0,36152

0,14161

0,50313

0,49687 0,50461

0,76731 -0,53782

1,00000

0,58876

0,28925

0,87801

0,12199 0,84882

0,85686 -0,34414

1,00000

0,73421

0,11843

0,85264

0,14736 0,87266

0,63448 0,69868

1,00000

0,40256

0,48815

0,89072

0,10928 0,81838

0,56859 0,61254

1,00000

0,32329

0,37521

0,69850

0,30150 0,80812

0,55673

0,49837

1,00000

0,30995

0,24837

0,55832

0,44168 0,60667

6,00000

2,72029

1,66103

4,38132

1,61868

Procent
100,0% 45,34% 27,68% 73,02% 26,98%
Avnd n vedere natura variabilelor indicator utilizate i rezultatele obinute, se poate trage concluzia c| cei doi factori comuni pot fi
interpretai ca reprezentnd gradul de dezvoltare economic| (E) i gradul de dezvoltare social| (S). Configuraia factorial| i structura factor,
corespunz|toare soluiei iniiale, sunt prezentate n tabelul urm|tor.
Descompunerea varianei variabilelor indicator
Tabelul 7.9
Configuraia
factor
Structura
factor
Varian|
comun|
Variabila
indicator
E
S
E
S
E
S
0,60126

-0,37631

0,60126

-0,37631

0,36152

0,14161

0,76731

-0,53782

0,76731

-0,53782

0,58876

0,28925

0,85686

-0,34414

0,85686

-0,34414

0,73421

0,11843

70

0,63448

0,69868

0,63448

0,69868

0,40256

0,48815

0,56859

0,61254

0,56859

0,61254

0,32329

0,37521

0,55673

0,49837

0,55673

0,49837

0,30995

0,24837

Varian| comun| total|


2,72029
1,66103
Deoarece elementele configuraiei factoriale rezultate din analiz|, configuraie reprezentat| de valorile din coloanele 2 i 3 ale tabelului,
au semne care vin n contradicie cu o interpretare convenabil| a celor doi factori, n termeni de grad de dezvoltare economic| i grad de
dezvoltare social|, este necesar| obinerea unei alte soluii factor, care s| permit| o mai bun| interpretare a factorilor. Aceast| nou| soluie
factor poate fi obinut| prin efectuarea unei rotaii a structurii factor. Rezultatele obinute n urma rotaiei structurii factor sunt prezentate
n tabelul urm|tor.
Coeficienii factorilor comuni i componena varianei variabilelor indicator dup| rotaia structurii factor
Tabelul 7.10
Varian|
Indicatori

Total

Coeficienii
factorilor

Total|

Comun|
E

E+S

Specific|

0,70639

0,06434

1,00000

0,49899

0,00414

0,50313

0,49687 0,50461

0,93632

0,03627

1,00000

0,87669

0,00132

0,87801

0,12199 0,84882

0,89039

0,24465

1,00000

0,79279

0,05985

0,85264

0,14736 0,87266

0,08221

0,94019

1,00000

0,00676

0,88396

0,89072

0,10928 0,81838

0,08190

0,83174

1,00000

0,00671

0,69179

0,69850

0,30150 0,80812

0,14155

0,73368

1,00000

0,02004

0,53829

0,55832

0,44168 0,60667

6,00000

2,20198

2,17935

4,38190

1,61868

Procent
100,00 36,70% 36,32% 73,02% 26,98%
Analiza soluiei obinute n urma rotaiei structurii factor, evideniaz| cu claritate c| primul factor comun este puternic corelat cu primele
trei variabile indicator, iar cel de-al doilea factor este puternic corelat cu ultimele trei variabile indicator. n ambele situaii, coeficienii de
corelaie au valori pozitive i mai mari dect 0,70, justificnd ideea de corelaie puternic|.
Faptul c| primele trei variabile indicator, respectiv capitalul industrial, cifra de afaceri i profiturile, sunt de natur| economic|, iar
ultimele trei variabile indicator, respectiv cheltuielile pentru nv||mnt, cheltuielile pentru cultur| i cheltuielile pentru s|n|tate, sunt de
natur| social|, permite ca primului factor comun s| i se atribuie semnificaia de factor economic, iar celui de-al doilea factor comun s| i se
atribuie semnificaia de factor social. Corelarea foarte puternic| dintre cele dou| grupe de variabile indicator i cei doi factori comuni
constituie un temei pentru a considera c|, ntr-adev|r, primul factor comun reprezint| gradul de dezvoltare economic|, iar cel de-al doilea
factor comun reprezint| gradul de dezvoltare social|.
n afara celor doi factori comuni, nivelul variabilelor indicator se formeaz| i sub influena factorilor specifici. M|sura n care factorii
specifici influeneaz| variabilele indicator este reflectat| de m|rimea varianei specifice. Modelul factorial, corespunz|tor informaiilor
definite anterior, este reprezentat de urm|toarele ecuaii factoriale:
.
Efectund analiza factorial| pe datele coninute n tabelul de mai sus, am obinut urm|toarea form| estimat| a ecuaiilor modelului
factorial:
.
n graficul din figura urm|toare sunt prezentate leg|turile dintre variabilele indicatori i factori i sunt evideniate intensit|ile cu care
aceste leg|turi se manifest|.

71

Figura 7.3: Exemplificarea leg |turilor dintre indicatori i factori


Identificarea celor doi factori comuni, evaluarea influenei lor asupra variabilelor indicator i evaluarea corelaiilor existente ntre factorii
comuni i variabilele indicator, permit reprezentarea grafic| a variabilelor indicator n sistemul de axe factoriale. Aceast| reprezentare este
util| deoarece ea ofer| o imagine cu privire la modul n care variabilele indicator se asociaz| ntre ele, pe de o parte, i cu factorii comuni,
pe de alt| parte. n figura urm|toare se g|sete reprezentarea grafic| a variabilelor indicator, n sistemul de axe ce corespunde celor doi factori
comuni. Reprezentarea grafic| este suficient de sugestiv| pentru a observa i a nelege modul n care se asociaz| variabilele indicator,
asociere determint| de leg|tura lor cu factorii comuni.

Figura 7.4: Exemplificarea leg |turilor indicatori i factorii comni i specifici


n figura urm|toare sunt vizualizate grafic poziiile pe care le au cele 10 zone geografice n raport cu cele dou| axe factoriale, care au
semnificaia de dezvoltare economic|, respectiv de dezvoltare social|.
O astfel de vizualizare a entit|ilor de tip obiect este extrem de util| deoarece ea evideniaz| foarte clar valorile pe care le nregistreaz|
obiectele la caracteristicile latente, neobservabile, caracteristici reprezentabile prin intermediul de factorilor comuni. Pe baza acestor valori,
obiectele analizate pot fi supuse unor aprecieri de natur| gobal| i sunt create premize pentru efectuarea unor comparaii multicriteriale.
Pentru cazul exemplului considerat, din reprezentarea grafic| rezult| c| cea mai bine situat| din punct de vedere economic este Zona
4", c| Zona 2" i Zona 3 stau foarte bine din punct de vedere social, dup| cum Zona 10" este cea mai vitregit|, att din punct de vedere
economic, ct i social.

72

Figura 7.5: Exemplificarea leg |turilor indicatori - factorii comuni i specifici


Posibilit|ile pe care le ofer| analiza factorial| n acest sens sunt cu att mai utile, cu ct efectuarea unor astfel de evalu|ri i de aprecieri
nu putea fi f|cut| pe baza variabilelor indicator. n situaia n care structura factor este supus| unei rotaii care nu mai conserv| ortogonalitatea
axelor, se obin factori comuni care sunt corelai, iar structura factor rezultat| difer| de configuraia factor.
Pentru datele din acest exemplu, efectuarea unei rotaii oblice a axelor a condus la obinerea a doi factori comuni care sunt corelai la
nivelul unui coeficient de 0,254037, adic|:
.
Aceasta nseamn| c| axele factoriale nu mai sunt ortogonale, ele formnd un unghi ascuit , a c|rui valoare este:
.
n aceast| situaie, comunalitatea fiec|rei variabile indicator este definit| de relaia urm|toare:
.
Rezultatele obinute n urma efectu|rii rotaiei de acest tip, adic| a rotaiei bazate pe oblicitatea axelor, sunt prezentate n tabelul urm|tor.
Coeficienii factorilor comuni i componena varianei
variabilelor indicator dup| rotaia neortogonal| a structurii factor
Tabelul 7.11
Varian|
Indicatori

Coeficienii
factorilor

Total|

Comun|
E

E&S

Total

Specific|

0,61824 -0,02381

1,00000

0,38223

0,00057 -0,00748 0,37532

0,62468

0,82509 -0,07497

1,00000

0,68077

0,00562 -0,03143 0,65497

0,34503

0,76058

0,11483

1,00000

0,57848

0,01319

0,04438 0,63604

0,36396

-0,03472

0,82326

1,00000

0,00120

0,67776 -0,01452 0,66445

0,33555

-0,02259

0,72725

1,00000

0,00051

0,52889 -0,00835 0,52105

0,47895

0,04146

0,63358

1,00000

0,00172

0,40142

0,01335 0,41649

0,58351

Total

6,00000

1,64491

1,62745 -0,00406 3,26830

2,73170

Procent

100,00

27,42%

27,12% -0,068% 54,47%

45,53%

Deoarece factorii comuni sunt corelai, structura factorial| este diferit| de configuraia factorial|. n tabelul urm|tor sunt prezentate
informaiile referitoare la configuraia factor i la structura factor, corespunz|toare rezultatelor anterioare.
Configuraia factor i structura factor
Tabelul 7.12
Indicatori

Configuraia factor

Structura factor

0,70639

0,06434

0,61824

-0,02381

0,93632

0,03627

0,82509

-0,07497

0,89039

0,24465

0,76058

0,11483

73

0,08221

0,94019

-0,03472

0,82326

0,08190

0,83174

-0,02259

0,72725

0,14155

0,73368

0,04146

0,63358

7.9 Criterii de alegere a num|rului de factori


Utilizarea analizei factoriale pentru rezolvarea unor probleme specifice presupune i determinarea num |rului de factori
comuni ce vor fi re inu i n model. De i decizia de a re ine un anumit num |r de factori este, n principiu, subiectiv |, exist| o
serie de criterii care pot s| orienteze utilizatorul atunci cnd ia o astfel de decizie.

7.9.1 Criteriul procentului de acoperire


n general, alegerea num |rului de factori care s | fie inclu i n modelul factorial depinde de propor ia din variabilitatea
comun | con inut| n spa iul cauzal iniial pe care utilizatorul dore te s-o exprime prin intermediul unei succesiuni de factori
comuni. O estima ie aproximativ | a acestei propor ii, pentru cazul n care num |rul de factori re inu i este egal cu k, poate fi
ob inut| cu ajutorul formulei:
,
unde k reprezint| num |rul de factori re inu i n model, n reprezint| num |rul variabilelor originale, iar 8 i reprezint| valoarea
proprie n raport cu care este definit factorul comun i.
Dezavantajul major al utiliz |rii unei astfel de aproxima ii n problemele de analiz | factorial| este dat de faptul c | m |rimea
p k arat| care este ponderea varian ei primelor k componente principale n varian a total| i nu ponderea varian ei explicate de
primii k factori comuni n varian a spa iului test; acest lucru reprezint| un inconvenient deoarece ntre componentele principale
i factorii comuni exist|, a a cum am mai ar|tat, o deosebire de esen |.

7.9.2 Criteriul lui Kaiser


Acest criteriu poate fi folosit atunci cnd analiza factorial| este efectuat| pe o matrice de corela ie, adic | atunci cnd se
presupune c | variabilele originale sunt standardizate. n conformitate cu acest criteriu, num |rul de factori necesari a fi inclu i
ntr-un model de analiz| factorial| este egal cu num |rul de valori proprii mai mari sau egale cu 1.
Justificarea acestui criteriu este dat| de faptul c |, pentru analiz |, prezint| importan | numai acei factori comuni a c |ror
varian | este cel pu in egal| cu varian a variabilelor originale, variabile care, fiind normalizate, au varian a unitar |.
n afara faptului c | un astfel de criteriu poate fi folosit numai n cazul n care se lucreaz | cu variabile normalizate,
dezavantajul principal al criteriului Kaiser este dat de faptul c | aplicarea lui conduce la re inerea n model a unui num |r prea
mare de factori.

7.9.3 Criteriul "granulozit|ii"


Dup | acest criteriu, num |rul de factori ce vor fi re inu i n modelul de analiz | factorial| se stabile te pe baza unei analize
grafice a valorilor proprii. Graficul pe care se face analiza se construie te lund n abscis | num |rul de ordine al valorilor proprii,
iar n ordonat| valorile acestor valori proprii.
Faptul c |, a a cum tim, valorile proprii sunt ordonate dup | magnitudinea lor descresc |toare va face ca graficul s| aib |
forma aproximativ | a unei curbe de tipul exponen ialei negative.
Num |rul de factori ce se vor re ine n model este determinat de punctul de pe grafic n dreapta c |ruia panta curbei devine
neglijabil|, num |rul de ordine al valorii proprii corespunz |toare acestui punct determinnd num |rul de factori ce se vor re ine.
Dezavantajul acestui criteriu const | n faptul c | aplicarea sa conduce la re inerea n modelul analizei factoriale a unui num |r
prea mic de factori comuni.
n practic |, alegerea unui anumit num |r de factori comuni este puternic dependent | de natura problemei analizate i de
scopul urm |rit n utilizarea analizei factoriale. De multe ori, scopurile practice urm |rite n analize de acest fel pot conduce la
necesitatea de a ob ine un singur factor sau cel mult doi. Construirea unui model cu unul sau doi factori comuni are i avantajul,
care nu este de neglijat, c | faciliteaz | reprezentarea grafic | a m |rimilor analizei factoriale, reprezentare care poate s | fie
deosebit de util| n faza de interpretare a rezultatelor.

74

Tema 8. Metode i tehnici de recunoatere a formelor


8.1 Importana i necesitatea recunoaterii formelor
n cele mai multe dintre activit|ile umane apare necesitatea de a ncadra, de a diferen ia, de a grupa sau de a clasifica
anumite entit|i sau obiecte sub forma unor categorii sau clase, a c |ror delimitare trebuie s | fie foarte clar | i foarte natural|.
Semnifica ia concret| a acestor categorii trebuie s | aib | o echivalen | corespunz |toare n realitatea studiat|, s | fie consistent |
i relevant | pentru procesul de cunoa tere, s| aib | un anumit grad de generalitate i s| ofere o interpretabilitate simpl| i
natural|.
Diferen ierea obiectelor pe categorii sau clase se face n func ie de propriet|ile fundamentale ale obiectelor, iar criteriile
de asociere a obiectelor sub form | de clase au la baz | gradul de asem |nare a propriet|ilor respectivelor obiecte, m |surat n
func ie de magnitudinea valorilor acestor propriet|i.
Necesitatea de a grupa sau clasifica obiecte apare foarte frecvent i n domenii foarte variate ale cunoa terii i activit|ii
umane, cum ar fi: analiza financiar |, marketingul, asigur |rile, informatica, biologia, medicina, arheologia, meteorologia,
criminalistica, psihologia, tiin a politic | sau domeniul militar.
n domeniul informaticii, cerin ele legate de cre terea performan elor n utilizarea tehnicii de calcul au determinat
necesitatea dezvolt|rii i implement |rii unor dispozitive hardware i a unor instrumente software pentru recunoa terea vocii
umane i a scrisului de mn |. De asemenea, n domeniul economic, manifestarea comportamentului ra ional al agen ilor
economici face necesar | existen a posibilit |ii de a identifica, de exemplu, activit|ile rentabile, clien ii solvabili sau pie ele
poten iale. Cele mai potrivite i cele mai eficiente instrumente utilizabile pentru solu ionarea problemelor de acest fel s-au
dovedit a fi metodele i tehnicile de clasificare sau de recunoa tere a formelor.
n general, oamenii dispun de o serie de sim uri naturale, cum ar fi auzul, v |zul, mirosul, pip |itul etc., sim uri care le permit
acestora s | perceap | anumite propriet|i ale obiectelor pe care le analizeaz | i, pe aceast | cale, s | poat | structura, clasifica sau
ierarhiza aceste obiecte sub forma unor submulimi specifice i distincte.
ntr-o activitate de clasificare, oamenii se pot folosi, n afara sim urilor naturale pe care le posed |, i de cuno tin ele pe
care le au cu privire la obiectele pe care trebuie s | le clasifice sau cu privire la propriet |ile acestor obiecte. n plus fa | de
acestea, oamenii mai pot apela i la o serie de modele, instrumente i tehnici speciale, de natur | statistico-matematic |, cu
ajutorul c |rora s | poat | clasifica mai u or i mai corect obiectele analizate.
Pe baza sim urilor naturale pe care le au ca fiin e umane i a cuno tin elor de care dispun, oamenii pot diferen ia, clasifica
sau grupa cu relativ | u urin | cele mai variate categorii de obiecte. Exist| ns | numeroase situa ii n care sim urile naturale ale
indivizilor i informa iile de care ace tia dispun nu mai sunt suficiente pentru a putea discrimina corect ntre anumite obiecte
sau pentru a face clasific |ri corecte ale acestor obiecte. Aceste situa ii sunt ntlnite n cazul obiectelor de tip multidimensional,
adic | n cazul obiectelor cu mai multe caracteristici, mai ales dac | aceste caracteristici sunt exprimabile sub o form | numeric |,
iar obiectele care trebuie clasificate sunt n num |r foarte mare.
n cazul n care obiectele sunt de tip multidimensional, cu caracteristici numeroase i preponderent cantitative, diferen ierea
acestora pe categorii specifice nu se mai poate face numai pe cale intuitiv |, exclusiv pe baza sim urilor naturale, fiind necesar
s | se apeleze la o serie de metode i tehnici specifice, de mare complexitate i cu un solid fundament statistico-matematic.

8.2 Definirea recunoaterii formelor


Activit|ile tiin ifice care au ca scop diferen ierea i structurarea unor mul imi de obiecte pe categorii sau clase specifice,
n func ie de propriet|ile fundamentale ale obiectelor, sunt cunoscute sub denumiri variate, cum ar fi: clasificare, clusterizare,
grupare sau discriminare.
Aceste denumiri sunt folosite n literatura de specialitate a domeniului cu sens terminologic diferit, n func ie de tipul colii
de care apar ine respectiva literatur |. De exemplu, n literatura anglo-saxon | termenul de clusterizare este folosit pentru a
descrie activit|ile de clasificare necontrolat|, iar termenul de clasificare este folosit pentru a defini activit|ile specifice
sistemelor de recunoa tere controlat|. n acela i timp, n literatura francez | termenul de clasificare este folosit pentru a face
referire la clasificarea de tip necontrolat, iar termenul de discriminare este folosit pentru descrierea activit|ilor de tip controlat.
n cadrul acestei teme, vom utiliza termenul de clasificare n dou | accep iuni. Prima accep iune va fi folosit| cu sens
generic, acoperind att con inutul conceptului de clasificare controlat|, ct i con inutul conceptului de clasificare necontrolat|.
Cea de-a doua accep iune va fi folosit| cu sens particular, cu referire la clasificarea de tip necontrolat. Pentru clasificarea de
tip necontrolat vom folosi ns | i termenii de clusterizare i de grupare. De asemenea, pentru referirea la clasificarea de tip
controlat vom utiliza, aproape exclusiv, termenul de discriminare.
n general, putem spune c | discriminarea i clusterizarea reprezint| activit|ile de aranjare sau de asociere a unor obiecte,
indivizi sau observa ii, sub forma unor grupe, categorii sau clase, n func ie de gradul de asem |nare sau de deosebire dintre
acestea.
Totalitatea tehnicilor de clasificare, adic | de discriminare i de clusterizare, este cunoscut| i sub numele generic de teoria
recunoa terii formelor.
75

Metodele i tehnicile de clasificare, respectiv teoria recunoa terii formelor, reprezint| una dintre cele mai moderne i
interesante probleme ale gndirii tiin ifice contemporane, constituind un domeniu tiin ific c |ruia i se acord | o importan | din
ce n ce mai mare, iar aplica iile acestora sunt din ce n ce mai numeroase i mai variate.
Domeniu bine conturat al inteligen ei artificiale, cu tendin | din ce n ce mai accentuat| de autonomizare, recunoa terea
formelor s-a dezvoltat n strns | interdependen | cu progresele nregistrate n domeniul tehnicii de calcul i informaticii, ultimele
decenii fiind caracterizate printr-o dezvoltare exploziv | a tehnicilor de acest fel.
Scopul general al teoriei recunoa terii formelor l reprezint| identificarea la nivelul unor mulimi complexe i eterogene
de forme sau obiecte a unor structuri, grup |ri, clase sau clustere existente la nivel latent n cadrul acestor mul imi i care se
contureaz | n mod natural, n func ie de asem |n |rile i deosebirile existente ntre elementele acestor mul imi.
Dezvoltarea tehnicilor de recunoa tere a formelor poate fi privit| att ca proces independent, impus de necesitatea adncirii
cunoa terii din diverse domenii de activitate i stimulat de evolu ia tehnicii de calcul, ct i ca un r |spuns la necesit|ile de
simplificare i perfec ionare a schimbului informa ional om-ma in |.
Avnd aplica ii n cele mai diverse i surprinz |toare domenii de activitate, teoria recunoa terii formelor a cunoscut n
ultimii ani progrese cu adev |rat uimitoare, ajungndu-se n prezent la un nivel de performan | tehnico-tiin ific | care permite
chiar construirea unor ma ini specializate n recunoa terea anumitor tipuri de forme.
Aflat| la intersec ia unor domenii fundamentale cum sunt tiin a calculatoarelor, teoria informa iei, teoria deciziei,
geometria, teoria probabilit|ilor i statistica matematic |, recunoa terea formelor cunoa te n prezent aplica ii a c |ror palet|
se ntinde de la cercetarea antropologic | i pn | la proiectarea harware i software.
n domeniul economico-social teoria recunoa terii formelor i g |se te o larg | utilizare mai ales n procesul de analiz| a
datelor i n activitatea de predic ie. Problema clasific |rii unei mulimi de obiecte este o problem | standard, frecvent ntlnit |
n investigarea socio-economic |, iar abordarea ei presupune utilizarea metodelor i tehnicilor specifice teoriei recunoa terii
formelor.
Numeroase probleme din domeniul analizei datelor, ncepnd cu cele legate de identificarea caracteristicilor definitorii
pentru cele mai diverse categorii de fenomene i terminnd cu cele legate de delimitarea func ional|, ierarhizarea structural|
sau sintetizarea informa ional| a unor mulimi de fenomene i procese economico-sociale, i g |sesc rezolvarea prin intermediul
aplic |rii unor concepte i instrumente a c |ror paternitate este, indiscutabil, legat| de teoria recunoa terii formelor.
Metodele i tehnicile apar innd teoriei recunoa terii formelor sunt de nenlocuit n analizele care opereaz | cu cantit|i mari
de informa ie, unde necesitatea de a esen ializa i sintetiza interdependen ele implic | un proces continuu de clasificare i
structurare a informa iilor. Practic, tehnicile de recunoa tere a formelor reprezint| instrumente cu ajutorul c |rora poate fi
st|pnit| i controlat| marea complexitate informa ional| ce caracterizeaz | fenomenele i procesele economico-sociale.
O utilizare i mai larg | a teoriei recunoa terii formelor este ntlnit | n domeniul predic iilor. Activitatea de realizare a
predic iilor poate fi privit| ca un proces ale c |rui caracteristici sunt foarte apropiate, mergnd chiar pn | la identificare, de
caracteristicile specifice ale unui proces de recunoa tere a formelor.
Evaluarea st|rilor pe care le poate avea n viitor un fenomen apar innd unei realit|i date reprezint|, de fapt, un proces
de recunoa tere a acelor forme de evolu ie a fenomenului care au cea mai mare probabilitate de realizare. Mai mult, att n
activitatea de predic ie, ct i n procesul de clasificare sau de recunoa tere a formelor, modalit|ile de abordare au o natur |
preponderent probabilistic |. Pe de alt| parte, problema recunoa terii formelor este, ea ns |i, o problem | de predic ie n care,
pornind de la anumite caracteristici ale obiectelor analizate, obiecte numite i forme, se fac predic ii cu privire la apartenen a
acestor obiecte la anumite clase. De altfel, stabilirea apartenen ei formelor la anumite clase reprezint | scopul principal al
utiliz |rii tehnicilor de recunoa tere a formelor.
Semnificativ pentru leg |tura dintre activitatea de predic ie i teoria recunoa terii formelor este faptul c |, n prezent, cele
mai moderne metode i tehnici din domeniul predic iei sunt cele bazate pe o nou | clas | de modele, specifice contur |rii unei noi
modalit|i de abordare n domeniul teoriei recunoa terii formelor, numite re ele neuronale. Modalit|ile de abordare tiin ific |
bazate pe re ele neuronale sunt mult mai concordante cu pronun ata complexitate i imprevizibilitate ce caracterizeaz |
comportamentul fenomenelor i proceselor economico-sociale i ofer | o serie de avantaje importante, n compara ie cu alte
metode i tehnici utilizate n acela i scop.
Avantajele pe care le are modelarea de tip re ea neuronal | sunt comparabile cu avantajele pe care le ofer | modelarea de
tip fuzzy n compara ie cu modelarea clasic |. Spre deosebire de modelele de tip tradiional, care opereaz | n condiii de
simplificare sever |, justificabil| sau nu, a realit|ii, modelele de analiz | i predic ie bazate pe conceptul de re ea neuronal| au
avantajul unei mai mari flexibilit|i i al unei mai mari compatibilit|i cu specificitatea realit|ii modelate, simularea realit|ii
prin intermediul lor avnd un mai mare grad de naturale e.
Pe de alt| parte, modelele de tip re ea neuronal| au avantajul unei continue adaptabilit|i n raport cu modific |rile
intervenite n evolu ia fenomenelor modelate i unei continue autoperfec ion |ri. De asemenea, modelarea bazat | pe re ele
neuronale nu presupune dezvoltarea i utilizarea unui aparat matematic foarte sofisticat, ceea ce face ca implementarea i
utilizarea tehnicilor de acest fel s | fie accesibile unor categorii foarte largi de analiti i cercet|tori.
Re elele neuronale reprezint| modele de mare generalitate i flexibilitate, a c |ror structur | func ional| este continuu
adaptabil| i configurabil| specificului evolu iei unui anumit fenomen i care ncearc | s| simuleze activit|ile de evaluare i
decizie proprii creierului uman.
Tehnicile de recunoa tere a formelor pot fi utilizate n domeniul economico-social pentru rezolvarea unor probleme cum
ar fi: analiza datelor cu grad ridicat de eterogenitate, fundamentarea criteriilor de alegere a proiectelor de dezvoltare, clasificarea
deciziilor n func ie de impactul acestora asupra diverselor compartimente ale vie ii economico-sociale, detectarea unor perioade
76

cu caracter specific din evolu ia unor sisteme economice, stabilirea politicilor de creditare n domeniul financiar-bancar,
evaluarea eficien ei activit|ilor de promovare a unor produse, determinarea perioadelor cele mai potrivite pentru vnzarea
anumitor sortimente de m |rfuri, identificarea celor mai profitabile domenii de afaceri, clasificarea i ierahizarea unor entit|i
economico-sociale etc.
Definiie: Teoria recunoa terii formelor poate fi definit| ca reprezentnd totalitatea normelor, principiilor, metodelor
i instrumentelor de analiz | i decizie utilizate n scopul de a identifica apartenen a unor forme sau obiecte (unit|i,
fenomene, evenimente, ac iuni, procese etc.) la anumite clase cu individualitate bine determinat|.
Se poate spune c | recunoa terea formelor nsumeaz | toate ncerc |rile de construire a acelor modele care simuleaz | modul
n care omul cuantific |, analizeaz |, interpreteaz | i anticipeaz | comportamentul evolutiv al fenomenelor i proceselor.
Din punct de vedere al teoriei sistemelor, recunoa terea formelor poate fi privit| ca un sistem general n care intr |rile
reprezint| mulimea caracteristicilor obiectelor ce urmeaz | a fi clasificate, ie irile reprezint| mulimea claselor posibile din care
pot face parte obiectele analizate, iar func ia de transfer exprim | mecanismul decizional prin care un anumit obiect este
identificat ca f|cnd parte dintr-o anumit| clas |.

8.3 Concepte fundamentale ale teoriei recunoaterii formelor


n teoria recunoa terii formelor se opereaz | cu o mulime de concepte care sunt specifice acestui domeniu i se utilizeaz |
o terminologie proprie. Dintre numeroasele conceptele utilizate n teoria recunoa terii formelor, trei pot fi considerate ca fiind
fundamentale i definitorii pentru esen a i scopurile teoriei recunoa terii formelor: forma, clasa i clasificatorul.
Forma reprezint| expresia numeric | a obiectului studiat n vederea clasific |rii lui ntr-o anumit| clas | i este rezultatul
cuantific |rii principalelor caracteristici posedate de obiectul respectiv.
De i utilizarea alternativ | i cu acela i sens a termenilor obiect i form | nu ridic | nici un fel de problem | legat| de
n elegere, cei doi termeni se deosebesc, totu i, ntre ei. n timp ce obiectul este o entitate cu existen | real|, forma este doar
o reprezentare matematic | a obiectului, definit| sub forma unui vector n-dimensional, ale c |rui componente definesc
caracteristicile obiectului real.
Cu toate c | exist| aceast| deosebire de esen | ntre obiect i form |, n cele mai multe din situa ii vom utiliza cele dou |
concepte n mod intervertibil, ca avnd sens echivalent, nef|cnd deosebire ntre obiect i form | dect n situa iile n care apare
necesitatea unei stricte nuan |ri a celor dou | concepte.
Definiie: Forma sau obiectul este o entitate informa ional| individual|, caracterizat| prin intermediul unui vector ndimensional, ale c |rui componente definesc valorile caracteristicilor acesteia, i care face obiectul procesului de clasificare
sau de predic ie.
Formele implicate ntr-un proces de clasificare pot fi: cump |r |tori, clien i, salaria i, votan i, produse, firme, zone
geografice, |ri, activit|i economice, titluri de valoare etc.
Una dintre ipotezele fundamentale pe care se bazeaz | teoria recunoa terii formelor este aceea c | obiectele analizate sunt
caracterizate de un anumit grad de eterogenitate. Aceasta nseamn | c | se asum |, n mod implicit, existen a posibilit|ii definirii
unor clase distincte pe mulimea obiectelor. Pe de alt| parte, se mai presupune c | anumite obiecte apar innd mulimii analizate
au ceva comun, sunt caracterizate printr-un anumit grad de omogenitate.
n virtutea acestei ultime presupuneri, variabilele explicative ce reprezint| caracteristicile obiectelor au o "substan |"
comun | pentru anumite submulimi ale obiectelor. Cele dou | cerin e impuse mul imii obiectelor analizate sunt cunoscute sub
numele de similaritate i disimilaritate.
Clasa, grupa sau clusterul reprezint| o submulime distinct| de obiecte care verific | urm |toarele dou | propriet|i: obiectele
care alc |tuiesc o clas | sunt omogene din punct de vedere al caracteristicilor lor definitorii; dou | obiecte ntre care exist|
diferen e semnificative din punct de vedere al caracteristicilor definitorii fac parte din clase diferite.
Definiie: Clasa, grupa sau clusterul reprezint| o entitate informa ional| distinct | i cu semnifica ie concret|, format|
din totalitatea obiectelor ale c |ror caracteristici sunt identice sau difer | foarte pu in i care sunt semnificativ diferite de
caracteristicile obiectelor din alte clase sau grupe.
De exemplu, n cazul n care scopul utiliz |rii tehnicilor de clasificare vizeaz | diferen ierea firmelor din punct de vedere
al riscului care afecteaz | performan ele financiare ale acestora, clasele sau grupele pot fi urm |toarele: firme s |n |toase
financiar, firme cu probleme financiare temporare, firme cu risc ridicat de faliment. Dac | tehnicile de clasificare sunt
utilizate pentru a fundamenta deciziile de acordare a creditelor, atunci pot exista dou | clase: clien i solvabili i clien i
insolvabili.
n figurile urm |toare sunt ilustrate dou | situa ii, referitoare la dou | popula ii distincte: prima popula ie este caracterizat|
printr-un grad relativ ridicat de omogenitate, astfel nct ea nu se structureaz | n mod natural sub forma unor clase i deci nu
prezint| interes din punct de vedere al tehnicilor de clasificare. Cea de-a doua popula ie are o natur | eterogen |, fiind structurat|,
cu eviden |, sub forma a dou | clase distincte.

77

Figura 8.1: Mulime relativ omogen |

Figura 8.2: Mulime structurat| pe 2 clase

Num |rul de clase care alc |tuiesc mul imea de ie ire a unui sistem de recunoa tere a formelor variaz | n func ie de specificul
domeniului pentru care se folose te acest sistem i de scopurile urm |rite.
Clasificatorul este un model statistico-matematic care, pe baza informa iilor referitoare la caracteristicile unui anumit
obiect, determin | decizia de clasificare a obiectului ntr-o anumit| clas |. Clasificatorul poate fi privit ca fiind setul de principii,
reguli sau criterii, n func ie de care obiectele analizate sunt atribuite unei clase sau alteia.
Definiie: Clasificatorul sau criteriul de clasificare reprezint| regula sau mul imea de reguli pe baza c |rora obiectele
care apar in mulimii analizate sunt afectate sau atribuite unor clase sau grupe bine definite.
n func ie de natura regulilor utilizate n procesul de clasificare, exist| mai multe categorii de clasificatori: clasificatori ierarhici, clasificatori de cost minim, clasificatori de distan | minimal|, clasificatori de tip Bayes-ian, clasificatori euristici etc.

8.4 Formularea problemei generale de clasificare


Sub cea mai general| form | a sa, problema de clasificare poate fi formulat| n termenii teoriei deciziei, iar metodele de
clasificare pot fi definite sub forma unor instrumente decizionale specifice.
Vom descrie n continuare modul n care problema de clasificare poate fi definit| ca o problem | decizional|. n acest scop,
vom presupune existen a unei popula ii de forme sau de obiecte, notat| cu
i definit| sub forma:
,
unde M reprezint| num |rul de unit|i ale popula iei analizate.
Fiecare obiect care alc |tuie te popula ia este definit prin intermediul unui num |r de N caracteristici, pe care le vom nota
cu
i care se numesc variabile explicative. n acest fel, un obiect din popula ia poate fi reprezentat sub forma
unui vector N-dimensional de forma:
.
Variabilele explicative, care definesc caracteristicile obiectelor analizate, sunt m |rimile n func ie de care se stabile te
apartenen a unui obiect din popula ia
la una dintre clasele popula iei , adic | m |rimile n func ie de care se poate face
mp |r irea acestei popula ii pe grupe sau clase. Variabilele explicative pot fi variabile de tip calitativ sau cantitativ. Ele pot fi
m |surate pe una dintre cele patru scale cunoscute, respectiv scala nominal|, scala ordinal|, scala interval sau scala raport.
n cazul n care variabilele explicative sunt de tip cantitativ, mulimea lor poate fi privit| ca o submulime a spa iului real
N-dimensional, ceea ce nseamn | c |
.
Dintre elementele care reprezint| variabilele explicative unele pot s| aib | o putere de discriminare mai redus|, iar altele
pot s| aib | o putere de discriminare mai mare. Din acest punct de vedere, n construirea algoritmilor de clasificare trebuie s |
fie selectate acele variabile care au puterea de discriminare cea mai mare. De exemplu, n clasificarea firmelor n func ie de
riscul posibil al evolu iei viitoare a acestora, este plauzibil s | consider |m c | o variabil| cum ar fi ponderea for ei de munc |
feminine are o influen | mai redus | n diferen ierea firmelor pe clase de risc, n timp ce o variabil| cum ar fi rata profitului
are o putere mult mai mare de discriminare a firmelor pe categorii de risc, n func ie de gradul de risc care poate afecta evolu ia
acestora.
Variabilele cu puterea de discriminare cea mai mare, definesc acele caracteristici ale obiectelor care permit o diferen iere
mai puternic | a claselor n care pot fi grupate respectivele obiecte i se numesc variabile descriptor. Pentru un anumit obiect,
vectorul de valori ale variabilelor descriptor reprezint| chiar forma asociat| respectivului obiect.
Vom presupune n continuare c | variabilele cu putere mare de discriminare reprezint| o submulime, pe care o vom nota
cu
, a mulimii
, respectiv:
.
Lund n considerare numai variabilele descriptor, orice obiect din popula ia
unui vector n-dimensional de forma:
,
vector cunoscut sub numele generic de form |.
78

poate s | fie reprezentat prin intermediul

Vom nota n continuare cu


mulimea formelor asociate tuturor obiectelor din popula ia , mulime cunoscut | sub
numele de spa iul formelor. Dac | cele n caracteristici ale obiectelor din popula ia
au valori numerice de tip continuu, atunci
mulimea
este o submulime a spa iului real n-dimensional, respectiv
.
Din punct de vedere concret, popula ia de obiecte
poate fi alc |tuit | din firme, b |nci, clien i, cump |r |tori, |ri, zone
economice etc. n cazul n care obiectele din popula ia
sunt firme, variabilele descriptor pot fi reprezentate de o serie de
indicatori economico-financiari, care caracterizeaz | activitatea acestor firme, cum ar fi: cifra de afaceri, m |rimea profitului, rata
pofitului, gradul de ndatorare, volumul investiiilor etc.
n raport cu o manifestare sau cu o ac iune viitoare, elementele popula iei
se pot g |si ntr-una din mai multe st |ri
poten iale, numite st|ri ale naturii. St|rile naturii reprezint| conjuncturi fizice, economice sau sociale, n raport cu care
mulimea de obiecte analizate se structureaz | sub forma unor categorii bine individualizate.
Vom nota cu
mulimea st|rilor naturii i vom presupune existen a aprioric | a K st |ri posibile ale naturii, ceea ce
nseamn | c | mulimea
este de forma:
.
Cele K st|ri posibile ale naturii se caracterizeaz | prin exhaustivitate i prin exclusivitate reciproc |. Aceasta nseamn | c |
n afara celor K st|ri ale naturii nu mai poate exista nici o alt| stare posibil| a naturii, respectiv c | dou | st|ri diferite ale naturii
nu se pot manifesta niciodat| simultan. De exemplu, din punct de vedere al perspectivelor de evolu ie n viitor, firmele dintr-o
anumit| ar | se pot g |si, la un moment dat, n trei st|ri posibile: firme performante, firme cu dificult|i temporare i firme cu
risc ridicat de faliment. Determinarea, dinainte, a st|rii posibile n care se va afla o firm | n viitor, prezint| o importan | maxim |
pentru orice decident, client sau investitor.
Caracteristica principal | a unei probleme de clasificare const | n faptul c | de i st|rile posibile ale naturii sunt cunoscute
aprioric, ca num |r, ca natur | i ca plauzibilitate a manifest |rii, iar fiecare element al popula iei
se g |se te n mod sigur ntruna, i numai ntr-una, din aceste st |ri, de obicei nu se cunoa te, cu precizie i n mod aprioric, n care dintre st|rile naturii se
g |se te fiecare dintre unit|ile popula iei.
Principala problem | care se pune n acest context const | n identificarea st|rii n care se afl| o anumit| unitate din popula ia
, adic | n stabilirea apartenen ei acestei unit|i la o anumit| categorie, clas | sau grup |. Cele K st|ri ale naturii, n care se pot
g |si elementele mulimii , definesc o mp |r ire a popula iei
n K grupe sau clase, pe care le vom nota cu
.
Spre deosebire de st |rile naturii, care pot fi privite ca fiind realiz |ri ale unei variabile aleatoare de tip discret, clasele sau
grupele reprezint| submulimi de obiecte din popula ia , toate obiectele dintr-o astfel de submulime avnd proprietatea c |
se g |sesc n aceea i stare a naturii.
n calitatea sa de submulime a popula iei
unde

, o clas | poate fi definit| sub forma urm |toare

este num |rul de obiecte din clasa k.

Ca o consecin | direct| a propriet|ilor pe care le au cele K st |ri ale naturii, clasele care trebuie identificate la nivelul
popula iei , verific | urm |toarele dou | propriet|i:
.
Prima proprietate implic | faptul c | orice obiect din popula ia
face parte, cu necesitate, dintr-una din cele K clase. Cea
de-a doua proprietate implic | faptul c | un anumit obiect nu poate s | fie afectat sau atribuit, n acela i timp, la dou | clase diferite.
Mai mult dect att, este verificat|, n plus fa | de cele dou | condiii, i condiia:
.
Modul n care mul imea st|rilor naturii poate induce o structurare pe clase a popula iei
este ilustrat n tabelul urm |tor.
Tabelul 8.1
St|ri ale naturii

...

Clase n
popula ia

Variabile
descriptor

Obiecte pe clase

...

Scopul principal al metodelor i tehnicilor de clasificare este acela de a explica apartenen a obiectelor mul imii
grupele sau clasele
, utiliznd n acest scop informa iile reprezentate de valorile variabilelor descriptor

la
.

Explicarea apartenen ei obiectelor mul imii la cele K clase presupune, de fapt, deducerea sau identificarea unui criteriu
de clasificare sau a unei reguli de clasificare, care s | descrie modul de structurare a obiectelor popula iei pe clase. Criteriul de

79

clasificare mai este cunoscut i sub numele de clasificator.


Deducerea criteriului de clasificare se face pe baza informa iilor furnizate de un e antion extras din popula ia , e antion
format din obiecte a c |ror apartenen | la clasele
poate fi cunoscut| sau necunoscut| n mod aprioric.
Avnd n vedere cele men ionate anterior, problema general| a clasific |rii poate fi formulat| sub forma urm |toare:
Problema general| a clasific |rii: Fiind dat| o mulime de obiecte, se cere s | se determine criteriul sau regula care s |
descrie apartenen a obiectelor la clasele sub forma c |rora se structureaz | respectiva mulime de obiecte.
n func ie de cunoa terea sau necunoa terea aprioric | a apartenen ei la cele K clase a obiectelor care apar in e antionului
extras din popula ia , metodele de clasificare se mpart n dou | mari categorii: de clasificare controlat| i de clasificare
necontrolat|.
Odat | ce criteriul de clasificare a fost stabilit, el poate fi folosit, n continuare, pentru efectuarea de predic ii privind
apartenen a la o anumit| clas | a unor noi obiecte, din afara e antionului existent, obiecte a c |ror apartenen | nu este cunoscut|
aprioric. Dup | ce criteriul de clasificare a fost identificat, i cu condiia ca apartenen a obiectelor apar innd e antionului
disponibil s | fie cunoscut|, el poate fi utilizat i pentru verificarea corectitudinii cu care acesta poate face clasificarea, adic |
pentru testarea calit|ii clasificatorului. Calitatea criteriului de clasificare poate fi testat| chiar pe obiectele din e antionul pe
care acest criteriu a fost identificat. n acest scop, fiecare obiect din e antion, a c |rui apartenen | la o anumit| clas | este
cunoscut| n mod efectiv, este reclasificat cu ajutorul respectivului criteriu, iar rezultatul noii clasific |ri este comparat cu
clasificarea real|.
Testarea clasificatorului poate s | conduc | la o clasificare corect| a unor obiecte din e antionul analizat i la o clasificare
incorect| a altor obiecte din acest e antion. Aceasta nseamn | c | utilizarea clasificatorului respectiv poate s | conduc | la situa ia
n care obiectele care apar in n mod real unei anumite clase s | fie clasificate fie n clasa corect|, fie incorect, n oricare din
celelalte clase.
Modul n care un clasificator asigur | clasificarea obiectelor cu apartenen | cunoscut| poate fi descris prin intermediul unei
matrici, numit| matricea corectitudinii clasific |rii sau, mai simplu, matricea clasific |rii, care con ine informa iile necesare
pentru a aprecia corectitudinea clasific |rii obiectelor.
Dac | vom considera un e antion format din T obiecte, care apar in claselor
, atunci matricea de clasificare
are forma din tabelul urm |tor.
Matricea clasific |rii
Tabelul 8.2
Clase de predic ie
Clase reale

Obiecte
de clasificat

...
...
...

...

...

...

...

...

...

...
Obiecte
clasificate
Un element

...

al matricii de clasificare arat| num |rul de obiecte apar innd n mod real clasei

tehnicilor de recunoa tere a formelor, sunt clasificate n clasa

i care, prin utilizarea

. Definind n acest fel elementele matricii de clasificare, rezult|

c | num |rul de obiecte clasificate corect este reprezentat de suma elementelor de pe diagonala principal | a matricii clasific |rii,
respectiv:
.
Similar, num |rul de obiecte clasificate incorect este reprezentat de suma elementelor aflate n afara diagonalei principale
a matricii clasific |rii, respectiv:
.
Suma valorilor dintr-o linie a matricii de clasificare reprezint| num |rul de obiecte din clasa de provenien | ce corespunde
liniei respective, indiferent de clasele n care au fost clasificate acestea. Astfel,
reprezint| num |rul de obiecte din clasa de
provenien |

, indiferent de clasa n care acestea au fost clasificate. n mod similar, suma valorilor dintr-o coloan | a matricii

de clasificare reprezint| num |rul de obiecte clasificate n clasa corespunz |toare coloanei, indiferent de clasa de provenien |
a obiectelor. Rezult| c |
reprezint| num |rul de obiecte clasificate n clasa
, indiferent de clasa de provenien | a acestora.
Pe baza informa iilor din matricea de clasificare pot fi defini i o serie de indicatori care caracterizeaz | corectitudinea
clasific |rii. Printre ace tia men ion |m:
80

gradul de clasificare corect|:


;
gradul de clasificare incorect|:
.
mpreun | cu ali indicatori specifici, cei doi indicatori definii anterior sunt folosii pentru a aprecia calitatea unui clasificator, adic | m |sura n care acesta reu e te s | detecteze n mod corect apartenen a obiectelor la clasele popula iei analizate. O
clasificare este cu att mai corect|, cu ct valoarea indicatorului
este mai mare.
Totalitatea activit|ilor desf |urate n contextul unui proces de recunoa tere a formelor, mpreun | cu mulimea de metode
i tehnici utilizate n scopul stabilirii apartenen ei formelor la anumite clase sau grupe, determin | conceptul cunoscut sub numele
de sistem de recunoa tere a formelor.

8.5 Sisteme de recunoatere a formelor


Complexitatea activit|ilor care apar n cadrul solu ion |rii oric |rei probleme de recunoa tere a formelor, succesiunea i
condiionarea fazelor care compun demersul logic ntreprins n cadrul acestor probleme, precum i func ionalitatea specific |
ce caracterizeaz | acest demers, confer | procesului de recunoa tere a formelor un pronun at caracter de sistem. Din acest motiv,
totalitatea activit|ilor implicate ntr-un proces de recunoa tere a formelor, ansamblul informa iilor manipulate n acest context
i mulimea procedurilor, algoritmilor, metodelor i tehnicilor utilizate n acest scop, sunt privite ca reprezentnd un sistem,
numit sistem de recunoa tere a formelor.
Ca sistem de prelucrare informa ional|, un sistem de recunoa tere a formelor este format dintr-o mulime de activit|i,
reguli, proceduri, metode i tehnici, care au ca scop general identificarea apartenen ei unui obiect sau unei forme la o anumit|
clas | bine determinat| din popula ia analizat|.
Func ionarea unui sistem de recunoa tere a formelor presupune existen a aprioric | a unor informa ii, care vor fi folosite
n procesul de clasificare. Aceste informa ii pot fi reprezentate, dup | caz, fie de o ntreag | popula ie de forme, fie numai de un
e antion de forme, extrase dintr-o popula ie de interes.
Intr |rile unui sistem de recunoa tere a formelor sunt reprezentate de vectorii de propriet|i ale obiectelor, adic | de formele
propriu-zise, iar ie irile sistemului de recunoa tere a formelor sunt reprezentate de clasele de apartenen | ale formelor de intrare,
clase identificate cu ajutorul unor reguli specifice de clasificare. Vectorii de propriet|i ale obiectelor sunt rezultatul unor
procese de observare, m |surare i nregistrare a nivelurilor caracteristicilor mul imilor sau submulimilor de obiecte, iar
informa iile privind apartenen a obiectelor la anumite clase sau categorii sunt rezultatul unor procese de evaluare complex |,
bazate pe utilizarea unor proceduri i instrumente specifice, de natur | statistico-matematic |.
Exist| dou | tipuri fundamentale de sisteme de recunoa tere a formelor: sisteme de recunoa tere necontrolat| i sisteme
de recunoa tere controlat|. Aceste dou | tipuri de sisteme de recunoa tere a formelor sunt determinate de scopurile urm |rite,
de natura informa iilor pe care le prelucreaz |, de specificitatea metodelor i intrumentelor utilizate, precum i de natura
rezultatelor ob inute cu ajutorul acestora.

8.5.1 Sisteme de recunoatere necontrolat|


Sistemele de recunoa tere necontrolat| a formelor sunt sistemele n cadrul c |rora nu se dispune de informa ii iniiale
referitoare la num |rul de clase i la apartenen a formelor la anumite clase, construirea claselor f|cndu-se progresiv, pe m |sura
cre terii num |rului de forme analizate, iar num |rul de clase posibile fiind stabilit doar n faza final| a procesului de
recunoa tere.
Caracteristica principal | a sistemelor de recunoa tere necontrolat| a formelor const | n faptul c | nu se cunoa te
apartenen a obiectelor analizate la o clas | sau alta. Aceasta nseamn | c |, n mod implicit, nu se cunoa te cu precizie nici
num |rul de clase. n leg |tur | cu aceast | ultim | afirma ie, consider |m c | este necesar s| facem urm |toarea precizare important |:
o serie de algoritmi de clasificare necontrolat|, cum ar fi de exemplu algoritmii de partiionare, presupun fixarea aprioric | a
num |rului de clase n care vor fi mp |r ite obiectele analizate. Aceasta nu nseamn | ns | c | este cunoscut, n mod real, i
num |rul de clase, ci doar c | se face o presupunere cu privire la acest num |r.
Principiile, procedurile, metodele i tehnicile apar innd sistemelor de recunoa tere necontrolat| a formelor sunt cunoscute
sub denumirea general| de tehnici de clasificare, clasificare nesupervizat| sau analiz| cluster.
Analiza cluster este o tehnic | de clasificare caracterizat| prin faptul c | afectarea formelor sau obiectelor n clustere sau
grupe se face progresiv i f|r | a cunoa te aprioric num |rul de clase, n func ie de verificarea a dou | criterii fundamentale:
a. obiectele sau formele clasificate n fiecare clas | s | fie ct mai similare din punct de vedere al anumitor caracteristici;
b. obiectele clasificate ntr-o clas | s | se diferen ieze ct mai mult de obiectele clasificate n oricare din celelalte clase.
Primul criteriu de afectare a formelor pe clase cere ca fiecare clas | s | fie ct mai omogen | n raport cu caracteristicile luate
n considerare pentru clasificarea obiectelor. Cel de-al doilea criteriu cere ca fiecare clas | s | difere ct mai mult din punct de
vedere al caracteristicilor de clasificare.
n func ie de caracteristicile procedurilor pe care le utilizeaz |, de ipotezele iniiale pe care se bazeaz | i de natura
rezultatelor ob inute cu ajutorul lor, metodele de analiz | cluster se mpart n dou | mari categorii: metode de clusterizare
81

ierarhic | i metode de clasificare prin partiionare sau metode iterative.


Prima categorie include metodele de clusterizare prin agregare i metodele de clusterizare prin divizare. Pentru fiecare
dintre cele dou | tipuri de clusterizare exist| mai multe proceduri specifice, ntre care men ion |m: metoda agreg |rii simple,
metoda agreg |rii complete, metoda agreg |rii medii, metoda lui Ward etc.
Cea de-a doua categorie include o serie de algoritmi, ntre care men ion |m: algoritmul celor K-medii, algoritmul celor Kmedoizi, algoritmul CLARA, algoritmul fuzzy etc.
n ceea ce prive te rezultatele furnizate de sistemele de recunoa tere necontrolat| a formelor, preciz |m c | ie irile acestor
sisteme nu se reduc, de regul|, la o unic | i simpl | configurare a obiectelor analizate pe clase, ci includ mai multe variante de
configurare a obiectelor pe clase, variante con inute ntr-o entitate informa ional| numit| structur | cluster sau ierarhie cluster.
Ierahia cluster ofer | posibilitatea cercet|torului de a alege o anumit| configurare a obiectelor pe clase, ceea ce nseamn |,
implicit, i alegerea unui anumit num |r de clase.
Sistemele de recunoa tere necontrolat| sunt utilizate mai mult pentru scopuri de sistematizare, grupare i sintetizare
informa ional|, n situa iile n care sunt analizate cantit|i foarte mari de date i aceste date se caracterizeaz | printr-un grad
ridicat de eterogenitate. n acest sens, tehnicile de recunoa tere necontrolat| a formelor sunt foarte utile i eficiente n activit|ile
de analiz | preliminar| a datelor. Utilizarea analizei cluster n aceast | faz | a analizei datelor este important | deoarece ea permite
organizarea mai eficient | a datelor eterogene. Reg |sirea informa iilor n cadrul masivelor de date structurate cu ajutorul
tehnicilor de analiz | cluster devine mult mai u oar |, iar datele pot fi interpretate mult mai consistent.

8.5.2 Sisteme de recunoatere controlat|


Sistemele de recunoa tere controlat| a formelor sunt acele sisteme n cadrul c |rora se presupune existen a aprioric | a unui
num |r dat de clase i a unui set de forme, numite prototipuri sau referin e, a c |ror apartenen | la aceste clase este cunoscut|.
Acest set de forme este reprezentat de e antionul de obiecte extrase din popula ia supus | studiului, e antion cunoscut i sub
numele de set de formare sau set de nv |are.
Definiie: Setul de formare sau setul de nv |are este un e antion de forme extrase din popula ia studiat|, forme a c |ror
apartenen | la clasele popula iei este cunoscut| i pe baza c |rora sunt deduse criteriile formale de clasificare.
n cadrul sistemelor de recunoa tere controlat| a formelor, datele reprezentate de setul de formare includ att informa ii
referitoare la propriet|ile esen iale ale obiectelor supuse analizei, ct i informa ii referitoare la apartenen a acestor obiecte la
clasele existente. Pe baza acestor informa ii iniiale, se deduc regulile i criteriile de decizie pentru parti ionarea sub form | de
regiuni sau clase a mulimii de obiecte supus | studiului sau a spa iului n care iau valori caracteristicile obiectelor.
De fapt, n cazul tehnicilor de acest fel informa iile con inute n setul de formare sunt folosite pentru a face inferen e cu
privire la mp |r irea popula iei totale pe clase. Mai mult dect att, din aplicarea tehnicilor de clasificare controlat| rezult| i
un set de reguli i criterii formale de clasificare, adic | un clasificator. Aceste reguli i criterii sunt folosite, n continuare, pentru
clasificarea unor noi forme neclasificate nc |, forme a c |ror apartenen | este necunoscut|, adic | pentru a face predic ii cu privire
la apartenen a noilor forme.
n mod uzual, setul iniial de forme este mp |r it n dou | subseturi folosite n scopuri diferite: primul subset este numit set
de formare i con ine acele forme utilizate pentru deducerea regulilor i criteriilor de clasificare, adic | pentru construirea
clasificatorului propriu-zis; al doilea subset este numit set de predic ie i con ine acele forme utilizate pentru testarea
clasificatorului construit pe baza setului de formare.
Definiie: Sistemul de recunoa tere controlat| a formelor reprezint| totalitatea activit|ilor i procedurilor care au ca
scop deducerea unor criterii de partajare a unei popula ii de entit|i informa ionale (obiecte sau variabile), sub forma unui
num |r cunoscut de clase, pe baza cunoa terii caracteristicilor i a apartenen ei elementelor unui e antion provenit din
respectiva popula ie.
Spre deosebire de tehnicile de clasificare necontrolat|, care se bazeaz |, n principal, pe utilizarea conceptului de distan |,
elementul fundamental al tehnicilor de clasificare controlat| este un model formal, numit clasificator. n cazul analizei
discriminante, clasificatorul este reprezentat de func iile discriminat sau de func iile de clasificare.

8.6 Analiza cluster


Preocup |rile legate de metodele i tehnicile de analiz | cluster dateaz | de peste o jum |tate de secol. Primele i cele mai
sistematice studii dedicate acestui domeniu sunt reprezentate de lucr|rile elaborate de Sokal i Sneath n anul 1963 i de Lance
i W illiams n anul 1967. Ulterior, preocup |rile tiin ifice din domeniul analizei cluster s-au nmulit aproape exponen ial i s-au
diversificat extrem de mult.
n multitudinea preocup |rilor i lucr|rilor dedicate domeniului analizei cluster pot fi identificate dou | importante curente
tiin ifice, reprezentate de coala american | i de coala francez |. Printre cei mai de seam | reprezentan i ai colii franceze se
num |r |: J. P. Benzecri, M. Jambu, L. Lebart, A. Morineau, B. Escofier, G. Saporta i M. Bardos.
Analiza cluster are ca scop c |utarea i identificarea de clase, grupe sau clustere n cadrul unor mulimi de obiecte sau
forme, astfel nct elementele care apar in aceleia i clase s | fie ct mai asem |n |toare, iar elementele care apar in la clase diferite
s | fie ct mai deosebite ntre ele. Altfel spus, analiza cluster este o modalitate de examinare a similarit|ilor i disimilarit|ilor
dintre obiectele apar innd unei anumite mulimi, n scopul grup |rii acestor obiecte sub forma unor clase distincte ntre ele i
omogene n interior.

82

Aceasta nseamn | c | n toate situa iile, criteriul general de clasificare este, de fapt, un criteriu combinat, care poate fi
formulat sub urm |toarea form |:
Criteriu general de clasificare: Clasificarea obiectelor n clase se face n a a fel nct s| se asigure o variabilitate
minim | n interiorul claselor i o variabilitate maxim | ntre clase.
Termenul de analiz| cluster a fost utilizat pentru prima oar | n anul 1939, de c |tre R. C. Tyron, n lucrarea Cluster
Analysis. Acest termen este folosit n prezent ca nume generic pentru o mulime variat| de proceduri i algoritmi de clasificare
de tip necontrolat.
Prin intermediul analizei cluster fiecare obiect din mulimea analizat| este atribuit unei singure clase, iar mul imea claselor
este o mulime discret| i neordonabil|. Clasele rezultate n urma utiliz |rii analizei cluster au o semnifica ie concret| i
generalizatoare, pe baza c |reia pot fi efectuate o serie de interpret|ri i pot fi formulate o serie de concluzii importante pentru
procesul de cunoa tere.
Clasele sau grupele sub forma c |rora se structureaz | mul imile de obiecte se mai numesc i clustere. Un cluster este o
submulime format| din obiecte similare, adic | din obiecte care sunt suficient de asem |n |toare ntre ele din punct de vedere
al caracteristicilor care le definesc.
Definiie: Clusterul este o submulime format| din obiecte care au proprietatea c | gradul de disimilaritate dintre oricare
dou | obiecte apar innd clusterului este mai mic dect gradul de disimilaritate dintre orice obiect care apar ine clusterului
i orice obiect care nu apar ine clusterului respectiv.
Clusterul poate fi privit i ca reprezentnd o regiune a unui spa iu multidimensional, caracterizat| printr-o densitate relativ
mare de puncte sau de obiecte. De exemplu, n cazul aplica iilor informatice, clusterul poate s | fie reprezentat de o submulime
de documente de acela i tip sau cu con inut asem |n |tor. Aceste documente pot fi programe surs |, pagini W EB, fiiere de tip
text, fiiere HTML etc. Un astfel de document poate fi privit ca un punct dintr-un spa iu multidimensional, n care fiecare
dimensiune a spa iului este asociat| cu un anumit cuvnt. Coordonatele care definesc pozi ia unui document n acest spa iu sunt
reprezentate de frecven ele cu care apar diferitele cuvinte n cadrul documentului.
Din punct de vedere geometric, ca mulimi de puncte dintr-un anumit spa iu, clusterele pot avea forme foarte diferite, mai
mult sau mai pu in regulate. Astfel, forma clusterelor poate s| fie de tip convex sau concav, de tip compact sau de tip alungit
etc. n figura urm |toare sunt ilustrate cteva dintre formele posibile ale clusterelor, pentru cazul particular al obiectelor de tip
bidimensional.

Figura 8.3: Forme posibile ale clusterelor de obiecte bidimensionale


Tipurile de forme pe care le pot avea clusterele n realitate sunt foarte importante n analiza cluster, deoarece att eficien a
procesului de clasificare, ct i calitatea solu iilor, depind foarte mult de formele clusterelor, mai ales n cazul unor algoritmi
de clasificare ierarhic | prin agregare.
De regul|, analizele de tip cluster reprezint| proceduri de clasificare de tip necontrolat, n care nu este cunoscut| aprioric
nici apartenen a anumitor obiecte la anumite clase, nici num |rul de clase posibile. Num |rul de clase sau clustere este variabil
i este stabilit concomitent cu activitatea de clasificare propriu-zis|.
Definiie: Analiza cluster poate fi definit| ca reprezentnd o mulime de principii, metode i algoritmi de clasificare,
avnd ca scop organizarea datelor sub forma unor structuri informa ionale semnificative, relevante.
Analiza cluster este o analiz| explorativ |, de tip multidimensional, care are ca scop gruparea unor entit|i informa ionale,
cu natur | fizic | sau abstract|, n clase sau clustere alc |tuite din entit|i inform ionale cu grad ridicat de similaritate.
Din punct de vedere concret, efectuarea unei clasific |ri cu ajutorul metodelor i tehnicilor de analiz | cluster const | n
ob inerea unor solu ii cluster sau a unor partiii, reprezentate de o mulime de clase sau clustere notate cu
, care
verific | propriet|ile men ionate anterior. n cazul anumitor metode de clasificare, rezultatele clasific |rii sunt reprezentate de
solu ii cluster unice, n timp ce n cazul altor metode de clasificare, cum ar fi metodele de clasificare ierarhic | de tip
aglomerativ, sunt reprezentate de mulimi de solu ii cluster, numite ierarhii de solu ii cluster sau ierarhii de partiii. n aceste
situa ii, este necesar s| se aleag | din mulimea de solu ii cluster, adic | din ierarhia de parti ii, o singur | solu ie cluster sau o
singur | parti ie.
De i alegerea unei anumite parti ii se face, n principal, n func ie de scopurile urm |rite n analiz |, pentru a se ob ine o
clasificare consistent | i semnificativ |, este necesar alegerea parti iei s| se bazeze pe o evaluare ct mai riguroas | a calit|ii
tuturor parti iilor care alc |tuiesc ierarhia cluster.

83

Din punct de vedere strict teoretic, analiza cluster poate fi privit| ca reprezentnd o modalitate specific | de construire a
uneia sau a mai multor partiii pe mulimea obiectelor analizate. Orice parti ie de acest fel define te o solu ie cluster, adic | un
anumit mod de grupare pe clase a obiectelor mul imii supuse studiului.
Din punct de vedere strict matematic, analiza cluster poate fi privit| ca o modalitate de alegere a celei mai adecvate partiii
sau submulimi din cadrul familiei de p |r i a mulimii de obiecte analizate.
n analiza cluster, ierarhiile cluster sunt formate dintr-un num |r de T solu ii cluster, fiecare solu ie con innd clustere din
ce n ce mai mari, respectiv clustere cu niveluri de agregare din ce n ce mai ridicate. O ierarhie cluster are o structur | de forma
urm |toare:

unde T este num |rul de obiecte, iar

este num |rul de clustere din solu ia cluster de la nivelul i.

n cazul metodelor ierarhice aglomerative, num |rul de clustere din prima parti ie este egal cu num |rul de obiecte, adic |
. De asemenea, num |rul de clustere dintr-o parti ie de la un anumit nivel este mai mic cu 1 dect num |rul de clustere din
parti ia de la nivelul inferior i mai mare cu 1 dect num |rul de clustere din parti ia de la nivelul superior, respectiv:
.
Avnd n vedere c | prima parti ie ob inut| dintr-o clasificare ierarhic | aglomerativ | este solu ie cluster de tip banal,
reprezentat| chiar de lista obiectelor supuse clasific |rii, rezult| c | num |rul de parti ii propriu-zise, ob inute ca solu ii ale
clasific |rilor de acest tip, este egal cu T-1.
Analiza cluster se deosebe te n mod fundamental de procedurile de natur | statistic |, cum ar fi cele care au ca scop
verificarea semnifica iei, prin faptul c | ea nu se bazeaz | i nu presupune ndeplinirea aprioric | a nici unei ipoteze specifice. n
consecin |, prin esen a sa, analiza cluster constituie un important i eficient instrument de analiz| exploratorie.
Se poate spune c | scopul general al analizelor de tip cluster este acela de creare a a a-numitelor taxonomii sau tipologii.
Construc ia tipologiilor este bazat| pe analiza asem |n |rilor i deosebirilor existente ntre obiectele unei mulimi date.
Necesitatea de a construi tipologii apare n cele mai diverse domenii de activitate, existen a tipologiilor oferind largi
posibilit|i pentru analiza i interpretarea fenomenelor apar innd acestor domenii.
De i folosirea tehnicilor de analiz | cluster nu este specific | doar pentru anumite domenii de activitate, totu i, utilizarea
cea mai frecvent | a acestora este ntlnit | n domeniul marketingului, n investiga iile de natur | psihosocial| sau n evalu |rile
econo-micosociale la nivel teritorial.
n domeniul marketingului, se deta eaz | aplica iile tehnicilor de analiz | cluster n studierea comportamentului
consumatorilor. Aceste aplica ii vizeaz | evaluarea anselor pe care poate s | le aib | lansarea unui produs nou, identificarea unor
noi pie e, modalit|ile de segmentare a pie ii sau identificarea poziion |rii pe pia | a produselor diferiilor produc |tori.
Posibilitatea de a deduce tipologii specifice pe mulimea clienilor unei firme este deosebit de important | pentru fundamentarea
i stabilirea politicilor comerciale ale firmei.
n cazul determin |rii pozi ion |rii pe pia | a diferitelor m |rci ale unui produs, analiza cluster este folosit| pentru a clasifica
m |rcile de fabrica ie, n func ie de similitudinea sau disimilitudinea percep iilor pe care le manifest | consumatorii fa | de aceste
m |rci. Pe baza modului n care se clasific | m |rcile i a caracteristicilor consumatorilor care i manifest | preferin ele, un
produc |tor poate identifica m |rcile concurente i tr |s |turile specifice ale categoriilor de consumatori care prefer | produsul
acestui produc |tor. De exemplu, m |rcile aflate n aceea i clas| cu marca unui produc |tor sunt m |rci concurente, deoarece ele
se adreseaz | aceluia i segment de consumatori.
Tehnicile specifice analizei cluster sunt deosebit de necesare i utile n orice proces de analiz | a datelor, nu numai n cele
care vizeaz | n mod direct necesit |i legate de clasificare. De exemplu, utilizarea acestor tehnici este extrem de important |
pentru acele procese de analiz | n care cantitatea de informa ie ce trebuie prelucrat| este att de mare i variat| nct extragerea
a ceea ce este legic, esen ial i semnificativ n aceast| cantitate informa ional |, devine imposibil| dac | nu sunt folosite
instrumente corespunz |toare de sintetizare i structurare a informa iei brute. n acest context, tehnicile de analiz | cluster sunt
utilizate, cu prec |dere, pentru sistematizarea informa iilor supuse analizei, activitate care este strict necesar | n faza de analiz |
preliminar| a datelor.
Identificarea pe o mare cantitate de informa ii brute a unor categorii, clase sau grupe informa ionale reprezint| unul dintre
scopurile generale i, n acela i timp, principale ale oric |rei analize cluster.
n mod sintetic, efectuarea unei analize cluster, avnd ca scop clasificarea unei mulimi de obiecte, cuprinde urm |toarele
etape:
alegerea caracteristicilor n func ie de care se va face clasificarea;
alegerea tipului de m |sur | pentru evaluarea proximit|ii dintre obiecte;
stabilirea regulilor de formare a claselor sau clusterelor;
construirea claselor, adic | ncadrarea obiectelor n clase;
verificarea consisten ei i semnifica iei clasific |rii;
84

alegerea unui num |r optimal de clustere, n func ie de natura problemei de clasificare i de scopurile care se
urm |resc;
interpretarea semnifica iei clusterelor;
Rezultatele unei analize cluster sunt reprezentate fie de o singur | solu ie cluster, fie de ierarhii cluster, care con in diferite
modalit|i de configurare a obiectelor pe clase, adic | mai multe solu ii cluster. n cel de-al doilea caz, pe baza efectu |rii unei
t|ieturi n ierarhia cluster, utilizatorul are posibilitatea alegerii unei configura ii a obiectelor pe un anumit num |r dorit de clase.
Pe baza rezultatelor ob inute n urma efectu |rii unei analize cluster, pot fi deduse anumite legit|i care guverneaz | evolu ia
unor popula ii de fenomene, pot fi identificate anumite principii utile pentru procesul de cunoa tere sau pot fi formulate o serie
de concluzii tiin ifice cu caracter de generalitate. n acest sens, analiza cluster i rezultatele ob inute pe baza acesteia pot
contribui la:
definirea unor scheme de clasificare formal| i a unor tipologii, pe baza c |rora realit|ile complexe pot fi mai
bine cunoscute i n elese;
identificarea unor modele statistico-matematice cu ajutorul c |rora mulimi complexe i eterogene de fenomene
i procese pot fi sintetizate i reprezentate sub o form | simplificat| i inteligibil|;
definirea mai corect| i mai complet| a caracteristicilor fundamentale ale unor popula ii de fenomene i
procese;
deducerea unor m |suri numerice adecvate pentru caracterizarea dimensiunilor popula iilor de fenomene i
pentru eviden ierea modific |rilor care au loc n nivelul i structura acestora;
identificarea unor entit|i individuale care sunt reprezentative pentru clase i categorii complexe de fenomene
i procese.
Din cele de mai sus, rezult| c | analiza cluster poate fi privit |, n general, ca un instrument care are ca scop reducerea unor
mulimi de obiecte, sau chiar de variabile, la un num |r mai restrns de entit|i informa ionale, care sunt clasele sau clusterele.
Din acest punct de vedere, se poate face o analogie ntre analiza cluster i analiza componentelor principale, cu men iunea c |
n analiza componentelor principale reducerea vizeaz |, de regul|, variabilele.
n sensul s|u obinuit, ca ansamblu de metode i tehnici de clasificare a obiectelor, analiza cluster este o analiz | efectuat|
n spa iul variabilelor. ntr-adev |r, cele mai multe utiliz |ri ale tehnicilor de analiz | cluster sunt cele care au ca scop clasificarea
obiectelor, i nu clasificarea variabilelor.
Exist| ns | i situa ii n care analiza cluster este folosit| pentru clasificarea variabilelor care caracterizeaz | obiectele, adic |
situa ii n care analiza este efectuat| n spa iul obiectelor. n aceste situa ii, analiza cluster poate servi ca instrument de agregare
a caracteristicilor obiectelor, sub forma unor caracteristici generale i cu relevan | ridicat| din punct de vedere al posibilit|ilor
de interpretare.
Remarc |: Analiza cluster poate fi utilizat| att pentru clasificarea obiectelor, ct i pentru clasificarea variabilelor care
definesc obiectele.
Spre deosebire de utilizarea analizei cluster pentru clasificarea obiectelor, situa ie n care specificitatea este reprezentat|
de faptul c | distan ele sunt evaluate pentru perechi de obiecte, n cazul utiliz |rii analizei cluster pentru clasificarea variabilelor,
evaluarea distan elor se face pentru perechi de variabile.

8.6.1 Tipul informaiilor primare utilizate n analiza cluster


Problema cea mai important | a oric |rui tip de analiz | cluster este aceea a modului n care poate fi m |surat| proximitatea,
respectiv gradul de apropiere sau gradul de dep |rtare, dintre obiecte i dintre clustere.
Orice proces de clasificare a obiectelor este definit n raport cu o anumit| m |sur | a gradului de apropiere sau de dep |rtare
dintre obiectele analizate, indiferent de metoda sau algoritmul pe care se bazeaz | acest proces. Aceast | m |sur | poate fi
reprezentat| fie de un indicator de similaritate, fie de un indicator de disimilaritate. Fiecare dintre cele dou | categorii de
indicatori va fi definit| i analizat| n continuare.
n general, m |surarea gradului de proximitate dintre obiecte se face cu ajutorul a dou | grupe de indicatori, cunoscute sub
numele de indicatori de similaritate i indicatori de disimilaritate. Indicatorii de similaritate i indicatorii de disimilaritate pot
fi utiliza i att n analizele cluster efectuate pe obiecte, ct i n analizele cluster efectuate pe variabile.
Indicatorii de similaritate i de disimilaritate pot fi utiliza i ca baz | informa ional| n orice proces de clasificare datorit |
faptului c | ei pot induce o rela ie de ordine pe mulimea perechilor de obiecte sau de variabile i, n consecin |, pot contribui
la clasificarea obiectelor sau variabilelor.
Cu ct valoarea unui indicator de similaritate este mai mare, cu att obiectele sau variabilele pentru care acest indicator
se evalueaz | pot fi considerate a fi mai asem |n |toare, respectiv mai apropiate. De asemenea, o valoare foarte mic | a
indicatorului de similaritate eviden iaz | faptul c | cele dou | obiecte sau cele dou | variabile sunt mai dep |rtate ntre ele.
Indicatorii de disimilaritate sunt m |rimi numerice care exprim | ct de deosebite sau ct de dep |rtate sunt dou | obiecte
sau dou | variabile. Indicatorii de disimilaritate se mai numesc i indicatori sau coeficien i de deosebire sau de distan are a
obiectelor sau variabilelor. Cu ct valoarea unui indicator de disimilaritate este mai mare, cu att cele dou | obiecte sau cele dou |
variabile pentru care se calculeaz | sunt mai diferite, adic | mai distan ate ntre ele.
Cea mai important | i cea mai utilizat| categorie de indicatori de disimilaritate este reprezentat| de indicatorii de tip
distan |. De multe ori ns |, conceptul de distan | este utilizat i pentru a desemna indicatori de similaritate, cu toate c | ace tia
exprim | gradul de apropiere dintre dou | entit|i informa ionale.
Spre deosebire de indicatorii de similaritate, care pot fi cel mai bine utiliza i pentru exprimarea gradului de proximitate
85

dintre obiectele cu caracteristici de tip calitativ, indicatorii de disimilaritate sunt m |rimi mai potrivite pentru m |surarea
proximit|ii n cazul obiectelor cu caracteristici de tip cantitativ.
n leg |tur | cu aceast| deosebire, facem precizarea c | exist| situa ii n care indicatorii de similaritate pot fi utiliza i nu numai
n cazul variabilelor de tip calitativ, ci i n cazul variabilelor de tip cantitativ. Acest lucru este posibil n situa iile n care
variabilele de tip cantitativ sunt supuse unor transform |ri adecvate.
Cu toate c | indicatorii de similaritate i indicatorii de disimilaritate sunt privii, de regul|, ca fiind dou | categorii distincte,
putem face afirma ia c | ambele categorii exprim |, ntr-un anumit fel, dou | fa ete ale aceluia i lucru. Mai mult dect att, n
anumite condiii, indicatorii de similaritate pot fi transforma i n indicatori de disimilaritate. Diferen ele dintre aceste categorii
de indicatori in de natura variabilelor n raport cu care sunt evalua i i de modalit|ile de calcul specifice fiec |rui tip de
indicator.
Informa iile utilizate, n ultim | instan |, n analiza cluster sunt reprezentate sub forma unor matrici simetrice de tip
obiecteobiecte, numite, dup | caz, matrici de proximitate, matrici de similaritate, matrici de asociere, matrici de inciden |,
matrici de disimilaritate sau matrici de distan e. Att liniile, ct i coloanele matricilor de acest fel se refer | la obiectele
analizate, astfel nct num |rul lor este egal cu num |rul de obiecte supuse analizei. Elementele acestor matrici sunt m |rimi
numerice care exprim | proximitatea dintre perechile de obiecte care eticheteaz | rndurile i coloanele matricilor.
n cazul particular al clasific |rii variabilelor, informa iile utilizate efectiv n analiz | sunt reprezentate sub forma unor
matrici de tipul variabilevariabile. Elementele acestor matrici sunt m |rimi numerice care exprim | gradul de proximitate dintre
perechile de variabile aflate n liniile i coloanele acestor matrici.
Rezult| c | matricile de proximitate con in indicatori de disimilaritate (distan e) sau indicatori de similaritate pentru toate
perechile posibile de obiecte sau de variabile. n construirea matricilor de proximitate pot fi utilizate, n func ie de propriet|ile
obiectelor la care se refer |, att variabile de tip cantitativ, ct i variabile de tip calitativ.
Tipurile indicatorilor de similaritate sau de disimilaritate utiliza i n evaluarea proximit|ilor trebuie s | fie adecvate i
compatibile cu natura datelor existente. De asemenea, n evaluarea proximit|ilor trebuie s | se ia n considerare toate variabilele
care au o relevan | ridicat| din punct de vedere al clasific |rii. Omiterea unor variabile din calculul proximit|ilor poate conduce
la ob inerea unor solu ii inconsistente.
Datele din matricile de proximitate pot fi reprezentate sub forma unui graf specific, care eviden iaz | pozi ionarea spa ial|
relativ | a obiectelor sau a variabilelor i care ofer | o imagine sugestiv |, de ansamblu, asupra distan |rii respectivelor entit|i
informa ionale.
Baza informa ional| pentru determinarea matricilor de proximitate o reprezint| a a-numitele matrici de observa ii, care
sunt matrici de tipul obiectevariabile sau matrici de tipul variabileobiecte, n func ie de tipul analizei efectuate. n primul
caz, rndurile matricilor de observa ii reprezint| obiectele analizate, iar coloanele acestor matrici reprezint| caracteristicile
re inute n analiz |, adic | variabilele descriptor. n cel de-al doilea caz, interpret|rile rndurilor i coloanelor sunt inversate.
Entit|ile informa ionale supuse procesului de clasificare cu ajutorul metodelor i tehnicilor de analiz | cluster sunt
reprezentate de obiecte sau variabile. Obiectele implicate ntr-o analiz | cluster se mai numesc indivizi, observa ii, articole sau
nregistr |ri. Din punct de vedere al modului de reprezentare extern |, mulimile de informa ii referitoare la aceste entit|i sunt
organizate sub forma unor fiiere sau baze de date. Fiecare nregistrare din cadrul unui fiier sau unei baze de date define te
un anumit obiect. De obicei, n analiza cluster se presupune c | toate obiectele sunt caracterizate prin intermediul aceleia i
mulimi de variabile descriptor. Variabilele descriptor utilizate n analiza cluster pot s| fie de acela i tip, cantitativ sau calitativ,
sau pot s| fie de tipuri diferite. n fiecare dintre cele dou | cazuri, evaluarea gradului de proximitate dintre obiecte se face n mod
diferit.
Cele mai mari probleme apar n cazul n care variabilele descriptor sunt de tipuri diferite, deoarece n acest caz proximit|ile
par iale, evaluate n raport cu variabile diferite, au natur | incompatibil| i nu pot fi agregate n mod direct n scopul ob inerii
unui indicator de proximitate la nivelul ansamblului de variabile. O astfel de situa ie apare, de exemplu, cnd unele variabile
sunt de tip interval sau raport, iar altele sunt de tip nominal. A a cum o s | vedem n cadrul paragrafului 10.3.3.4, situa iile de
acest fel impun utilizarea unor proceduri specifice de construire a indicatorilor de proximitate.
Matricile de observa ii pot con ine fie rezultatele m |sur |torilor directe, efectuate asupra variabilelor originale, fie
rezultatele ob inute n urma unor transform |ri specifice, efectuate asupra variabilelor originale. M |rimile din cea de-a doua
categorie sunt reprezentate de scorurile componentelor principale sau de scorurile factorilor i se ob in prin efectuarea, pe
observa iile originale existente, a unei analize a componentelor principale sau a unei analize factoriale.
n analiza cluster, matricile de observa ii con in informa ii cu caracter complet, adic | informa ii referitoare la ntreaga
mulime de obiecte supuse clasific |rii. Spre deosebire de aceasta, n cazul analizei discriminante informa iile con inute n
matricea de observa ii sunt informa ii cu caracter par ial, referitoare la un e antion de obiecte extrase din popula ia de obiecte
supus | analizei.

8.6.2 Evaluarea distanelor dintre obiecte i tipuri de distane


Prin natura lor numeric |, variabilele de tip cantitativ, adic | variabilele m |surate pe scalele de tip raport, interval i,
eventual, ordinal, permit o definire mai natural| a conceptului de distan |. Pentru variabilele de tip nominal, inclusiv variabilele
de tip binar, distan ele se calculeaz | ntr-un mod specific, compatibil cu natura acestor variabile.
Pentru evaluarea disimilarit|ilor dintre obiectele ale c |ror caracteristici sunt de tip cantitativ sau dintre variabile de tip cantitativ, pot fi folosite mai multe tipuri de distan e, cum ar fi: distan a Euclidian | (simpl |, ponderat| sau p |trat|), distan a Manhattan, distan a Cebev, distan a Minkovski, distan a Camberra, distan a Mahalanobis, distan a Pearson, distan a Jambu etc.
86

Distana Euclidian|
Distan a Euclidian |, care mai este cunoscut| i sub numele de norm | de tip

, este distan a cea mai frecvent utilizat| n

problemele de analiz | cluster. Ea se calculeaz | ca r |d |cin | p |trat| a sumei p |tratelor diferen elor coordonatelor celor dou |
obiecte sau variabile pentru care se evalueaz | distan a.
Distan a Euclidian | m |soar | dep |rtarea dintre dou | obiecte sau dintre dou | variabile n linie dreapt| i este definit| sub
forma urm |toare:
.
Distan a Euclidian | exprim | proximitatea dintre obiecte ca distan | ntre dou | puncte din spa iul Euclidian, respectiv ca
distan | m |surat| n linie dreapt|. n acest sens, de exemplu, distan a dintre ora ul Bucure ti i ora ul New-York nu este o
distan | de tip Euclidian deoarece ea este exprimat | de-a lungul curburii sau rotunjimii globului p |mntesc, i nu n linie
dreapt|.

Distana Manhattan
Distan a Manhattan, numit| i distan | rectangular |, distan | City-Block sau norm | de tip

, se calculeaz | ca sum |

a valorilor absolute ale diferen elor coordonatelor celor dou | obiecte sau celor dou | variabile analizate i este definit| de
rela iile:
.
Deoarece diferen ele de coordonate utilizate n calculul s |u nu sunt amplificate printr-o ridicare la o putere, distan a
Manhattan este mai robust | n raport cu prezen a n date a valorilor aberante.
Distan a Manhattan poate fi calculat| i n varianta ponderat|, calculul f |cndu-se n mod similar cu cel al distan ei
Euclidiene ponderate. De asemenea, distan a Manhattan poate fi utilizat| n cazul n care obiectele au caracteristici care sunt
m |surate pe scala de tip interval i pe scala de tip raport.

Distana Cebev
Distan a Cebev, cunoscut| i sub numele de maxim al dimensiunilor sau norm | de tip

, este o distan | de tip valoare

absolut| i se determin | ca fiind valoarea maxim | a valorilor absolute ale diferen elor dintre coordonatele obiectelor sau
variabilelor, respectiv:
.
Distan a Cebev poate fi utilizat| atunci cnd se dore te ca dou | obiecte sau variabile s | apar| ca fiind diferite, dac | ele
difer | chiar i doar din punct de vedere al unei caracteristici, respectiv al unui obiect. n alte situa ii, nu este recomandabil s |
se foloseasc | acest tip de distan |.

Distana Mahalanobis
Distan a Mahalanobis este una dintre cele mai cunoscute, mai importante i mai frecvent utilizate distan e. Ea este o form |
generalizat| a conceptului de distan | i se calculeaz | sub formele urm |toare:
,
unde

sunt vectori coloan | reprezentnd liniile i i j din matricea de observa ii X,

sunt vectori coloan |

reprezentnd liniile p i q din matricea de observa ii Y, iar


este nota ia pentru inversa matricii de covarian |, matrice
calculat| n spa iul variabilelor - n primul caz, respectiv n spa iul observa iilor - n al doilea caz. Se poate observa c |, n cazul
n care matricea de covarian |
este egal| cu matricea unitate, distan a Mahalanobis se reduce la distan a Euclidian | p |trat|.
Distan a M ahalanobis reprezint| singurul tip de distan | care ia n considerare, ntr-o manier | complet|, gradul de
dispersare al mulimii de obiecte sau al mulimii de variabile analizate, precum i gradul de corelare al respectivelor entit|i
informa ionale. Utilizarea distan ei Mahalanobis este recomandat|, mai ales n situa iile n care variabilele care descriu obiectele
sunt corelate ntre ele. Distan a Mahalanobis este utilizat| i n cazul tehnicilor de clasificare controlat|, pe baza acestei distan e
fiind dezvoltat chiar un criteriu opera ional de discriminare.

8.6.3 Evaluarea distanelor dintre clustere


O problem | dificil| care apare n analiza cluster, este legat| de necesitatea evalu |rii distan elor dintre clase sau clustere.
Dificultatea acestei probleme este dat| de faptul c | distan ele dintre clase sau clustere sunt, de fapt, distan e ntre mulimi de
obiecte sau distan e ntre mulimi de variabile.
Problema evalu |rii distan elor dintre clustere apare n special n cazul analizei cluster de tip ierarhic, n care construirea
87

arborelui de clustere poate fi f|cut | pe baza comas |rii succesive sau diviz |rii succesive a clusterelor. Comasarea clusterelor este
numit| amalgamare sau agregare, iar divizarea clusterelor este numit| dezagregare.
Teoretic, procesul de agregare sau dezagregare succesiv | a clusterelor se bazeaz | pe definirea unei distan e limit| ntre
clustere, distan | numit| i prag de agregare, respectiv prag de dezagregare. n principiu, decizia de comasare a dou | clustere
sau de divizare a unui cluster este luat| numai dac | distan a dintre aceste clustere este mai mic |, respectiv mai mare dect
distan a limit| fixat|.
Dac | n cazul evalu |rii gradului de apropiere sau dep |rtare dintre dou | obiecte lucrurile sunt relativ simple, fiind suficient
s | se calculeze una din distan ele men ionate mai sus, n cazul n care este necesar a fi evaluat gradul de apropiere sau dep |rtare
dintre dou | clustere lucrurile devin ceva mai complicate i presupun existen a unei metode specifice de evaluare.
Distan a dintre dou | clustere este, de fapt, o distan | dintre dou | mulimi de puncte, adic | o distan | mai dificil de evaluat.
Ca distan | ntre dou | mulimi de puncte, distan a dintre dou | clustere poate fi m |surat| cu ajutorul uneia dintre mai multe
metode posibile.
Dintre metodele propuse pentru evaluarea distan elor dintre clustere men ion |m: metoda celor mai apropia i vecini, metoda
celor mai dep |rta i vecini, metoda distan ei medii ntre perechi, metoda centroidului i metoda lui Ward etc.

8.6.3.1 Metoda celor mai apropiai vecini


Metoda celor mai apropiai vecini evalueaz| distana dintre dou| clustere ca fiind distana minim| dintre toate perechile posibile de
forme din cele dou| clustere. Aceasta nseamn| c| distana dintre dou| clustere este m|surat| prin distana dintre cele mai apropiate obiecte
aparinnd celor dou| clase.
Definiie: Metoda celor mai apropia i vecini evalueaz | distan a dintre dou | clustere ca distan | ntre dou | obiecte, unul
din primul cluster, iar cel|lalt din cel de-al doilea cluster, care sunt cele mai apropiate ntre ele n sensul distan ei utilizate.
n figura urm|toare este vizualizat| distana dintre dou| clustere, evaluat| dup| metoda celor mai apropiai vecini.

Figura 8.4: Distan a dintre dou | clustere n cazul metodei celor mai
apropia i vecini

8.6.3.2 Metoda celor mai dep|rtai vecini


Metoda celor m ai dep |rta i vecini este metoda dup | care distan a dintre dou | clase este m |surat| prin distan a dintre cele
mai dep |rtate obiecte apar innd celor dou | clustere. Pe baza acestei metode, dou | clustere sunt considerate a fi mai apropiate
sau mai dep |rtate, n func ie de proximitatea dintre cele mai dep |rtate obiecte din cele dou | clustere.
Definiie: Metoda celor mai dep |rta i vecini evalueaz | distan a dintre dou | clustere ca distan | ntre dou | obiecte, unul
din primul cluster, iar cel|lalt din cel de-al doilea cluster, care sunt cel mai dep |rtate ntre ele n sensul distan ei utilizate.
Calculul distan ei dintre dou | clustere cu ajutorul metodei celor mai dep |rta i vecini se face pe baza datelor din matricea
distan elor dintre obiectele din cele dou | clustere, prin identificarea n aceast | matrice a elementului cu valoarea cea mai mare.

Figura 8.5: Distan a dintre dou | clustere n cazul metodei celor mai
dep |rta i vecini
Pentru evaluarea distan elor dintre obiectele cele mai dep |rtate din cele dou | clustere poate fi utilizat| oricare dintre
metodele cunoscute de calcul a distan elor dintre obiecte, n func ie de natura variabilelor care definesc obiectele supuse
clasific |rii.

8.6.3.3 Metoda distanei medii dintre perechi


Metoda distan ei medii dintre perechile de obiecte evalueaz | distan a dintre dou | clustere prin intermediul distan ei medii
dintre toate perechile posibile de obiecte care apar in celor dou | clustere.
88

Definiie: Metoda distan ei medii dintre perechi evalueaz | distan a dintre dou | clustere ca medie a distan elor dintre
oricare dou | obiecte care apar in celor dou | clustere, unul primului cluster, iar cel|lalt din celui de-al doilea cluster.
Evaluarea distan ei dintre dou | clustere cu ajutorul metodei distan ei medii ntre perechile de obiecte se face pe baza datelor
din matricea distan elor dintre obiectele din cele dou | clustere, calculnd media acestor distan e.
n figura urm |toare este sugerat| o interpretare geometric | a modului de calcul a distan ei dintre clustere cu ajutorul
metodei distan ei medii dintre perechi.

Figura 8.6: Ilustrarea grafic | a metodei distan ei medii dintre perechi


Ca i n cazul celorlalte dou | metode, pentru evaluarea distan elor dintre obiectele celor dou | clustere, poate fi utilizat|
oricare dintre metodele cunoscute de calcul al distan elor dintre obiecte.

8.6.3.4 Metoda centroidului


Metoda centroidului este metoda dup | care distan a dintre dou | clustere este m |surat| ca distan | ntre centroizii celor
dou | clustere. n acest fel, dou | clustere sunt considerate mai apropiate sau mai dep |rtate, n func ie de gradul de apropiere sau
de dep |rtare dintre centroizii lor.
Centroidul sau centrul de greutate al unui cluster reprezint| obiectul, real sau abstract, ale c |rui caracteristici au ca valori
chiar mediile caracteristicilor obiectelor care compun clusterul respectiv.
Definiie: Metoda centroidului evalueaz | distan a dintre dou | clustere ca distan | ntre centroizii celor dou | clustere.
Evaluarea distan ei dintre dou | clustere cu ajutorul metodei centroidului se face calculnd mai nti centroizii celor dou |
clustere, dup | care se evalueaz | distan a dintre clustere ca distan | ntre ace ti centroizi.
Figura urm |toare ilustreaz| interpretarea geometric | a calculului distan elor dintre clustere cu ajutorul metodei centroidului.
n aceast | figur |, centroizii celor dou | clustere sunt marca i prin cele dou | puncte de dimensiune mai mare.

Figura 8.7: Distan a dintre clustere n cazul metodei centroidului


Deoarece centroidul este vectorul mediilor corespunz |toare tuturor obiectelor dintr-un cluster, n calculul distan ei dintre
dou | clustere cu ajutorul metodei centroidului sunt luate n considerare, n mod implicit, toate obiectele din fiecare cluster.

8.6.3.5 Metoda lui Ward


Metoda lui Ward este o metod | de evaluare a distan ei dintre dou | clustere, care se bazeaz | pe maximizarea gradului de
omogenitate a clusterelor sau, ceea ce este acela i lucru, pe minimizarea variabilit|ii intracluster. De regul|, gradul de omogenitate a unui cluster se consider | a fi cu att mai mare, cu ct suma total| a p |tratelor abaterilor intracluster este mai mic |.
Elementul caracteristic al metodei lui W ard este reprezentat de faptul c | prin comasarea a dou | clustere se urm |re te
ob inerea unei omogenit|i maxime la nivelul tuturor clusterelor care apar in unei configura ii date a obiectelor pe clustere. n
acest sens, se poate spune c | distan a W ard dintre dou | clustere m |soar | variabilitatea intracluster cumulat|, pe care o induce
comasarea celor dou | clustere la nivelul configura iei cluster rezultate. n acest sens, distan a W ard poate fi definit| sub forma
urm |toare:
Definiie: Metoda lui Ward evalueaz | distan a dintre dou | clustere sum | total| a p |tratelor abaterilor la nivelul
configura iei cluster rezultate din comasarea celor dou | clustere pentru care se evalueaz | distan a.
Spre deosebire de alte metode de calcul a distan elor ntre clustere, distan a W ard ofer | o serie de avantaje. Aceste avantaje
decurg din faptul c | ea este singura dintre metodele de evaluare a distan elor dintre clustere, care exprim | distan ele din punct
de vedere al minimiz |rii variabilit|ii intracluster sau, ceea ce nseamn | acela i lucru, din punct de vedere al maximiz |rii
variabilit|ii intercluster.

89

8.6.4 Metode i tehnici de analiz| cluster


Analiza cluster are ca scop c |utarea i identificarea n datele supuse analizei a unor grupuri sau clustere, n func ie de
similarit|ile i disimilarit|ile dintre obiectele la care se refer | respectivele date.
Cea mai important | etap | din cadrul unei analize cluster este cea a form |rii clusterelor sau claselor. Algoritmii care pot
fi utiliza i pentru realizarea activit|ii de construire a clusterelor cunosc o mare varietate, care include algoritmi euristici,
algoritmi de optimizare i algoritmi fuzzy. Diferen ele dintre modul de construire a clusterelor dup | un algoritm sau altul, sunt
determinate, n principal, de natura metodei utilizate pentru evaluarea distan elor ntre clustere. Mai mult, chiar tipul analizei
cluster rezult| din natura algoritmului utilizat pentru construirea clusterelor.
Din punct de vedere al naturii lor, al modului de operare i al tipului de solu ii pe care le furnizeaz |, metodele de analiz |
cluster pot fi mp |r ite n dou | mari categorii: metode de tip ierarhic i metode de tip iterativ sau de partiionare.
Algoritmii sau metodele de tip ierarhic au ca scop producerea mai multor solu ii cluster, solu ii numite ierarhii cluster.
Caracteristica principal | a acestor algoritmi const | n faptul c | num |rul de clustere nu este cunoscut aprioric.
Remarc |: n cazul metodelor de clasificare ierarhic |, num |rul de clustere nu este cunoscut aprioric.
Exist| dou | categorii de algoritmi de clasificare ierarhic |: algoritmi de agregare i algoritmi de dezagregare.
Rezultatele furnizate de algoritmii de clasificare ierarhic | includ mai multe variante de clasificare a obiectelor, fiecare
variant | de clasificare con innd structuri cluster cu un num |r variabil de clustere. Structurile cluster ob inute cu ajutorul
algoritmilor de acest fel se numesc structuri cluster multinivel.
Remarc |: Algoritmii de clasificare ierarhic | furnizeaz | mai multe solu ii, de tip multinivel, care se numesc ierarhii
cluster i care difer | ntre ele prin num |rul de clustere pe care le includ i prin gradul de agregare al clusterelor.
Cea mai sintetic | solu ie a unei structuri cluster ob inute cu ajutorul metodelor de clasificare ierarhic | este format| dintr-un
singur cluster, care include toate obiectele analizate. Cea mai detaliat| solu ie a unei structuri cluster de acest fel include un
num |r maxim de clustere, egal cu num |rul de obiecte analizate, fiecare cluster con innd un singur obiect. Aceasta nseamn |
c | num |rul posibil de solu ii dintr-o structur | cluster ob inut | cu ajutorul algoritmilor ierarhici este mai mic cu unu dect
num |rul de obiecte supuse clasific |rii. Acest num |r este determinat de num |rul de nivele ierarhice ale solu iei i este dat de
rela ia urm |toare:
.
Alegerea dintre cele
solu ii ale unei structuri cluster a celei mai potrivite solu ii cluster r |mne la latitudinea
cercet|torului i se face, n principal, n func ie de obiectivele urm |rite n analiz |.
Algorimii sau metodele de tip iterativ au ca scop producerea unei structuri cluster format| dintr-o singur | solu ie cluster.
O astfel de structur | cluster se nume te structur | cluster uninivel i con ine o singur | cluster, care include un num |r fixat de
clustere.
Remarc |: Algoritmii de clasificare prin parti ionare furnizeaz | solu ii unice, adic | solu ii de tip uninivel.
Caracteristica principal | a algoritmilor de parti ionare este dat| de faptul c | num |rul de clustere este fixat aprioric de c |tre
analistul de informa ii. Algoritmii din aceast | categorie mai sunt cunoscu i i sub numele de algoritmi de partiionare.
Remarc |: n cazul metodelor de clasificare prin parti ionare, num |rul de clustere este cunoscut aprioric.
n func ie de natura criteriului utilizat n procesul propriu-zis de clasificare, metodele de analiz | cluster pot fi mp |r ite n
dou | categorii: metode euristice i metode algoritmice.
Metodele euristice includ procedurile de clasificare dezvoltatea pe baza unei anumite euristici. O euristic | este o modalitate
intuitiv | de solu ionare a unei anumite probleme particulare. Euristicile reprezint| seturi de reguli sau de recomand |ri cu caracter
general, deduse pe baza unor ra ionamente teoretice sau pe baza unor observa ii statistice. n general, conceptul de euristic | este
opus conceptului de algoritm i este utilizat pentru a defini metode i tehnici non-algoritmice.
Prin natura lor, metodele de clasificare ierarhic | sunt metode euristice. Astfel, metoda agreg |rii simple, metoda agreg |rii
complete, metoda agreg |rii medii, metoda centroidului sau metoda lui W ard, sunt metode de tip euristic.
Metodele algoritmice includ procedurile de clasificare de tip formal, bazate pe existen a unui anumit algoritm de solu ionare
a problemei. Un algoritm este o mulime de finit| i complet definit| de opera ii, pa i sau proceduri, a c |ror execu ie determin |
ob inerea unui anumit rezultat sau a unei anumite solu ii. Orice algoritm se compune din trei p |r i esen iale: ini ializarea,
procedura sau schema iterativ | i criteriul de oprire.
Deoarece includ toate componentele caracteristice unui algoritm, metodele de clasificare prin parti ionare sunt metode cu
natur | preponderent algoritmic |. Spre deosebire de aceste metode, cele trei componente ale unui algoritm nu se reg |sesc n mod
explicit i n cazul metodelor de clasificare ierarhic |.

8.6.4.1 Analiza cluster de tip ierarhic


Analiza cluster de tip ierarhic sau arborescent este o metod | de clasificare bazat| pe gruparea obiectelor pe baz | de
agregare succesiv | n clase din ce n ce mai largi de obiecte sau de dezagregare succesiv | n clase din ce n ce mai mici.
Ipoteza fundamental| a analizei cluster de tip ierarhic este aceea la nivelul mulimilor supuse studiului exist| mai multe
niveluri de structurare natural| a obiectelor pe grupe sau clase, eviden iindu-se o imbricare sau o includere, de tip arborescent,
a structurilor con inute la nivel latent n cadrul acestor mul imi.
Ipoteza de baz | a clasific |rii ierarhice: n cadrul mulimilor de obiecte analizate se diferen iaz | o multitudine de
structuri de tip latent, care sunt caracterizate printr-o imbricare de natur | arborescent|.
90

n cea mai mare parte a lor, algoritmii de clasificare ierahic | sunt algoritmi de tip euristic. Exist| ns | i o categorie aparte
de algoritmi de clasificare ierarhic |, reprezentat| de algoritmii de tip model formal, care genereaz | structurile cluster pe baza
maximiz |rii verosimilit|ii.
Rezultatul utiliz |rii analizei cluster de tip ierarhic l reprezint| o mulime de structuri particulare de clustere, numit| arbore
al clasific |rii sau arbore ierarhic.
Structurile cluster care alc |tuiesc arborerele de clasificare includ un num |r de clustere diferit. O solu ie cluster ce
corespunde unui nivel mai ridicat de agregare con ine un num |r de clustere mai mic cu 1 dect o solu ie cluster corespunz |toare
proximului nivel ierarhic inferior. Aceasta nseamn | c | structurile cluster de tip ierarhic sunt caracterizate prin nivele diferite
de agregare, cuprinse ntre un nivel minim i un nivel maxim.
Structura cluster cu cel mai nalt nivel de agregare este format | dintr-un singur cluster, care include toate obiectele supuse
clasific |rii. Structura cluster cu cel mai redus nivel de agregare este format| dintr-un num |r de clustere egal cu num |rul de
obiecte analizare, fiecare cluster incluznd un singur obiect.
Num |rul de clustere din dou | structuri cluster succesive difer | printr-o unitate, structura cluster cu nivel mai nalt de
agregare con innd cu un cluster mai pu in dect structura cluster precedent |.
Cu ct nivelul de agregare al structurilor cluster este mai ridicat, cu att similarit|ile dintre obiectele unui cluster sunt mai
reduse, adic | clusterele sunt mai eterogene. Acest lucru se explic | prin faptul c | un cluster de la un nivel de agregare mai nalt
con ine un num |r mai mare de obiecte dect un cluster de la un nivel de agregare mai redus.
n funcie de condiiile iniiale de la care se pornete n construirea structurilor cluster i de sensul n care se desf|oar| construirea
acestora, algoritmii de clasificare de tip ierarhic pot fi mp|rii n dou| mari categorii:
algoritmi de clasificare prin agregare, amalgamare sau combinare;
algoritmi de clasificare prin dezagregare sau divizare.
Algoritmii de dezagregare construiesc clusterele ntr-o manier| descendent|, pornind cu toate obiectele ntr-un singur cluster i
continund, prin divizarea succesiv| a acestuia, pn| la obinerea unor clustere care conin cte un singur obiect.
Algoritmii de agregare sau de amalgamare construiesc clustere ntr-o manier| ascendent|, pornind de la clustere care conin cte un
singur obiect i continund, prin comasare succesiv| a clusterelor, pn| la obinerea unui cluster care include toate obiectele.
n cazul procedurilor de clasificare prin agregare, n fiecare pas se comaseaz| ntr-un singur cluster fie dou| obiecte, fie un obiect i
un cluster, fie dou| clustere diferite. n fiecare etap| a procedurilor divizative, un cluster este divizat fie sub forma a dou| clustere, fie sub
forma unui cluster i unui obiect, fie sub forma a dou| obiecte.
Num|rul de pai necesari pentru obinerea unei soluii cluster de tip ierarhic depinde de num|rul de obiecte supuse clasific|rii i este
diferit pentru cele dou| categorii de metode de clasificare ierarhic|.
Procesele de agregare i de dezagragare a clusterelor, specifice celor dou| categorii de proceduri de clasificare ierahic|, presupun
utilizarea unor metode specifice de evaluare a distanelor dintre clustere.

8.6.4.1.1 Metode de clasificare ierarhic| prin agregare


Algoritmii de agregare sau amalgamare se bazeaz | n mod exclusiv pe evaluarea disimilarit|ilor dintre clustere, adic | pe
evaluarea de distan e intercluster. Datorit | simplit|ii lor, rezultat| din naturale ea ideii de comasare, algoritmii de agregare sunt
mai frecvent utiliza i n activit|ile de clasificare, n compara ie cu algoritmii baza i pe dezagregare. Indiferent de tipul
algoritmului concret care este utilizat, n orice procedur | bazat| pe agregare construc ia arborelui ierarhic de clustere presupune
parcurgerea urm |toarelor etape generale:
iniial se porne te cu un num |r de clustere egal cu num |rul de obiecte, fiecare cluster fiind alc |tuit dintr-un singur
obiect, respectiv:
;
ulterior, de-a lungul a mai multor etape, clusterele iniiale sunt succesiv agregate n vederea ob inerii unor clase din ce
n ce mai complexe. Num |rul total de etape ale procedurii este egal cu
. Agregarea este f|cut | pe baza unei m |suri
de disimilaritate ntre clusterele existente la un moment dat, respectiv pe baza uneia dintre distan ele specifice. n fiecare
etap |, pe care o vom nota cu t, sunt agregate doar dou | clustere, respectiv acele clustere pentru care distan a dintre ele este
minim |, n compara ie cu distan ele dintre orice dou | clustere existente n acea etap |. Aceast | distan | se nume te distan |
de agregare i poate fi definit| astfel:
,
unde

reprezint| num |rul de clustere existente n etapa t. Cele dou | clustere care se comaseaz | ntr-unul singur sunt

clusterele pentru care se ob ine distan a de agregare. Distan a de agregare se nume te prag de agregare i este specific |
fiec |rei etape ntre care exist| o distan | egal| cu distan a de agregare. Structura cluster ob inut| n etapa t este de forma:
.
Pe m |sura construirii ierarhiei cluster, pragul de agregare cre te continuu, iar num |rul de clustere se reduce cu 1 n
fiecare etap |. Ca urmare a relax |rii succesive a pragului de agregare, gradul de agregare a obiectelor n clustere cre te
continuu.
n ultima etap | a agreg |rii toate obiectele sunt incluse ntr-un singur cluster, respectiv:
.
Aceast | procedur | de clasificare pe baz | de agregare este comun | tuturor algoritmilor din aceast | categorie. Diferen ele
91

dintre algoritmii de clasificare ierarhic | prin agregare sunt date doar de modul specific n care sunt evaluate distan ele dintre
clustere.
n cadrul figurii urm |toare sunt vizualizate etapele necesare pentru o clasificare de tip ierarhic prin metode de agregare.

Etapa 0

Etapa 1
Etapa 2
Etapa 3
Etapa 4
Figura 8.8: Ilustrarea grafic | a etapelor clasific |rii ierarhice prin agregare

Evaluarea distan elor dintre clusterele ob inute la un moment dat din desf |urarea analizei cluster de tip agregare ierarhic |,
exceptnd prima etap | n care clasele sunt alc |tuite din cte un singur obiect, poate fi f|cut | folosind oricare dintre metodele
de m |surare a distan elor dintre clustere, metode prezentate anterior.
Spre deosebire de cazul clasific |rii ierarhice prin agregare, n cazul procedurii bazate pe dezagregare se procedeaz |
oarecum invers. Se porne te cu un cluster care include toate obiectele i din acesta sunt diferen iate clustere din ce n ce mai
mici, pn | cnd se ob in clustere formate din cte un singur obiect.
Datorit | faptului c | tehnicile de clusterizare bazate pe agregare sunt cele mai frecvent utilizate, vom prezenta n continuare
principalele tipuri ale acestora. Construirea arborilor de clustere prin dezagregare este similar | celei ob inute prin agregare.
n func ie de tipul distan elor utilizate pentru agregarea clusterelor, exist| patru metode euristice de clasificare ierahic |:
metoda agreg |rii simple, metoda agreg |rii complete, metoda agreg |rii medii, metoda centroidului i metoda lui Ward sau
metoda varian ei.
8.8.4.1.1.1 Metoda agreg|rii simple
n analiza cluster bazat| pe agregare simpl| afectarea unui obiect la un cluster se face numai dac | acel obiect are un anumit
grad de disimilaritate cu unul dintre obiectele care apar in deja clusterului. Clusterizarea de acest tip se mai nume te i analiz|
cluster de distan | minim | sau analiz| cluster de tip MIN.
Metoda agreg |rii simple se bazeaz | pe exprimarea proximit|ii dintre dou | clustere prin intermediul distan ei dintre cele
mai apropiate obiecte din cele dou | clustere. Evaluarea acestei distan e se face cu ajutorul metodei celor mai apropia i vecini.
Definiie: Metoda agreg |rii simple este o metod | de clasificare ierarhic | de tip ascendent, care comaseaz | n fiecare
etap | a clasific |rii acele dou | clustere pentru care distan a dintre cei mai apropia i vecini este cea mai mic |, n compara ie
cu alte perechi de clustere.
n figura urm |toare, este ilustrat felul n care sunt comasate dou | clustere n cazul utiliz |rii metodei agreg |rii simple.

Figura 8.9: Comasarea clusterelor dup | metoda agreg |rii simple


Cea mai mic | distan | ntre cei mai apropia i vecini din cele trei perechi posibile de clustere este distan a

, care

corespunde perechii de clustere


. Ca urmare, clusterul 1 va fi comasat cu clusterul 2, rezultnd un nou cluster,
care va con ine obiectele din cele dou | clustere.
8.8.4.1.1.2 Metoda agreg|rii complete
Aceast | metod | de clusterizare este similar | cu metoda agreg |rii simple, cu deosebirea c | agregarea a dou | clustere se face
pe baza unei distan e de agregare care este distan a dintre cele mai dep |rtate obiecte din acele clustere. Clusterizarea de acest
tip se mai nume te i analiz| cluster de distan | maxim | sau analiz| cluster de tip MAX.
92

n cazul metodei agreg |rii complete evaluarea distan elor dintre clustere se face cu ajutorul metodei celor mai dep |rta i
vecini. Aceasta nseamn | c | distan a dintre dou | clustere este considerat| a fi n acest caz distan a cea mai mare dintre oricare
dou | puncte apar innd celor dou | clustere.
Definiie: Metoda agreg |rii complete este o metod | de clasificare ierarhic | de tip ascendent, care comaseaz | n fiecare
etap | a clasific |rii acele dou | clustere pentru care distan a dintre cei mai dep |rta i vecini este cea mai mic |, n compara ie
cu alte perechi de clustere.

Figura 8.10: Comasarea clusterelor dup | metoda agreg |rii complete

8.8.4.1.1.3 Metoda agreg|rii medii


Metoda agreg |rii medii este o metod | de clusterizare similar | celor dou | metode men ionate anterior, cu deosebirea c |
evaluarea distan ei dintre dou | clustere este considerat | a fi media distan elor care separ | obiectele apar innd celor dou |
clustere.
Agregarea clusterelor cu ajutorul metodei agreg |rii medii se face pe baza determin |rii unui grad de conectivitate medie
dintre clustere, grad evaluat ca distan | medie corespunz |toare unei perechi de obiecte, primul obiect apar innd unui cluster,
iar al doilea obiect apar innd celuilalt cluster.
Definiie: Metoda agreg |rii medii este o metod | de clasificare ierarhic | de tip ascendent, care comaseaz | n fiecare
etap | a clasific |rii acele dou | clustere pentru care distan a medie dintre toate perechile formate cu obiecte din cele dou |
clustere este cea mai mic |, n compara ie cu alte perechi de clustere.
8.8.4.1.1.4 Metoda centroidului
Metoda centroidului este o metod | de clasificare ierahic | ascendent|, n care distan ele dintre clustere sunt evaluate cu
ajutorul metodei centroidului. Ideea de baz | a metodei centroidului este aceea de ob inere a unui nou cluster prin comasarea
a dou | clustere existente, n func ie de distan a cea mai mic | dintre centroizii clusterelor care sunt verificate n scopul comas |rii.
Definiie: Metoda centroidului este o metod | de clasificare ierarhic | de tip ascendent, care comaseaz | n fiecare etap |
a clasific |rii acele dou | clustere pentru care distan a dintre centroizii celor dou | clustere este cea mai mic |, n compara ie
cu alte perechi de clustere.
Dou | clustere sunt comasate ntr-un nou cluster dac | i numai dac | distan a dintre centroizii lor este cea mai mic | dintre
toate distan ele dintre centroizii oric |ror dou | clustere care apar in configura iei cluster disponibile. n figura urm |toare este
vizualizat modul de comasare a dou | clustere folosind metoda centroidului.

Figura 8.11: Ilustrarea metodei centroidului

93

8.8.4.1.1.5 Metoda lui Ward


Metoda lui W ard, cunoscut| i sub numele de metoda minimei varian e intracluster, este una dintre cele mai cunoscute i
mai eficiente metode de clasificare ierarhic | prin agragare.
n virtutea acestei metode atribuirea unui obiect la un cluster se face numai dac | aceast| atribuire minimizeaz | varian a
din cadrul clusterului. Pe post de criteriu general de afectare a obiectelor la clustere este considerat| minimizarea sumelor
elementelor de pe diagonala matricii comune de covarian | a clusterelor, adic | minimizarea trasei matricii de covarian |
intraclase.
Metoda lui Ward este o metod | de evaluare a distan ei dintre dou | clustere care se bazeaz | pe maximizarea gradului de
omogenitate a clusterelor.
Definiie: Metoda lui Ward este o metod | de clasificare ierarhic | de tip ascendent, care comaseaz | n fiecare etap | a
clasific |rii acele dou | clustere pentru care suma p |tratelor abaterilor la nivelul clusterului rezultat din comasare este cea
mai mic |, n compara ie cu alte perechi de clustere.
Metoda lui W ard nu este o metod | propriu-zis | de calcul a distan elor dintre clustere, ci o metod | de formare a clusterelor
pe baza maximiz |rii gradului de omogenitate a clusterelor.
Ca m |sur | a gradului de omogenitate a clusterelor este utilizat| suma p |tratelor abaterilor, numit | suma p |tratelor
abaterilor intracluster. Gradul de omogenitate a unui cluster se consider | a fi cu att mai mare cu ct suma abaterilor intracluster
este mai mic |.
Distan a W ard se evalueaz | pentru toate combina iile posibile de comasare ntr-un singur cluster a oric |ror dou | clustere
din configura ia iniial|.

8.6.4.1.2 Metode de divizare


Metodele de clasificare prin divizare, numite i metode de tip descendent, sunt analoage cu metodele aglomerative, cu
deosebirea c | derularea acestora se desf |oar | ntr-o manier | invers |. Ca i n cazul metodelor de agregare, solu iile ob inute
cu ajutorul metodelor divizative sunt ierarhii de clustere, care pot fi reprezentate prin intermediul arborilor cluster sau
dendrogramelor.
Algoritmii de clasificare ierarhic | pe baz | de divizare se caracterizeaz | prin faptul c |, iniial, se porne te cu un singur
cluster, care con ine toate obiectele care trebuie supuse clasific |rii. Ulterior, clusterul iniial este divizat succesiv, pn | cnd
se ob in clustere formate dintr-un singur obiect.
Spre deosebire de metodele de clasificare ierarhic | prin agregare, care sunt, ntr-un anumit fel mai naturale, metodele de
clasificare ierarhic | prin divizare sunt caracterizate de o complexitate mai ridicat|. O metod | de clasificare ierarhic | prin
divizare produce o structur | cluster n
etape, unde T este num |rul de obiecte clasificate.
Datorit | existen ei unui num |r suficient de mare de algoritmi de clasificare ierarhic | prin agregare, num |rul de algoritmi
dezvolta i pentru clasificarea ierarhic | prin divizare este extrem de mic. Unul dintre cei mai cunoscu i algoritmi din aceast |
categorie este algoritmul DIANA. Un alt algoritm de acest tip este cel bazat pe metoda clasific |rii monotetice, ns | acesta poate
fi utilizat numai n cazul n care variabilele care descriu obiectele sunt de tip binar. Vom prezenta n cele ce urmeaz | fiecare
dintre cei doi algoritmi de divizare men iona i.

8.6.4.2 Algoritmi de partiionare


Algoritmii de parti ionare includ o serie de metode de analiz | cluster, cu mult mai performante dect metodele de clasificare
ierarhic |. Dintre cei mai importan i algoritmi de parti ionare, men in |m: algoritmul celor K-medii i algoritmul celor K-medoizi.

8.7. Recunoaterea formelor cu ajutorul tehnicilor de analiz| discriminant|


n mod frecvent, n analiza datelor apare necesitatea studierii unor popula ii care sunt eterogene din punct de vedere al
caracteristicilor analizate, fapt care complic | procesul de cunoa tere a acestor popula ii i impune efectuarea unui demers
tiin ific specific. Expresia cea mai semnificativ | a popula ilor de tip eterogen este ntlnit| n special n domeniul statisticii,
econometriei i analizei datelor, fiind reprezentat| chiar de cantit|ile foarte mari de informa ie care trebuie prelucrat |,
sintetizat| i interpretat|.
n cazul cercet|rii unor popula ii de acest tip, pentru ca rezultatele investig |rii s | capete consisten | i relevan |, este
necesar | o mp |r ire, o divizare a acestor popula ii n subpopula ii cu un anumit grad de omogenitate, urmnd ca analizele i
procesul de modelare implicate n studierea respectivei popula ii s | se fac | n mod diferen iat, pentru fiecare subpopula ie n
parte.
Formularea unor concluzii corecte i robuste cu privire la manifestarea popula iilor caracterizate de un grad mai mare sau
mai mic de eterogenitate nu este posibil| dect dac | analiza ia n considerare structurarea acestor popula ii pe categorii.
n alte situa ii, cum sunt cele n care sunt analizate diverse entit|i economico-sociale, considerate a proveni din popula ii
cu caracteristici foarte diferite, exist| interesul de a identifica, de a recunoa te, originea acestor entit|i, i de a ob ine o ncadrare
corect | a acestora n anumite clase reprezentative pentru popula ia de origine. Situa iile acest fel dep |esc sfera economicofinanciar |, ele ntlnindu-se n mod frecvent ntr-o mare varietate de alte domenii importante ale tiin ei, cum ar fi: informatica,
biologia, antropologia, medicina, sociologia, geologia, meteorologia etc.
94

n domeniul economico-financiar, entit|ile care fac obiectul problemelor legate de stabilirea apartenen ei la o anumit|
grup | sau clas | pot fi firme, clien i ai unei b |nci, cump |r |tori ai unui produs, unit|i administrativ-teritoriale, pie e de bunuri
sau servicii etc.
Procedura general| de stabilire, pe baza unor caracteristici definitorii i utiliznd metode i tehnici specifice, a apartenen ei
unor obiecte la anumite grupe sau clase dinainte cunoscute poart| numele de analiza discrim inant|.
Analiza discrim inant| reprezint| procesul de utilizare a unei game variate de metode, tehnici i algoritmi n scopul de a
determina care dintre caracteristicile unor anumite obiecte au cea mai mare relevan | din punct de vedere al recunoa terii
apartenen ei acestor obiecte la anumite clase aprioric definite i de a stabili apartenen a cea mai probabil| a obiectelor la diferite
clase.
Stabilirea apartenen ei obiectelor unei popula ii la anumite clase are la baz | propriet|ile sau caracteristicile obiectelor
respective, care sunt reprezentate la nivel formal prin intermediul unor variabile, notate cu
.
n general, se poate spune c | analiza discriminant | se ocup | cu rezolvarea urm |toarelor trei categorii de probleme:
determinarea acelui set optimal de caracteristici ale unor obiecte, care s | permit| cea mai bun | discriminare
ntre dou | sau mai multe tipuri de obiecte;
utilizarea variabilelor din setul optimal de caracteristici pentru deducerea unor criterii sau reguli pe baza c |rora
se poate face separarea popula iei studiate pe clase sau grupe distincte;
utilizarea setului de caracteristici cu cea mai mare putere discriminatorie i a criteriilor de separare identificate
pentru clasificarea unor obiecte, a c |ror apartenen | nu este cunoscut|, n clasele grupele sau clasele popula iei
studiate; clasificarea de noi obiecte, pe baza variabilelor discriminant i a criteriilor de separare, este cunoscut| sub
numele de predic ie.
Variabilele din setul optimal de caracteristici se numesc variabile descriptor i pot fi reprezentate fie de ntreaga mulime
de variabile care descriu obiectele, fie doar de o submulime a acesteia. Aceasta nseamn | c | mulimea variabilelor descriptor
este o mulime de forma:
.
Variabilele descriptor nu sunt folosite n procesul de clasificare n mod direct, ca atare, ci sub o form | transformat|,
reprezentat| de variabilele discriminant.
Criteriile care trebuie deduse n vederea separ |rii claselor din popula ia analizat| sunt utilizate pentru construirea unor
ecua ii sau func ii, care definesc puncte, curbe sau suprafe e de separare a acestor clase. Ecua iile sau func iile utilizate pentru
separarea claselor sunt cunoscute i sub numele de clasificatori.
Func iile pe baza c |rora se face separarea claselor se numesc func ii discriminant, func ii de clasificare sau func ii scor,
sunt definite n raport cu variabilele descriptor ale obiectelor i servesc la determinarea unor noi variabile, numite variabile
discriminant sau variabile scor.
Leg |tura dintre cele trei categorii de elemente informa ionale ale analizei discriminante, respectiv variabilele descriptor,
variabilele discriminat i func ia discriminat este dat| de rela ia:
,
unde

reprezint| variabilele descriptor,

este func ia discriminant.

este variabila discriminant, iar

Dup | cum o s | vedem n continuare, n majoritatea covr itoare a cazurilor de folosire a analizei discriminante, func iile
discriminant sunt func ii liniare de forma:
.
Num |rul de func ii discriminant, adic | p, este determinat de num |rul variabilelor descriptor i de num |rul claselor existente
la nivelul popula iei studiate.
Variabilele discriminant
determin | un nou spa iu p-dimensional, numit spa iu discriminant, ale c |rui axe sunt
reprezentate de vectorii

i n contextul c |ruia se va face clasificarea efectiv | obiectelor. Valorile variabilelor discriminant

sunt rezultatul evalu |rii func iilor discriminat

pentru un anumit obiect fixat i se numesc scoruri discriminat. Scorurile

discriminant sunt utilizate ca indicatori n clasificarea propriu-zis | a obiectelor.


Func iile discriminant se identific | pe baza unor criterii specifice de discriminare, iar parametrii acestor func ii se estimeaz |
pe baza informa iilor con inute de un e antion particular de observa ii (obiecte, forme etc.), extras din popula ia analizat|.
Dup | ce au fost selectate variabilele discriminant i au fost construite func iile discriminant, acestea pot s| fie utilizate n
efectuarea de predic ii cu privire la apartenen a la o clas | sau alta a unor noi obiecte.
Din formularea acestor trei categorii de probleme, rezult| c | analiza discriminant | poate fi folosit| att n scopul descrierii
i studierii unor popula ii eterogene, prin intermediul unor variabile relevante, ct i n scopul realiz|rii de predic ii cu privire
la apartenen a unor obiecte la clasele acestor popula ii.
Prin con inutul s |u i prin natura procedurilor i tehnicilor pe care le utilizeaz |, analiza discriminant | este echivalent | cu
rezolvarea unei probleme de predic ie, rezultatul predic iei constnd din identificarea apartenen ei unui obiect la o anumit| clas |
dintr-o mulime cunoscut| de clase posibile.
Facilit|ile deosebite pe care le ofer | analiza discriminant|, ca instrument de investigare tiin ific |, au o importan | special|
pentru problematica domeniului economico-financiar, domeniu n care utilizarea acestui instrument prevaleaz | n raport cu alte
instrumente similare.
95

De la domeniul financiar-bancar, n care analiza discriminant| este utilizat|, cu prec |dere, pentru clasificarea firmelor
solicitatoare de credite, i pn | la domeniul marketingului, n care analiza discriminant | este utilizat|, printre altele, n probleme
de segmentare a pie ii, analiza discriminant | ofer | multiple i interesante posibilit|i de analiz | i cunoa tere.
n domeniul economic, cele mai multe, mai utile i mai interesante aplica ii ale analizei discriminate sunt cele legate de
evaluarea anselor de viabilitate pe care le au diferite activit|i sau firme n care se pot face investiii sau c |rora b |ncile le pot
acorda credite. n acest sens, analiza discriminant | poate fi folosit| pentru fundamentarea unor decizii cum ar fi: vnzarea sau
cump |rarea de ac iuni, acordare de credite, cump |rarea sau vnzarea de firme etc.

8.7.1. Definirea problemei analizei discriminante


Privit| ntr-un mod foarte general, rezolvarea unei probleme de clasificare cu ajutorul analizei discriminate presupune
deducerea unor reguli sau criterii astfel nct, dup | cunoa terea vectorului x de propriet|i ale unui obiect care apar ine unei
popula ii , s | se poat | lua o decizie cu privire la clasificarea respectivului obiect ntr-una din cele K clase posibile sub care
poate fi structurat| popula ia .
Ipoteza fundamental| a analizei discriminate este aceea c | mulimea
este format| din elemente eterogene i c |, n mod
implicit, n cadrul mulimii exist| un num |r de K clase, notate cu
i numite clase reale sau clase iniiale, a c |ror
alc |tuire nu este cunoscut| complet i care au urm |toarele propriet|i:
.
Reamintim faptul c |, n general, clasele iniiale ale mulimii

sunt considerate a fi nedisjuncte, adic | exist| posibilitatea

ca:
.
Distribu ia statistic | a obiectelor n cadrul fiec |rei clase reale
de probabilitate condiionat| ale claselor, adic | cu ajutorul func iilor

este descris | cu ajutorul densit|ilor multidimensionale


, a c |ror form | se presupune a fi cunoscut|.

n cadrul analizei discriminate, cea mai mare importan |, att din punct de vedere teoretic, ct i din punct de vedere
practic, o au nu clasele reale, ci clasele de predic ie, pe care le vom defini n continuare.
Vom considera mul imea
i clasele reale
din care aceasta este format| iniial. Scopul principal al analizei
discriminate este acela de a identifica o modalitate eficient | de structurare a mulimii
sub forma unui num |r de K regiuni sau
clase. Regiunile sub forma c |rora trebuie partajat| mulimea
n cazul problemei analizei discriminante, pe care le vom nota
cu
se numesc clase de predic ie sau clase de clasificare i au urm |toarele propriet|i:

Cea de-a doua proprietate se refer | la faptul c | orice obiect din mulimea
trebuie s | fie clasificat. Proprietatea a treia
impune necesitatea ca oricare dintre obiectele mulimii
s | fie clasificat numai ntr-o singur | clas |.
O clasificare poate fi considerat| ca fiind perfect |, adic | neafectat| de erori, dac | i numai dac | exist| o coinciden |
perfect| ntre orice clas | de predic ie
i clasa real| omoloag |
. Acest lucru nu este totdeauna posibil din cauza
consecin elor pe care le implic | proprietatea de disjunc ie a claselor de predic ie. Dup | cum se poate observa, spre deosebire
de clasele reale
, care pot avea anumite suprapuneri, clasele de predic ie
trebuie s | fie disjuncte dou |
cte dou |, adic | s | nu aibe obiecte comune.
Deoarece clasele de predic ie

sunt disjuncte dou | cte dou |, ele apar ca fiind nite trunchieri ale claselor reale

, ceea ce nseamn | c | ele pot fi privite ca fiind definite sub forma unor restric ii impuse asupra claselor reale. Ca
rezultat al trunchierii claselor reale omoloage, clasele de predic ie vor diferi, mai mult sau mai pu in, de clasele reale, astfel nct
ntre o clas | de predic ie i o clas | real| omoloag | vom avea rela ia:
.
Diferen ele care exist| ntre clasele de predic ie i clasele reale, rezultate din faptul o clas | de predic ie este ob inut| prin
trunchierea unei clase reale, reprezint| expresia posibilit|i ca anumite obiecte s | fie clasificate incorect.
O consecin | imediat| a modului n care sunt definite clasele de predic ie este aceea c | fiecare clas | de predic ie reprezint|,
de fapt, o submulime a clasei reale omoloage, adic |:
.
Pe de alt| parte, deoarece clasele de predic ie trebuie s | includ | toate obiectele mulimii
.

, se verific | rela ia:

n aceste condiii, este evident c |, atta timp ct fiecare clas | real| reprezint| un cmp complet de evenimente, orice clas |
de predic ie, care este o submulime a clasei reale omoloage, apare ca fiind un cmp incomplet de evenimente.

96

8.7.2 Separarea claselor n spaiul formelor


Prima i cea mai dificil| problem | care trebuie rezolvat| n analiza discriminat| este aceea a separ |rii claselor de predic ie
n cadrul mulimii . Modalitatea cea mai direct| de separare a claselor mul imii
este reprezentat| de definirea n spa iul
a unor suprafe e de separare sau suprafe e de decizie. Aceste suprafe e de separare sunt cele care determin | trunchierea claselor
de predic ie
i ele trec, cu necesitate, prin mulimea de obiecte care apar in intersec iei claselor pe care le separ |.
Din considerente legate de simplificarea proceselor de clasificare, sunt utilizate, de regul|, suprafe ele de separare de tip
liniar, cum ar fi dreptele, planele sau hiperplanele. Suprafe ele de separare sunt definite prin intermediul unor func ii cunoscute
sub numele de func ii discriminant.
Informa iile necesare construirii suprafe elor de separare a claselor de predic ie sunt reprezentate de un e antion de volum
T de obiecte extrase din popula ia , obiecte a c |ror apartenen | la clasele
este cunoscut| aprioric i cu exactitate.
G |sirea unei modalit|i eficiente de separare pe clase disjuncte a elementelor mul imii
constituie o problem | dificil|,
mai ales din cauza existen ei n mulimea a unor obiecte care apar in simultan la dou | clase reale diferite. Afectarea obiectelor
de acest tip la o clas | sau alta se poate face numai sub rezerva calculului probabilistic.
Dup | identificarea unei modalit |i corespunz |toare de separare a elementelor mul imii
pe clasele de predic ie
, sarcina principal | a analizei discriminante este aceea de a decide cu privire la apartenen a la cele K clase a unor
noi obiecte din mulimea
sau de a face predic ii privind apartenen a acestor obiecte. Aceasta nseamn | c | problema de
clasificare cu ajutorul analizei discriminante poate fi formultat| astfel: dndu-se un obiect pentru care se cunoa te vectorul x
de valori ale caracteristicilor acestuia, se cere s | se determine apartenen a acestui obiect la una dintre cele K clase posibile,
, ale mulimii .
Principala problem | care trebuie rezolvat| n cadrul analizei discriminate este aceea a construirii criteriilor sau regulilor
de clasificare, pe baza c |rora se pot face predic ii privind apartenen a unor forme noi, cu apartenen | iniial| necunoscut|.Criteriile de clasificare mai sunt cunoscute i sub numele de clasificatori, iar deducerea acestor criterii se nume te formare a clasificatorului.
Clasificatorul este, de fapt, un algoritm cu ajutorul c |ruia se stabile te apartenen a cea mai probabil| a unei forme la o
anumit| clas | de predic ie. Formarea clasificatorului se face pe baza informa iilor con inute ntr-un e antion de forme a c |ror
apartenen | este cunoscut| aprioric i care se mai nume te set de formare.
E antionul care reprezint| setul de formare este extras din popula ia analizat| i con ine datele primare utilizate n orice
analiz | discriminat |. n anumite situa ii, pentru formarea clasificatorului poate fi folosit|, n mod efectiv, numai o parte a
e antionului disponibil, cealalt| parte urmnd s | fie utilizat | pentru testarea i validarea abilit|ii pe care o are clasificatorul
ob inut pe baza setului de formare de a clasifica n mod corect forme a c |ror apartenen | este cunoscut|. n acest fel, setul de
formare poate s | reprezinte doar o parte a e antionului disponibil. Partea e antionului utilizat| pentru testarea i validarea puterii
de discriminare a clasificatorului se nume te set de predic ie. De multe ori, ntregul e antion disponibil poate fi folosit att ca
set de formare, ct i ca set de predic ie, ceea ce nseamn | c | cele dou | seturi pot s| coincid |.
Exist| mai multe modalit|i de abordare care pot fi utilizate pentru formarea clasificatorului. Printre acestea men ion |m:
criteriul minimiz |rii costului clasific |rii, criteriul lui Bayes sau criteriul probabilit|ilor aposteriorice, criteriul func iilor
discriminant liniare ale lui Fisher, criteriul metric sau criteriul distan ei M ahalanobis, criteriul raportului de verosimilitate etc.
Utilizarea fiec |ruia dintre criteriile men ionate conduce la ob inerea unui clasificator, a c |rui esen | este n principiu aceea i
pentru majoritatea criteriilor men ionate.

8.7.3 Clasificatorii de tip liniar


Prima modalitate de abordare a problemelor de clasificare cu ajutorul tehnicilor de analiz | discriminant | dateaz | din anul
1933 i a fost propus | de Fisher. Ulterior abord |rile de acest tip s-au dezvoltat n mod constant, iar aplica iile bazate pe analiza
discriminant | s-au extins la din ce n ce mai multe domenii de activitate i s-au diversificat din ce n ce mai mult.
Cele mai multe i cele mai utile aplica ii ale analizei discriminant bazat| pe criteriul lui Fisher sunt ntlnite n domeniul
financiar-bancar, domeniu n care tehnicile de tip se numesc tehnici de credit-scoring i constituie cele mai importante
instrumente pentru fundamentarea deciziilor privind acordarea de credite.
Metoda de analiz | discriminant | propus | de Fisher este o metod | parametric |, caracterizat| prin simplitate i robuste e,
i care ofer | posibilit|i de interpretare foarte utile pentru analiz |. Simplitatea acestei metode decurge din faptul c | utilizarea
sa nu necesit| dect evaluarea unor estima ii pentru parametrii popula iei i claselor acesteia, parametri reprezenta i de medii,
varian e sau covarian e. Aceasta reprezint| un avantaj foarte important al analizei discriminante de tip Fisher, n compara ie,
de exemplu, cu tehnicile de analiz | discriminant | bazate pe criteriul Bayes-ian, tehnici a c |ror utilizare presupune cunoa terea
probabilit|ilor apriorice.
Fundamentul teoretic al analizei discriminante de tip Fisher este reprezentat de analiza varian ei. Criteriul lui Fisher
define te o modalitate de deducere a func iilor discriminant pe baza analizei comparative dintre variabilitatea intragrupal| i
variabilitatea intergrupal|, la nivelul claselor sau grupelor popula iei analizate. Func iile discriminant deduse pe baza criteriului
lui Fisher se mai numesc i func ii scor i sunt func ii liniare.
Dup | cum am mai men ionat, criteriul fundamental care st| la baza mp |r irii mulimii de obiecte
n submulimile
este un criteriu mixt, care urm |re te minimizarea variabilit|ii intragrupale i maximizarea variabilit|ii
97

intergrupale. Utilizarea acestui criteriu combinat asigur | cea mai bun | diferen iere a claselor sau grupelor popula iei .
Ideea care st| la baza criteriului lui Fisher este aceea a determin |rii unor direc ii sau axe, astfel nct, de-a lungul acestora,
clasele mulimii
s | se diferen ieze ct mai mult ntre ele i, n acela i timp, fiecare clas | s | aib | un grad de omogenitate ct
mai mare. Cu alte cuvinte, criteriul lui Fisher are ca scop determinarea unor direc ii de-a lungul c |rora variabilitatea intergrupal|
s | fie ct mai mare, iar variabilitatea intragrupal| s | fie ct mai mic |. Proiec iile obiectelor pe axele definite de aceste direc ii
reprezint| sunt noi coordonate ale obiectelor i se numesc scoruri discriminant.
Dintr-un anumit punct de vedere, analiza discriminant | poate fi considerat| ca fiind asem |n |toare cu analiza componentelor
principale, care are ca scop general identificarea unor axe n raport cu care variabilitatea obiectelor s| fie maxim |. Deosebirea
principal | dintre analiza discriminant | i analiza componentelor principale este legat| de faptul c | n cadrul analizei
componentelor principale spa iul cauzal este considerat n integralitatea sa, f|r | a se face nici o diferen iere ntre elementele
acestuia din punct de vedere al unui anumit criteriu.
n cazul analizei componentelor principale variabilitatea este privit| ca o caracteristic | general| a popula iei analizate, f|r |
a se ine seama de existen a unei eventuale structur |ri a acestei popula ii pe grupe sau clase. n consecin |, variabilitatea care
face obiectul analizei componentelor principale este considerat | ca un tot unitar, f|r | a exista posibilitatea descompunerii
acesteia n raport cu o anumit| structur | a spa iului cauzal analizat.
Spre deosebire de aceasta, n cazul analizei discriminante se consider | c | popula ia analizat| este structurat| pe grupe sau
clase, iar variabilitatea acestei popula ii poate fi descompus | sub forma a dou | componente importante: variabilitatea
intergrupal| i variabilitatea intragrupal|.
n plus, fa | de diferen a men ionat|, n analiza discriminant| noile direc ii care trebuie identificate nu trebuie s | fie n mod
obligatoriu ortogonale, spre deosebire de analiza componentelor principale n care direc iile de variabilitate maxim | trebuie s |
verifice proprietatea de ortogonalitate.
Cea mai important | problem | a criteriului lui Fisher de discriminare ntre clasele unei popula ii
este legat| de
descompunerea variabilit|ii acestei popula ii. Vom detalia modul n care poate fi descompus | variabilitatea popula iei n raport
cu cele dou | sensuri ale acesteia: variabilitatea simpl| - exprimat | prin intermediul sumei totale a p |tratelor abaterilor i
variabilitatea mixt| sau compus | - m |surat| prin intermediul matricii produselor mixte ale abaterilor. Este evident c |
variabilitatea mixt| poate fi definit| numai pentru cazul obiectelor multidimensionale.
A a cum am precizat mai nainte, determinarea func iilor discriminant este echivalent | cu g |sirea unor direc ii, sau vectori,
n raport cu care variabilitatea intragrupal| s | fie minim |, iar variabilitatea intergrupal| s | fie maxim |. Aceste direc ii vor defini
axele spa iului discriminat i pot fi identificate sub forma unor combina ii liniare de variabilele descriptor selectate n analiz |.
Pentru determinarea acestor direc ii, vom considera c | variabilele descriptor implicate n analiz | sunt
variabilele

, ale c |ror medii sunt

variabilele centrate corespunz |toare

. Vom nota cu

variabilelor descriptor, adic |:


,
ceea ce nseamn | c |:
.
Vom nota matricea de covarian | a vectorului aleator centrat
abaterilor, corespunz |toare realiz |rilor vectorului aleator

, cu

cu

, iar matricea produselor mixte ale

Problema care se pune n cadrul analizei discriminate este aceea de a determina o nou | variabil|
de forma:

, ca o combina ie liniar |

,
unde ponderile

se determin | n a a fel nct pentru noua variabil| suma p |tratelor abaterilor intraclas | s | fie

minim |, iar suma p |tratelor abaterilor interclas | s | fie maxim |. Acest| variabil| se nume te variabil| discriminant (centrat|).
Dac | vom nota cu vectorul ponderilor
, atunci variabila
poate fi scris | sub forma:
.
Privit| ca o func ie de vectorul
de forma:

, aceast| combina ie liniar | define te, de fapt, o func ie discriminant sau o func ie scor,

.
Prin urmare, procedura de construire a unei func ii discriminant se reduce la determinarea vectorului
.

, adic | a ponderilor

Trebuie s | facem precizarea c | natura liniar | a func iei discriminant este impus | ca ipotez | ini ial | i ea nu trebuie
considerat| ca rezultnd din impunerea unui anumit criteriu de performan | privind separabilitatea claselor.
Deoarece variabila
este definit| ca o combina ie liniar| de variabile care au media nul|, rezult| c | i media acesteia este
nul|, adic |:
.

98

n aceste condiii, suma total| a p |tratelor abaterilor pentru noua variabil| discriminant

este definit| de rela ia:

,
reprezint| varian a variabilei

unde

la nivel de popula ie.

Considernd popula ia
structurat| pe clase, suma total| a p |tratelor abaterilor variabilei
poate fi descompus | sub
forma sumei dintre suma p |tratelor abaterilor intragrupale i suma p |tratelor abaterilor intergrupale, respectiv:
.
n mod similar, varian a variabilei discriminant
intergrupal|, adic |:

poate fi descompus | ca sum | dintre varian a intragrupal| i varian a


.

Pe de alt| parte, avnd n vedere rela ia care define te variabila discriminant


sub forma:

, rezult| c | varian a acesteia poate fi scris |

.
, respectiv de rela ia:

innd seama de rela ia de descompunere a matricii de covarian |


,
varian a variabilei scor

devine:
.

Lund n considerare descompunerea de mai sus a varian ei variabilei scor

, rezult| c | m |rimile scalare

reprezint| varian a intragrupal|, respectiv varian a intergrupal|, corespunz |toare variabilei


n aceste condiii, coeficien ii combina iei liniare care define te variabila discriminant
variabila

se determin | astfel nct

s | aib | o varian a intragrupal| minim | i o varian | intergrupal| maxim |, adic | astfel nct raportul:
,

s | fie maxim.
Rezult| c | determinarea coeficien ilor func iei discriminant
extrem:

poate fi formulat| sub forma urm |toarei probleme de

.
Condiiile necesare de extrem pentru aceast | problem | sunt date de anularea derivatelor par iale ale func iei
cu componentele vectorului , ceea ce n exprimare vectorial| nseamn |:

n raport

.
nmul ind condiia ob inut| cu

i innd seama de definirea lui

, rezult| urm |toarea form | a condiiei de extrem:

.
n concluzie, se poate spune c | vectorul

asigur | maximizarea raportului


,

dac | el este solu ie a ecua iei:

sau a ecua iei:


.
Aceast | ultim | form | a condiiei necesare de extrem arat| c |
proprii a aceleia i matrici. Pentru ca vectorul
ca valoarea proprie
s | verifice condiia:

este un vector propriu al matricii

, asociat valorii

, ca solu ie a unui sistem omogen, s | fie diferit de vectorul nul, este necesar
.

Deoarece, ca matrici de covarian |, matricile

sunt simetrice, rezult| c | i matricea

este simetric |, ceea

ce nseamn | c | valorile proprii ale acesteia sunt reale.


n aceste condiii, a maximiza raportul de mai sus echivaleaz | cu a alege cea mai mare valoare proprie a matricii

i vectorul propriu corespunz |tor.


99

Dac |

este cea mai mare valoare proprie a matricii

este vectorul propriu asociat acesteia, adic |:

atunci raportul este maxim, iar valoarea de maxim | a acestuia este

, adic |:
.

Componentele vectorului
discriminant are forma:

reprezint| coeficien ii func iei discriminant liniare

, ceea ce nseamn | c | func ia

.
nlocuind variabilele centrate

cu

, vom ob ine exprimarea func iei discriminat n func ie de variabilele

discriminant originale, respectiv:


.
Izolnd termenii care con in mediile variabilelor descriptor, func ia discriminant poate fi scris | sub forma:
.
n concluzie, putem spune c | func iile discriminant ale lui Fisher sunt func ii liniare de forma urm |toare:
,
reprezint| termenul liber, iar coeficien ii

unde
propriu al matricii

sunt componente ale unui vector

n consecin |, variabila discriminant corespunz |toare func iei discriminant


,

este definit| astfel:

iar valoarea acesteia pentru o anumit| form | , adic | scorurul discriminant, reprezint| evaluarea func iei discriminat
punctul respectiv. Media i varian a variabilei discriminant (necentrat|) sunt definite de urm |toarele rela ii:

.
Din modul n care este definit| func ia discriminant de tip Fisher, rezult| c | num |rul posibil de func ii discriminant este
egal, n principiu, cu num |rul de vectori proprii ai matricii

. Teoretic, se poate defini cte o variabil| i o func ie

discriminant pentru fiecare vector propriu relevant al acestei matrici. Vectorii proprii ai matricii

vor defini axele

spa iului discriminant.


O problem | important| legat| de definirea variabilelor discriminant i a func iilor discriminat este aceea c | matricea
nu este o matrice simetric |, ceea ce nseamn | c | este posibil ca nu toate valorile ei proprii s | fie reale. Mai mult dect att,
vectorii proprii ai acestei matrici nu mai au proprietatea de ortogonalitate, ceea ce nseamn | c | axele spa iului discriminat nu
sunt ortogonale.

8.7.4 Definirea funciilor discriminant ale lui Fisher


Am prezentat mai nainte modul n care poate fi dedus | o func ie discriminant de tip Fisher. Criteriul pe baza c |ruia a fost
dedus | o func ie discriminant de acest tip este un criteriu mixt, care vizeaz | n mod simultan dou | aspecte: minimizarea
variabilit|ii intragrupale i maximizarea variabilit|ii intergrupale.
O func ie discriminat de tip Fisher se determin | ca o combina ie liniar | de variabilele discriminant, combina ie ai c |rei
coeficien i sunt componente ale unui vector propriu al matricii

. Din aceast | modalitate de definire rezult|, n mod

implicit, c | pot fi identificate mai multe func ii discriminant.


Num |rul maxim posibil de func ii discriminant care pot fi identificate pe baza criteriului lui Fisher este egal cu num |rul
de valori proprii distincte i strict pozitive ale matricii

. Deoarece aceast| matrice este de dimeniune

, n situa ia n

care ea este strict pozitiv definit| i are rangul maxim, rezult| c | num |rul total de func ii discriminant care pot fi determinate
este egal cu n.
Vom prezenta n continuare modul n care pot fi determinate toate func iile discriminant posibile. Pentru aceasta vom nota
cele n valori proprii ale matricii

cu

i vom presupune c | ele sunt ordonate din punct de vedere al valorilor

pe care le au astfel:
.
100

Vom nota cu

, asocia i, n ordine, cu valorile proprii

cei n vectori proprii ai matricii

Prima func ie discriminat se define te cu ajutorul vectorului propriu


i are forma urm |toare:

, care corespunde celei mai mari valori proprii,


.

Deoarece aceast| func ie corespunde celei mai mari valori posibile a raportului dintre varian a intergrupal| i varian a
intragrupal|, ea asigur | cea mai bun | separabilitate a claselor, din punct de vedere al criteriului mixt men ionat mai sus. Aceasta
nseamn | c | proiec iile obiectelor pe noua ax | determinat | de vectorul de coeficien i
pot fi separate pe clase care se
diferen iaz | n cel mai mare grad posibil i care au cel mai mare grad posibil de omogenitate.
n mod similar, cea de-a doua func ie discriminat se define te cu ajutorul vectorului propriu care corespunde celei de-a doua
valori proprii, respectiv:
.
Fiind determinat| pe baza celei de-a doua valori proprii a matricii

, aceast| func ie discriminat corespunde unei

valori mai reduse a raportului dintre varian a intergrupal| i varian a intragrupal|. n consecin |, ea asigur | o rezolu ie mai mic |
din punct de vedere al separabilit|ii claselor mul imii . Din acest punct de vedere, este posibil ca proiec iilor obiectelor pe
noua ax | care are ca suport vectorul de
s | le corespund | clase care sunt i mai pu in omogene i se diferen iaz | i mai pu in
ntre ele.
n sfr it, cu ajutorul vectorului propriu asociat cu cea mai mic | valoare proprie, adic | vectorul
, se determin | ultima
func ie discriminant, respectiv:
.
Prin compara ie cu celelalte func ii discriminant, aceast| ultim | func ie discriminat asigur | cea mai proast | separabilitate
ntre clasele mulimii .
Puterea de separabilitate din ce n ce mai mic | pe care o au func iile discriminant
, conduce la ideea necesit|ii
de a selecta n analiz | numai un anumit num |r de func ii discriminant, n ordinea puterii lor de discriminare.
Num |rul efectiv al func iilor discriminant care trebuie re inute n analiz |, depinde n mod direct de num |rul de clase i de
num |rul de variabile discriminant.
n concluzie la cele ar |tate mai nainte, putem defini func iile discriminant liniare i variabilele discriminant sub forma
urm |toare:
Func iile discrim inant (Fisher) sunt combina ii liniare de variabilele descriptor, de forma:
,
unde

este vectorul variabilelor descriptor, iar

. Valorile func iilor discriminant se

este vector propriu al matricii

numesc scoruri discriminant.


Variabilele discrim inant sunt combina ii liniare de variabilele descriptor, de forma:
,
unde

au semnifica ia din definiia precedent |. Media i varian a variabilelor discriminant sunt:


.

Odat | ce func iile discriminat au fost estimate, ele pot fi utilizate pentru efectuarea de predic ii cu privire la apartenen a unor
noi obiecte la clasele de predic ie.
Exem plul 8.1
n scopul evidenierii modului clasificare cu ajutorul clasificatorilor liniari, vom considera cazul unei populaii de firme comerciale care
se grupeaz| n dou| clase: firme performante i firme neperformante. Vom presupune c| performanele firmelor sunt apreciate pe baza a
doi indicatori economico-financiari: rata profitului i rata profitului investit. De asemenea, vom mai presupune c| dispunem de un eantion
de 10 firme din populaia de firme analizate, dintre care 6 sunt firme performante, iar 4 sunt firme neperformante. Valorile convenionale
ale celor doi indicatori de performan| pentru firmele din cele dou| categorii se g|sesc n tabelul urm|tor.
Firme performante
Firma

Firme neperformante

Rata profitului

Rata profitului
investit

Rata profitului

Rata profitului
investit

13,0

43,0

4,0

31,0

19,0

28,0

7,0

36,0

12,0

35,0

2,0

11,0

Firma

101

9,0

38,0

9,0

56,0

17,0

39,0

Media

13,17

39,83

Variana

16,9667

87,7667

11,0

17,0

Media

6,00

23,75

Variana

15,33

136,917

Vom mai presupune c| densit|ile de probabilitate ale claselor sunt de tip normal, adic| sunt de forma urm|toare:

n graficul din figura urm|toare sunt reprezentate densit|ile de probabilitate bidimensionale ale celor dou| clase de predicie, n ipoteza
de normalitate, i planul de decizie care asigur| separarea acestor clase.

Figura 8.12: Separarea claselor de predicie cu ajutorul planului de decizie


Planul de decizie care separ| cele dou| clase a fost determinat cu ajutorul funciilor discriminant pe care le vom calcula n continuare.
Pentru a calcula valorile proprii ale matricii
, va trebui s| calcul|m, mai nti, inversa matricii de covarian| intragrupal|
. Vom
avea:
,
i deci:
.
Vectorii proprii i valorile proprii pentru matricea

sunt:
,

iar termenii liberi ai funciilor discriminant sunt:

.
Pe baza termenilor liberi i a celor doi vectori proprii

vom putea defini cele dou| funcii discriminant liniare astfel:

.
Deoarece cea de-a doua funcie discriminant corespunde unei valori aproape neglijabile, relevana sa este minim| i se poate renuna la
ea. Ecuaiile discriminat care definesc planele de separare a celor dou| clase sunt:

.
Dup| cum se poate observa, centroidul populaiei de obiecte aparine primului plan de separare, deoarece el verific| prima ecuaie
discriminat:

102

n figura urm|toare sunt reprezentate grafic elementele eseniale legate de separarea claselor cu ajutorul primei funcii discriminant.

Figura 8.13: Graficul separ|rii claselor de predicie


Prima ax| a spaiului discriminat, respectiv

, are ca suport vectorul propriu

i este ortogonal| cu dreapta de decizie

. n

raport cu acest| ax| se determin| scorurile obiectelor, ca proiecii ale obiectelor pe aceast| ax|. Aceste scoruri sunt valori ale variabilei
disciminant . Scorurile celor 10 obiecte n spaiul discriminat, calculate cu ajutorul funciilor discriminant
, sunt pezentate
n tabelul urm|tor.
Firme performante

Firma

Firme neperformante

Scoruri
discriminant

Scor discriminant
Firma

5,851

1,443

-6,741

4,777

6,298

-10,145

-2,198

4,073

2,148

-0,901

-15,530

-1,542

0,370

3,060

-5,011

-7,318

6,590

10,391

8,222

-3,838

Media

4,913

0,002

Media

-7,370

-0,003

Variana

8,970

47,579

Variana

33,097

31,778

Mediile scorurilor pentru toate cele 10 obiecte sunt nule, iar varianele sunt egale cu cu 56,250, n cazul variabilei discriminant

respectiv cu 37,025, n cazul variabilei discriminant

. Estimaiile pentru matricile de covarian| ale variabilelor discriminant

calculate pe baza scorurilor, la nivel de ansamblu i pe clase, sunt urm|toarele:


.
Estimaiile pentru matricile de covarian| intraclas| i interclas| ale variabilelor discriminat sunt urm|toarele:
.
Figura urm|toare conine reprezentarea grafic| a obiectelor n spaiul discriminant, ale c|rui axe sunt
reprezentate i curbele de nivel ale densit|ilor de probabilitate ale celor dou| clase.

103

. n cadrul figurii sunt

Figura 8.14: Reprezentarea obiectelor n spaiul discriminant


Pentru variabila discriminat

, care este cea mai semnificativ|, varianele intragrupal| i intergrupal| sunt:

.
Ca m|rime care aproximeaz| calitatea separ|rii claselor, raportul dintre variana intergrupal| i variana intragrupal| este:
.
Pentru a evidenia avantajele pe care le are utilizarea scorurilor discriminant n raport cu observaiile originale, vom compara raportul
n care se afl| variana intergrupal| i variana intragrupal| la nivelul observaiilor originale, pe de o parte, cu raportul n care se afl| variana
intergrupal| i variana intragrupal| la nivelul scorurilor discriminant, pe de alt| parte.
Deoarece n varianta spaiul iniial obiectele sunt reprezentate exprimate prin intermediul a dou| variabile descriptor, iar n spaiul
discriminat prin intermediul unei singure variabile, pentru a putea face comparaia va trebui s| exprim|m variabilitatea din spaiul iniial n
mod unic, prin intermediul varianei totale. n cazul spaiului cauzal iniial, variana total| intergrupal| este reprezentat| de suma elementelor
de pe diagonala principal| a matricii de covarian| intergrupal| , respectiv:
,
iar variana total| intragrupal| este reprezentat| de suma elementelor de pe diagonala principal| a matricii de covarian| intragrupal|

respectiv:
.
Este evident c| suma celor dou| variane este egal| cu variana total| din spaiul iniial, adic| suma elementelor de pe diagonala principal|
a matricii de covarian| , respectiv:
.
Raportul dintre variana total| intergrupal| i variana total| intragrupal|, corespunz|toare spaiului iniial, este:
.
Deoarece

, putem spune c| n spaiul discriminant se obine o mai mare omogenitate intraclas| i o mai mare

eterogenitate interclas|, ceea ce corespunde cu criteriul dee optimalitate a clasific|rii.


n concluzie, se poate spune c| n spaiul discriminant, att omogenitatea intraclas|, ct i eterogenitatea interclas|, sunt sensibil mai mari,
n comparaie cu spaiul iniial.
Evaluarea scorurilor pentru noi obiecte, pe baza funciilor discriminat, poate permite stabilirea clasei de apartenen| a acestor obiecte.
Dac| scorurile obiectelor vor fi negative, obiectele vor aparine clasei situate la stnga n raport cu centroidul populaiei, iar dac| vor fi
pozitive, obiectele vor fi atribuite clasei situate la dreapta fa| de centroidul populaiei.

104

Bibliografie

1. Benzecri J. P., L'analyse des donnes, Dunod, Paris, 1979


2. Chessat R. (ed), Exercices comments de statistique et informatique appliques, Dunod, Paris, 1976
3. Dhrymes Ph. J., Econometrics: Statistical Foundation and Applications, SpringerVerlag, NY, 1974
4. Harman H. H., Modern Factor Analysis, University of Chicago Press, Chicago, Illinois 1967
5. Madalla G. S., Econometrics, McGraw-Hill, New York, 1977
6. Ruxanda G., EMI - Limbaj pentru analiza si predictie, Editura ASE, Bucuresti, 2001
7. Ruxanda G., Analiza datelor, Editura ASE, Bucuresti, 2001
8. Rysin J. V. (ed), Classification and clustering, Academic Press, New York, 1977
9. Saporta G., Probabilits, analyse des donnes et statistique, Ed. Technip, Paris, 1990
10. Saporta G., tef|nescu V., Analiza datelor i informatic|, Ed. Economic|, Bucureti, 1996
11. St|n|il| O., Neagoe V., Teoria recunoaterii formelor, Editura Academiei, Bucureti, 1992
12. Vancea R., Holban S., Recunoaterea formelor. Aplicaii, Editura Academiei, Bucureti, 1987
13. Wonnacott J., Wonnacott H., Econometrics, Wiley, New York, 1970

105

S-ar putea să vă placă și