Sunteți pe pagina 1din 31

Capitolul 3.

Metode de nvare nesupervizat


n cele ce urmeaz vom prezenta pe scurt cteva dintre tehnicile de
nvare nesupervizat. Reamintim c aceste tehnici au ca scop construirea
unui model al datelor iniiale n care toate variabilele fiind tratate ca
inputuri, nefiind precizate nici un fel de variabile de tip output.
3.1 Analiza componentelor principale
Aa cum am mai menionat, datele multivariate sunt greu de
vizualizat. Din acest motiv ar fi necesar reducerea dimensiunilor matricei
lor. De cele mai multe ori este dorit reducerea numrului de coloane.
Tehnica numit Analiza componentelor principale (Principal Component
Analysis PCA) are ca scop reducerea controlat a numrului de variabile
(coloane) ale matricei de date, pe ct posibil la dou sau trei. Astfel, n loc
de p variabile corelate ntre ele am dori s avem doar dou sau trei
variabile noi, numite componente. Acestea exprim atribute noi ale
indivizilor i sunt construite n aa fel nct s fie necorelate ntre ele, fiecare
dintre aceste noi variabile fiind o combinaie liniar de variabilele originale.
Scopul PCA este acela de a extrage cel mai mic numr de
componente care s recupereze ct mai mult din informaia total
coninut n datele originale.
3.1.1 Reprezentri geometrice ale datelor. Cantitatea de informaie
din norul de puncte
S prezentm mai nti cazul n care folosim matricea de date
X ( n p ) ce conine informaii asupra celor p variabile urmrite pe cei n
indivizi (cazuri). n aceast abordare nu facem nici o ipotez legat de
repartiiile valorilor celor p variabile, doar aplicm standardizarea datelor.
Soluia obinut pentru reducerea dimensiunilor matricei datelor se bazeaz
pe considerente strict geometrice i algebrice.
Fie matricea X ( n p ) ce reprezint n indivizi asupra crora s-au
msurat p variabile. Matricea X o putem privi fie linie cu linie exprimnd
informaii despre cei n indivizi, fie coloan cu coloan exprimnd informaii
despre cele p variabile.

Prin urmare:
(1) oricrui individ i i corespunde n matricea X o linie, adic un
vector cu p elemente, care va fi scris: Li = ( xi1 , xi 2 ,..., xip ) R p ;
(2) oricrei variabile j i corespunde n matricea X o coloan cu n
elemente, care va fi notat: C j = ( x1 j , x 2 j ,..., x nj ) T R n .
Dac matricea este privit pe linii, atunci avem n linii ce pot fi
reprezentate n spaiul Rp al variabilelor. Se obine, n spaiul variabilelor,
un nor de n puncte de coordonate ( xi1 , xi 2 ,..., xip ) , cte un punct pentru
fiecare individ i.
Dac matricea este privit pe coloane, atunci avem p coloane ce pot
fi reprezentate n spaiul Rn al indivizilor. Se obine, n spaiul indivizilor,
un nor de p puncte de coordonate ( x1 j , x 2 j ,..., x nj ) , cte un punct pentru
fiecare variabil j.
Atunci cnd n sau/i p sunt mari (mult mai mari dect 2 sau 3), nu
mai putem s interpretm grafic norul de puncte. Ideea ar fi s dezvoltm
nite tehnici care s ne permit, fr a pierde prea mult informaie
coninut n norul de puncte, s aproximm att spaiul coloanelor ct i
spaiul liniilor prin nite subspaii de dimensiuni mai mici. Vom prezenta n
cele ce urmeaz o asemenea tehnic.
S notm cu m = ( m1 , m 2 ,..., m p ) vectorului mediilor celor p
variabile. Punctul de coordonate ( m1 , m 2 ,..., m p ) din Rp este numit centrul
de greutate al norului de puncte. Informaia I k cu care particip un individ
oarecare k n norul de puncte poate fi exprimat prin distana (euclidian) de
la punctul ce-l reprezint de coordonate ( x k1 , x k 2 ,..., x kp ) pn la centrul
de greutate, adic:
p

I k=

(x

kj

m j )2 .

(1)

j =1

n acelai timp, putem s scriem informaia total I a norului de


puncte ca fiind suma informaiilor cu care particip toate punctele
(indivizii), adic:
n

I=

I = ( x
k

k =1

k =1 j =1

kj

m j )2 .

(2)

Observaie: Este important, atunci cnd analizm norul de puncte,


s identificm punctele ce particip cu informaia cea mai mare!
Exemplu: S presupunem c avem trei indivizi i dou variabile
msurate asupra lor. Coordonatele acestor indivizi, n planul variabilelor
sunt urmtoarele: x1 = (0, 0), x 2 = (1, 0), x3 = (5, 5) . Centrul de greutate al
norului de puncte descris de cei trei indivizi este dat de punctul de
coordonate (m1 = 2, m2 = 1.6666) .
Folosind formulele de mai sus, obinem informaiile corespunztoare
indivizilor: I1 = 6.75, I2 = 3.75 i I3 = 20.15 i informaia total oferit de
norul de puncte I = 30.65. Se observ faptul c punctul al treilea deine
informaia cea mai mare n cadrul norului de puncte analizat.
A ajusta norul de puncte nseamn a exprima datele din matrice prin
mai puine coloane, pierznd ct mai puin posibil din informaia de
ansamblu oferit de norul de puncte.
a) Subspaiu cu o dimensiune
Considerm datele exprimate prin norul de puncte din spaiul
variabilelor Rp. Acest nor are un centru, anume centrul de greutate.
Presupunem c eventual n urma unei operaiuni de centrare originea
spaiului este exact acest centru. Fie, n acest spaiu Rp, o dreapt ce trece
prin origine i este determinat de versorul u = (u1 , u 2 ,..., u p ) T . Putem s
alegem o infinitate de asemenea drepte; evident, fiecare dreapt astfel
precizat este un subspaiu de dimensiune 1 al spaiului variabilelor.
Exist oare o asemenea dreapt care s ajusteze optim norul de
puncte? Pentru a rspunde la
aceast ntrebare, s considerm un
individ k ale crui coordonate
Pk(x1,x2,...)
(centrate) n spaiul variabilelor

sunt ( x k1 , x k 2 ,..., x kp ) .
S proiectm acest individ
ck
Pk(y1,y2,)
pe dreapta de versor u. Proiecia
sa se afl la distana ck de origine;
0
numrul ck reprezint unica
Figura 1. Proiecia pe o dreapt
coordonat a individului k pe
dreapta . Coordonata ck,, obinut
prin proiecie ortogonal, este dat de formula:
c k = x k1 u1 + x k 2 u 2 + ... + x kp u p .
(Pentru edificare putem urmri i desenul din figura 1.)

Folosind definiia informaiei oferite de norul de puncte din spaiul


Rp, putem s exprimm informaia total oferit de ctre proieciile
punctelor din nor pe dreapta prin:
n

Iu =

I' = c
k

k =1

2
k

(3)

k =1

Putem s formulm acum urmtoarea


Problem: S se identifice, dintre dreptele , acea dreapt *, adic
acel versor u * = (u1* ,.u 2* ,.., u *p ) T , care s maximizeze expresia (3) cu alte
cuvinte, s recupereze maxim posibil din informaia norului de puncte.
Ca problem de programare matematic (3) se rescrie astfel:
n

max I u =
u

(x

k1 u1

+ ... + x kp u p ) 2

k =1

(4)

u12 + u 22 + ... + u 2p = 1.
Versorul u * = (u1* ,.u 2* ,.., u *p ) T , soluie a problemei (4), pentru care
se obine maximul expresiei informaiei totale, va fi notat
f 1 = ( f11 , f 21 ,..., f p1 ) T . El poart numele de prima ax factorial.
Se observ c numerele c k* ce determin proieciilor celor n puncte
(indivizi) pe aceast prim ax factorial se obin prin nmulirea
matriceal X f 1 R n . S notm cu C1 acest vector. El se numete prima
component factorial sau prima variabil factorial. Prin urmare, n loc
s analizm p variabile asupra celor n indivizi, putem analiza doar o singur
variabil nou, dat de vectorul C1 obinut prin formula

C1 = X f 1

(5)

De menionat faptul c aceast component este o combinaie liniar


de coloanele matricei X, iar coeficienii acestei combinaii sunt dai de
elementele versorului axei factoriale. (Ct de bine va nlocui ea ansamblul
variabilelor rmne ns de vzut!)
Observaie: Din punct de vedere geometric, folosind criteriul celor
mai mici ptrate, problema aflrii unui subspaiu de dimensiune 1 poate fi
formulat astfel (vezi notaiile din figura 1).

S se gseasc acea dreapt * de versor u * = (u1* ,.u 2* ,.., u *p ) T


pentru care se realizeaz minimul expresiei

Pk Pk '

(6)

Se observ imediat faptul c aflarea minimului expresiei (6) este


echivalent cu aflarea maximului problemei (4).
Soluia problemei de optim (4) este justificat de urmtoarea:
Propoziia 1. Versorul u * = (u1* ,.u 2* ,.., u *p ) T soluie a problemei de
optimizare (4) este un vector propriu asociat celei mai mari valori proprii,
fie ea 1, a matricei X T X . Cantitatea total de informaie recuperat de axa
factorial asociat versorului u * este tocmai 1.
Demonstraie. Dac datele din matricea X sunt standardizate n
raport cu mediile i abaterile standard ale variabilelor, atunci matricea
X T X este tocmai matricea coeficienilor de corelaie (vezi Anexa 3). S o
notm cu R. Cum informaia total recuperat de dreapta de versor u este
I u = C T C unde C este variabila factorial asociat axei factoriale u (adic

C = X u ), aceast informaie o putem scrie: I u = C T C = u T R u , iar


problema de optim (4) devine:
max I u = u T R u
T

u u = 1.

(7)

Pentru a rezolva problema de optimizare (7) vom face apel la


lagrangeanul asociat ei. (Avem o singur restricie de tip egalitate, prin
urmare vom avea un singur multiplicator Lagrange asociat ei fie acesta .)
Lagrangeanul este:

L(u, ) = u T R u + (1 u T u ).
L
= 0 rezult c vectorul u i
u
multiplicatorul trebuie s fie soluii ale sistemului de ecuaii

Din condiia necesar de optim

R u = u

(8)

adic multiplicatorul Lagrange este o valoare proprie a matricei R, iar u *


(soluia optim a problemei) este un vector propriu asociat.

Acum putem s afirmm c, din punct de vedere practic, prima ax


factorial f 1 este dat de vectorul propriu (de norm 1) asociat primei
valori proprii a matricei R a corelaiilor.
Se mai observ faptul c, dac nmulim ambii membri ai relaiei (8)
cu u , obinem:
T

uT R u = uT u
i, cum vectorul u verific condiia u T u = 1 (este de norm 1), rezult c
uT R u =

(9)

Din expresia (9) rezult c informaia total recuperat de prima ax


factorial f 1 (dat de versorul u * , optimul problemei (7)) este tocmai
(adic valoarea proprie maxim a matricei corelaiilor).
Observaie. Cum matricea hessian (a derivatelor de ordinul doi)
asociat este R, suntem asigurai c din condiia necesar de optim se va
obine un punct de maxim pentru problema (7).
b) Subspaiu de dou dimensiuni
A ajusta norul de puncte Rp printr-un (sub)spaiu cu dou dimensiuni
nseamn a gsi un plan n spaiul Rp. Se poate arta c un asemenea
subspaiu care ajusteaz optim norul de puncte este un plan determinat de
prima ax factorial f 1 = ( f11 , f 21 ,..., f p1 ) T obinut ca soluie a problemei
de optim (4) i de un vector u = (u1 , u 2 ,..., u p ) T ortogonal pe aceasta, vector
care satisface:
n

max I u =

(x

k1 u1

+ ... + x kp u p ) 2

k =1

u u =1

(10)

1 T

( f ) u = 0

Soluia problemei (10), fie ea u* = (u1* ,.u 2* ,.., u *p ) T , va fi notat, prin


analogie cu soluia problemei (4), cu f

= ( f12 , f 22 ,..., f p2 ) T i va fi numit

a doua ax factorial. Aplicnd din nou propoziia 1 pentru problema (10),


putem s concluzionm c f 2 este vectorul propriu al matricei R asociat

celei de-a doua valori proprii. Cum matricea R este simetric, f

este

ortogonal pe f 1 .
n ceea ce privete coordonatele celor n indivizi pe aceast nou ax,
grupate n vectorul C 2 R n , vor fi obinute la fel ca i n cazul primei axe,
adic printr-un produs matriceal:

C2 = X f 2

(11)

Caracteristica sintetizat C2 astfel obinut se numete a doua


component sau a doua variabil factorial. Ea este o a doua combinaie
liniar a variabilelor iniiale.
c) Subspaiu de q dimensiuni (q < p)
n cazul q-dimensional (cu q < p), a ajusta optim norul de puncte
din R nseamn a maximiza expresia (3), de aceast dat prin puncte
proiectate pe un subspaiu (din Rp) de dimensiune q. Prin generalizarea
cazului bidimensional, ar trebui s identificm, iterativ, axele factoriale
f 1 , f 2 , ..., f q mutual ortogonale perpendiculare dou cte dou ca
soluii ale problemei (4). Folosind din nou propoziia 1, axele factoriale
cutate vor fi vectori proprii asociai valorilor proprii ale matricei R a
corelaiilor. Dac 1 2 ... q sunt primele q valori proprii, atunci
p

axele factoriale f 1 , f 2 , ..., f q sunt vectorii proprii corespunztori.


d) Aspecte practice privind ajustarea norului de puncte n
spaiul p-dimensional al variabilelor
Pentru a realiza scopul propus n PCA se calculeaz mai nti
matricea R a corelaiilor variabilelor (care este o matrice de dimensiune
p p) i apoi valorile proprii i vectorii proprii ai acesteia. Componentele
principale sunt extrase n ordinea descresctoare a importanei lor, aa
nct prima component extras recupereaz cea mai mare parte a cantitii
de informaie din datele iniiale. Procesul de extragere a componentelor
principale este unul iterativ. Dac s-a reuit extragerea unui numr de q
componente, iar acestea acoper 80-90% din informaia total a datelor
iniiale, ne putem declara mulumii de rezultatul obinut. n continuare,
analistul problemei va ncerca s interpreteze componentele obinute n
termenii variabilelor iniiale, pentru a oferi mai mult nelegere
rezultatelor obinute.
Putem s prezentm acum un algoritm pentru obinerea primelor q
axe factoriale i a cantitii totale de informaie recuperat de ele.

Paii algoritmului sunt urmtorii:


Pasul 1. Se standardizeaz datele din matricea de date, folosind mediile i
abaterile medii ptratice ale variabilelor.
Pasul 2. Se calculeaz, din datele standardizate, matricea corelaiilor, fie ea
R.
Pasul 3. Se identific primele q valori proprii ale matricei R a corelaiilor (n
ordine descresctoare). Fie ele 1 2 ... q .
Pasul 4. Prima ax factorial f 1 este dat de vectorul propriu de norm 1
asociat valorii proprii 1 . A doua ax factorial f 2 este dat de
vectorul propriu de norm 1 asociat valorii proprii 2 , .a.m.d.
Formm matricea F = ( f 1 , f 2 ,..., f q ) a vectorilor proprii.
Pasul 5. Matricea C = (C 1 , C 2 ,..., C q ) a componentelor principale
variabilelor factoriale se obine din matricea vectorilor proprii F
ai matricei R i din matricea X, adic

C = X F

(12)

Pasul 6. Dup parcurgerea pasului 5 pentru toate cele q (< p) axe factoriale,
cantitatea total de informaie din norul de puncte recuperat de
f 1 , f 2 , ..., f q este
subspaiul factorial descris de axele
1 + 2 + .. + q .
Un mod practic de apreciere a calitii ajustrii norului de puncte
prin acest subspaiu este calculul raportului

q =

1 + 2 + .. + q
1 + 2 + .. + p

100 .

(13)

Cum 0 q 100 , acest raport exprim, procentual, cantitatea de


informaie recuperat. Evident, cu ct q este mai apropiat de valoarea
maxim 100, cu att norul de puncte este ajustat mai bine prin subspaiul de
dimensiune q.
3.1.2 Combinaii liniare standardizate
Soluia geometric a problemei aflrii componentelor principale
prezentat n 3.1.1 este uor de aplicat, ea nu presupune ipoteze

suplimentare asupra variabilelor urmrite. Are la baz matricea observaiilor


iar tehnicile folosite sunt doar de natur algebric si geometric. ns putem
aborda problema reducerii numrului de variabile prin componente
principale i n alt mod.
S presupunem c avem identificate cele p variabilele ce descriu un
fenomen. Evident, n dorina noastr de a reduce numrul acestora am putea
s considerm, pe rnd, doar cte o variabil important. Dei, reducnd
astfel drastic problema, am grei cu siguran, netiind pe care s-o alegem.
Am putea ns s acordm ponderi egale celor p variabile i s considerm
1
ca nou variabil media aritmetic a celor p variabile, adic
p

j =1

1 1
1
ponderile folosite fiind , .,.., . Am grei ns din nou acordnd
p
p p
aceleai ponderi tuturor variabilelor, nediscriminndu-le n nici un fel.
Soluia cea mai rezonabil ar fi s considerm o combinaie liniar a
p

variabilelor cu ponderile necunoscute, anume x =

x
j

, unde

j =1

= (1 , 2 ,..., p ) sunt ponderi normate (cu proprietatea

2
j

= 1,

j =1

combinaia fiind standardizat). Noua variabil generic T x este cea


care ne intereseaz; ea este o component sau o nou variabil dac vom
identifica unic ponderile (1 , 2 ,..., p ) .
S presupunem c cele p variabile urmrite sunt aleatoare, grupate n
vectorul x = ( x1 , x 2 ,..., x p ) . Fie vectorul medie (avem E (x) = ) i
matricea de covarian (avem Var (x ) = ). Mai tim c matricea de
covarian se scrie n descompunere Jordan = T (cu matricea
diagonal a valorilor proprii iar o matrice ortogonal format cu vectori
proprii ai matricei ). Acum, la rndul ei, noua variabil T x este i ea o
variabil aleatoare avnd media T i variana Var ( T x) = T .
Precizarea unui criteriu de optim n aflarea ponderilor (1 , 2 ,..., p ) este
acum foarte clar: vom alege acea combinaie liniar standardizat care
are cea mai mare varian. Deci, ponderile alese (1 , 2 ,..., p ) vor fi
acelea care rezolv urmtoarea problem de optimizare.

max Var ( T x) = T Var ( x)

(14)

T = 1.

Problema (14) este analoag cu problema de optimizare (7), n locul


matricei R a corelaiilor avem matricea a covarianei. Ponderile optime
* , de norm 1, sunt vectorii proprii asociai pe rnd valorilor proprii ale
matricei . Fie valoarea proprie maxim 1 , creia i corespunde vectorul
propriu 1 de norm 1. Avem * = 1 i deci noua variabil va fi 1T x cu
media 1T . Dac dorim ca noua variabil s aib media zero, atunci,
printr-o transformare de variabil obinem

y = 1T ( x )

(15)

unde am notat cu y componenta principal asociat ponderilor * = 1 .


Repetnd procedeul, lund pe rnd valorile proprii ale matricei i
folosind notaiile din descompunerea Jordan a matricei putem scrie:

Y = T ( x )

(16)

unde am notat cu Y matricea noilor variabile principale.


Exemplul 1. S analizm datele din tabelul 1 al Anexei 1. Dealerul
tie c unii cumprtori se ghideaz, n achiziionarea unui autoturism nou,
doar dup preul acestuia. Lista de mai jos, obinut printr-o simpl ordonare
dup pre, le va fi de folos.
SEATMarbella GL
Austin Metro Special
SuzukiSwiftGA
Nissan Micra 1.0 DX
Renault4TL
FordFiestaJunior
Opel Corsa Swing
Peugeot205XE
CitroenAX 10RE
FiatUno45Fire
Renault4GTL
ToyotaStarlettL
Renault5SL

Pre
10970
12000
12115
12400
12981
13050
13050
13260
13275
13475
13806
14000
14156

DaihatsuCharadeTS
SuzukiSwiftGL
Peugeot205GL
ToyotaStarlettXL
Renault5GTS
FiatUno70SL
Volkswagen Polo
Peugeot205GT
SEATIbizaGLX
FordFiestaXR-2
FiatUnoTurboTE
Peugeot205GTI
Renault5GTTurbo

Pre
14625
14655
15780
16850
17250
17845
18045
18965
19283
21743
25005
25175
25319

Ali cumprtori se ghideaz, n achiziionarea unui autoturism nou,


doar dup viteza maxim. i pentru acetia se poate obine o list analoag.
Exist ns cumprtori care ar dori s se orienteze dup ambele
variabile, Preul de achiziie dar i Viteza maxim. Acestora le va fi de folos
graficul urmtor.
220

FiatUnoTur boTE

200

For dFies taXR-2

180

Renault5GTTur bo

P eugeot205GTI

SEATIbizaGLX
Volks wagen P olo
ToyotaStar lettXL
P eugeot205GT
SuzukiSwif tGL
Renault5GTS FiatUno70SL

160

ToyotaStar lettL
SuzukiSwif tGA
140

Daihats uChar adeTS

Aus tin Metr o Special


SEATMar bella GL

P eugeot205GL

Renault5SL

P eugeot205XE

120

RenauIt4GTL
Renault4TL

100
10000

12000

14000

16000

18000

20000

22000

24000

26000

28000

P re t ( $ )

S-ar putea obine oare o ordonare a tipurilor de autoturisme, innd


seam de ambele variabile? Oare cum am putea nlocui aceste dou
variabile prin una singur?
Pentru nceput, s centrm datele n raport cu mediile celor dou
variabile (16118 $, resp. 155 km/h):
Pre Vit. max.
Austin Metro Special -4118
-14.8
CitroenAX 10RE
-2843
-9.8
DaihatsuCharadeTS -1493
-9.8
FiatUno45Fire
-2643
-9.8
FiatUnoTurboTE
8887
45.2
FiatUno70SL
1727
10.2
FordFiestaJunior
-3068
-17.8
FordFiestaXR-2
5625
25.2
Nissan Micra 1.0 DX -3718
-14.8
Opel Corsa Swing
-3068
-11.8
Peugeot205XE
-2858
-20.8
Peugeot205GL
-338
-12.8
Peugeot205GT
2847
15.2
(date centrate)

Pre Vit. max.


Peugeot205GTI
9057
35.2
Renault4TL
-3137
-39.8
Renault4GTL
-2312
-34.8
Renault5SL
-1962
-11.8
Renault5GTS
1132
12.2
Renault5GTTurbo 9201
45.2
SEATIbizaGLX
3165
20.2
SEATMarbella GL -5148
-23.8
SuzukiSwiftGA
-4003
-9.8
SuzukiSwiftGL
-1463
8.2
ToyotaStarlettL
-2118
-4.8
ToyotaStarlettXL
732
15.2
Volkswagen Polo
1927
15.2

S acceptm ideea c, n viziunea cumprtorului, se acord o


importan dubl variabilei Viteza maxim n raport cu Preul de achiziie,
astfel c ponderile sunt p = (1 / 3, 2 / 3) . Norma vectorului ponderilor fiind
5 / 3 , versorul asociat este u = (1 / 5 , 2 / 5 ) . Proiectm acum punctele ce
reprezint tipurile de maini pe dreapta avnd acest versor i care trece prin
origine (centrul de greutate!). Coordonatele calculate pentru aceast dreapt
sunt prezentate n urmtorul tabel:
Austin Metro Special
CitroenAX 10RE
DaihatsuCharadeTS
FiatUno45Fire
FiatUnoTurboTE
FiatUno70SL
FordFiestaJunior
FordFiestaXR-2
Nissan Micra 1.0 DX
Opel Corsa Swing
Peugeot205XE
Peugeot205GL
Peugeot205GT

-1855.04
-1280.37
-676.63
-1190.93
4014.64
781.28
-1388.15
2537.94
-1676.16
-1382.78
-1296.92
-162.79
1286.63

Peugeot205GTI
Renault4TL
Renault4GTL
Renault5SL
Renault5GTS
Renault5GTTurbo
SEATIbizaGLX
SEATMarbella GL
SuzukiSwiftGA
SuzukiSwiftGL
ToyotaStarlettL
ToyotaStarlettXL
Volkswagen Polo

4081.72
-1438.69
-1065.26
-888.17
516.98
4155.06
1433.32
-2323.72
-1799.14
-647.12
-951.67
340.78
875.20

Cantitatea de informaie recuperat din norul de puncte este de doar


9110 din totalul de 447106, adic aproximativ 20%! Se pierde prea mult
informaie pentru ca s putem accepta ordonarea tipurilor de autoturisme
folosind aceste ponderi.
Observm i c datele din acest ultim tabel sunt mai apropiate, ca
ordin de mrime, de datele din coloana Pre dect de datele din coloana
Viteza maxim. Motivul este evident discrepana ntre numerele ce
reprezint Preul i cele ce reprezint Viteza maxim. Dei nlocuirea celor
dou variabile (Preul i Viteza maxim) prin una singur, aa cum a fost
efectuat mai sus, pare natural, nici din acest motiv ea nu este indicat. Se
impune aducerea celor dou seturi de date la uniti de msur
comparabile, iar acest lucru poate fi fcut prin standardizare.
6

S relum exemplul folosind acum datele standardizate:


Pre Vit. max.
(date standardizate)
Austin Metro Special -0.9736 -0.6549
CitroenAX 10RE
-0.6722 -0.4338
DaihatsuCharadeTS -0.3530 -0.4338

Peugeot205GTI
Renault4TL
Renault4GTL

Pre Vit. max.


2.1411 1.5565
-0.7417 -1.7606
-0.5467 -1.5395

FiatUno45Fire
FiatUnoTurboTE
FiatUno70SL
FordFiestaJunior
FordFiestaXR-2
Nissan Micra 1.0 DX
Opel Corsa Swing
Peugeot205XE
Peugeot205GL
Peugeot205GT

-0.6249
2.1009
0.4082
-0.7254
1.3297
-0.8791
-0.7254
-0.6757
-0.0800
0.6730

-0.4338
1.9988
0.4508
-0.7876
1.1142
-0.6549
-0.5222
-0.9203
-0.5665
0.6719

Renault5SL
Renault5GTS
Renault5GTTurbo
SEATIbizaGLX
SEATMarbella GL
SuzukiSwiftGA
SuzukiSwiftGL
ToyotaStarlettL
ToyotaStarlettXL
Volkswagen Polo

-0.4639
0.2675
2.1751
0.7481
-1.2171
-0.9464
-0.3460
-0.5008
0.1730
0.4555

-0.5222
0.5392
1.9988
0.8931
-1.0530
-0.4338
0.3623
-0.2126
0.6719
0.6719

n ideea c ponderile variabilelor, n viziunea cumprtorului, sunt


p = (1 / 3, 2 / 3) , coordonatele calculate pentru caracteristica sintetic sunt
prezentate n urmtorul tabel:
Austin Metro Special
CitroenAX 10RE
DaihatsuCharadeTS
FiatUno45Fire
FiatUnoTurboTE
FiatUno70SL
FordFiestaJunior
FordFiestaXR-2
Nissan Micra 1.0 DX
Opel Corsa Swing
Peugeot205XE
Peugeot205GL
Peugeot205GT

-1.0212
-0.6886
-0.5459
-0.6675
2.7273
0.5857
-1.0289
1.5913
-0.9789
-0.7915
-1.1253
-0.5424
0.9020

Peugeot205GTI
Renault4TL
Renault4GTL
Renault5SL
Renault5GTS
Renault5GTTurbo
SEATIbizaGLX
SEATMarbella GL
SuzukiSwiftGA
SuzukiSwiftGL
ToyotaStarlettL
ToyotaStarlettXL
Volkswagen Polo

2.3496
-1.9064
-1.6214
-0.6745
0.6019
2.7605
1.1333
-1.4861
-0.8112
0.1693
-0.4141
0.6783
0.8046

Cantitatea de informaie recuperat este de 43.2 din totalul de 50,


adic 86.4%, ceea ce ar prea mulumitor.
(S observm c procentul informaiei recuperate depinde n mod
esenial de unitile de msur folosite!)
n viziunea unui alt cumprtor ambele variabile ar putea avea
aceeai importan (adic p = ( 1 , 1 ) ). n aceast situaie coordonatele
2 2
calculate pentru caracteristica sintetic sunt prezentate n urmtorul tabel.

Austin Metro Special


CitroenAX 10RE
DaihatsuCharadeTS
FiatUno45Fire
FiatUnoTurboTE
FiatUno70SL
FordFiestaJunior
FordFiestaXR-2
Nissan Micra 1.0 DX
Opel Corsa Swing
Peugeot205XE
Peugeot205GL
Peugeot205GT

-1.1516
-0.7820
-0.5564
-0.7486
2.8989
0.6074
-1.0699
1.7281
-1.0847
-0.8822
-1.1286
-0.4571
0.9510

Peugeot205GTI
Renault4TL
Renault4GTL
Renault5SL
Renault5GTS
Renault5GTTurbo
SEATIbizaGLX
SEATMarbella GL
SuzukiSwiftGA
SuzukiSwiftGL
ToyotaStarlettL
ToyotaStarlettXL
Volkswagen Polo

2.6146
-1.7694
-1.4751
-0.6973
0.5705
2.9514
1.1605
-1.6052
-0.9760
0.0116
-0.5045
0.5974
0.7972

Cantitatea total de informaie recuperat din norul de puncte este


acum de 47.84 din totalul de 50, adic 95.7%. Aceste date ar putea servi
dealerului, cu destul de mult certitudine, pentru ordonarea tipurilor de
autoturisme n caz c ntlnete un cumprtor cu aceste preferine
(importan egal acordat preului i vitezei maxime). Ordonarea ar fi
urmtoarea:
(valori)

Renault4TL
Renault4GTL
SEATMarbella GL
Peugeot205XE
FordFiestaJunior
Austin Metro Special
Nissan Micra 1.0 DX
SuzukiSwiftGA
Opel Corsa Swing
CitroenAX 10RE
Renault5SL
FiatUno45Fire
DaihatsuCharadeTS

sau, dup ranguri.

-1.9065
-1.6214
-1.4861
-1.1253
-1.0289
-1.0212
-0.9789
-0.8112
-0.7915
-0.6886
-0.6746
-0.6675
-0.5459

Peugeot205GL
ToyotaStarlettL
SuzukiSwiftGL
FiatUno70SL
Renault5GTS
ToyotaStarlettXL
Volkswagen Polo
Peugeot205GT
SEATIbizaGLX
FordFiestaXR-2
Peugeot205GTI
FiatUnoTurboTE
Renault5GTTurbo

-0.5424
-0.4142
0.1694
0.5857
0.6020
0.6783
0.8047
0.9020
1.1334
1.5913
2.3497
2.7273
2.7605

(ranguri)

Austin Metro Special


CitroenAX 10RE
DaihatsuCharadeTS
FiatUno45Fire
FiatUnoTurboTE
FiatUno70SL
FordFiestaJunior
FordFiestaXR-2
Nissan Micra 1.0 DX
Opel Corsa Swing
Peugeot205XE
Peugeot205GL
Peugeot205GT

Pre
2
9
14
10
24
19
6
23
4
7
8
16
21

P, Vm
6
10
13
12
25
17
5
23
7
9
4
14
21

Peugeot205GTI
Renault4TL
RenauIt4GTL
Renault5SL
Renault5GTS
Renault5GTTurbo
SEATIbizaGLX
SEATMarbella GL
SuzukiSwiftGA
SuzukiSwiftGL
ToyotaStarlettL
ToyotaStarlettXL
Volkswagen Polo

Pre
25
5
11
13
18
26
22
1
3
15
12
17
20

P, Vm
24
1
2
11
18
26
22
3
8
16
15
19
20

Termeni folosii n PCA


Vom enumera civa dintre termenii folosii n etapele unei analize a
componentelor principale. (Vom indica i denumirile uzuale, pentru a uura
folosirea i nelegerea softului de specialitate.)
o
Valori proprii i vectori proprii (eigenvalues, eigenvectors). Sunt
asociai matricei corelaiilor variabilelor iniiale. O valoare proprie mai
mare dect 1, pentru o component, indic faptul c acea component
are o contribuie mai mare dect a unei variabile iniiale, deci este
indicat a fi extras. Vectorii proprii, asociai valorilor proprii, vor
constitui ponderile n calculul combinaiilor liniare respective.
o
Scorurile componentelor principale (PC scores). Sunt coordonatele
indivizilor n noile axe, date de vectorii proprii selectai. Media unei
coloane de scoruri este 0.
o
Graficul descreterii (scree plot). Ofer informaii privind valorile
proprii, dar i ratele lor de descretere.
o
Regula Kaiser-Guttman. Este folosit n stabilirea numrului de
componente principale: avem attea componente cte valori proprii
sunt mai mari dect 1. (Totui, numrul final de componente va fi
stabilit n funcie de interpretarea concret pe care acestea o primesc.)
o
Coeficienii de ncrcare (PC loadings). Sunt exact coeficienii de
corelaie dintre variabilele originale i scoruri. Acetia exprim
importana fiecrei variabile originale n explicarea fiecrei noi
componente.

3.2 Analiza factorilor


Analiza factorilor este o tehnic statistic multivariat care are ca
scop extragerea unui numr mic de factori ascuni (lateni) responsabili de
corelaiile dintre variabilelor originale. Dac aceste corelaii sunt
semnificative, se poate presupune c ar fi cauzate de existena unuia sau mai
multor factori ascuni comuni tuturor variabilelor. Analiza factorilor ne
permite s confirmm statistic un rezultat privind modul de grupare al
variabilelor originale. Variabilele care se grupeaz mpreun i, ca atare, pot
fi privite ca formnd un grup omogen, vor fi considerate asociate unui
acelai factor. Vom prezenta cteva tehnici care pun n eviden factorii
comuni i ali factori responsabili de valorile observate asupra variabilelor
studiate.
3.2.1 Modelul factorilor ortogonali
Aa cum am mai afirmat, scopul analizei factorilor este acela de a
explica valorile celor p variabile printr-un numr mai mic de variabile, aa
numiii factori. Acetia sunt interpretai ca fiind caracteristici comune,
latente, ale variabilelor observate. Ideal, orice observaie x identificat prin
valorile ( x1 , x 2 ,..., x p ) R p ar putea fi caracterizat de un numr mai mic de
valori, anume de valorile factorilor ( f1 , f 2 ,..., f k ) R k cu k < p , unde
x j = f1q1 j + f 2 q 2 j + ... + f k q kj + j , j = 1,2,..., p

(17)

Se poate arta c relaia (17) o putem explicita prin intermediul


componentelor principale n cazul n care matricea de covarian are
ultimele p k valori proprii negative, adic ea este o matrice singular.
ntr-adevr, considernd vectorul aleatoriu ( x1 , x 2 ,..., x p ) R p de medie
= (1 , 2 ,..., p ) i matrice de covarian Var (x ) = , expresia (17) o

putem scrie
x1 q11

x 2 q 21
... = ...

x p q p1

q12
q 22
...
q p2

... q1k f1 1

... q 2 k f 2 2

+
... ... ... ...

... q pk f k p

(18)

sau, matriceal
x = QF +

(19)

folosind notaiile Q = ( qij ) i F = ( f i ) , pentru i = 1,2,..., p i j = 1,2,..., k .


Mai precizm faptul c factorii grupai n F sunt presupui a fi de medie 0,
necorelai ntre ei i avnd dispersiile egale cu 1 fiecare.
Folosim descompunerea spectral = T n care partiionm
matricele corespunztor ultimelor p k valori proprii nule. Vom putea
scrie:

0 1

= (1 2 ) 1
0 0 2

(20)

Soluia oferit de componentele principale n cazul structurii (20) a matricei


covarianelor este Y = T ( x ) , de unde x = Y = 1Y1 + 2Y2 .
Y T
Cum Y = 1 = 1T

Y2 2


( x ) ~ 0, 1
0

x = Y = 1Y1 +

0
, putem scrie c
0

(21)

Definind Q = 111/ 2 i F = 11/ 2Y1 avem o interpretare n termenii


componentelor principale pentru matricea Q i vectorul F din (18).
n situaiile concrete rareori matricea de covarian este singular. n
general, un model de analiz a factorilor, generalizare a modelului (19) este
urmtorul:
x = Q F +U +

(22)

unde Q ( p k ) sunt loadings (ne-aleatori) ai factorilor comuni F ( k 1)


iar U ( p 1) sunt factori aleatori specifici. Presupunem c variabilele factor
F formeaz un vector aleatoriu cu componente necorelate. n ceea ce
privete grupul factorilor specifici acetia au mediile zero, sunt necorelai
ntre ei i n acelai timp necorelai cu factorii comuni:
E(F ) = 0
Var ( F ) = I k
E (U ) = 0
pentru i j
Cov (U i , U j ) = 0
Cov ( F , U ) = 0.

(23)

Pentru o component x j a vectorului x putem scrie, folosind (22), c


k

xj =

jl f l

+U j + j

(24)

l =1

De aici obinem
k

Var ( x j ) =

q
l =1
k

Numrul

2
jl

2
jl

+ jj

(25)

se numete comunalitate, iar numrul jj se

l =1

numete variana specific, ambele fiind asociate variabilei x j .


n general, covariana vectorului x este descompus, evideniindu-se
matricea de comunalitate, astfel:

= QQ T + .

(26)

Comparaie ntre Analiza componentelor principale i Analiza


factorilor
Analiza componentelor principale caut combinaii liniare ntre
variabile, ordonndu-le dup valorile proprii ale matricei covarianelor
(corelaiilor). n analiza factorilor se modeleaz variaiile variabilelor x prin
transformri liniare a unui numr fixat, limitat de factori numii ascuni
lateni.
Obiectivul analizei factorilor este de a gsi matricea Q de ncrcare
i matricea varianei specifice .
Factorii ascuni determin variabilele, n sensul c fiecare dintre
variabile se poate scrie ca o combinaie liniar de factorii lateni, la care se
adaug un reziduu. Coeficienii din combinaia liniar se estimeaz prin
tehnici statistice clasice (de exemplu prin metoda celor mai mici ptrate),
ipoteza fundamental fiind aceea de independen a reziduurilor.
Termeni folosii n Analiza factorilor
o Comunalitatea (communality) este acea parte din variana unei variabile
iniiale, exprimat procentual, ce este datorat ansamblului factorilor

gsii. Restul varianei variabilei este numit unicitate (uniqueness).


Evident, suma celor dou pri este 100%. Exist mai multe metode
pentru a estima comunalitile variabilelor. Atunci cnd presupunem c
toate comunalitile variabilelor sunt egale cu 100% adic atunci cnd
toate variabilele iniiale sunt complet previzionate de ctre factori
rezultatul analizei factorilor coincide de fapt cu cel al analizei
componentelor principale. (Reamintim ns c PCA are scopul de a
reduce dimensiunea i nu cel de a explica corelaiile variabilelor cu
factorii principali.) n cazul general comunalitile sunt estimate pe baza
unui model de regresie.
o Coeficienii de ncrcare a factorilor (factor loadings) formeaz o
matrice de dimensiune p k, fiecare element al ei exprimnd corelaia
dintre o variabil iniial i un factor. (Avem p variabile i k factori
lateni, iar k < p.)
o Rotaia factorilor (factor rotation) este o transformare a spaiului
variabilelor, prin care se rotesc simultan factorii n scopul de a se obine
ct mai multe elemente 0 n matricea coeficienilor de ncrcare a
factorilor. (Suma valorilor proprii nu este afectat n timpul acestei
transformri, dar rotaia va afecta vectorii proprii.)
o Scorurile standardizate (standardized scores) sunt valori-scor asociate
fiecrui individ (fiecrei linii din matricea de date). Standardizarea este
fcut n aa fel nct marea majoritate a acestor scoruri se plaseaz ntre
3 i +3, permind astfel ordonarea indivizilor.
o Testul hi-ptrat folosete ipoteza nul (H0): nu exist factori comuni.
Ipoteza se consider respins dac valoarea p este < 0.05.
o Valorile proprii exprim partea din variana total care este asociat
fiecrui factor.

3.3 Analiza clasificrii. Algoritmi ierarhici de agregare


Metodele de clasificare sau de analiz cluster au ca scop gruparea
indivizilor, identificai printr-o serie de atribute variabile numerice
ntr-un numr ct mai restrns de clase omogene. Ceea ce le caracterizeaz
este faptul c realizeaz o analiz global a indivizilor ce sunt studiai printrun numr mare de variabile, iar ipotezele cerute sunt minime. Mai precizm
faptul c obiectul clasificrii nu-l reprezint numai indivizii (liniile matricei
de date) ci poate fi i variabilele (coloanele matricei de date).
Se dorete a se realiza clase (grupuri) n aa fel nct indivizii
aparinnd unei aceleiai clase s fie ct mai asemntori ntre ei prin
valorile variabilelor lor (adic s fie similari) n timp ce clasele constituite s
fie ct mai diferite. Putem spune c efectuarea unei analize cluster
presupune parcurgerea a dou etape:
a) alegerea unei msuri de proximitate, mai precis, definirea unei
msuri de apropiere dintre indivizi pe baza tuturor variabilelor
observate;
b) precizarea unor reguli de construire a claselor aa nct diferena
ntre acestea s fie ct mai mare, n timp ce indivizii aflai n
acelai grup s fie ct mai apropiai.
n ceea ce privete aplicaiile analizei clasificrii, acestea sunt foarte
numeroase, n diverse domenii economice cum ar fi: cercetarea de
marketing, clasificarea unor companii dup rezultatele obinute i structurile
lor organizatorice etc. Aplicaii interesante ale analizei clasificrii ntlnim
n domeniul psihologiei, pentru identificarea tipurilor sau tipologiilor de
indivizi n funcie de rspunsurile la chestionare, dar i n alte tiine cum ar
fi medicina, biologia, arheologia, antropologia sau lingvistica.
Analiza claselor disjuncte este o tehnic statistic de grupare a
cazurilor (indivizilor) n clase sugerate de matricea de date. Distingem:
1) Analiza claselor ierarhice (Hierarhical Cluster Analysis HCA)
este o metod de grupare ierarhic n care fiecare clas este n
totalitate coninut n alt clas. Nu este cerut nici o informaie
a priori despre numrul claselor, iar odat ce un individ a fost
asociat unei clase, el va rmne acolo. Nu este recomandat a fi
utilizat pentru baze de date mari, cu muli indivizi.
2) Analiza claselor disjuncte (Disjoint Cluster Analysis DCA)
este o tehnic ne-ierarhic, ce recurge la o clasificare iterativ.
Iniial toi indivizii se grupeaz arbitrar n clase. Urmeaz apoi o
repartizare a fiecrui individ la o clas, n funcie de similaritatea

individului respectiv cu cei din clasa respectiv. Procedeul este


iterativ i se termin atunci cnd nu mai constatm realocri ntre
clase. Procedeul este mai eficient pentru baze de date mari, iar
pentru rapiditate s-ar impune cunoaterea a priori a numrului de
clase.
3) Clasificarea pe baza mediei (k-mean clustering). Este o tehnic
de clasificare n clase disjuncte, centrul fiecrei clasei fiind
obinut dinamic ca medie a indivizilor din clasa respectiv.
Tehnica k-mean are ca obiectiv, la fiecare iteraie, reducerea
varianei indivizilor din interiorul fiecrei clase i maximizarea
varianei dintre clase.
3.3.1 Indicatori de proximitate ntre indivizi
S presupunem c vrem s comparm trei ri notate simbolic A, B
i C dup dou variabile, i anume procentul forei de munc din industrie i
procentul forei de munc din agricultur (din totalul populaiei active).
Putem s afirmm, fr s greim, c dou ri care au acelai procent de
for de munc n industrie i acelai procent de for de munc n
agricultur sunt perfect similare. Dar, ce se ntmpl dac valorile
variabilelor sunt diferite? Cum putem s asociem diverselor situaii un
indicator (o msur) a asemnrii? S considerm situaia din tabelul
urmtor:
ara

% n industrie

% n agricultur

20

60

30

30

10

50

Analiznd graficul corespunztor prezentat n figura 2 se observ c,


poziia celor trei puncte A, B i C n plan ce au coordonate liniile din tabel
reprezint cele trei ri avnd cele dou variabile. Lungimile segmentele
AB, AC i BC exprim distanele euclidiene ntre punctele respective i se
observ c acestea pot fi folosite ca msuri de comparare a rilor. Cu ct
distana dintre puncte este mai mare cu att punctele sunt mai puin
asemntoare. Deci, putem afirma faptul c distanele msoar mai degrab
disimilaritatea ntre puncte. Cum distanele se afl n urmtoarea ordine:
AB > BC > AC,

putem afirma c: ara A este similar cu ara C (distana dintre A i C fiind


cea mai mic); ara B este disimilar cu ara A (distana de la A la B fiind cea
mai mare). Putem trage concluzia c distana (euclidian) poate fi folosit ca
indicator al disimilaritii.
A

60

AC2 = 102 +102=200

50

AB2 = 102 + 302 = 1000


BC2 = 202 + 202 = 800

40
B

30

20

10

0
0

10

20

30

40

50

60

70

80

90

100

110

120

% in indus trie

Figura 2. Distane euclidiene

S revenim la exprimarea datelor n forma unei matrice X (n p ) ce


reprezint cei n indivizi asupra crora s-au msurat p variabile.
Indicele (indicatorul) de proximitate este un numr ce exprim
asemnarea (similaritatea) sau deosebirea (disimilaritatea) existent ntre
doi indivizi, lund n considerare toate valorile observate asupra variabilelor
lor. Astfel, putem s spunem c proximitatea ntre indivizi este msurat
printr-o matrice D(n n) n care un element d ij exprim similaritatea

(disimilaritatea) ntre individul i i individul j.


Exist mai multe moduri de construire a matricei de proximitate, s
exemplificm prin urmtoarele trei situaii:
1) S presupunem c datele iniiale sunt exprimate printr-o matrice
de forma indivizi variabile. Fie doi indivizi i i j i liniile corespunztoare
lor n matricea de date. Mai precis, fie xi linia corespunztoare individului i
i xj linia corespunztoare individului j. Pentru cei doi indivizi putem calcula
distana dat de norma Lr.

1/ r

d ij =|| xi x j || r = | xik x jk | r
k =1

(27)

S considerm n expresia (27) distana euclidian (obinut pentru


r = 2). Aa cum am vzut n exemplul anterior, aceast distan poate fi
folosit ca o msur de proximitate, ea msurnd disimilaritatea ntre
indivizi. Mai precis, cu ct distana ntre indivizi este mai mare, cu att
disimilaritatea ntre acetia este mai mare (sau similaritatea este mai mic).
Se mai observ faptul c distana astfel calculat ne va conduce la o matrice
de proximitate simetric, avnd 0 pe diagonala principal. De la caz la caz,
se poate folosi una dintre distanele date de expresia (27), aa cum putem
vedea i din exemplul urmtor.
Exemplul 1. S presupunem c avem trei indivizi i dou variabile
msurate asupra lor, i anume: x1 = (0, 0), x 2 = (1, 0), x3 = (5, 5) . n relaia
(27) considerm r = 1 i calculm, de exemplu, distana dintre individul 1 i
individul 3. Obinem d = 5 + 5 = 10 (aceeai cu distana de la individul 3
13

la individul 1). Pentru toi cei trei indivizi avem, utiliznd formula (27),
matricea distanelor date de norma L1:
D

(1)

0 1 10

= 1 0 9 .
10 9 0

Dac vom calcula acum distanele euclidiene (pentru r = 2, date de


norma L2), atunci ptratul distanei dintre individul 1 i individul 3 este
d 2 = 5 2 + 5 2 = 50 (aceeai ca i cea dintre individul 3 i individul 1).
13

Pentru toi cei 3 indivizi avem urmtoarea matrice a distanelor:

D ( 2)

= 1

50

1
0
41

50

41

Putem remarca, de asemenea, c distanele pot fi nlocuite cu


ptratele lor, ns similaritatea, respectiv disimilaritatea ntre indivizi se
pstreaz.

Exemplul 2. S presupunem c vrem s comparm trei mrci de


autoturisme dup dou variabile observate, i anume dup consumul de
combustibil la 1000 de km i dup preul de achiziionare (n $). Datele sunt
cele prezentate n tabelul urmtor:
Autoturismul

Consumul (litri/1000 km)

Preul de achiziionare ($)

1
2
3

45
43
47
45
2

30000
35000
34000
33000
2645.75

Media
Ab. standard

Distanele euclidiene calculate pentru cele trei autoturisme sunt


prezentate n tabelul urmtor:
Autoturismul

1
2
3

Distanele euclidiene/datele originale

1
0
5000
4000

2
5000
0
1000

3
4000
1000
0

Ele se ordoneaz astfel: d12 > d13 > d 23 indicnd faptul c cele mai
similare sunt autoturismele 2 i 3 i cele mai disimilare sunt autoturismele 1
i 2. Se observ faptul c distanele au fost calculate din datele originale, n
care pentru cele dou variabile s-au folosit uniti de msur foarte diferite
ca ordin de msur (litri de combustibil la 1000 km i preul n $). Evident,
distanele obinute sunt influenate de acest aspect. Pentru a elimina aceast
influen suntem condui spre ideea standardizrii datele. n procesul de
standardizare folosim mediile i abaterile standard. Prezentm n tabelul
urmtor datele corespunztoare n form standardizat.
Autoturismul

1
2
3
Media
Abaterea standard

Consumul litri/1000 km.


(n abaterea standard)

Preul de achiziie ($)


(n abaterea standard)

0
-1
1
0
1

-1,134
0,756
0,378
0
1

Distanele euclidiene calculate pe datele normate sunt prezentate n


tabelul urmtor:
Distanele euclidiene/datele standardizate
Autoturismul

1
0
2.137
1.812

1
2
3

2
2.137
0
2.035

3
1.812
2.035
0

Acum distanele se ordoneaz astfel: d12 > d 23 > d13 , i observm


faptul c, autoturismule 1 i 3 devin cele mai similare, ns autoturismele 1
i 2 rmn cele mai disimilare.
2) S presupunem c televiziunea i radioul publice au, n cursul
unei zile, un fond total de timp rezervat pentru reclam. Conform contractelor realizate, acest fond de timp s-a mprit ntre 4 produse, notate simbolic
A, B, C i D. Dac datele sunt cele din tabelul urmtor, ne-ar interesa s
apreciem dac fondul de timp a fost repartizat similar pentru cele patru
produse sau nu. Ce indicator ar trebui folosit pentru a exprima asemnarea
sau neasemnarea ntre obiectele matricei de date n aceast situaie?
Produsul

A
B
C
D
Total minute

Minute reclam

TV
2
1
3
4
10

Radio
5
3
8
4
20

Total minute

7
4
11
8
30

Se observ faptul c informaiile din matricea de date exprim


numrul de apariii ale unui eveniment (aici timp reclam). n acest caz este
indicat s asociem datelor iniiale o matrice de contingen.
S revenim la notaiile generale, matricea cu n indivizi i p variabile
X (n p) exprimnd acum numrul de apariii ale unui eveniment. Dac i1
i i2 sunt dou linii ale unei asemenea matrice, o distan ntre ele se poate
defini astfel:

xi j xi j
d 2 (i1 , i 2 ) =
bj 1 2
xi xi
2
1
j =1
p

unde b j =

x
.
x j

(28)

Se observ faptul c distana (28) este de fapt o distan euclidian


xi j
xi j
ponderat ntre vectorii linie x1 = 1 i x 2 = 2 . Elementele acestor
xi1
xi2
noi linii reprezint frecvene condiionate. Prezena n formula (28) a
coeficienilor b j , de fapt ponderi, ne conduce la concluzia c distanele sunt
1

x j
.
calculate folosind o matrice a ponderilor, i anume A = diag


S revenim la exemplul repartizrii fondului de timp pentru reclam.
Folosind formula (28) putem calcula distanele dintre produse. Mai nti
vom transforma datele primare, construind o matrice de contingen folosind
frecvenele marginale pe linii. Noile date, exprimnd pe linii profilul
fiecrui individ (produs) sunt prezentate n tabelul urmtor.
Produsul
A
B
C
D
Ponderile

Frecvenele condiionate
TV
Radio
2/7
5/7
1/4
3/4
3/11
8/11
4/8
4/8
3
1.5

Se observ imediat c un calcul elementar ne permite s obinem


distana ntre produsul A i produsul B.
Mai nti d 2 ( A, B) = 3 (2 / 7 1 / 4) 2 + (3 / 2) (5 / 7 3 / 4) 2 = 0.0058 ,
apoi d ( A, B) = 0.076 .
Aici distana msoar similaritatea ntre cele dou produse n ceea ce
privete fondul total de timp repartizat. Celelalte distane calculate n acelai
mod sunt urmtoarele: d ( A, C ) = 0.027 i d ( B, C ) = 0.048 . Gruparea
produselor este acum evident! Cum distana cea mai mic este ntre
produsul A i produsul C, putem spune c acestea sunt cele mai similare n
ceea ce privete fondul total de timp pentru reclam.
Pentru aplicaiile n care dorim s grupm variabilele ntre ele putem
folosi o msur de similaritate identic cu cea folosit n cazul gruprii
indivizilor (liniilor matricei). Fie dou coloane j1 i j2 precizate; distana
ntre ele se calculeaz cu formula:
p

d 2 ( j1 , j 2 ) =

j =1

xi j1 xi j2

bi
x j
x j2
1

(29)

unde bi =

x
.
xi

3) n afara distanelor date de normele Lr amintite, se mai poate


folosi ca msur a proximitii i coeficientul de corelaie liniar. Folosind
formulele cunoscute se construiete matricea coeficienilor de corelaie
R( p p) asociat celor p variabile, iar analiza similaritii se poate face
acum folosind elementele acestei matrice.
3.3.2 Indicatori de proximitate ntre clase. Algoritmi de agregare

Atunci cnd dorim s evalum proximitatea ntre clase (grupuri) de


indivizi, putem recurge la mai multe proceduri. Iat trei dintre acestea:
a) Metoda vecinilor celor mai apropiai. Prin aceasta, distana
dintre dou clase este asimilat cu distana dintre elementele cele
mai apropiate ntre ele (elemente aparinnd, evident, la grupuri
diferite). Utilizarea acestei metode poate conduce la riscul
apariiei de grupuri foarte eterogene, deoarece nu lum n calcul
elementele extreme ale clasei.
b) Metoda vecinilor celor mai deprtai. Prin aceasta, distana
dintre dou clase este asimilat cu distana dintre elementele cele
mai deprtate ntre ele. (Ca mai sus, elementele vor aparine la
clase diferite.)
c) Metoda agregrii prin medii. Aceasta const n evaluarea
distanei ntre dou clase pornind de la centrele lor de greutate.
Dei aceast metod este foarte logic, ea cere multe calcule
suplimentare n comparaie cu primele dou. De aceea, de multe
ori este mai indicat a se utiliza una dintre metodele anterioare.
Distana ntre
vecinii deprtai

B
A

O1
D

Distana
ntre centre

Distana ntre vecinii


apropiai

O2
Q

S explicm cele trei metode pe exemplul din figura anterioar. Aici


avem deja constituite dou clase: prima format din elementele A, B, C, i
D, iar a doua format din elementele P, Q i R. Am mai marcat n prima
clas centrul de greutate O1 iar n clasa a doua centrul de greutate O2.
a) Dup metoda vecinilor celor mai apropiai, distana dintre cele
dou clase este dat de distana de la punctul C la punctul P.
b) Dup metoda vecinilor celor mai deprtai, distana ntre clase este
dat de distana dintre A i R.
c) Dup metoda agregrii prin medii, distana dintre clase este
distana dintre centrele lor de greutate, marcate cu O1 i O2.
Se pot lua n considerare dou strategii de clasificare constnd n:
1) precizarea aprioric a numrului de clase, urmnd ca algoritmul s
distribuie fiecare element spre clasa ce-l reprezint;
2) folosirea unei metode ierarhice de clasificare.
Metodele ierarhice de formare a claselor se caracterizeaz prin faptul
c numrul de clase nu este cunoscut dinainte, ci este determinat pe parcurs,
prin algoritmul de clasificare. Se disting dou categorii de algoritmi ierarhici
de clasificare, i anume algoritmii ascendeni (sau de agregare) i algoritmii
descendeni.
n cele ce urmeaz vom prezenta paii principali pentru un algoritm
de agregare. Presupunem c avem n indivizi pe care dorim s-i clasificm.
Pasul 1. Se consider n0 = n, adic partiia cea mai fin, format
iniial din clase cu un singur individ fiecare. n aceast mulime de
indivizi/clase se selecioneaz doi, cei mai apropiai dup indicele de
proximitate folosit. Acetia vor forma primul grup.
Pasul 2. Se calculeaz o nou matrice de proximitate ce conine
n0 - 1 linii, corespunztoare celor n0 2 obiecte/clase nc negrupate i
primului grup creat.

Pe baza acestei noi matrice se identific alte dou obiecte, cele mai
apropiate ntre ele, i cu acestea se va forma un nou grup. Iterativ, aceste
obiecte pot fi fie doi indivizi, fie un individ i un grup deja constituit, fie
dou grupuri deja constituie.
Descretem n0 (= n0 1) i repetm pasul 2 pn cnd toi indivizii
au fost grupai.

S presupunem c avem un grup format din dou obiecte P i Q (ce


pot fi indivizi sau grupuri) i un alt obiect (individ sau grup), fie el R. O
formul general de calcul a distanei dintre grupul P + Q i R este
urmtoarea:
d ( R, P + Q ) = 1d ( R, P) + 2 d ( R, Q) + 3 | d ( R, P) d ( R, Q) |
unde coeficienii j sunt factori de ponderare descrii n tabelul urmtor
(tabelul 2).
Tabelul 2. Indicatori de proximitate

nQ

Algoritmul

Vecinilor celor mai apropiai


(Single linkage)
Vecinilor celor mai deprtai
(Complete linkage)
Agregrii prin medii
(Average linkage weighted)

nP
n P + nQ

nQ

n P + nQ

n tabelul 2 am notat cu n P numrul de elemente din grupul P i cu


numrul de elemente din grupul Q. Se poate observa c formula de

calcul, n cazul vecinilor celor mai apropiai, este


d ( R, P + Q) = min{d ( R, P), d ( R, Q)} .
Exemplul 3. S examinm paii parcuri pentru gruparea indivizilor
din exemplul 1. Aici cele trei puncte, corespunztoare celor trei indivizi,
sunt: x1 = (0, 0), x 2 = (1, 0), x3 = (5, 5) .

Algoritmul ncepe cu n0 = 3, clasele iniiale fiind chiar indivizii


notai prin P = {x1} , Q = {x 2 }, R = { x3 } . Analiznd distanele euclidiene
dintre acetia obinem matricea

0
1

D= 1
0

41
50
aadar primul grup se
P + Q = {x1 , x 2 } .

50

41 ,

0
va constitui din indivizii P i Q, adic

n algoritmul vecinilor celor mai apropiai, distana de la grupul


P + Q = {x1 , x 2 } la individul negrupat R este:

d ( R, P + Q) = 0.5 50 + 0.5 41 0.5 | 50 41 |= 41 ,

0
iar noua matrice asociat va fi:
41

41
.
0

Dac folosim metoda vecinilor celor mai deprtai, vom avea:

d ( R, P + Q) = 0.5 50 + 0.5 41 + 0.5 | 50 41 |= 50


0
iar matricea asociat este
50

50
.
0

Dac folosim metoda agregrii prin medii, avem un compromis ntre


cele dou situaii extreme. Distana calculat este:

d ( R, P + Q) = 0.5 50 + 0.5 41 = 6.737 .


n finalul clasificrii, punctul R se altur grupului P + Q ,
deosebirea fiind dat de nivelul agregrii ultimului punct
( 50 = 7.071 , 41 = 6.403 sau 6.737). Prezentm n figura 3 o asemenea
dendrogram pentru cazul agregrii medii. Pe ordonat avem marcat nivelul
de agregare ntre obiecte, i anume distana euclidian. n softul de
specialitate existente se poate alege ca indicator de clasificare i ptratul
distanei.
7

1
R

Figura 3. Exemplu de dendrogram

Nivelul de agregare al obiectelor este reprezentat pe ordonata


dendrogramei, acesta fiind un element important n analiza constituirii
constituirea claselor. De exemplu, dac mai sus alegem nivelul de agregare
subunitar, vom distinge trei clase formate din cele trei puncte iniiale
P = {x1} , Q = {x 2 }, R = { x3 } . Dac nivelul de agregare este ales ntre 1 i
7, vom avea dou clase P + Q = {x1 , x 2 } i R = { x3 } . Evident, dac
nivelul de agregare este mai mare dect 7, vom avea o singur clas.

S-ar putea să vă placă și