Sunteți pe pagina 1din 78

Capitolul 8

Metode descriptive de analiza a datelor


n continuare vor fi prezentate cteva din cele mai importante metode
descriptive de analiza a datelor: analiza componentelor principale, analiza
canonica, analiza factoriala a corespondentelor, analiza tipologica si analiza
discriminanta.

8.1.

Analiza n componente principale

Aceasta metoda30 este utilizata pentru descrierea datelor continute de un


tabel indivizi-caracteristici numerice: p caracteristici sunt masurate pe n
indivizi. Prin intermediul acestui tip de analiza, un ansamblu de date poate fi
redus ntr-o forma compacta, dar care totusi poate scoate n relief anumite
structuri fundamentale ale datelor respective. Metoda permite evidentierea unor
relatii semnificative de interdependenta, care nu ar putea fi cunoscute numai
prin examinarea datelor de intrare. Scopul acestei analizei este de a reduce
complexitatea, prin identificarea unui numar mic de factori ale caror
caracteristici care stau la baza numeroaselor evaluari ale unui produs, utilaj sau
element de mediu.
Prezentarea metodei
n cazul n care exista doar doua caracteristici x 1 si X!, datele pot fi prezentate
usor cu ajutorul geometriei plane: fiecare individ ei va fi un punct

30 Bouroche J-M., Saporta G., Lanalyse des donnes,


Presses Universitaires de France, Paris, 1980.

30

de coordonate xj si xf iar simpla vizualizare a aiurii norului de puncte permite


studierea intensitatii legaturii dintre X si x2 precum si stabilirea indivizilor sau
grupurilor de indivizi care prezinta caracteristici apropiate. Daca exista trei
caracteristici, studiul vizual va fi nca posibil daca se recurge la geometria n
spatiu. Daca numarul caracteristicilor va fi mai mare sau egal cu patru, studiul
vizual va deveni imposibil.
n cele ce urmeaza metoda va fi prezentata pe un exemplu n care
respondentii (managerii ntreprinderilor la care s-a facut studiul) au apreciat mai
multe tipuri de utilaje n functie de anumite afirmatii: fiabilitate sporita - 1,
numar redus de rebuturi - 2 , timp redus de obtinere a componentei - 3 ,
volum redus de noxe - 4, consum redus de apa- 5, volum redus de deseuri 6, consum specific redus - 7. Cei 650 de respondenti formeaza un nor putin
vizibil ntr-un spatiu de sapte dimensiuni, avnd sapte coordonate.
Din punct de vedere geometric, desenul va fi obtinut prin proiectarea
punctelor individuale e1, e2, ..., en pe un plan de proiectie si va trebui ales planul
pe care distantele vor fi n medie cel mai bine conservate. Operatia de proiectare
are n vedere distantele d(f 1,fj) < d(e1,ej) iar accentul va fi asupra criteriului de
restituire maxima a mediei patratelor distantelor ntre proiectiile f1 , f2, ., fn.
Pentru a determina acest plan (planul principal), este suficient sa se
gaseasca doua drepte D1 si D2. Daca D1 si D2 sunt perpendiculare,
d (f ,fj) = d (a , a ) + d (b , b ), n care a i, bi sunt proiectiile lui e si 1!
2

pe D1 si D 2.
Media patratelor distantelor ntre f este deci egala cu media patratelor
distantelor ntre a i plus media patratelor distantelor ntre bi. Metoda consta

n cautarea lui A1 prin maximizarea mediei lui d2(a15aj) astfel nct A21AJ si prin
maximizarea mediei luid2(bi5Pj). Se continua n afara
planului si se gasesc A 1;A2,...,Ap perpendiculare ntre ele: Ai sunt axele
principale ale norului.
Proiectarea lui ei care are coordonatele initiale (x1,xi2,...,xip) pe axele
principale, determina obtinerea noilor coordonate initiale (c j,c2,...,cp). n acest
fel se construiesc noile caracteristici (c 1, c2, ..., cp) pe numite componentele
principale: fiecare componenta ck, care nu este alta dect lista de coordonate a
celor n indivizi pe axa A k, este o combinatie liniara a caracteristicilor initiale
ck = (uj x1 + ufx2 +... + upxp).

Coeficientii

(uf, u2 ,...,uj) formeaza al kleafactor principal uk.


Cea mai buna reprezentare a datelor la mijlocul celor q caracteristici
(q<p) se obtine lund primele q componente principale.
Aceasta este schema analizei componentelor principale, care reprezinta
deci o metoda de reducere a numarului de caracteristici astfel nct sa permita
reprezentari geometrice ale indivizilor si caracteristicilor. Aceasta reducere
este posibila numai n cazul n care cele p caracteristici individuale nu sunt
independente si daca au coeficienti de corelatie diferiti de zero.
Analiza componentelor principale este o metoda factoriala deoarece
reducerea numarului de caracteristici nu se realizeaza printr-o simpla selectie
ntre ele, ci prin construirea unor noi caracteristici sintetice obtinute n urma
combinarii caracteristicilor initiale la mijlocul "factorilor. Aceasta este o
metoda liniara, deoarece este vorba de combinatii liniare.

Utilizarea notaiilor pentru combinaiile liniare, pentru distante si proiecii


conduce la rationamente de felul urmator: se considera ca individul si
caracteriticile sunt elementele a doua spatii vectoriale euclidiene avnd
dimensiunile p si n Instrumentele matematice utilizate sunt algebra liniara
si calculul matriceal.
Geometria caracteristicilor si indivizilor
Fiecare din cele p caracteristici numerice x j sunt prescurtate cu
ajutorul mediei xJ si dispersiei sj. Individul, n general fictiv, ale carui
caracteristici are valori date de mediile sale, se numeste centrul de greutate
al norului g: g = (x',x2,...,xP).
Legaturile dintre cele p caracteristici luate doua cte doua sunt date de
covariantele lor sjk, sau de coeficientii de corelatie %, n total existnd
p(p coeficienti de calculat.
2
Totalitatea variantelor si covariantelor sunt regrupate ntr-o matrice V
denumita matricea variantei celor p caracteristici, n care termenul situat la
intersectia liniei j cu coloana k este dat de covarianta sj k. Termenii
diagonalei principale sunt dati de dispersiile s2j ale celor p caracteristici.
(s2 s
b b
1 12
s s2
a
V = 21 s2

^
1p
s 2p
s
b

. s2 0
V...............
n acelasi fel, totalitatea coeficientilor de corelatie sunt regrupati n
matricea de corelatie R, n care termenii diagonalei principale sunt 1, deoarece
r(xj,xj) = 1.

r ^
xip

(1

12

R = r21

1.

.. r2p
.. 1 0

...

R si V sunt matrice patratice de ordinul p, simetrice deoarece sjk = skj


si rjk = rkj. Aceasta nseamna ca se pot scrie numai jumatate din termenii acestei
matrice.
Daca se noteaza cu D matricea diagonala urmatoare:
"i/sj
0
...
0 "
0
1/s2 ...
0
2
D=
v

...

j/

sp0

va rezulta relaia matriceala R = D V D.


Astfel, matricea de corelaie a celor sape caracteristici din exemplul
prezentat va fi urmatoarea:
Tabelul 8.1. Matricea de corelaie

Afirmatia
1
Afirmatia
2
Afirmatia
3
Afirmatia
4
Afirmatia
5
Afirmatia
6
Afirmatia
7

Afirmatia Afirmatia
2
1
1
0.07096

Afirmatia
3

Afirmatia
7

0.86627 0.07190
0.12928 0.30360
0.10272

Afirmatia Afirmatia Afirmatia


4
5
6

1
0.01893

-0.03785 0.24581

1
-0.10067

0.36866 0.02907

0.24448

0.15332

0.15721

0.10234 0.14870

0.23779

0.19459

0.14620

1
0.21041

Deja pot fi conturate anumite concluzii. ntre afirmaia 1 si afirmaia 3 r =


0,86627; aceasta valoare pozitiva semnifica faptul ca procentajele celor doua
variabile au acelai sens si ca relatia ntre ele aproape liniara. Va trebui trasat
norul de puncte corespunzator acestor doua caracteristici pentru a confirma
aceste concluzii. Cum aici exista 21 de coeficienti de corelatie diferiti, studiul
complet al legaturilor doua cte doua este o munca dificila. Analiza
componentelor principale simplifica aceasta munca.
Se scrie ntr-o maniera simpla matricea variantei V plecnd de la tabelul de
date, cu conditia ca toate caracteristicile sa aiba o medie nula. Daca aceasta
conditie nu este ndeplinita, se transforma fiecare caracteristica x j ntr-o
variabila centrata cu ajutorul relatiei (x j -X). Aceasta permite plasarea originii
axelor norului de indivizi catre centrul de gravitatie g. Daca X este un tabel
cu n linii si p coloane de date centrate, exista urmatoarele relatii matriceale:
V = XT D X, n care XT este matricea transpusa a lui X iar C matricea de ordinul
n diagonala de forma:

D=
V0

... pn0

n continuare se presupune ca toate variabilele sunt centrate.


Spaiul indivizilor
Fiecare individ este un punct definit de p coordonate si este considerat ca
fiind un vector al unui spatiu vectorial Rp de p dimensiuni, denumit spaiul
indivizilor: se vor identifica individul ei si vectorul ei cu componentele:
(x1,xi2,...,xip).

Va trebui sa fie masurata distanta dintre cei doi indivizi. n fizica, distanta
dintre doua puncte din spatiu se calculeaza simplu aplicnd teorema lui
Pitagora: patratul distantelor este egal cu suma ptratelor diferentelor
coordonatelor, daca dimensiunile sunt de aceeai natura - d 2 = (xj" - x")2 + (xjJ
-xJ2)2. n statistica, acest lucru nu este posibil
deoarece fiecare dimensiune corespunde unei anumite caracteristici care se
exprima n unitatea ei de masura. Se utilizeaza relatia:
d =aj(xj -x2) + a (xj -x2) +... + a (xp -x2) , ceea ce nseamna
2

multiplicarea cu -Ja a fiecarei caracteristici (a i > 0).


Formula lui Pitagora este valabila si n cazul n care axele sunt oblice,
de unghi 0 : d2 = (x" -x2)2 + (xj -x2)2 -2(x" -x2)(xj -xJ2)0. Forma generala a
distantei d dintre doi indivizi se poate scrie:
pp
d2(ej,e2) = ^^mj(x1k -x")^ -xJ2) sau, notnd cu M matricea
k =1 j =1
elementelor mj d2(e1,e2) = (e1 - e2)tM(e1 - e2)
M poate fi orice matrice simetrica pozitiv definita. Formula lui Pitagora
va fi aleasa pentru cazul n care M va fi matricea unitate E. Se defineste
produsul scalar al doi vectori e si e2 din spatiul indivizilor cu
ajutorul relatiei < e1,e2 >M = eMe2, caz n care se poate afirma ca spatiul
indivizilor unei structuri euclidiene a fost nzestrat, iar matricea M se va
intitula matricea spatiului.
Matricele cele mai utilizate i analiza componentelor principale sunt
matricele diagonale care pondereaza caracteristicile.

n particular, se utilizeaz n mod frecvent matricea diagonala a inverselor


dispersiilor calculate, care are forma:
(1

M=D1=
~
s

0
0
V

A
0.
1
s

0.

.0
.0
. ... 2
s
p)

ceea ce nseamna ca fiecare caracteristica este ponderata cu dispersia. Avantajul


este dat de faptul ca distanta dintre doi indivizi nu depinde de
xj
unitatea de masura deoarece numerele
nu au dimensiuni. De exemplu,
s
j
daca x1 reprezinta vrsta unui individ, se pot utiliza ca unitate de masura lunile
sau anii, iar daca X este nmultit cu 12, atunci si s j este nmultit cu 12 iar
raportul va ramne constant. Aceasta metrica ofera aceeasi importanta fiecarei
caracteristici, oricare ar fi dispersia. Totodata, inversa matricei de corelatie
restabileste echilibrul caracteristicilor, dnd tuturor varianta 1.
Tabelul 8.2. Inversa matricei de corelaie

Afirmatia
1
Afirmatia
2
Afirmatia
3
Afirmatia
4
Afirmatia
5
Afirmatia
6
Afirmatia
7

Afirmatia
1
1.21453

Afirmatia
2

Afirmatia
3

Afirmatia
4

Afirmatia
5

-0.03698

1.11915

-0.22872

-0.06372

-0.09292

-0.31963

0.0658

1.17911

-0.02494

0.03503

-0.21534

0.14816

1.10652

-0.38045

0.06194

-0.14049

-0.13862

-0.11087

0.03737

-0.10344

-0.20424

-0.18054

-0.11872

Afirmatia Afirm.
6
7

1.20008

1.2442
-0.15548 1.14532

Anterior s-a aratat ca utilizarea unei matrice diagonale:


ai iar utilizarea sa permite utilizarea matricei unitate M = E. Acest
aj
0 . .. 0
D a=

0
0

a 2 . .. 0
0.

se va face prin multiplicarea caracteristicilor cu

.. ap p 0

rezultat se generalizeaza la o matrice oarecare M: pentru toate matricele


simetrice definite pozitiv M, exista o matrice T astfel nct M = T T. Produsul
scalar

<ej,e2 >M = etMe2 mai poate fi scris si ca

< Tej,Te2 >E = e1tTtTe2 = (Te1)t(Te2). Acest lucru nseamna ca tabelul de date X
va fi nlocuit prin Y = X T t si prin utilizarea matricei unitate. Calcularea
coordonatelor indivizilor pe o noua axa Se considera sistemul de axe ordonate
care reprezinta caracteristicile initiale (x 1, x2, ..., xp). Proiectnd indivizii pe o
dreapta oarecare D, se creeaza o noua caracteristica c, ale carei valori (c t,
c2, ..., c) sunt valori algebrice ale proiectiilor punctelor et pe aceasta dreapta,
dupa cum se poate observa n figura 8.1.
Figura 8.1. Reprezentarea caracteristicilor c

Fie a vectorul unitate al lui D; valoarea algebrica a lui ci a proieciei


individului e1 va fi egala cu produsul scalar dintre e 1 si a: c1 = e1Mta = (Ma)te1,
caci M este simetrica. Daca u = Ma, se poate scrie ca
P
compunerea lui c1 a lui e1 pe dreapta D va fi u e1; iar c1 = ^ ujX1 .
j=1
Caracteristica c ale carei valori sunt cele n coordonate (c 1 ,c2,.. .,cn)
se va obtine direct prin intermediul relatiei c = X u. c va fi deci o combinatie
liniara a celor p caracteristici initiale la mijlocul factorului u. Daca M = E,
atunci exista egalitate ntre factorul u si vectorul unitar a. Daca D trece prin
origine, c va fi o caracteristica centrata.
Ineria
Inertia totala a norului de puncte reprezinta media patratelor distantelor
celor n puncte la origine:
1

= Z pilMIM =Z pietMei

Aceasta cantitate caracteristica a norului de puncte masoara alungirea


punctelor n raport cu centrul lor de greutate, ceea ce este echivalent cu
dispersia globala a norului. O inertie nula sau apropiata de zero semnifica faptul
ca toti indivizii sunt identici sau aproape identici si se confunda cu centrul lor
de greutate.
Spaiul caracteristicilor
n fapt, fiecare caracteristica 'X este o lista de n valori numerice care
vor fi considerate ca fiind vectorul X al unui spatiu cu n dimensiuni, denumit
spatiul caracteristicilor, notat cu R n.

Pentru a studia proximitatea caracteristicilor ntre ele trebuie gasita o


matrice de ordinul n simetrica si pozitiv definita. n acest caz, pentru spatiul
indivizilor si al obiectelor, se utilizeaza matricea diagonala afrecventelor
relative din mai multe considerente. Produsul scalar a doua caracteristici i si x k,
x Dx = ^p x xi nu este altul dect covarianta sjk
Jt

i =1

deoarece caracteristicile sunt centrate. Norma unei caracteristici x J

este

||xJ|| = sj, cu alte cuvinte, lungimea unei caracteristici este egala cu


lor de corelatie liniara.
dispersia sa.
ntr-un spatiu euclidian unghiul 9 ntre doi vectori este definit cu
ajutorul functiei trigonometrice cosinus, care este egal cu rezultatul raportului
dintre produsul scalar si produsul normelor celor doi vectori:
s
jk
J k
< x ,x >
cos 0 =
j k s s . Acest cosinus nu este altceva dect coeficientul
J
jk
x x
Daca n acest spatiu al indivizilor intereseaza distanta dintre puncte, n
spatiul caracteristicilor intereseaza mai mult unghiurile, tocmai datorita relatiei
precedente.
Caracteristici rezultate din tabelul de date
Daca (x1, x2, ..., x) sunt caracteristici masurate pe cei n indivizi, se
vor putea deduce noi caracteristici prin intermediul unor combinatii liniare de
tipul: c = u1x1 + u2x2 +... + upxp. n acest moment se cauta o
noua axa n spatiul indivizilor.

Totalitatea caracteristicilor care pot fi obtinute printr-un astfel de


procedeu formeaza un subspatiu vectorial W al spatiului caracteristicilor. Daca
nu exista nici o relatie liniara ntre caracteristicile , acest subspatiu
7
are dimensiunea p n exemplul prezentat, ^ xJ = 100, dimensiunea lui
J=1

W este mai mare de zece, deoarece pot exista si alte relaii care nu au fost
remarcate.
Caracteristicile c, combinatii ale caracteristicilor initiale, pot fi
obtinute cu ajutorul formulei c = Xu, n care u este factorul asociat lui c
Este usor sa se deduca dispersia: s^ = ctDc = utXtDXu, deci s2 = utVu.
Cautarea componentelor, axelor si factorilor principali Axa principala
Dj a fost definita prin intermediul proprietatii maximizarii mediei patratelor
distantelor ntre proiectiile punctelor norului.

Figura 8.2. Reprezentarea axei principale


Acest lucru este echivalent cu maximizarea inertiei proiectiilor ^p ic2, n

care ci sunt valorile algebrice ale proiectiilor e pe D, deoarece D trece prin


centrul de greutate al norului.
D j este axa principala alungita a norului, n sensul ca pe aceasta axa, c,
sunt foarte dispersate sau, cu alte cuvinte, c reprezinta combinatia liniara a x i
de varianta maxima.
Axele si factorii principali (vi, v 2, ..., vp), cnd M = E, sunt vectorii
proprii ai matricei de varianta asociati valorilor proprii (1 j, 12,...,1p), scrisi n
ordine descrescatoare.

Pentru ca axele spaiului indivizilor sa fie considerate noi, vectorii


matricei de varianta vor fi trecui pe diagonala operatorului liniar asociat lui V y.
Matricea variantei componentelor principale Vc va fi egala cu:

0N

12 0

p0

Aceasta nseamna ca componentele principale nu sunt corelate doua


V=

cte doua.
Analiza componentelor principale nlocuieste cele p caracteristici
initiale cu caracteristici necorelate de varianta maxima si de importanta
descrescatoare.
Pentru a gasi n mod direct axele, factorii si componetele principale n
functie de X, este suficient sa se scrie ca Vyv = 1 v = TVTtv si partea stnga sa
fie nmultita cu T: TtTVT tv = 1Ttv sau MVu = lu . Axa a este u = Ma, iar
MVMa = 1Ma. Rezulta VMa = 1 a deoarece M este o matrice simetrica.
Axele principale sunt deci vectorii proprii ai lui VM, iar factorii
principali, cei ai lui MV. Daca componertele principale se obtin prin c=Xu,
atunci trebuie remarcat faptul ca MV = MX tDX; MXtDXu = 1 u creste
nmultind partea stnga cu X, deci c este vectorul propriu al lui XMX tD.
Suma valorilor proprii 1 1 + 12 +... + 1 este o constanta egala cu semnul
lui Vy si al lui MV, adica este inertia totala I.
1
Raportul j-- poarta denumirea de procent de inertie (sau de
se numeste procentul de

dispersie) explicata prin axa k. Raportul


I

inerie cumulat al primelor doua axe, si masoara aplatizarea norului pe planul


principal. Cu ct acest procent este mai mare, cu att este mai buna
reprezentarea norului pe planul respectiv.
Numarul de valori proprii nenule ofera dimensiunea spatiului n care
exista observatii. O valoare proprie nula indica faptul ca exista o relatie liniara
ntre caracteristicile initiale.
Rezultatele si interpretarea lor
Revenind la exemplul considerat, vor fi prezentate principiile generale
de interpretare ale rezultatelor numerice si grafice ale analizei componentelor
principale.
Calculele au fost efectuate cu ajutorul unor pachete de programe pentru
s
PC31. Pentru analiza datelor a fost aleasa matricea D 1 , ceea ce a
2

presups centrarea si reducerea celor sapte caracteristici (afirmatii). Ca rezultat,


factorii principali au fost obtinuti prin diagonala matricei de corelatie R.
Valori proprii, factori si componente principale
Suma valorilor proprii este egala cu numarul de caracteristici atta timp
ct M = D 1 , adica 7. Se verifica daca ultima valoare proprie este nula, ceea ce
are drept consecinta faptul ca caracteristicile sunt legate printr-o relatie liniara
(suma lor este egala cu 100).

31 De exemplu, Excel, Statistica.

Tabelul 8.3. Statistici initiale

Variabila

Comunalitatea

Variable

Communality

Afirmaia
1
Afirmaia
2
Afirmaia
3
Afirmaia
4
Afirmaia
5
Afirmaia
6
Afirmaia
7

Factorul
Factor

Valori
proprii
Eigenvalue

Procentul de
dispersie explicata
de fiecare factor
Pct of Var

Procentul
cumulat
Cum Pct

1.93812

27.7

27.7

1.33780

19.1

46.8

0.98509

14.1

60.9

0.80008

11.4

72.3

0.72955

10.4

82.7

0.62031

8.9

91.6

0.58905

8.4

100

Primele trei valori proprii reprezint aproximativ 61% din inerie, motiv
pentru care ne vom rezuma la primele trei componente principale. Este greu sa
raspundem la ntrebarea de la ce procent putem neglija componentele
principale rezultate?. Depinde de numarul de caracteristici: o prima axa explica
27,7% din inertie (cu sapte caracteristici). Daca R nu contine dect termeni putin
diferiti de zero, nu trebuie sa ne asteptam sa gasim valori proprii foarte ridicate:
nu putem reduce n mod eficient numarul de caracteristici dect daca acestea
sunt puternic corelate. De fapt, numai examinarea semnificatiei componentelor
principale si experienta cercetatorului permite cunoasterea numarului de
componente care vor fi retinute.
Primii trei vectori proprii vi, v si v ai lui R sunt urmtorii:

Tabelul 8.4. Vectorii proprii


Factor 1
0.62116
Afirmaia 1 Afirmaia
0.3152
2
Afirmaia 3
0.62544
Afirmaia 4
0.38653
Afirmaia 5
0.37819
0.67029
Afirmaia 6 Afirmaia
0.56571
7

Factor 2
-0.10435
0.64796
-0.3034
0.70001
-0.53978
-0.13172
0.12762

Factor 3
-0.55499
0.25939
0.17669
-0.06987
0.43722
-0.38646
0.48288

Suma ptratelor componentelor este egala cu 1 si se poate verifica Rv 1 =


livi. Pentru a obtine componentele principale Q, c2 si c3 se aplica formula c = Y v.
Astfel, pentru primul individ pentru care s-au calculat cele mai mari valori ale
coordonatelor centrate reduse, este suficienta multiplicarea fiecarei coordonate
prin compunerea primului vector si calcularea sumei.
Tabelul 8.5. Statistici finale
Variabila

Comunalitatea

Variable

Communality

Afirmaia
1
Afirmaia
2
Afirmaia
3
Afirmaia
4
Afirmaia
5
Afirmaia
6
Afirmaia
7

Factorul
Factor

Valori
proprii
Eigenvalue

Procentul de
dispersie explicata
de fiecare factor
Pct of Var

Procentul
cumulat
Cum Pct

0.70474

1.93812

27.7

27.7

0.58648

1.3378

19.1

46.8

0.51444

0.98509

14.1

60.9

0.6443
0.62555
0.616
0.56949

Reprezentarea indivizilor n planul principal

Tabelul 8.6. Reprezentarea indivizilor n planul principal

Afirmaia
1
Afirmaia
2
Afirmaia
3
Afirmaia
4
Afirmaia
5
Afirmaia
6
Afirmaia
7

Afirmaia
1
0.70474*

Afirmai
a
0.08675

Afirmaia Afirmaia
3
4
-0.05583 -0.07655

Afirmaia Afirmaia Afirmaia


5
6
7
0.05413
-0.27593 0.03225

-0.01578

0.58648*

0.02552

-0.25369

0.0793

0.00339

-0.23756

0.3221

0.04638

0.51444*

0.0019

-0.23174

-0.14642

-0.16262

0.20583

0.55729

0.01703

0.64430*

0.16155

-0.04057

-0.07968

0.04859

-0.11714

0.47755

-0.26221

0.64555*

0.00158

-0.20999

0.64459

0.02568

0.39091

0.19389

0.15563

0.61600*

0.03465

0.07008

0.38626

0.40041

0.27426

0.35618

0.17576

0.56949*

Triunghiul din coltul stnga jos conine matricea de corelaie reprodusa;


diagonala este formata din comunalitati iar triunghiul din coltul dreapta sus
reziduurile dintre corelatiile observate si corelatiile reproduse. Sunt 14 (66,0%)
reziduuri (de-a lungul diagonalei) cu valori absolute mai mari ca 0,05.
Componentele c1, c2 si c3 dau coordonatele indivizilor pe planul principal,
obtinndu-se configuratia 3D prezentata n figura 8.3.

Figura 8.3. Reprezentarea indivizilor n planul principal


Se observa imediat ca apar trei grupe separate.
Interpretarea componentelor si axelor principale Aceasta este partea
de cea mai mare finete si trebuie avute n vedere att corelaiile cu
caracteristicile initiale ct si indivizii tipici.
Calculul corelatiilor ntre componentele principale si caracteristicile initiale
este foarte usor de efectuat n cazul matricei D j : coeficientul de
corelatie liniar ntre X si c k este egal cu cea de-a j-a componenta a celui deal k vector propriu multiplicat prin . n acest mod se deduce ca suma
patratelor corelatiilor lui ck cu X dau l k.

Vom gasi:
Tabelul 8.7. Componentele principale
Prima componenta principala este puternic corelata cu afirmaiile 1 si 6

Afirmatia
1
Afirmatia
2
Afirmatia
3
Afirmatia
4
Afirmatia
5
Afirmatia
6
Afirmatia
7

r(c1,xj)

r(c2,xj)

r(c3,xj)

0.83745

0.04015

0.02462

0.05842

0.76119

0.06055

0.35101

0.0382

0.62431

0.21653

0.75996

-0.14097

0.02945

-0.2122

0.76135

0.75606

0.07614

0.19639

-0.03121 0.46246

0.59552

Factor
1
Factor
2
Factor
3

Factor
1

Factor
2

Factor
3

0.6917

0.42046

0.58717

-0.14328

0.87678

-0.45906

-0.70783

0.2334

0.6667

(fiabilitate sporita si volum redus de deeuri) si negativ corelata cu


afirmatia 7 (consum specific redus ). Opozitia ntre aceste doua grupuri de
caracteristici, data de tabelul R, este o trasatura dominanta si permite
interpretarea pozitiei indivizilor n planul principal: cu ct un punct este situat
mai la dreapta pe grafic cu att se abate de la medie pentru afirmatiile 1, 6, 3, 4
(VAR24, VAR8, VAR6, VAR25), concomitent cu valorile inferioare de la medie
a afirmatiilor 2, 5, 7 (VAR27, VAR7, VAR26).
Factorul 1 s-ar putea intitulaperformanta economica deoarece
nglobeaza afirmatiile consum specific redus si volum redus de deseur.

A doua componenta principala este mai mica dect prima si se


caracterizeaza prin opozitia ntre afirmatia 2 (numar redus de rebuturi) si
afirmatia 5 (consum redus de apa) iar cea de-a treia componenta principala
este puternic corelata cu afirmatiile 3, 5 si 7 (timp redus deobinere a
componentei, consum redus de apa si consum specific redus) si slab
corelata cu restul.
Factorul 2 s-ar putea denumi protejeaza mediul deoarece cuprinde
afirmaiile Volum redus de noxe si consum redus de apa iar factorul 3
"calitate deoarece reuneste afirmatiile fiabilitate sporita, "umar redus de
rebuturi si "timp redus de obtinere a componentei.
Tabelul 8.8. Patratele marimilor ponderale ale factorilor si
comunalitatile (dispersiile comune)

Factor 1
Afirmatia 1
0.7013225
Afirmatia 2
0.0034129
Afirmatia 3
0.12320802
Afirmatia 4
0.04688524
Afirmatia 5
0.0008673
Afirmatia 6
0.57162672
Afirmatia 7
0.00097406
Procentul mediu
al
dispersiei
0.20689954
explicate de catre
factor

Factor 2
0.001612023
0.579410216
0.00145924
0.577539202
0.04502884
0.0057973
0.213869252

Factor 3
0.00181646
0.0036663
0.38976298
0.01987254
0.57965382
0.03856903
0.35464407

Comunalitati
0.704750983
0.586489416
0.51443024
0.644296982
0.62554996
0.61599305
0.569487382

0.203530867

0.1982836

0.608714007

Coloana "comunalitati" reprezinta portiunea din dispersia variabilei dn


rndul respectiv care este explicata de factorii extrasi. Astfel, cei trei factori
explica ntr-o proportie de 70,47% variabilitatea existenta n afirmatia
"fiabilitate sporita. Acest rang explicativ ridicat sugereaza ca nu mai exista
multi alti factor i care determina afirmatia respectiva. Cu ct dispersia comuna

(comunalitatea) este mai mare, cu att mai ampla este explicatia furnizata de
factorii luati n comun.
Interpretarea procentului mediul al dispersiei explicate de catre fiecare factor n
parte ar putea fi urmatoarea: n momentul achizitionarii unui utilaj,
20,68% din preferine sunt datorate performantelor economice ale utilajului,
20,35% sunt datorate faptului ca protejeaza mediul, iar 19,82% sunt datorate
calitatii. Acestea sunt deci principalele motive pentru care se achizitioneaza
un anumit utilaj.
Totalul coloanei comunalitati arata ct de mult din dispersia preferintelor
fata de toate afirmatiile este explicata de cei trei factori extrasi, deci 60,87%. O
problema dificila este cea a numarului de factorizari, adica de extrageri de
factori. De obicei, se procedeaza cu factorizarea n continuare pna cnd se
ajunge la factori marunti si lipsiti de semnificatie. n cazul nostru, mai exista si
alti factori care trebuie luati n considerare (100% - 60,87% = 39,13%). Acestia
ar putea fi pretul utilajului, raportul pret-calitate etc.

8.2.

Analiza canonica

Analiza canonica a fost propusa n anul 1936 de catre H. Hotelling, n


lucrarea Relations between two sets of variables si are un rol teoretic foarte
important. Ea nglobeaza majoritatea metodelor de analiza: regresia multipla,
analiza dispersionala, analiza corespondentelor, analiza discriminanta, acestea
putnd fi considerate cazuri particulare ale analizei canonice .
Desi este disponibila sub forma unor software-uri de specialitate
(Statistica de exemplu), ea nu este utilizata dect foarte putin datorita
dificultatilor care apar n interpretarea si utilizarea rezultatelor. 32

32 Bouroche J-M., Saporta G., Lanalyse des donnes,


Presses Universitaires de France, Paris, 1980.

Prezentarea metodei
Scopul analizei canonice l constituie studierea relaiilor liniare
existente ntre doua grupe de caracteristici cantitative observate pe acelai
eantion. ntr-o maniera foarte precisa se cauta o combinatie liniara a
caracteristicilor primei grupe si o combinatie liniara a caracteristic ilor celei dea doua grupe, care sa fie ct mai puternic corelate. Metoda va fi prezentata pe
cazul cercetarii impactului unor noi tipuri de detergenti asupra mediului.
Pentru studierea performantelor detergentilor testati, s-au luat n
considerare sase parametri care masoara caracteristicile acestora: x 1VAR22
continutul

de apa (gr)

x2

VAR23

continutul de fosfat (gr)

x3

VAR24

continutul de enzime(gr)

x4

VAR25

continutul de silicat de sodiu (gr)

x5

VAR26

continutul de sulfat de sodiu (gr)

VAR27

continutul de nalbitor (gr)

Datele au fost culese separat, fiind indicate pe fiecare ambalaj de


detergent n parte. Respondentii au acordat note acestor tipuri de detergenti n
functie de caracteristicile individuale ale acestora.
1

y VAR6
2
y
VAR7

nota pentru calitatea spalarii

y3

nota pentru protectia mediului

VAR8

nota pentru proprietatile benefice ale produsului

Problema care se pune este n ce masura notele acordate de respondenti


pot fi legate de caracteristicile obiective ale diferitelor tipuri de detergenti.
Ca si n cazul analizei componentelor principale, caracteristicile pot fi
reprezentate n Rn, n care n reprezinta numarul de observatii (n cazul
prezentat n = 28). Se noteaza cu (x1,x2,_,X,_,xp) si (y1,y2,^,yk,^,yq)
caracteristicile celor doua grupe reprezentate de vectorul R n. Pentru a compara

cele doua caracteristici, se calculeaza o combinatie liniara a caracteristicilor


primei grupe X = a1x1 + a2x2 +... + a^J +... + apxp si o combinatie liniara a
caracteristicilor celei de-a doua grupe h = b 1y1 + b2y2 +... + bkyk +... + bqyq. Se
determina coeficientii
t

a = (a1,a2,...,aj,...,ap)

si tb = (b1,b2,...,bk,...,bq) care maximizeaza

patratele corelatiilor ntre X si p.


Se numesc caracteristicile canonice ale vectorilor X si pe Rn,
factorii canonici ai vectorilor coeficientilor a e R p si b e Rq si corelaii canonice
coeficientii de corelatie dintre X si p.
Totalitatea caracteristicilor X, combinatiilor liniare
(x1,x2,_,xJ,_,xp) formeaza un subspatiu vectorial W1 c Rn, numit potentialul de
previziune al primei grupe. n acelasi fel, celei de-a doua grupe i este asociat
W 2 c Rn .
Trebuie determinati doi vectori XeW 1 si heW2 care sa faca un unghi
minim, n timp ce la analiza componentelor principale exista o identitate ntre
cos 9 si corelatiile pentru caracteristicile centrate.

Aici exista o solutie foarte


simpla h1 si X', pentru care
cos2(h',X') = 1.

consecinta, n R3, intersecia


celor doua planuri va avea o
dimensiune

mai

mica

sau

egala cu 2. n timp ce primul


cuplu de variabile canonice a
Figura 8.4. Vectorii h si

fost obtinut, se cauta un alt


cuplu de caracteristici h2 si X2
pentru care r2(X2, h2) sa fie
maxim si pentru care X' si X 2,
respectiv h' si h2 sa aibe o

corelatie nula, si apoi la fel pentru h3 si X3 s.a.m.d.


Problema analizei canonice poate fi comparata cu cea a regresiei multiple.
Se presupune ncercarea previzionarii variabilei x 6 (VAR27), continutul de
nalbitor, cu ajutorul notelor acordate de respondenti. n acest caz, spatiul W'
nu are dect o singura dimensiune, n timp ce W este neschimbat.

Se va obtine graficul din


figura 8.5.
Se cauta vectorul W2 de
forma h = bjy1 + b2y2 + b3y3 care
realizeaza un unghi minim cu
variabila x6
Figura 8.5. Reprezentarea spatiilor

(VAR27).

Dupa cum se va observa n continuare, p este un vector coliniar cu


proiecia ortogonala a lui x6 (VAR27) pe W2.
Formularea geometrica Proiecia ortogonala
pe un subspatiu vectorial Cazul regresiei
multiple
Se considera cazul unei caracteristici care trebuie explicata y si p
caracteristici explicative (x1,x2,_,X,_,xp). Se presupune ca (p+1) caracteristici
sunt observate pe acelasi esantion de n indivizi, fiecare individ fiind descris
de ponderea p>0, cu ^ pi = 1 .
Se cauta o combinatie liniara a celor p caracteristici explicative =
a1x1 + a2x2 +... + a^J +... + apxp, n care trebuie sa fie ct mai aproape posibil
de y n sensul distantei n spatiul caracteristicilor.

Fiecare din cele (p+1) caracteristici pot fi reprezentate printr-un vector


Rn:
'yi ^

y = yi

" xp

eR

; xJ =

xJ

V yn
0

eR

, J = 1,p

xJ
V

Se presupune ca cele (p+1) caracteristici sunt centrate:


Ep^ =0

Epixj = J = 1,p

i=i

i=i

Subspatiul vectorial W c Rn este considerat ca fiind provenit din


combinatiile

liniare

ale

caracteristicilor

xJ:

Xe W ^X = a1x1 + a2x2 +... + aJxJ +... + apxp. n continuare se va


presupune ca dimensiunea lui W = p, ceea ce nseamna ca cele p caracteristici
f x1

X=
n

x .
n

x.
V

.. x1j .
.. xJ .
j

.. x n .

.. ^1
.. xp
.. x

este egala cu p. Din punct de vedere algebric

p
n

xJ formeaza o baza a lui W, sau ca dimensiunea matricei


se scrie: W = {X e Rn / X = Xa, a e Rp}.
Ca si n cazul analizei componentelor principale, se presupune ca
spatiul caracteristicilor este dat de produsul scalar asociat matricei diagonale a
ponderilor:
PI

pi

D=

n spaiul caracteristicilor centrate, produsul scalar si covarianta sunt


identice:

t J

x Dxk

ntre

doua caracteristici este data de relatia

= sjk, la fel ca si

norma si dispersia: ||x]|2 =

sj2. Distanta

d2(xJ,xk) = xJ -xk = t(xJ -xk)D(xJ -xk). n spatiul caracteristicilor W c R n si y e Rn


pot fi reprezentate grafic ca n figura 8.6.
y R n fiind dat, se
cauta X e W n timp ce distanta
ntre y si X trebuie sa fie
minima, deci criteriul poate
fi
scris astfel:
min ||y -x||2.
XeW
n continuare,
noteaza
din

Figura 8.6. Reprezentarea lui W si y n


spatiul caracteristicilor

se
punctul

cel mai apropiat de y: y este


proiectia ortogonala a lui y pe
W.

Cautarea proieciei ortogonale pe W


Se numeste proiecie ortogonala pe W aplicatia liniara a lui Rn n Rn
care face sa corespunda tuturor vectorilor lui R n proiectia sa ortogonala pe W.
Notatia este: y Ay = y, n care t (y - y)Dy = 0 (ortogonalitatea).

Toti vectorii X e W pot fi scrisi sub forma X = Xa ; n particular y e W


sub forma y = Xa. (y - y) trebuie sa fie ortogonal pentru totivectorii lui W, iar n
particular vectorilor baza. n consecina, exista p ecuaii de forma: tx]D(y - y)
= 0, j = 1,p sau y = Xa, j = 1,p
t J

x Dy=txjDX, j = 1, p

sau scris sub forma unei singure ecuatii matriceale:


t

XDXa = XDy

Daca rang(X) = p, atunci matricea tXDX este inversa, deci poate fi scris:
a = (tXD)-1 XDy
Vectorul contine p coeficienti ai combinatiei liniare y = 1x1 + 2x2 +...
+ jxj +... + pxp e W cei mai apropiati de y Din
expresia lui putem deduce y = X : y = X( tXDX)-11 XDy care face ca lui y
sa i corespunda proiectia sa ortogonala pe W. Se deduce astfel expresia lui A:
A = X(t XDX)-1 tXD .
Cautarea dreptei lui W care sa faca unghi minim
Se cunoaste ||y||2 = ||y - y||2 +||;y||2 din teorema lui Pitagora.
Minimizarea lui||y - y||2 nseamna maximizarea lui ||y|| 2 n timp ce ||y||2 ramne
constanta. y este deci vectorul lui W prin maximizarea expresiei
2

cos2(y,y)=

ceea ce nseamna realizarea unui unghi minim cu y.

Se observa ca, daca vectorii y si x, j = 1,p sunt centrati, cosinusul


dintre y si ;y poate fi interpretat drept coeficientul de corelatie ntre
caracteristicile y si y.

Cautarea caracteristicilor canonice


Prezentarea geometrica
La fel ca si n cazul regresiei multiple, se presupune ca cele (p+q)
n

caracteristici sunt observate pe acelasi esantion n, cu ^ p = 1 si ca ele


i

i=1

sunt centrate. Fiecare dintre cele (p+q) caracteristici pot fi reprezentate printr1

yk

II

!<

xj

f k0
y1
II

J
(xX

II

un vector Rn:

Xj

v
0

ykk

.0

Acestor vectori le sunt asociate subspatiile vectoriale W1 si W2:


W1 = (Xe Rn /X = Xa, a e Rp}
W2 = (pe Rn /h = Yb, b e Rq}
n care Xp si Ynq sunt matricele care contin pe coloane vectorii X si y k. Acestia
fiind centrati, atunci si subspatiile vectoriale W1 si W2 vor contine doi vectori
centrati, combinatii liniare ale vectorilor centrati. Se presupune n continuare ca
X si yk formeaza baze pe W1 si W2, deci: dim(W 1) = p dim(W 2) = q
rang(X) = p rang(Y) = q
Din punct de vedere geometric, problema analizei canonice poate fi
formulata astfel: trebuie cautati X e W1
cos2 (p, X) = r2 (X, p) sa fie maxim.

si pe W2 pentru care

Cautarea caracteristicilor canonice


Se presupune ca X1 si p1 sunt soluiile problemei si ca ||X|| = ||p|| = 1. p 1
trebuie sa fie coliniar cu proiecia ortogonala a lui X 1 pe W2: A2X1 = r1p1 n care
r1 = cos(X1,p1) iar A2 este operatorul proieciei ortogonale pe W 2. n acelasi mod
se obtine A1p1 = r1X1. De aici rezulta sistemul:
X1

[A1A2
=11X1

lA2A1

p1

= A, 1 p
1

n care 11 = r12 = cos2(X1, p1)

X1 si p1 sunt vectorii proprii ai operatorilor AIA2 si A2AI asociati celei


mari valori proprii 11. Caracteristicile X1 si p1 se deduc una din

AT

cealalta astfel: p1 =^A2X1 si X1 =^A.p1.


2

AT 1

Urmatoarele caracteristici canonice sunt vectorii proprii ai lui


AIA2, respectiv A2AI asociati valorilor proprii aranjate n ordine descrescatoare.
Numarul maxim de caracteristici canonice este egal cu min(p,q). n
consecinta, daca p < q , Xi formeaza o baza W1 si nu este posibil sa fie obtinuti
alti vectori care sa-i apartina lui Wi si care sa fie ortogonali. Cautarea
factorilor canonici
Factorii canonici a si b pot fi calculati n mod direct.
A1 = X(tXDX)-1tXD A2
= Y(tYDY) -1tYD
si nlocuind n ecuatiile care dau X si p se obtine:
f X(tXDX)-1tXDY(tYDY) -1tYDXa = 1Xa "i
Y(tYDY)-1 tYDX(tXDX)-1 tXDYb = 1Yb

VJJ= XDX V22 =


YDY
V12 = XDY=V2!
VII este identic cu matricea de varianta-covarianta a caracteristicilor x j,
V22 este matricea de varianta-covarianta a caracteristicilor y k iar V12 contine
covariantele ntre X si yk.
Ecuatiile precedente se simplifica:
J XV1-11 V12V2-2V21a = X
Xa l YV2-1V21V1-11V1 2b =
XYb
care se simplifica la rndul lor, deoarece X si Y sunt de rang p si q si vom
obtine:
l
=1a
V2-^V21V1- V12b = 1b.
1

Se calculeaza factorii canonici ca vectori proprii ai produsului


matricelor de covarianta (pot fi utilizate si matricele de corelatie). Conditiile
de normalizare ||X||2 = |n||2 = 1 vor deveni:
J t XDX=t atXDXa=t aV11a = 1
[t pDp=tbtYDYb=tbV22b = 1
a si b se vor deduce una din cealalta prin transformarea liniara:
h = - ^ A 2 X care devine Yb =-^Y^YDY)-1tYDXa si simplificnd
\JX
A/X
b = = V221V21a. n acelasi mod se obtine a = = V111V12b . VX

VX

Rezultatele si interpretarea
Datele au fost obtinute prin prelucrarea pe PC cu ajutorul software ului specializat Statistica. Caracteristicile studiate au fost urmatoarele:
STAT. Means and Standard Deviations (mediu.sta)
Tabelul 8.9. Medii si abateri
CANONICL
ANALYSIS
Right
Left
st.
dev.
mean
3.68959
VAR6
5.947368
4
VAR7
1.546053
.698521
VAR8
1.684211
.580261
VAR2 2
1.815789
.722588
VAR2 3
1.368421
.697054
VAR2 4
2.697368
.772366
VAR2 5
2.940789
.964492
VAR2 6
2.671053
.471384
VAR27
2.164474
.722799
STAT.

Correlations (mediu.sta)

Tabelul 8.10. Matricea corelatiilor

CANONICL CORELATII
ANALYSIS
standard mode
VAR6
VAR6
1.00
VAR7
-.16
VAR8
.26
VAR2 2
.20
VAR2 3 -.16
VAR2 4 - .25
VAR2 5
.25
.56
VAR26
VAR27
.08

VAR7
-.16
1.00
-.01
.08
.22
-.71
.42
.35
. 04

VAR8 VAR22
.26
.20
-.01
.08
1.00
.44
.44
1.00
.58
.64
-.23
-.09
-.14
.05
.10
-.18
-.14
-.26

VAR23
VAR24
VAR25
VAR26
VAR27
- .16 -.25
.25
.56
.08
.42
.35
.04
.22 -.71
.58 -.23
-. 14
.10
-.14
.64 -.09
.05
-.18
-.26
1.00 -.01
-. 14
-.03
-.12
- .01
1.00 -.70
-.46
.21
- .14 -.70
-.52
1.00
.10
- .03 -.46
.10
1.00
.35
- .12 .21
-.52
.35
1.00

Matricea corelaiilor primei grupe V n:


Correlations, left set (mediu.sta)
Tabelul 8.11. Matricea corelatiilor primei grupe
VAR6
1.000000
-.160938
.264395

VAR6
VAR7
VAR8

VAR7
-.160938
1.000000
-.012899

VAR8
.264395
-.012899
1.000000

Matricea corelatiilor celei de -a doua grupe V 22:


Correlations, right set (mediu.sta)
Tabelul 8.12. Matricea corelatiilor celei de-a doua grupe
VAR2
VAR2
VAR2
VAR2
VAR2
VAR2

2
3
4
5
6
7

VAR22
1.000000
.635266
-.088684
.050763
-.179078
-.258603

VAR23
.635266
1.000000
-.012948
-.144647
-.031824
-.121067

VAR24
-.088684
-.012948
1.000000
-.699852
-.457135
.208377

VAR25
.050763
-.144647
-.699852
1.000000
.102539
-.517917

VAR26
-.179078
-.031824
-.457135
.102539
1.000000
.354215

VAR 27
-.258603
-.121067
.208377
-.517917
.354215
1.000000

Matricea corelatiilor primei grupe cu cea de-a doua grupa V 12:


Correlations, left set with right set (mediu.sta)
Tabelul 8.13. Matricea corelatiilor primei grupe cu cea de-a doua grupa
VAR22 VAR23
VAR24
VAR25
VAR26
VAR27
VAR6 .444743-.157211
-.251962
.254075
.561144
.080249
VAR7 .082522.223346
-.710495
.421841
.348002
.043924
VAR8 .195060.584265
-.229427
-.140130 .101944
-.143772
Se observa ca VAR6 (calitatea spalarii) este bine corelata cu VAR22
(coninutul de apa) si VAR26 (continutul de sulfat de sodiu) si au note diferite
acordate de respondenti. Din aceste motive, studierea corelatiilor nu ne aduce
informatii noi.

Se calculeaza n continuare factorii canonici. n acest exemplu, avem trei


cupluri de factori asociati unei valori proprii pozitive.
Graficul corelatiilor canonice este prezentat n cele ce urmeaza.
STAT. Eigenvalues (mediu .sta)
Tabelul 8.14. Valori proprii
CANONICL VALORI PROPRII
ANALYSIS
Root
Value

Root 1
.915805

Root 2
.835965

Root 3
.268960

Canonical Analysis Summary


Tabelul 8.15. Rezultatele aplicarii analizei canonice
6
2
LEFT_SET
RIGHT_SET
No. of variables
Variance extracted 100.000%
52.3784%
Total redundancy 61.5521%
37.4931%
Variables:
1 VAR6
VAR22
2 VAR7
VAR23
3 VAR8
VAR24
6
VAR25
VAR26
6
6
VAR27

Figura 8.7. Numrul de radacini canonice


STAT. Factor Structure, left set (mediu.sta)
CANONICL FACTORI ANALYSIS
Tabelul 8.16. Componenta primului factor si a celui de-al doilea
Root 3
Variable
Root 1
Root 2
-.617699
VAR6
-.739857
-.266571
.600223
.004581 . -.799820
VAR7
-.727216
43969
-.527091
VAR8
(proportion)Variance Redundancy extracted
Root 1
.246914 .226125
Root 2
.329532 .275477
Root 3
.423554 .113919
STAT. Factor Structure, left set (mediu.sta)
CANONICL ANALYSIS FACTOR2

Variable
VAR22
VAR23
VAR24
VAR25
VAR26
VAR27

Root 1
.115160
.542473
.186503
-.412306
-.530595
-.188792

Root 2
-.362340
-.455961
.855096
-.399612
-.548021
.007393

Root 3
-.587749
-.361307
-.276257
.422182
-.162013
.161132

(proportion)Variance Redundancy extracted


Root 1
Root 2
Root 3

.138249
.255075
.130460

.126609
.213234
.035088

Variabilele canonice pentru cele doua grupe sunt prezentate n


continuare:
Canonical Weights, left set (mediu.sta)
Tabelul 8.17. Variabilele canonice
ROOT_1 X1
VAR6 -.943905
VAR7 -.138461
VAR8 .687474

ROOT_2 X2
-.280904
-.851011
-.463798

ROOT_3 x3
-.367112
.533101
-.623276

Canonical Weights, right set (mediu.sta)


ROOT_1 h1
ROOT_2 h2
VAR22
-.566686
-.108800
VAR23
.708007
-.382237
VAR24
-.767178
.885441
VAR25
-.878831
.106687
VAR26
-.774260
-.133009
VAR27
-.270667
-.149156

ROOT_3
-.810470
.311652
-.354237
.706057
-.781493
.705584

Se constata ca X1 este puternic corelat cu VAR8 (protecia mediului) n


timp ce p1 este corelat cu VAR23 (continutul de fosfat). X2 nu este

pozitiv corelat cu nici o caracteristica, n timp ce p 2 este foarte puternic corelat


cu VAR24 (continutul de enzime) si mai slab corelat cu VAR25 (sulfat de
sodiu). X3 este corelat cu VAR7 (proprietati benefice) n timp ce
p3 este corelat puternic cu VAR23 (continutul de fosfat), VAR25 (sulfat de
sodiu) si VAR27 (nalbitor).
Aceste corelatii sunt veridice, daca ne gndim ca calitatea spalarii
este ntr-adevar influentata de continutul de sulfat de sodiu al detergentului.
Totodata, acesta poate avea influente din punct de vedere al proprietatilor
benefice: tesaturile se deterioreaza n timp daca aceasta componenta este

folosita n cantitati mari. Aceasta interpretare se confirma si din examinarea


matricei V12.
Totalitatea caracteristicilor initiale poate fi reprezentata pe planul celor
doua caracteristici X1 si X2 (sau p1 si p2).
Se va obtine graficul prezentat n figura 8.8.

2.5

2.0

1.5

1.0

puternic

05
"J

o!

jj 0.0

O; O

-0.5

1.0

!!o::O
Q;Q

-1.5

puternic

O
-

2.0

-2.0

-1.i

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

Right set

Figura 8.8. Reprezentarea variabilelor canonice


Concluzii
Interesul pentru analiza canonica rezida n primul rnd din aspectele
sale metodologice si s-a aratat ca regresia multipla poate fi considerata un caz
particular al analizei canonice.
J. D. Carroll, n lucrarea A generalisation of cannonical correlation
analysis to three or more sets of variables , 1968, a propus o generalizare a
analizei canonice pentru analiza a mai mult de doua grupe de variabile.
Principiul acestei generalizari este simplu. Exista m esantioane de
caracteristici numerice centrate, reprezentate n tabelele X 1, X2, ...,X, - ,Xm iar
W1 este potentialul de previzionat asociat lui Xi. Se cauta o noua
m
caracteristica z eRn care sa maximizeze corelatiile ^cor 2(z,Xi), n care
i =1

X Wj. Se demonstreaz cu usurinta ca z este soluia pentru

Dupa cum s-a observat, att analiza canonica ct si analiza componentelor


principale au la baza metodologia vectorilor si valorilor proprii, fiecare dintre
ele prelucrnd cte un alt tip de date: cantitative, respectiv calitative.

8.3.

Analiza factoriala a corespondentelor

Propusa n anii 60 de catre J. P. Benzecri pentru studierea tabelelor de


contingenta, analiza corespondentelor a fost extinsa pentru un numar mai mare
de caracteristici33. Prin proprietatile sale matematice si multitudinea
interpretarilor, analiza corespondentelor a devenit o metoda importanta de
descriere a datelor calitative, fiind un instrument important n analiza datelor de
mediu.
Prezentarea metodei
Dupa cum s-a aratat, tabelul de contingenta are n variabile care corespund
indivizilor caracterizati dupa doua modalitati. Se presupune n continuare
existenta unui astfel de tabel, n care sunt distribuite p = 22 modalitati aranjate
pe linii (ipuri) si q = 8 modalitati asezate pe coloane (categorii). Cele doua
caracteristici nu sunt vizibil independente, repartizarea indivizilor diferind de la
o caracteristica la alta. Scopul analizei factoriale a corespondetelor l constituie
studierea structurii dependentelor precum si evidentierea trasaturilor principale.
Un tabel de contingena poate fi citit n doua moduri diferite, pe linii sau pe
coloane, motiv pentru care se poate raspunde la doua chestiuni diferite:

33 Bouroche J-M., Saporta G., Lanalyse des donnes,


Presses Universitaires de France, Paris, 1980.

a) Daca se doreste cunoasterea repartizarii indivizilor pe cele 22 de tipuri, se


calculeaza procentajele pe linie prin raportarea efectivelor n ale liniei i la
totalul n. al liniei respective, rezultatul constituind profilul liniei. Acest
profil al liniei se compara cu repartitia indivizilor pentru cele 22 de tipuri si
rezulta profilul marginal. La rndul sau, acest profil marginal este totodata
si profilul mediu deoarece el reprezinta media profilurilor liniilor ponderate
cu totalurile ni. ale fiecarei linii.
b) Daca se doreste cunoasterea categoriilor ocupationale ale indivizilor pentru
fiecare tip n parte, se determina profilurile coloanelor prin raportarea
efectivului nj al coloanei j la totalul n.j al coloanei respective. Si acest
profil este comparat cu profilul marginal al celor 22 de tipuri, masurnd
partea luata de fiecare tip n totalul celor care reprezinta o anumita
categorie .
Se noteaza cu D1 si D2 matricele diagonale ale efectivelor marginale:
^ n,

0'

2.
n

p.0

0'
n

11
<N
Q

D: =

^n1

.2

n
.q 0

Tabelul care va concentra cele p profile ale liniilor


fn.A
ni.0
i
j
prin intermediul produsului matriceal: D/N =

va fi o

, n timp ce tabelul

abordari sunt posibile n cazul n care intereseaza


n
-1

profilelor coloanelor va fi dat de produsul matriceal: ND 2 =

.0

. Aceste

liniile sau coloanele lui N: daca intereseaza liniile, atunci tabelul D 1-1N poate fi
considerat ca fiind

profilurile liniilor prin ponderile

l_ 2,
nnn
55

n p . Analiza componentelor
.

principale va studia dispersia norului celor p profile n R p n jurul centrului


lor de greutate, care nu este altul dect profilul marginal
,,..., . Cu alte cuvinte, trebuie sa se tina seama de distantele ntre n n n
nij
n.
n
n
- si , care reprezinta un mod de analizare a dependentei ntre doua
i.
caracteristici calitative.
Reciproc, daca intereseaza coloanele lui N, tabelul ND -1 sau transpusa lui D-11N vor juca rolul tabelului
indivizi x caracteristici: n acest caz se studiaza configuratia celor q profile ale coloanelor n R p.
Pentru a efectua una sau cealalta din aceste analize n componente principale, trebuie aleasa o metrica
pentru a calcula distantele ntre profile
(metrica c2) iar aceasta alegere poate fi dificila. Totodata mai trebuie luat n calcul si faptul ca profilurile pierd
din vedere datele de baza, care sunt date de cei n respondenti descrisi prin intermediul a doua caracteristici
calitative. Acestea sunt motivele pentru care se recurge la abordarea care utilizeaza forma disjunctiva a datelor.

Fiecare caracteristica calitativa va fi transformata ntr-o


caracteristica numerica (prin atribuirea valorilor 0 si 1), de forma: Tipul
Categoria
1 2.

Xi =

.p

1 2 ..
0

1f
2
0 1.

X2 =

.0

nV

1 f 1 0.
2 0 1.
nV

.q
.. 0"
.. 0

Proprietati matematice
Analiza canonica a doua tabele Xj siX2
Analiza canonica va cauta cuplurile de caracteristici canonice (X, h)
cele mai puternic corelate. Factorii canonici pot fi extrasi din relatiile: X = X 1a
si h = X 2b , n care:
1 0 0^
1 0 0
0 1 0
0 1 0
0 0 1
0 0

f a1 ^

a=

X =a

V
0

f
a N
1
a
1
a2

3
Va3
0
0
Caracteristica X este de tip numeric si are urmatoarele proprietati: nu

are dect trei valori distincte 3, a2, si a* si doi indivizi care au aceeasi
Xi =
modalitate iau pentru X aceeasi valoare numerica. Aceasta nseamna ca X
realizeaza transformarea caracteristicii calitative ntr-una numerica, efectunduse astfel o cuantificare a caracteristicii initiale calitative.

Aplicarea analizei factoriale a corespondentelor asupra lui N sau a


analizei canonice asupra lui Xi si X2 nseamna de fapt cautarea
cuantificariioptime a doua caracteristici calitative n sensul n care si p sunt
puternic corelate.
Analiza canonica lucreaza cu tabelele Xi si X 2 care contin caracteristici
centrate, 0 si 1 semnificnd prezenta sau absenta unei modalitati. Daca se
lucreaza cu tabelele X si X care contin caracteristici necentrate, suma
variabilelor unei aceeasi caracteristici da ntotdeauna 1 (suma vectorilor coloana
a lui X1 este egala cu suma vectorilor coloana a lui X 2, deci vectorul I are toate
componentele egale cu 1).
Spatiile W1 si W2 au n comun vectorul I care apare n mod automat
ca prima solutie, avnd valoarea proprie 10 = 1, 0 = p0 = 1. Daca p < q, exista
(p - 1) cupluri de caracteristici canonice diferite de 1 (daca p > q exista (q - 1)
(X1,p1),(2,p2),..., (p-1,pp-1) care sunt ortogonale

cupluri):

la 0 = p0 = 1. Aceasta nseamna ca i si pi au o medie nula, deci caracteristicile


sunt centrate si, n consecinta, nu este necesar ca tabelele X1 si X2 sa fie
centrate.
Factorii canonici sunt solutia ecuatiei: V1-11V12V221V21a = 1 a sau
Vij= XDXj.
n analiza corespondentelor se presupune ca ponderile celor n
indivizi sunt toate egale cu -1, deci D = I. De aici rezulta ca
n
n
V 1 %X2,
2 n

adica V12 este similar cu tabelul de contingenta normalizat

N. Se constata cu isurinta ca V11 si V22 sunt matricele diagonale ale n


profilurilor marginale V11 = D1.
n

Matricea V111V12 reprezinta tabelul profilurilor liniei D/N iar


matricea V2-2V21 este transpusa tabelului profilurilor coloanelor (ND- 1). Se
gasesc factorii canonici b cautnd vectorii proprii ai relatiei:
V2-^V21V1-/V12 = D-1t ND- 1N.
Factorii analizei corespondente lor sunt deci vectorii proprii ai produsului dintre
cele doua tabele ale profilurilor. ntre factorii b si
factorii a exista relatia: b = ^ V221V21a.
Vl
Se considera aici: b = ^UD-11Na si a = ^D^Nb. Aceste relatii
V 2
V 1
poarta denumirea de relatii de tranzitie care, prin dezvoltare, conduc la
re atiile: bj

1pn
^7T:f=fnTaisi ai =^1?^''

i n

Suma valorilor proprii poseda o proprietate interesanta:


n2
' n,
nn
n

Cnd 0 = 1 rezulta ca 0 + 1 + 2... = XX

i' - -

2
i

. '

n n
i '
i'
-1
0 + 1 + 2 ... = D N D - 1 t N = XX^n.'
n

ceea ce nu reprezinta altceva dect masura dependentei lui c 2 de doua


caracteristici calitative mpartite prin n.
Valorile proprii i fiind patratele coeficientilor de corelatie canonici,
caracteristicile canonice vor fi deci cuplurile de caractere numerice explicate
prin ordinea descrescatoare a dependentei ntre cele doua caracteristici
calitative ale tabelului de contingenta.

Analiza n componente principale a tabelelor de profile


Se aplica analiza componentelor principale asupra liniilor tabelului de
profile - se vor defini distantele ntre obiecte.
A. Distanta c2
Utilizarea distantei euclidiene poate permite favorizarea diferentelor
ntre categoriile cu un numar mare de indivizi, n care variatiile mari sunt
frecvente si defavorizarea diferentelor ntre categoriile cu un numar mic de
indivizi. Pentru evitarea acestui fenomen se pondereaza fiecare caracteristica
tinndu-se seama de importanta sa n ansamblul liniilor.
n
n.i

0
= nD-1
n

nq 0

Distanta c2 pentru liniile matricei diagonale se defineste prin inversa


profilurilor marginale a coloanelor lui N:
M, =
Fiecare caracteristica este ponderata prin inversa importantei sale n
totalitatea indivizilor: d22 (ei ,e k ) = ^- n j =i
ni

nn
ij
nn
j

k.
0

Distanta c ntre linii are proprietatea de a nu putea fi modificata daca


se regrupeaza doua coloane care au acelasi profil. n acelasi mod se poate defini
distanta c2 ntre profilurile coloanei prin intermediul matricei
Mc = nD-1.
B. Analiza componentelor principale a norilor profilurilor

Analiza n componente principale a tabelelor de profile


Prin aplicarea analizei componentelor principale se obtine ca factorii principali
sunt vectorii proprii MV. M = nD-1, V = ^XDX n care X este

tabelul profilurilor D/N iar D matricea ponderilor Di. Rezulta ca MV = D 1t

ND-1N iar factorii principali vor fi identici cu factorii canonici b.


Componentele principale c sau coordonatele profilurilor - linii se vor

obtine multiplicnd b cu tabelul de date (c = Xu) deci c = D-'Nb; c


va fi deci factorul canonic sau principal a multiplicat cu Vl.
Se va vedea ca analiza componentelor principale a norului profilurilor
liniilor este echivalenta cu analiza componentelor principale a norului
profilurilor coloanelor: factorii principali ai analizei sunt la s/l de componentele
principale iar valorile proprii sunt aceleasi. ntre cele doua analize exista
dualitate.
Valorile proprii care au fost interpretate ca fiind patratele corelatiilor sunt
la fel cu varianta: suma lor este egala cu inertia totala a fiecarui nor de profiluri.
n,n.j
n
Factorii si valorile proprii explica modul n care se abat valorile nj de
nin .
k sialte
,
motivul pentru
ntre
doua
bjk cuvinte
sunt componentele
celuicare
de-al
kcele
factor
a k caracteristici
si b\
in care
a cu
Tabelul de contingenta va putea fi reconstituit cu ajutorul relatiei:
n=
i
j
la
n
calitative ale tabelului N nu exista independenta.
Reprezentarea grafica
A. Optica analizei canonice
Prima idee consta n proiectarea variabilelor modalitatilor celor doua
caracteristici pe planul (X1, X2) sau pe planul (p1,p 2 ) pentru a obtine o

figura comparabila cu un cerc al corelaiilor. Dar cum variabilele nu sunt nici


centrate si nici reduse, nseamna ca operaia nu are sens. Soluia este
urmatoarea: modalitatea i a primei caracteristici o au r. indivizi cu valori
diferite pentru X1 si X 2, deci modalitatea i va fi reprezentata prin centrul de
greutate al acestora. Coordonatele punctului reprezentativ al modalitatii i sunt
(a1,a2,...,ak,...). Pentru a doua caracteristica calitativa, coordonatele punctului
reprezentativ al modalitatii j sunt: Cj!b!^/7bj,...^/Tbjk,...). Pe planul asociat
lui X1 si X2 se va obtine o figura de forma urmatoare:
B. Optica analizei componentelor principale

p
.
n
Jlkbk = Viijak Daca se
t^n,

utilizeaza caracteristicile h1,


h2 n locul X1, X2 va aparea

b2
j

Alb
!
Figura 8.9. Planul asociat lui X\ X2

un

alt

tip

de

reprezentare

care

modalitatea

reprezentata

prin punctul

va

(A/VU/V2 )
modalitatea

fi

iar

prin

(b1,b2).
Daca se considera profilurile liniilor ca fiind indivizii, atunci se vor
reprezenta modalitatile primei caracteristici prin coordonatele profilurilor pe
axele principale. Componentele principale se obtin multiplicnd factorii

canonici ak cu

: modalitatile primei caracteristici sunt dispuse n acelai

mod cu figura n care se reprezinta media caracteristicilor canonice p k.


Pentru profilurile coloanelor se vor reprezenta modalitatile celei de-a
doua caracteristici calitative conform reprezentarii obtinute cu X k. Se vor obtine
doua reprezentari separate a modalitatilor fiecarei caracteristici.
C. Reprezentarea simultana
Aceasta

presupune

reprezentarea

modalitatilor i

ale

primei

caracteristici prin punctele de coordonate sfkkak si modalitatilor j ale


celei de-a doua caracteristici prin punctele de coordonate
7bj.
Aceasta
nseamna de fapt suprapunerea celor doua grafice ale analizei componentelor
principale, lucru delicat deoarece se amesteca indivizii cu caracteristicile pe
acelasi grafic. n optica analizei canonice aceasta nseamna realizarea unui
compromis ntre cele doua reprezentari posibile.
X k +h k
Se vor utiliza caracteristici medii de forma zk = -----------------------. Daca
k
2
reprezentarile grafice sunt bune (cu ajutorul lui cos 2 9), se poate interpreta
proximitatea ntre doua modalitati ale aceleiasi caracteristici ca fiind o
similititudine a profilului (distanta c2 mica).
La fel ca si n cazul analizei componentelor principale, originea axelor
reprezinta centrul de greutate al totalitatii punctelor: aceasta notiune poate fi
confundata cu cea de profil marginal. Originea va fi media indivizilor atta pe
ntru tipuri ct si pentru categorii.
Studiul contribuiilor
Pentru interpretarea corecta a graficelor, ca si n cazul analizei
componentelor principale trebuie sa se tina seama, pe de o parte de proximitatea
ntre punctele si planurile principale si, pe de alta parte, de rolul jucat de fiecare
punct n determinarea unei axe. Datele fiind de natura calitativa, nu se utilizeaza
corelatiile ntre caracteristicile si axele principale.
A. Contributia punctelor la inertia axelor

Coordonatele modalitatilor pe axe fiind -Jlkak si bj, inertia lka celei de-a
l axe se poate descompune n functie de modalitatile primei sau celei de-a doua
caracteristici:

E PS-JK 2=E p.j ilK


aj )

bj

)2

contributia modalitatii i la axa k contributia modalitatii j la axa


k
B. Proximitatea ntre puncte si axele principale
Ca si n cazul analizei componentelor principale se utilizeaza cos 2 9
ntre indivizi (ntre profilul liniilor si prof ilul coloanelor) si axa principala
pentru a masura calitatea reprezentarii n planurile principale. Suma acestor
cosinusuri patrate pentru un acelasi individ si pentru TOATE axele este egala cu
1.

8.4.

Analiza tipologica - clasificarea

Metodele de clasificare (sau taxonomie) au drept scop regruparea


indivizilor ntr-un numar restrns de clase (clustere/aglomerari) omogene.
Clasele se obtin cu ajutorul unor algoritmi formalizati si nu prin intermediul
unor metode vizuale care se bazeaza pe intuitia analistului.
Clasificarea face parte din tehnicile de analiza a datelor care functioneaza
ntr-un cadru general, avnd un numar mic de ipoteze. Aranjarea trebuie facuta
astfel nct indivizii care apartin aceleiasi clase sa fie ct mai asemanatori ntre
ei prin valorile caracteristicilor lor (adica sa fie similari), n timp ce indivizii
care apartin unor clase diferite sa fie ct mai diferiti ntre ei (adica sa fie
disimilari).

Se disting doua mari mari tipuri de metode de clasificare:


> Metodele neierarhice, care au drept rezultat partitionarea indivizilor ntr- un
numar fix de clase.
> Metodele ierarhice, care au drept rezultat serii de partitii de clase din ce n
ce mai diferite, de tipul celor cu care opereaza zoologia: specii, clase,
familii, ordine etc.
n acest caz, tabelul de date analizate poate fi tabelul distantelor sau
disimilaritatilor ntre n indivizi sau tabelul coordonatelor indivizilor pe axele
p (tabelul indivizi x caracteristici numerice sau coordonatele axelor n cazul
caracteristicilor calitative).
Indicatori de proximitate A. Indicatori
de proximitate ntre indivizi
Indicele de proximitate reprezinta un numar care exprima similaritatea sau
disimilaritatea existenta ntre doi indivizi, fiind luate n considerare toate
caracteristicile care servesc la constituirea claselor si care i caracterizeaza pe
acestia. Dupa natura variabilelor urmarite, se disting mai multi coeficienti de
proximitate. n cazul n care caracteristicile p sunt cantitative, se pot defini
urmatorii coeficienti de proximitate bazati pe:
>

distanta euclidiana dk

p (x - x ) , n care pi reprezinta
i

ki

li

i =1

ponderea acordata caracteristicii i;


p

>

distanta rectangulara dk = ^ p |x - xu |;
l

i=1

> distanta Cebsev dk = maxpi|xki - xj .

ki

n cazul n care caracteristicile p sunt de tip calitativ, se poate utiliza distanta


euclidiana, rectangulara, dar si coeficientul Spearman de
1
6dkl
n
corelaie a rangurilor, calculat dupa urmatoarea formula:
p(p2 _1)
care dkl reprezinta distanta euclidiana ntre liniile k si l ale matricei de
observatie.
B. Indicatori de proximitate ntre clase
> metoda vecinilor cei mai apropiai: distanta dintre doua grupuri este
asimilata cu distanta dintre elementele cele mai apropiate ntre ele;
> metoda vecinilor cei mai ndepartati: distanta dintre doua grupuri este
asimilata cu distanta dintre elementele cele mai ndepartate ntre ele;
> metoda nlantuirii medii:

evalueaza distanta ntre doua grupuri

plecnd de la centrele lor34.


Clasificarea neierarhica
n cadrul acestui tip de clas ificare este vorba de regruparea celor n
indivizi n k clase astfel nct indivizii unei aceleiasi clase sa fie ct mai
asemanatori iar clasele sa fie ct mai bine separate. Aceasta cerinta presupune
definirea unui criteriu global de masurare a proximitatii indivizilor din aceeasi
clasa, cu alte cuvinte a calitatii partitiei. Daca se utilizeaza un astfel de criteriu,
se pot examina toate partitiile posibile si sa fie aleasa cea mai buna. Acest lucru
este aproape imposibil cu ct numarul indivizilor cercetati creste: de exemplu,
numai pentru 14 indivizi exista mai mult de patru clase cu mii de partitii
posibile35.

34Spircu L., Calciu M., Spircu T., Analiza datelor de


marketing, Editura All, Bucureti, 1996.
35Bouroche J-M., Saporta G., Lanalyse des donnes,
Presses Universitaires de France, Paris, 1980.

Acest lucru nseamna ca este putin probabil sa fie gasita cea mai buna
partitie posibila si este necesar sa fie alesi algoritmi care sa ofere solutii
satisfacatoare.
A. Ineria ntre clase si n interiorul claselor
Daca indivizii sunt considerati ca fiind puncte ale unui spatiu euclidian,
problema clasificarii poate fi descrisa ca o cautare a partitiei unui nor care are
n puncte cu k sub-nori Caracterizarea dispersiei unui nor de puncte prin
inertia sa se realizeaza cu ajutorul mediei patratelor abaterilor de la centrul de
greutate. Aceasta nseamna ca o clasa va fi cu att mai omogena cu ct inertia sa
va fi mai scazuta.
Se considera (Ii, I2, ..., Ik) inertiile aferente fiecarei clase, calculate n
raport cu centrele lor de greutate (g, g2, ..., g). Suma acestora poarta
denumirea de inerie ntre clase si se determina dupa relatia: IW = ^ Ii.

k
j=i

Idealul ar fi ca W sa fie ct mai mica pentru ca totalitatea claselor sa fie foarte


omogene.
n continuare se considera totalitatea celor k centre de greutate
(gi,g2,.,gk) si dispersiile aferente. Ineria n interiorul claselor reprezinta centrul
de greutate al norului tuturor celor n indivizi si se determina conform relatiei:
IB =^Pjd2(g j ,g), n care Pj este suma ponderilor indivizilor din clasa j. O
valoare mare pentru IB arata o buna separare a claselor si deci idealul este ca I B
sa fie foarte mare.
Conform teoriei lui Huyghens, IB si IW sunt legate cu ajutorul relatiei: I
= W + IB, n care I reprezinta inertia totala a norului celor n puncte.
Maximizarea lui IB este echivalenta cu minimizarea lui IW, n timp ce
suma lor este constanta. Din punct de vedere al ineriei, este suficient sa se
caracterizeze partitiile posibile n k clase, care minimizeaza I W.

Dezavantajul l constituie faptul ca acest criteriu nu permite compararea


a doua partitii care au un numar diferit de clase. n consecinta, cea mai buna
partitionare n k clase va avea ntotdeauna o inertie n interiorul clasei mai
mare dect cea a partitiei cele mai bune cu (k+1) clase. Cea mai buna partitie
posibila este cea n care fiecare individ constituie o clasa (I W = 0) n timp ce
fiecare punct se confunda cu centrul de greutate al clasei sale. Se cauta
obtinerea unei partitionari n k clase, n care k a fost fixat apriori.
B. Regruparea n jurul centrelor mobile
Ca prim pas, se regrupeaza indivizii n jurul celor k centre arbitrare
(c1, c2, ..., ck) n modul urmator: clasa asociata lui q este formata din totalitatea
indivizilor cei mai apropiati de cj. Din punct de vedere geometric, aceasta
nseamna mpartirea spatiului indivizilor n k zone definite de planul
medianelor segmentelor cicj. Figura 8.10. ofera un exemplu de mpartire asociat
a trei centre ntr-un plan.

Figura 8.10. Regruparea n jurul centrelor mobile


n continuare se calculeaza centrele de greutate (g, g2, . . g k ) ale
claselor ce se vor forma. Se va efectua o a doua mpartire regrupnd indivizii n
jurul lui g care vor lua locul centrelor de greutate (gf, g 2 ,...,g k)

ale noilor clase, se vor regrupa indivizii n jurul lor si asa mai departe pna n
momentul n care calitatea partitiilor masurate cu ajutorul inertiei ntre clase nu
se mai poate ameliora. Deoarece este suficient ca la fiecare pas sa fie calculate
nk distante ntre indivizi si centre, nu este necesar sa se
pastreze n(n^ 1) distante diferite, ceea ce prezinta avantaje n cazul n care
n este mare.
Dezavantajul acestei metode, plecnd de la riscul de a obtine clase vide,
este dat de obtinerea unei partitii finale care depinde de partitia initiala. n plus,
partitia initiala este adesea arbitrara deoarece centrele ci sunt alese prin
extragerea celor k indivizi din cei n
C. Metoda norilor dinamici
Sub acest nume, E. Diday a dezvoltat o metoda eficienta de
partitionare, care poate fi considerata ca generalizare a metodei centrelor
mobile. Diferenta fundamentala consta n faptul ca n loc sa se defineasca o
clasa printr-un singur punct, centrul sau, se definesc prin q indivizii care
formeaza un nucleu. Daca acesta este bine ales, va fi mai reprezentativ dect
un simplu centru de greutate. Nucleele astfel formate permit interpretarea
claselor.
Plecnd de la un sistem initial de k nuclee, se obtine o partitie prin
regruparea indivizilor n jurul nucleelor. Se calculeaza noile nuclee
reprezentative ale claselor astfel formate si se va relua procedura pna n
momentul n care calitatea partitiei nu se mai poate ameliora.
Formal, trebuie sa existe trei functii:
> o functie care calculeaza distanta de la individ la nucleu;
> o functie care asociaza unei partitionarii n k clase k nuclee de q
puncte reprezentative;
> o functie care masoara calitatea unei partitii.

Cunoscndu-se aceste trei functii, numarul de clase si de nuclee,


algoritmul este determinat n ntregime.
Metodele de partitionare permit tratarea rapida a esantioanelor mari, cu
conditia ca numarul de clase k sa fie fixat. Daca acest numar nu corespunde
adevaratei configuratii a norului de indivizi, exista riscul de a obtine valori
eronate. Adesea trebuie sa fie ncercate diverse valori pentru k, ceea ce duce
la marirea timpului alocat cercetarii. Daca numarul de indivizi nu este ridicat, se
pot utiliza metodele ierarhice.
Clasificarea ierarhica
Metodele de clasificare ierarhica ascendenta se bazeaza pe construirea
unor partitii de n clase, (n-1) clase, (n-2) clase s.a.m.d. legate unele de
celelalte n modul urmator: partitia de k clase este obtinuta prin regruparea
celor doua clase ale partitiei cu (k+1) clase. n total vor fi (n-2) partitii care
trebuie determinate n timp ce partitia de n clase este cea n care fiecare
individ este izolat, iar partitionarea ntr-o clasa nu este altceva dect reuniunea
tuturor indivizilor.
Clasificarea ierarhica presupune ca fiecare clasa a unei partitii este
inclusa ntr-o clasa a partitiei urmatoare. Urmatoarele partitii obtinute sunt
reprezentate sub forma unui arbore de clasificare asemanator organigramei unei
ntreprinderi.

n figura 8.11. se prezinta partitiile ansamblului a, b, c, d, e.


Fiecarei partitii i corespunde o valoare numerica reprezentnd nivelul
P5 = a/b/c/d/e
P4 = ab/c/d/e
P3 = ab/cd/e
P2 = ab/cde
P1 = abcde
ga
bc
d
e
Figura 8.11. Partitiile ansamblului a, b, c, d, e
la care au loc regruparile. Cu ct coeficientul este mai ridicat, cu att partile
regrupate sunt mai eterogene. Acest coeficient poarta denumirea de
nivel de agregare.
Cunoscnd arborele de clasificare este usor ca partitiile sa fie deduse
ntr-un numar mai mic sau mai mare de clase. n arborele prezentat, exista o
partitie n trei clase: (a,b), (c,d), (e).
Principala problema a metodelor de clasificare ierarhica consta n
definirea criteriului de regrupare a doua clase, cu alte cuvinte definirea
distantelor dintre acestea. Toti algoritmii de clasificare ierarhica se deruleaza n
acelasi mod: n fiecare etapa se cauta doua clase, cele mai apropiate, se
fuzioneaza si se continua pna n momentul n care nu mai exista dect o
singura clasa.
A. Criteriul ineriei: metoda Ward

n timp ce caracteristicile sunt puncte ale unui spatiu euclidian, se


poate defini calitatea unei partitii prin intermediul inertiei din interiorul clasei
sau dintre clase. O buna partitionare este cea pentru care inertia ntre clase este
puternica iar inertia n interiorul clasei este slaba. Trecerea de la o partitionare
de la (k+1) clase la k clase prin regrupare a doua clase ntruna singura arata
ca inertia dintre clase nu scade. Criteriul de regrupare va fiurmtorul:
fuzionarea a doua clase pentru care pierderea de inerie este cea mai scazuta.
Aceasta nseamna reunirea a doua clase cele mai apropiate, innd seama de
distanta dintre cele doua clase si de pierderile de energie.
Fie A si B doua clase care trebuie reunite, g si g centrele lor de greutate
si PA si PB ponderile aferente.
nainte de reuniune, inertia ntre clase este egala cu:
IB = PAd2(gA,g) + PBd2(gB,g)
Dupa reuniune, nu va mai fi dect o clasa de ponderi PA + PB, un centru
de greutate gAB care vor contribui la obtinerea inertiei ntre clase:
I

= (PA + PB) d.2(gAB ,g)


Pierderea de inertie ntre clase este egala cu diferenta:
B

Pi = PAd2(gA,g) + PBd2(gB,g) - (PA + PB) cf(g\B,g)


Un calcul elementar arata ca:
P

AgA + PBgt
se va gasi
P+P
AB
ca aceasta pierdere este egala cu:
Cum gAB = A5A

A + PB Jd2
(gA .gB )P+P
AB
Figura 8.12. Reprezentarea
centrelor de greutate
P
P
d22(gA,gB) =A--Ad2(gA,g)
+ JB
2
d ( g B , g ) , B X 2.d (g A ,g B ),

PP
(P A +
PB)2

A + PB

A + PB

aceasta relatie fiind o generalizare a teoremei medianei.


Se poate defini ca distanta ntre clasele A si B cantitatea:
PP
=iP A ^ d < g A 'g > )

d (A B)

Daca C este o a treia clasa, se deduce cu usurinta formula care


determina distanta 5 ntre C si reuniunea claselor A si B:
S (C; AUB) =

(P + P )d(A, C) + (P + PJS(B,C) - P 5(A,B)


A

Algoritmul lui Ward poate fi formalizat astfel: se nlocuiete tabelul


distantelor D ntre cele n puncte cu tabelul D al distantelor modificate:
PiPj d 2(ei,ej)
5i
J Pi +
Pj
si se cauta doua caracteristici pentru care 5 ij este minim. Acestea vor fi reunite
ntr-o clasa de pondere (p+p) la nivelul ierarhic 5 iJ si apoi se calculeaza
urmatoarele distante 5 ntre celelalte caracteristici cu ajutorul formulei
precedente. Totul se realizeaza ca si cum nu ar fi dect (n-1) caracteristici si se
vor cauta doua caracteristici apropiate care vor fi reunite ntr-o clasa si asa mai
departe.
Sa ne reamintim datele prezentate la analiza componentelor principale,
referitoare la afirmatiile respondentilor vis --vis de utilajele nepoluante.
Vom pastra matricea D 1 si vom calcula distantele ntre cei 650 de indivizi,
s
2

dupa care va fi prezentata o clasificare prin intermediul metode i lui Ward.


Ponderea indivizilor este aici 1/650. Clasele de ierarhie vor fi numerotate
de la 1 la 6 si sunt constituite n modul urmator: afirmatiile 6 si 7 (volum
redus de deseuri VAR5 si consum specific redus VAR7) sunt cele mai
apropiate, apoi afirmatiile 5 si 4 (volum redus de noxe VAR22 si protejeaza
tesaturile VAR23), apoi atasam afirmatiile 1, 2 si 3 (fiabilitate sporita
VAR24, numar redus de rebuturi VAR25 si timp redus de obtinere a
componentei VAR26). Schema de aglomerare dupa regula lui Ward si calculul
distantelor euclidiene sunt prezentate n continuare.

cluster
Distantele
euclidiene

pas 1

8.246211
10.48809
12.00000
15.58488
16.17569
35.68116

VAR22
VAR5
VAR25
VAR24
VAR5
VAR5

pas 2

VAR23
VAR7
VAR26
VAR25
VAR7
VAR7

Tabelul 8.18. Distantele euclidiene

pas 3

pas 4

VAR26
VAR22 VAR23
VAR22 VAR23

pas 5

pas 6

pas 7

VAR24

VAR25

VAR26

Pentru rezultate a fost utilizat software-ul Statistica, modulul analiza


Acestei scheme de aglomerare i corespunde graficul din figura 8.13.

Suma pierderilor de inertie este egala cu inertia totala a norului de puncte, care
s
este egal cu numarul de caracteristici din matricea D 1 . Din
2

tabelul prezentat se poate deduce si arborele de clasificare, care este prezentat


n continuare sub forma orizontala si verticala.

Tree Diagram for 7 Variables


Ward's method
Euclidean distances

VAR5
VAR7
VAR22
VAR23
VAR24
VAR25
VAR2G

10

15

20

25

30

35

40

Linkage Distance

Figura 8.14. Arbore de clasificare orizontal

Se recomanda confirmarea rezultatelor clasificrii prin aplicarea analizei


componentelor principale sau analizei corespondentelor. Aceste

abordari sunt complementare, iar analiza factoriala permite, printre altele,


interpretarea rapida n functie de caracteristicile gruparilor obtinute prin
clasificare.
Pentru exemplul prezentat, se confirma rezultatele obtinute la analiza
componentelor principale, n sensul ca avem trei clustere care contin doua
afirmatii, doua afirmatii si trei afirmatii, aceleasi care au fost obtinute la
paragraful referitor la analiza n componenete principale (paragraful 8.1.).
B. Distante neeuclidiene: strategii de agregare
Daca distantele nu sunt euclidiene (aceasta se ntmpla daca
inegalitatea triangulara d(a,b) < d(a,c) + d(b, c) nu se verifica pentru niste
puncte oarecare - adica exista disimilaritate), notiunea de inertie nu are sens si
n acest caz nu exista de un criteriu obiectiv pentru calcularea distantei ntre
doua clase. Se pot imagina o multime de solutii mai mult sau mai putin
arbitrare.
n continuare vor fi prezentate trei din cele mai utilizate relatii pentru
determinarea distantelor ntre doua parti:
distanta saltului minimal (inferioara)
d(a,b) = inf d(e 1,e ] ), ei A , ej B. Aceasta relatie tinde sa
favorizeze regruparile n doua clase, existnd riscul gasirii n cadrul
aceleiasi clase a unor puncte ndepartate. Relatia este utilizata datorita
proprietatilor sale matematice.

distanta diametrului (superioara)


d(a,b) = sup d(e i ,e j ). Aceasta relatia remediaza dezavantajul primeia
deoarece presupune ca toate punctele sa fie apropiate.
d(a,b) = VII d(e,,e j).
Aceasta formula reprezint un
P P
ABij
compromis ntre primele doua relaii.
Se considera urmatorul tabel de distante ntre cinci indivizi:

Tabelul 8.19. Tabelul distantelor ntre cinci indivizi


a

1
3

2
7

8
4

1
5

Distanta nu este
euclidiana

deoarece
d(c,e)>d(c,d) +

d(d,e), 7>3+2.
2 1

Vor fi extrasi

urmatorii trei
arbori:
d

Reprezentare prin distanta inferioara


c

Figura 8.16.

7
6
5

Figura 8.17.

4 43

Reprezentare

2 41

distanta superioara

prin

Daca fiecare arbore ncepe prin reuniunea lui d cu e ntr-o singura


5, 75-

4,3 3,5

Figura 8.18.
Reprezentare
prin distanta

medie
1

clasa f, exista numeroase diferente importante atunci cnd sunt calculate


distantele dintre f si celelalte caracteristici: d inf(b,f) = inf(d(b,d); d(b,e)) = 2
d sup(b,f) = sup(d(b,d); d(b,e)) = 5

d medie(b,f) = 3,5
Din acest motiv este recomandabil sa fie utilizate mai multe tipuri de
clasificri pe aceleai date, pentru ca variantele sa nu fie mari.
Explicarea claselor are ca scop principal determinarea caracteristicilor
care joaca un rol important n grupare. Problema este daca clasele constituite
sunt ntr-adevar diferite unele fata de altele.
Din aceasta cauza este necesar ca clasele sa fie validate, recurgnd la unul din
urmatoarele procedee:

teste de analiza a variantei pentru fiecare caracteristica cantitativa care


serveste la constituirea claselor;

tehnici de analiza factoriala discriminanta, n care caracteristica nominala

reprezinta tipul clasei careia i apartine caracteristica studiata;


analiza componentelor principale, pentru validarea continutului claselor.

8.5.

Analiza factoriala discriminanta

Analiza discriminanta pune n evidenta legaturile existente ntre


caracteristicile explicative cantitative si o caracteristica ce urmeaza a fi
explicata36. Metoda permite acest lucru prin intermediul vizualizarii pe un plan
factorial a caracteristicilor studiate. T otodata sunt prevazute si modalitatile
caracteristicii explicate pornind de la valorile luate de caracteristicile
explicative.
Prezentarea metodei
Se considera un esantion de indivizi asupra caruia se urmareste o
caracteristica calitativa avnd q modaltati. Fiecare individ va fi reperat

36 Bouroche J-M., Saporta G., Lanalyse des donnes,


Presses Universitaires de France, Paris, 1980.

printr-o singura modalitate a acestei caracteristici, astfel ca s-a definit o parte a


esantionului de indivizi n q clase disjuncte. Pe acest esantion vor fi masurate
cele p caracteristici cantitative. Problema la care trebuie sa se raspunda este
urmatoarea: cele q clase difera n ansamblul de caracteristici cantitative?
Pentru a obtine raspunsul, se determina o noua caracteristica prin
intermediul unor combinatii liniare ale vechilor caracteristici. Analiza
discriminanta conduce la elaborarea unei reguli de decizie cu ajutorul careia se
stabileste, n functie de valorile variabilelor explicative, apartenenta indivizilor
din esantion la o anumita clasa, pe baza acestor rezultate facndu-se previziuni
cu privire la apartenenta la clase a altor indivizi.
Sintetiznd, se poate spune ca analiza discriminanta urmareste:
> un scop descriptiv, constnd n cautarea unui numar ct mai redus de
variabile explicative, care sa exprime cel mai bine separarea indivizilor n
clase;
> un scop decizional, adica verificarea n ce masura, un individ oarecare, nca
negrupat, se aseamana cu indivizii dintr-o anumita clasa si, daca aceasta
asemanare exista, de a decide repartizarea sa n clasa respectiva.
Formularea geometrica
Cel mai des utilizate sunt trei prezentari, astfel nct se poate demonstra
ca aceasta metoda este un caz particular al analizei componentelor principale.
Prezentarea ce urmeaza pune n evidenta legatura cu analiza componentelor
principale.
A. Abordarea directa
A.1. Varianta n interiorul claselor si ntre clase
Se noteaza cu (x1, x2,X,

X5) valorile observate pentru cele

p caracteristici centrate pe cei n indivizi. Fiecare individ este


n
caracterizat de o pondere pi > 0, cu ^pi = 1.

i=1
n spatiul indivizilor Rp, fiecare observatie este reperata printr-un vector
(x1,x2,...,xj,...,xp). Caracteristicile fiind centrate, centrul de greutate al norului
indivizilor se confunda cu originea. Ca si n cazul analizei componentelor
principale, se determina matricea variantei totale: V=XtDX.
Se considera o noua caracteristica c = X u, a carei varianta este egala cu
Ud2 =c4Dc = utXtDXu = uVu .
Varianta acestei caracteristici poate fi descompusa n varianta ntre
clase, care provine de la dispersia centrelor de greutate a celor q clase n jurul
originii si varianta n interiorul clasei, care provine din dispersia indivizilor
unei clase n jurul centrului lor de greutate.
Fiecarei clase i este asociat centrul de greutate (g, g 2, ., gk, ., g,) si
ponderile (P1, P2, ..., Pk ..., Pq). Prin definitie, ponderea unei clase este egala cu
suma ponderilor observatiilor carora le apartin.
Fie Wk matricea covariantei celor p caracteristici calculate pentru
q
indivizii celei de-a k clase W = ^ PkWk n care W este matricea
k=1
variantei n interiorul clasei.
Fie B matricea variantei celor p caracteristici calculate pentru norul
celor q centre de greutate nsotite de ponderile corespunzatoare. B poarta
denumirea de matricea variantei ntre clase.

Se observa ca V = W + B. Varianta caracteristicii c se va scrie: |cf =


utVu = utWu +utBu. Astfel, varianta unei caracteristici se descompune ntr-o
suma de doi termeni:
> utBu, varianta ntre clase legata de dispersia centrelor de greutate ale
claselor n jurul originii;
> ifWu, varianta n interiorul claselor legata de dispersia observatiilor
corespunzatoare unei clase n jurul centrelor de greutate.
A.2.

Cautarea factorilor discriminani


Se considera o caracteristica c = X u. Se considera ca aceasta

caracteristica este perfect discriminanta daca ia aceeasi valoare pentru toti


indivizii unei aceleiasi clase si valori diferite pentru indivizii care apartin unor
clase diferite.
n aceasta situatie, u tW u = 0 deoarece n interiorul fiecarei clase
caracteristica este constanta si, n consecinta, u tW u = u tB u.
Pentru a alege cea mai buna caracteristica discriminanta trebuie
maximizat u tB u, cu alte cuvinte varianta ntre clase a acestei caracteristici. n
practica, deoarece suma (W + B) este constanta, se maximizeaza
B . W raporturile
si V V dupa care se interpreteaz procentele obtinute.
Prin definitie, prima caracteristica discriminanta este c = X u, atta
, utBU
utBU utWU ,
timp ct raportul ---------- este maxim. ----------1t------= 1 reprezinta
uVU
uVU uVU
discriminarea perfecta.

g2

uBU
uVU

Figura nr. 8.19. Cazul discriminrii perfecte


Daca termenii din partea stnga sunt pozitivi, primul raport

poate fi maximizat iar cel de-al doilea minimizat. Aceste doua cantitati au valori
cuprinse ntre 0 si 1.
Factorii discriminanti u se calculeaza prin maximizarea cantitatii
(0 < 1 < 1). Prin utilizarea aceleiasi tehnici din cazul analizei
componentelor principale, se scriu urmatoarele relatii: 2 ( u tV u) B u - 2 ( u tB

Bu =

uBU ^
Vu = IVu
uVU 0

u) V u = 0
V -1Bu = 1 u
n care u este vectorul propriu al lui V -1B, iar valoarea proprie 1 trebuie sa fie
cea mai mare, deoarece ea reprezinta cantitatea ce trebuie maximizata.

Se considera u1 soluia, denumita primul factor discriminant, n timp


ce 11 reprezint puterea (calitatea) discriminrii.
Prima caracteristica discriminanta c1 = X ii fiind obinut, se caut
c2 = X if necorelata cu c1, atta timp ct raportul

utBU
uVU este maxim si asa

mai departe.
Se demonstreaza cu usurinta ca W-1B are aceiasi vectori proprii ca si
V-1B, dar pentru valorile proprii

1 -l'

-1

Vectorii proprii V B, notati cu


(u1, u2, ..., u-1) aranjati n ordinea descrescatoare a valorilor proprii pozitive 1 j,
12,..., 1 q-1 sunt solutiile
succesive ale acestei probleme.
Se observa ca sunt (q"1) valori proprii diferite de zero, n timp ce B
este matricea variantei calculata pe baza celor q vectori din R p si ca suma
ponderata a celor q centre de greutate este un vector nul. n cazul n care nu
exista dect doua grupe, singurul factor discriminant este dat de relatia: u = V"1
(g2 - gO sau u = W"1 (g2 - g1).
Calitatea discriminarii nu depinde de normalizarea caracteristicilor,
motiv pentru care se considera ca acestea au o varianta redusa.
B. Analiza factoriala discriminanta este un caz particular al analizei
componentelor principale
Se observa usor ca analiza factoriala discriminanta este o analiza a
componentelor principale ale norului celor q centre de greutate nsotite de
ponderile lor n spatiul Rp n matricea V"1.
Se considera q puncte n Rp: (g1, g2, ..., gq). Se considera G matricea care
contine pe linie cele q centre de greutate si D p matricea

diagonala a ponderilor claselor. Matricea de varianta asociata acestui nor este: B


= G t Dp G.
n continuare se presupune ca Rp include matricea M = V"1, adica
inversa matricei variantei totale. Factorii principali sunt vectorii proprii ai lui
V"1 B asoc iati celor mai mari valori proprii: V -1Bu = l u.
n acest mod se ajunge la ecuatiile analizei factoriale discriminante
prezentate anterior.
Dezavantajul acestei abordari consta n faptul ca este dificila
justificarea alegerii matricei V"1 precum si faptul ca valorile proprii sunt
cuprinse ntre 0 si 1.
C. Analiza factoriala discriminanta este un caz particular al analizei
canonice
S-a demonstrat ca analiza factoriala discriminanta reprezinta de fapt
analiza canonica ntre doua esantioane de caracteristici (x 1, x2, ..., x1, ..., X1)
centrate si (y1, y2, ., yk, ., yq) necentrate.
Caracteristicile celui de-al doilea esantion reprezinta variabilele
explicative asociate celor q modalitati ale caracteristicii calitative. Pentru a
demonstra acest lucru, se va arata ca factorii canonici asociati variabilelor x j
sunt identici cu factorii discriminanti.
Factorii canonici trebuie sa verifice ecuatia V 1-11V12V221V21u = lu. n
aceasta ecuatie:
V11 = tX D X = V
V22 = tY D Y
V12 = tX D Y
V21 = tY D X

S-ar putea să vă placă și