Sunteți pe pagina 1din 15

Capitolul 1

METODE EXPLORATORII
MULTIDIMENSIONALE

Metodele exploratorii multidimensionale îşi propun s¼ a furnizeze reprezen-



ari sintetice ale unor mulţimi mari de valori numerice, în general sub forma
unor vizualiz¼ ari gra…ce. Pentru aceasta, se urm¼ areşte reducerea dimensiu-
nilor tabelului de date prin reprezentarea asociaţiilor între indivizi şi variabile
în spaţii de dimensiuni mici. Distanţele între liniile sau între coloanele unui
tabel dreptunghiular de valori numerice pot … întotdeauna calculate dar nu
este posibil¼ a vizualizarea imediat¼ a a acestora, reprezent¼ arile geometrice asoci-
ate implicând, în general, spaţii de dimensiuni superioare lui trei. Este nece-
sar s¼a proced¼ am la transform¼ ari şi aproxim¼ ari pentru a obţine o reprezentare
plan¼ a.
Metodele exploratorii vor c¼ auta, în consecinţ¼ a, subspaţii de dimensiuni
mici - unu, doi sau trei - care aproximeaz¼ a cel mai bine norul de puncte-
individ sau cel de puncte-variabi¼ a astfel încât vecin¼ at¼
aţile m¼asurate în aceste
spaţii s¼
a re‡ecte cât mai exact proximit¼ aţile reale. Se obţine astfel un spaţiu
de reprezentare, spaţiul factorial. Geometria norilor de puncte şi calculul
proximit¼ aţilor sau a distanţelor care decurg de aici difer¼ a în funcţie de natura
liniilor şi coloanelor tabelului analizat.
Coloanele tabelelor dreptunghiulare de date pot … variabile continue sau
variabile nominale sau categorii în cazul tabelelor de contingenţ¼ a. Liniile pot
… indivizi sau categorii. Natura informaţiilor, codi…carea, speci…citatea dome-
niului de aplicaţie vor introduce variante în cadrul metodei factoriale.
În cele ce urmeaza vor … prezentate trei tehnici fundamentale:

analiza în componente principale (secţiunea 1.2) se aplic¼ a tabelelor


de tip "variabile-indivizi" unde coloanele sunt variabile numerice con-
tinue şi liniile sunt indivizi, observaţii, obiecte, etc. Proximit¼
aţile între
variabile se interpreteaz¼ a în termeni de corelaţii. Proximit¼ aţile între
indivizi se interpreteaz¼ a în termeni de similitudini globale ale valorilor
observate.

1
2 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

analiza corespondenţelor simple (secţiunea 1.3) se aplic¼ a tabelelor


de contingenţ¼a, adic¼
a tabelelor ce conţin num¼ arul indivizilor care posed¼a
concomitent dou¼ a modalit¼ aţi a dou¼
a variabile nominale. Aceste tabele
au particularitatea c¼ a atât liniile cât şi coloanele lor joac¼a un rol iden-
tic în analiza corespondenţelor simple. Analiza furnizeaz¼ a reprezent¼ari
ale asociatiilor între liniile şi coloanele tabelelor bazate pe o distanţ¼ a
între pro…le (care sunt vectori de frecvenţe condiţionate) cunoscut¼ a sub
numele de distanţa 2 .

analiza corespondenţelor multiple (secţiunea 1.4) este o extindere


a domeniului aplicaţiilor analizei corespondenţelor simple, având totuşi
proceduri de calcul şi reguli de interpretare speci…ce. Ea face obiectul
unei menţiuni particulare datorit¼ a num¼ arului mare de aplicaţii la care se
preteaz¼a. Analiza corespondenţelor multiple este în mod deosebit adap-
tat¼
a la descrierea tabelelor mari de variabile nominale, cum sunt …şierele
de anchete socio-economice sau cele medicale. Liniile acestor tabele sunt,
în general, indivizi sau observaţii (pot exista câteva mii); coloanele sunt
modalit¼ aţi ale variabilelor nominale, cel mai adesea modalit¼
aţile r¼aspun-
surilor la întreb¼ ari.

Oricare ar … tipul tabelului de date, toate tehnicile factoriale au un nucleu


comun prezentat în secţiunea 1.1 sub forma unor preliminarii matematice.

1.1 Preliminarii matematice


1.1.1 Concepte metrice într-un spaţiu euclidian
Fie X mulţime oarecare, X 6= ?.

De…niţia 1.1.1 O metric¼a pe mulţimea X este o aplicaţie, d : X X!R,


care satisface urm¼
atoarele axiome :

a) d (x; y) = d (y; x) ; (8) x; y 2 X (simetric¼


a);

b) d (x; y) 0; (8) x; y 2 X (pozitiv¼


a);

c) d (x; y) = 0 , x = y; (8) x; y 2 X (idempotent¼


a);

d) d (x; y) d (x; z) + d (z; y) ; (8) x; y; z 2 X (inegalitatea triunghiului).

De…niţia 1.1.2 Dac¼ a d : X X ! R este o aplicaţie care satisface axiomele


(a) (c) şi în plus este satisf¼
acut¼
a axioma

d’) d (x; y) max (d (x; z) ; d (z; y)) ; (8) x; y; z 2 X


atunci d se numeşte ultrametric¼a pe X.
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 15

În particular, maximul (minimul) formei p¼ atratice simetrice F (x; x) pe


sfera unitate este egal cu cea mai mare (cea mai mic¼ a) valoare proprie a lui
A.
Vectorul propriu corespunzând celei mai mari valori proprii este un vector
ce porneşte din origine şi trece prin punctul de pe sfera unitate în care este
atins maximul.

1.2 Analiza în componente principale (ACP)


Inventat¼a de Karl Pearson în 1901 şi introdus¼ a în statistica matematic¼ a
de Harold Hotelling în 1933, analiza în componente principale a început s¼ a …e
utilizat¼
a efectiv odat¼
a cu apariţia şi extinderea calculatoarelor electronice.
Analiza în componente principale, ACP, poate … prezentat¼ a din diverse
puncte de vedere:

pentru statisticianul clasic, analiza în componente principale înseamn¼ a


a estima, pornind de la un eşantion dat, axele principale ale elipsoidului
indicator al unei distribuţii normale multidimensionale. Aceasta este
prezentarea inţial¼
a a lui Hotelling urmat¼a apoi de manualele clasice de
analiz¼
a multivariat¼a (cazul lucr¼
arii fundamentale [2]);

pentru psihologi, analiza în componente principale este un caz particular


de analiz¼
a factorial¼
a utilizat¼
a în psihometrie (cazul dispersiilor nule sau
egale, conform [33]);

în …ne, pentru analiştii de date, analiza în componente principale este o


tehnic¼a de reprezentare a datelor cu un caracter optimal din punct de
vedere al unor criterii algebrice sau geometrice, utilizat¼ a, în general, f¼
ar¼
a
vreo referire la ipoteze de natur¼ a statistic¼
a sau la un model particular.
Acest punct de vedere, adoptat în cele ce urmeaz¼ a, este foarte r¼aspândit
la ora actual¼a. Este probabil cel mai vechi punct de vedere, reg¼ asindu-se
în lucr¼
arile lui Pearson. Desigur, în prezentarea acestuia nu este vorba
de analiza în componente principale aşa cum este ea expus¼ a ast¼
azi, dar
pot … deja întrev¼azute ideile esenţiale ale metodei. O discuţie mai larg¼ a
asupra acestui subiect se g¼ aseşte în articolul de sintez¼a [51].

Analiza în componente principale este utilizat¼


a pentru a pune în evidenţ¼
a:

sistemul de relaţii existente între variabile (asocierea sau opoziţia lor);

reprezentarea indivizilor în raport cu variabilelele observate (indivizi care


prezint¼
a caracteristici comune sau antagoniste).

Eventualul utilizator al analizei în componente principale trebuie s¼


a posede
un tabel dreptunghiular de m¼ asur¼atori în care coloanele reprezint¼
a variabile
16 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

numerice continue, sau care pot … considerate continue, iar liniile reprezint¼ a
indivizii pe care au fost m¼ asurate aceste variabile. În biometrie se procedeaz¼ a
frecvent la multiple m¼ asur¼
atori asupra unor organe sau animale, în economie
se înregistreaz¼
a diverşi indicatori privind agenţii economici.
Într-o manier¼ a general¼
a, condiţia pe care trebuie s¼
a o îndeplineasc¼
a aceste
tabele numerice pentru a face obiectul unei analize în componente principale
este urm¼ atoarea: una dintre dimensiunile tabelului (liniile în general) este
format¼a din unit¼aţi avînd caracter repetitiv, cealalt¼a dimensiune poate … mai
degrab¼a eterogen¼a. În exemplele de mai jos liniile au acest caracter repetitiv.
Acestea vor … numite indivizi sau observaţii. Coloanele vor … desemnate ca
variabile. Uneori liniile pot … considerate ca realiz¼ ari independente ale unor
vectori aleatori ale c¼ aror componente corespund la diferite variabile. Dup¼ a
provenienţa variabilelor, trei mari categorii de tabele pot face obiectul unui
demers de analiz¼ a în componente principale:

1. Tabelele de m¼asur¼ atori: variabilele sunt obţinute în urma unui sondaj


sau recens¼
amânt şi sunt cantitative.
tabelul 1.2.1. Consumul mediu anual În 1972, exprimat în
franci francezi, pentru 7 tipuri de alimente,
în cazul a 8 categorii socio-profesionale

PAO PAA VIO VIA POT LEC


¼
ŢARANI 167 1 163 23 41 8
SALARIAŢI AGRICOLI 162 2 141 12 40 12
LIBER PROFESIONIŞTI 119 6 69 56 39 5
CADRE SUPERIOARE 87 11 63 111 27 3
CADRE MEDII 103 5 68 77 32 4
FUNCŢIONARI 111 4 72 66 34 6
MUNCITORI 130 3 76 52 43 7
INACTIVI 138 7 117 74 53 8
(Surs¼a: A. Villeneuve, La consommation alimentaire des Français, collections
de l’INSEE, M34)

2. Tabelele de note: variabilele sunt obţinute în urma unor notaţii.


Notele sunt variabile calitative ce pot …, în general, asimilate cu vari-
abilele cantitative.
tabelul 1.2.2. Notele obŢ inute de 4 studenŢ i la 3 materii

¼
MATEMATICA ¼
FIZICA ¼
ENGLEZA
STUD1 9 8 8
STUD2 10 9 6
STUD3 9 7 10
STUD4 7 5 10
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 17

3. Tabelele de ranguri: variabilele sunt obţinute în urma unor clasa-


mente şi sunt variabile calitative ordinale care pot … transformate în
variabile continue.
tabelul 1.2.3. Clasamentul tablourilor a trei pictori,
PIC1 PIC3, realizat de patru experŢ i A D.

A B C D
PIC1 1 3 2 1
PIC2 3 1 1 3
PIC3 2 2 3 2

Dup¼ a cum vom vedea, în funcţie de transform¼arile aduse tabelului de


date, analiza în componente principale prezint¼a numeroase variante: norul
de puncte-indivizi poate … centrat sau nu, redus sau nu. Dintre aceste vari-
ante, analiza în componente principale normat¼a (central-redus¼
a) este cea mai
utilizat¼
a.

1.2.1 Date şi caracteristicile lor


Se presupune c¼ a dispunem de observaţii asupra a p variabile continue
m¼asurate pe n indivizi. Valorile sunt "listate" într-un tabel de n linii şi p
j=1;p
coloane. Not¼ am cu X = (xij )i=1;n matricea asociat¼a tabelului, unde xij este
valoarea luat¼ a de variabila j m¼ asurat¼a pe individul i.
O variabil¼a este identi…cat¼ a prin vectorul-coloan¼ a j al tabelului X (no-
taţie xj ) iar un individ prin vectorul-linie i (notaţie xi ).
Dac¼ a datele nu au fost culese în urma unui sondaj aleator cu probabilit¼aţi
egale atunci …ec¼ arui individ i i se atribuie o pondere1 pi , conform importanţei
pe care o are în studiul întreprins.

De…niţia 1.2.1 Se numeşte matrice (sau metric¼a) de ponderi matricea


X
D = diag (p1 ; : : : ; pn ) ; unde pi > 0; (8) i = 1; n şi pi = 1:
i

În cazul indivizilor echiponderaţi D = n1 In , unde In este matricea iden-


titate de dimensiune n.

a not¼ am c¼ a xj poate … interpretat ca o selecţie de volum n asupra
variabilei j şi c¼
a, în acest context:

- media de selecţie a variabilei j este


X
m (xj ) xj = pi xij ,
i
1
Termenii de "pondere" sau "mas¼ a" sunt utilizaţi cu acelaşi sens în statistic¼
a şi desem-
neaz¼
a adesea frecvenţele relative sau probabilit¼
aţile a priori.
18 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

- dispersia de selecţie a variabilei j este

X
s2 (xj ) s2j = pi (xij xj )2 ,
i

- covarianţa de selecţie a variabilelor j şi j 0 este


X
cov xj ; xj 0 vjj 0 = pi (xij xj ) xij 0 xj 0 ,
i

- coe…cientul de corelaţie de selecţie a variabilelor j şi j 0 este


vjj 0
cor xj ; xj 0 rjj 0 = :
sj sj 0

De…niţia 1.2.2 Se numeşte punct mediu (centru de greutate) al norului de


puncte-individ fei gni=1 vectorul g0 = (x1 ; : : : ; xp ).

Se observ¼
a c¼
a:

g = X0 D1n unde 10n = (1; : : : ; 1) 2 Rn :

Într-adev¼
ar,
0 10 10 1
x11 x21 : : : xn1 p1 0 : : : 0 1
Bx12 x22 C B C B
: : : xn2 C B 0 p2 : : : 0 C B1C
B C
X0 D1n = B . .. C B .. C B .. C =
@ .. . A @ . A @ .A
x1p x2p xnp 0 0 : : : pn 1
0 10 1
p1 x11 p2 x21 pn xn1 1
Bp1 x12 p2 x22 : : : pn xn2 C B1C
B CB C
= B . .. C B .. C =
@ .. . A @.A
p1 x1p p2 x2p pn xnp 1
X X X 0
pi xi1 pi xi2 : : : pi xip 0
= = x1 x2 : : : xp = g:
i i i

De…niţia 1.2.3 Se numeşte tabel centrat asociat lui X matricea

Y = (yij )j=1;p
i=1;n
unde yij = xij xj :

Se numeşte tabel centrat-redus asociat lui X matricea


yij
Z = (zij )j=1;p
i=1;n
unde zij = :
sj
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 19

Lema 1.2.1
a) Y = X 1n g0 = (In 1n 10n D) X.

1 1
b) Z = YD 1 unde D 1 = diag s1 ; : : : ; sp .
s s

c) Matricea de varianţ¼
a-covarianţ¼
a asociat¼
a tabelului X este
V = X0 DX gg0 = Y0 DY:

d) Matricea de corelaţie asociat¼


a tabelului X este
R = D 1 VD 1 = Z0 DZ:
s s

Demonstraţie. a) Conform de…niţiei,


0 1
x11 x1 x12 x2 : : : x1p xp
B x21 x1 x22 x2 : : : x2p xp C
B C
Y = B .. .. C=
@ . . A
xn1 x1 xn2 x2 : : : xnp xp
0 1 0 1
x11 x12 : : : x1p x1 x2 : : : xp
B x21 x22 : : : x2p C Bx1 x2 : : : xp C
B C B C
= B . .. C B .. .. C =
@ .. . A @. .A
xnp xn2 xnp x1 x2 xp
0 1 0 1
x11 x12 ::: x1p 1
B x21 x22 ::: x2p C B1C
B C B C
= B . .. C B .. C x1 x2 : : : xp = X 1n g 0
@ .. . A @.A
xnp xn2 xnp 1
dar
0
X 1n g0 = X 1n X0 D1n =X 1n 10n DX = In 1n 10n D X:
b) Rezult¼ a imediat din de…niţia lui Z:
c) Relaţia V = Y0 DY rezult¼ a din de…niţia lui V: Pe de alt¼
a parte,
X
vkk0 = pi (xik xk ) (xik0 xk0 ) =
i
X X X X
= pi xik xik0 pi xik xk0 pi xk xik0 + pi xk xk0 =
i i i i
X X X X
= pi xik xik0 xk0 pi xik xk pi xik0 + xk xk0 pi =
i i i i
X X
= pi xik xik0 xk0 xk xk xk0 + xk xk0 = pi xik xik0 xk xk0
i i
X
=) V = X0 DX gg0 ; am folosit faptul c¼
a xk = pi xik
i
20 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

d)
0
R = D 1 VD 1 = D 1 Y0 DYD 1 = YD 1 D YD 1 = Z0 DZ
s s s s s s

unde prima egalitate rezult¼


a din de…niţia lui R.
Observaţia 1.2.1P
n
Relaţia Z0 DZ = pi ei e0i este o formul¼
a util¼
a implement¼
arii pe calculator a
i=1
metodei deoarece evit¼
a introducerea în memoria RAM a întregii matrici X.

1.2.1.1 SPAŢIUL INDIVIZILOR


a analiz¼
am exemplul din tabelul 1.2.2.:

MATEMATICA FIZICA ENGLEZA


STUD1 9 8 8
STUD2 10 9 6
STUD3 9 7 10
STUD4 7 5 10
Individul stud1 este “caracterizat”de cele trei note obţinute: 9 la matem-
atic¼
a, 9 la …zic¼a şi 8 la englez¼
a. La fel şi indivizii stud2 stud4. Reamintim
a notaţia pentru individul i este e0i . Aşadar, pentru exemplul de mai sus:

e01 = (9 8 8), e02 = (10 9 6) etc.
În general, un individ e0i este de…nit de p coordonate corespunzând valo-
rilor celor p variabile m¼ asurate pe acest individ. Îl putem, deci, considera ca un
element dintr-un spaţiu vectorial F Rp , pe care îl numim spaţiul indivizilor
(…g. 1.2.1.). Mulţimea celor n indivizi formeaz¼ a un "nor de puncte-individ"
în spaţiul F, cu g centrul de greutate al norului. În continuare vom înzestra
acest spaţiu cu o metric¼ a ce permite de…nirea distanţei dintre indivizi.
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 21

fig. 1.2.1. Principiul reprezentA¼ rii geometrice

Fie M 2Mp;p (R), o matrice simetric¼


a, pozitiv de…nit¼
a, de dimensiune p,
cu coe…cienţi reali.

De…niţia 1.2.4 Se numeşte matricea produsului scalar între indivizi matricea

W = (wij )j=1;n
i=1;n
, unde wij = hei ; ej i

şi hei ; ej i = e0i Mej este produsul scalar pe spaţiul F de…nit de metrica M.

Se observ¼
a c¼
a
W = XMX0
a distanţa dintre doi indivizi, ei şi ej ; din spaţiul F este dat¼
şi c¼ a de relaţia

d2 (ei ; ej ) = hei ej ; ei ej iM = kei ej k2M

În teorie, alegerea metricii depinde de utilizator, singurul care poate pre-


ciza metrica adecvat¼ a. În practic¼
a, metricile cele mai uzitate în ACP sunt:

M = Ip ; ce induce produsul scalar uzual şi distanţa euclidian¼


a;

M = D 1 : Utilizarea acestei metrici revine la adimensionalizarea vari-


s2
abilelor deoarece …ecare valoare este împ¼ arţit¼
a cu abaterea standard de
x
atoare ( sijj ).
selecţie a variabilei corespunz¼

Metrica M = Ip d¼ a …ec¼
arei variabile aceeaşi importanţ¼
a, independent de
dispersia sa. Utilizarea ei va privilegia variabilele cu dispersie mare, pentru
care diferenţele între indivizi sunt mari, şi va neglija diferenţele între cele-
lalte variabile. În schimb metrica M = D 1 echilibreaz¼ a in‡uenţa variabilelor
s2
transformându-le în variabile cu dispersia de selecţie unu.

Observaţia 1.2.2
Dac¼
a M = diag (m1 ; : : : ; mp ) atunci
p
X
d2 (ei ; ej ) = mk (xik xjk )2
k=1

p
iar coe…cienţii mk k=1;p pot … consideraţi ca ponderi ale variabilelor xj în
distanţa dintre indivizi.

Lema 1.2.2
Matricea produsului scalar între indivizi poate … întotdeauna exprimat¼
a în
funcţie de metrica Ip .
22 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

Demonstraţie. Într-adev¼ ar, dac¼


a M este simetric¼ a şi pozitiv de…nit¼
a atunci
ea poate … scris¼ a ca M = T0 T (conform algoritmului lui Cholesky din [15]).
Atunci hei ; ej iM = e0i Mej = e0i T0 Tej = (Tei )0 (Tej ) = (Tei )0 Ip (Tej ), ceea
ce înseamn¼ a c¼a W = (XT0 ) Ip (TX0 ), adic¼
a W este matricea produsului scalar
al tabelului XT0 faţ¼
a de metrica M = Ip .

Corolarul 1.2.1
Utilizarea metricii M = D 1 pentru tabelul Y revine la folosirea metricii
s2
M = Ip pentru tabelul centrat-redus Z.
Reamintim c¼ a ipoteza fundamental¼a a unui demers ACP este aceea c¼ a în-
treaga informaţie este conţinut¼
a în distanţele dintre punctele-individ ale noru-
lui. Acest lucru justi…c¼ a”2 .
a introducerea noţiunii de “inerţie total¼

De…niţia 1.2.5 Se numeşte inerţie total¼a (global¼a) a norului de puncte-individ


media ponderat¼ a a p¼atratelor distanţelor de la punctele-individ la centrul de
greutate al norului, adic¼
a:
n
X n
X
Ig = pi (ei g)0 M (ei g) = pi kei gk2M :
i=1 i=1

Prin analogie, inerţia într-un punct oarecare, a 2 Rp , se de…neşte ca …ind


Pn
Ia = pi kei ak2M :
i=1

Propriet¼ aţile inerţiei globale, puse în evidenţ¼


a de enunţurile de mai jos,
sunt utile în demersul ce urmeaz¼ a.
Propoziţia 1.2.1 (formula lui Huygens)
Inerţia faţ¼
a de un punct satisface urm¼
atoarea relaţie:

Ia = Ig + (g a)0 M (g a) = Ig + kg ak2M

Demonstraţie. Într-adev¼
ar,
n
X
Ia = pi (ei a)0 M (ei a) =
i=1
Xn
= pi [(ei g) + (g a)]0 M [(ei g) + (g a)] =
i=1
Xn n
X
= pi (ei g)0 M (ei g) + pi (ei g)0 M (g a) +
i=1 i=1
n
X n
X
+ pi (g a)0 M (ei g) + pi (g a)0 M (g a) :
i=1 i=1
2
Termenul inerţie este împrumutat din mecanic¼
a şi este sinonim, în acest context, cu
termenul statistic dispersie.
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 23

Se observ¼
a c¼ a produsul (g a)0 M (g
a primul termen al sumei este chiar Ig , c¼ a)
Pn
nu depinde de i, c¼
a a produsele (ei g)0 M (g a) şi
pi = 1 şi c¼
i=1
(g a)0 M (ei g) sunt scalare. Cu aceasta egalitatea de mai sus devine
" n ! n
!#
X X
0 0 0 0
Ia = Ig + 2 pi ei Mg g Mg + g Ma pi ei Ma +
i=1 i=1
+ kg ak2M
P
n
a b0 = (Mg)0 = (b1 ; : : : ;bp ) şi reamintind c¼
Se noteaz¼ a gj = pi xij rezult¼
a
i=1
n
X X p
X p
X
0 0
pi ei Mg g Mg = pi xij bj gj b j =
i=1 i j=1 j=1
p
! p
X X X
= bj pi xij gj bj = 0:
j=1 i j=1

P
n
Analog g0 Ma pi ei 0 Ma = 0.
i=1

Corolarul 1.2.2
Pentru un nor de puncte-individ dat, g, centrul de greutate al norului, mini-
mizeaz¼
a inerţia total¼
a.
Lema 1.2.3
Inerţia total¼
a este media p¼
atratelor distanţelor dintre punctele-individ, adic¼
a:
n X
X n
2Ig = pi pj kei ej k2M :
i=1 j=1

Demonstraţie. Se aplic¼ a formula lui Huygens pentru …ecare punct-individ,


apoi se adun¼
a cele n relaţii.
p1 Ie1 = p1 Ig + ke1 gk2M
p1 Ie2 = p2 Ig + ke2 gk2M
..
.
p1 Ien = pn Ig + ken gk2M
n
X n
X n
X
pj Iej = pj Ig + pj kei gk2M )
j=1 j=1 j=1
n
X n
X
pj pi kei ej k2M = Ig + Ig :
j=1 i=1
24 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

Lema 1.2.4 P
n
1. Ig = tr (MV) = tr (VM), unde cu tr (A) = aii s-a notat urma
i=1
matricii A 2Mn;n (R) :

2. Dac¼a centrul de greutate al norului este în originea axelor de coordonate,


adic¼
a g = 0, atunci Ig = tr (WD) = tr (DW).
Demonstraţie.
1. Într-adev¼
ar
n
X n
X
tr (MV) = tr MY0 DY = Myi pi yi0 = pi (ei g)0 M (ei g) = Ig :
i=1 i=1

Analog tr (VM) = Ig :
P
n
2. Dac¼
a g = 0 atunci Ig = pi ei 0 Mei . Pe de alt¼
a parte,
i=1

n
X n
X
0 0
tr (WD) = tr XMX D = ei Mei pi = Ig = pi ei 0 Mei =
i=1 i=1
= tr DXMX0 = tr (DW) :

Observaţia 1.2.3
1. Dac¼a M = Ip inerţia este egal¼
a cu suma dispersiilor de selecţie a celor p
variabile.

2. Dac¼
a M = D 1 atunci Ig = tr D 1 V = tr D 1 VD 1 = tr (R) =
s2 s2 s s
Pp P
p
rjj = 1 = p; aşa cum rezult¼
a din Lema 1.2.4. Inerţia este, în acest
j=1 j=1
caz, egal¼
a cu num¼
arul variabilelor şi nu depinde de valorile acestora.

1.2.1.2 SPAŢIUL VARIABILELOR


Fiecare variabil¼
a xj poate … considerat¼
a ca un vector al unui spaţiu vec-
n
torial E R numit spaţiul variabilelor. Mulţimea celor p variabile formeaz¼ a
un "nor de puncte-variabil¼ a" în E (…g. 1.2.1.). Metrica utilizat¼a în spaţiul
variabilelor este dat¼
a de D, matricea diagonal¼ a a ponderilor indivizilor. Cu
acestea se observ¼a:
Lema 1.2.5
Dac¼
a variabilele sunt centrate atunci:

a) produsul scalar indus de metrica D este egal cu covarianţa de selecţie


dintre cele dou¼
a variabile necentrate;
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 25

b) norma ("lungimea") unei variabile este egal¼


a cu abaterea standard de
selecţie a variabilei necentrate;

c) unghiul dintre dou¼ a variabile este egal cu coe…cientul de corelaţie liniar¼


a
de selecţie al variabilelor necentrate.

Demonstraţie. Într-adev¼
ar:
P
n
1. hyj ; yk iD = yj0 Dyk = pi (xij xj ) (xik xk ) = cov (xj ; xk ) :
i=1

P
n
2. kyj k2D = hyj ; yj iD = yj0 Dyj = pi (xij xj )2 =s2 (xj ).
i=1

3. Fie jk unghiul dintre variabilele yj şi yk . Atunci

hyj ; yk iD cov (xj ; xk ) vjk


cos ( jk ) = = = = cor (xj ; xk ) :
kyj kD kyk kD s (xj ) s (xk ) sj sk

Corolarul 1.2.3
a) Mediile de selecţie ale variabilelor fyj gpj=1 sunt nule, dispersiile de se-
lecţie sunt egale cu dispersiile de selecţie ale variabilelor fxj gpj=1 şi coe-
…cienţii de corelaţie de selecţie sunt egali cu coe…cienţii de corelaţie de
selecţie ai variabilelor fxj gpj=1 .

b) Mediile de selecţie ale variabilelor fzj gpj=1 sunt nule, dispersiile de se-
lecţie sunt unitare şi coe…cienţii de corelaţie liniar¼
a de selecţie sunt egali
cu coe…cienţii de corelaţie liniar¼ a de selecţie a variabilelor fxj gpj=1 .
Din cele de mai sus rezult¼
a:
Lema 1.2.6

2
d (zj ; zk ) = 2 (1 rjk )
Demonstraţie.
n
X
2
d (zj ; zk ) = hzj zk ; zj zk i0D = pi (zij zik )2 =
i=1
n
X n
X Xn
2 2
= pi zij + pi zik 2 pi zij zik :
i=1 i=1 i=1

Conform corolarului de mai sus,


n
X n
X
2 2 2 2
pi zij = s (zj ) = 1 = s (zk ) = pi zik şi
i=1 i=1
26 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE

n
X
pi zij zik = cor (zj ; zk ) = rjk ;
i=1

ceea ce implic¼a relaţia din enunţ.


Sistemul de proximit¼ aţi dintre dou¼ a din E, indus de
a puncte-variabil¼
relaţia din Lema 1.2.6, este familiar statisticianului:

- dou¼a variabile puternic corelate sunt foarte apropiate una de cealalt¼ a


(deoarece rjk 1 implic¼ a d2 (zj ; zk ) 0) sau, din contr¼
a, foarte dep¼ ar-
tate (deoarece rjk 1 implic¼a d2 (zj ; zk ) 4), dup¼
a cum relaţia liniar¼
a
care le leag¼
a este direct¼
a sau invers¼ a;

- dou¼a variabile necorelate, deci ortogonale, sunt la distanţ¼


a medie (deoa-
rece rjk 0 implic¼ 2
a d (zj ; zk ) 2 ).

fig. 1.2.2. CorelaŢ iile Ş i distanŢ ele între punctele-variabilA¼

Proximitatea între dou¼


a puncte-variabile se interpreteaz¼
a, deci, în ter-
meni de corelaţii

fig. 1.2.3. Sistemul de proximitA¼ Ţ i între douA¼ puncte-variabilA¼

Din Corolarul 1.2.3 punctul a) rezult¼ a c¼


a toate punctele-variabil¼ a se a‡a¼
pe hipersfera de raz¼ a 1, centrat¼a în originea axelor. Aceast¼ a hipersfer¼a se
numeşte sfera de corelaţie.
Planurile în care vor … proiectate variabilele intersecteaz¼ a sfera dup¼ a
cercurile diametrale, de raz¼ a 1, numite cercuri de corelaţie, în interiorul c¼
arora
se a‡a¼ proiecţiile punctelor-variabil¼
a.
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 27

fig. 1.2.4. Reprezentarea sferei Ş i cercului de corelaŢ ie

Observaţia 1.2.4
Operaţia de centrare a tabelului X are în spaţiile Rp şi Rn interpret¼
ari geo-
metrice diferite.

- În Rp aceast¼a transformare echivaleaz¼


a cu o translaţie a originii axelor
în centrul de greutate (punctul mediu) al norului.

- În Rn aceast¼ a transformare este o proiecţie pe hiperplanul ce trece prin


originea axelor şi este ortogonal pe dreapta ce trece prin originea axelor
şi are ca parametri directori fpi gni=1 . Matricea P = In 1n 10n D aso-
ciat¼ a acestei transform¼ari este idempotent¼ a (P2 = P ) şi M-simetric¼ a
0
(P M = MP ), cu M = In . Ea este matricea proiecţiei M-ortogonale
pe subspaţiul generat de vectorii coloan¼ a liniari P
independenţi ai matricii
Y. Coordonatele acestor vectori satisfac relaţia pi yij = 0; (8) j = 1; p,
i
ce reprezint¼a ecuaţia unui hiperplan în Rn care trece prin originea axelor
şi are ca normal¼a în punctul 0n dreapta de parametri directori fpi gni=1 .
1
Dac¼ a D = n In atunci hiperplanul este ortogonal pe prima bisectoare.

De…niţia 1.2.6 (conform [14]) Se numeşte studiu un triplet (Y; M; D) unde:

- Y este matricea centrat¼


a asociat¼
a tabelului de date indivizi-variabile;

a în spaţiul vectorial al indivizilor, F ;


- M este o metric¼

- D este metrica ponderilor în spaţiul vectorial al variabilelor, E.

Studiul este caracterizat de dou¼


a „obiecte”:

- matricea W = YMY0 a produsului scalar între indivizi;

- matricea V = Y0 DY de varianţ¼
a-covarianţ¼
a a variabilelor centrate.

S-ar putea să vă placă și