Sunteți pe pagina 1din 15

Capitolul 1

METODE EXPLORATORII
MULTIDIMENSIONALE
Metodele exploratorii multidimensionale si propun s a furnizeze reprezen-
t ari sintetice ale unor multimi mari de valori numerice, n general sub forma
unor vizualiz ari grace. Pentru aceasta, se urm areste reducerea dimensiu-
nilor tabelului de date prin reprezentarea asociatiilor ntre indivizi si variabile
n spatii de dimensiuni mici. Distantele ntre liniile sau ntre coloanele unui
tabel dreptunghiular de valori numerice pot ntotdeauna calculate dar nu
este posibil a vizualizarea imediat a a acestora, reprezent arile geometrice asoci-
ate implicnd, n general, spatii de dimensiuni superioare lui trei. Este nece-
sar s a proced am la transform ari si aproxim ari pentru a obtine o reprezentare
plan a.
Metodele exploratorii vor c auta, n consecint a, subspatii de dimensiuni
mici - unu, doi sau trei - care aproximeaz a cel mai bine norul de puncte-
individ sau cel de puncte-variabi a astfel nct vecin at atile m asurate n aceste
spatii s a reecte ct mai exact proximit atile reale. Se obtine astfel un spatiu
de reprezentare, spatiul factorial. Geometria norilor de puncte si calculul
proximit atilor sau a distantelor care decurg de aici difer a n functie de natura
liniilor si coloanelor tabelului analizat.
Coloanele tabelelor dreptunghiulare de date pot variabile continue sau
variabile nominale sau categorii n cazul tabelelor de contingent a. Liniile pot
indivizi sau categorii. Natura informatiilor, codicarea, specicitatea dome-
niului de aplicatie vor introduce variante n cadrul metodei factoriale.
n cele ce urmeaza vor prezentate trei tehnici fundamentale:
analiza n componente principale (sectiunea 1.2) se aplic a tabelelor
de tip "variabile-indivizi" unde coloanele sunt variabile numerice con-
tinue si liniile sunt indivizi, observatii, obiecte, etc. Proximit atile ntre
variabile se interpreteaz a n termeni de corelatii. Proximit atile ntre
indivizi se interpreteaz a n termeni de similitudini globale ale valorilor
observate.
1
2 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
analiza corespondentelor simple (sectiunea 1.3) se aplic a tabelelor
de contingent a, adic a tabelelor ce contin num arul indivizilor care posed a
concomitent dou a modalit ati a dou a variabile nominale. Aceste tabele
au particularitatea c a att liniile ct si coloanele lor joac a un rol iden-
tic n analiza corespondentelor simple. Analiza furnizeaz a reprezent ari
ale asociatiilor ntre liniile si coloanele tabelelor bazate pe o distant a
ntre prole (care sunt vectori de frecvente conditionate) cunoscut a sub
numele de distanta
2
.
analiza corespondentelor multiple (sectiunea 1.4) este o extindere
a domeniului aplicatiilor analizei corespondentelor simple, avnd totusi
proceduri de calcul si reguli de interpretare specice. Ea face obiectul
unei mentiuni particulare datorit a num arului mare de aplicatii la care se
preteaz a. Analiza corespondentelor multiple este n mod deosebit adap-
tat a la descrierea tabelelor mari de variabile nominale, cum sunt sierele
de anchete socio-economice sau cele medicale. Liniile acestor tabele sunt,
n general, indivizi sau observatii (pot exista cteva mii); coloanele sunt
modalit ati ale variabilelor nominale, cel mai adesea modalit atile r aspun-
surilor la ntreb ari.
Oricare ar tipul tabelului de date, toate tehnicile factoriale au un nucleu
comun prezentat n sectiunea 1.1 sub forma unor preliminarii matematice.
1.1 Preliminarii matematice
1.1.1 Concepte metrice ntr-un spatiu euclidian
Fie X multime oarecare, X ,= ?.
Denitia 1.1.1 O metrica pe multimea X este o aplicatie, d : X X R ,
care satisface urm atoarele axiome :
a) d (x; y) = d (y; x) ; (\) x; y X (simetric a);
b) d (x; y) _ 0; (\) x; y X (pozitiv a);
c) d (x; y) = 0 =x = y; (\) x; y X (idempotent a);
d) d (x; y) _ d (x; z) + d (z; y) ; (\) x; y; z X (inegalitatea triunghiului).
Denitia 1.1.2 Dac a d : X X R este o aplicatie care satisface axiomele
(a)(c) si n plus este satisf acut a axioma
d) d (x; y) _ max (d (x; z) ; d (z; y)) ; (\) x; y; z X
atunci d se numeste ultrametrica pe X.
1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP) 15
n particular, maximul (minimul) formei p atratice simetrice F (x; x) pe
sfera unitate este egal cu cea mai mare (cea mai mic a) valoare proprie a lui
A.
Vectorul propriu corespunznd celei mai mari valori proprii este un vector
ce porneste din origine si trece prin punctul de pe sfera unitate n care este
atins maximul.
1.2 Analiza n componente principale (ACP)
Inventat a de Karl Pearson n 1901 si introdus a n statistica matematic a
de Harold Hotelling n 1933, analiza n componente principale a nceput s a e
utilizat a efectiv odat a cu aparitia si extinderea calculatoarelor electronice.
Analiza n componente principale, ACP, poate prezentat a din diverse
puncte de vedere:
pentru statisticianul clasic, analiza n componente principale nseamn a
a estima, pornind de la un esantion dat, axele principale ale elipsoidului
indicator al unei distributii normale multidimensionale. Aceasta este
prezentarea intial a a lui Hotelling urmat a apoi de manualele clasice de
analiz a multivariat a (cazul lucr arii fundamentale [2]);
pentru psihologi, analiza n componente principale este un caz particular
de analiz a factorial a utilizat a n psihometrie (cazul dispersiilor nule sau
egale, conform [33]);
n ne, pentru analistii de date, analiza n componente principale este o
tehnic a de reprezentare a datelor cu un caracter optimal din punct de
vedere al unor criterii algebrice sau geometrice, utilizat a, n general, f ar a
vreo referire la ipoteze de natur a statistic a sau la un model particular.
Acest punct de vedere, adoptat n cele ce urmeaz a, este foarte r aspndit
la ora actual a. Este probabil cel mai vechi punct de vedere, reg asindu-se
n lucr arile lui Pearson. Desigur, n prezentarea acestuia nu este vorba
de analiza n componente principale asa cum este ea expus a ast azi, dar
pot deja ntrev azute ideile esentiale ale metodei. O discutie mai larg a
asupra acestui subiect se g aseste n articolul de sintez a [51].
Analiza n componente principale este utilizat a pentru a pune n evident a:
sistemul de relatii existente ntre variabile (asocierea sau opozitia lor);
reprezentarea indivizilor n raport cu variabilelele observate (indivizi care
prezint a caracteristici comune sau antagoniste).
Eventualul utilizator al analizei n componente principale trebuie s a posede
un tabel dreptunghiular de m asur atori n care coloanele reprezint a variabile
16 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
numerice continue, sau care pot considerate continue, iar liniile reprezint a
indivizii pe care au fost m asurate aceste variabile. n biometrie se procedeaz a
frecvent la multiple m asur atori asupra unor organe sau animale, n economie
se nregistreaz a diversi indicatori privind agentii economici.
ntr-o manier a general a, conditia pe care trebuie s a o ndeplineasc a aceste
tabele numerice pentru a face obiectul unei analize n componente principale
este urm atoarea: una dintre dimensiunile tabelului (liniile n general) este
format a din unit ati avnd caracter repetitiv, cealalt a dimensiune poate mai
degrab a eterogen a. n exemplele de mai jos liniile au acest caracter repetitiv.
Acestea vor numite indivizi sau observatii. Coloanele vor desemnate ca
variabile. Uneori liniile pot considerate ca realiz ari independente ale unor
vectori aleatori ale c aror componente corespund la diferite variabile. Dup a
provenienta variabilelor, trei mari categorii de tabele pot face obiectul unui
demers de analiz a n componente principale:
1. Tabelele de m asur atori: variabilele sunt obtinute n urma unui sondaj
sau recens amnt si sunt cantitative.
tabelul 1.2.1. Consumul mediu anual n 1972, exprimat n
franci francezi, pentru 7 tipuri de alimente,
n cazul a 8 categorii socio-profesionale
PAO PAA VIO VIA POT LEC
T

ARANI 167 1 163 23 41 8


SALARIA TI AGRICOLI 162 2 141 12 40 12
LIBER PROFESIONI STI 119 6 69 56 39 5
CADRE SUPERIOARE 87 11 63 111 27 3
CADRE MEDII 103 5 68 77 32 4
FUNC TIONARI 111 4 72 66 34 6
MUNCITORI 130 3 76 52 43 7
INACTIVI 138 7 117 74 53 8
(Surs a: A. Villeneuve, La consommation alimentaire des Franais, collections
de lINSEE, M34)
2. Tabelele de note: variabilele sunt obtinute n urma unor notatii.
Notele sunt variabile calitative ce pot , n general, asimilate cu vari-
abilele cantitative.
tabelul 1.2.2. Notele ob Tinute de 4 studen Ti la 3 materii
MATEMATIC

A FIZIC

A ENGLEZ

A
STUD1 9 8 8
STUD2 10 9 6
STUD3 9 7 10
STUD4 7 5 10
1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP) 17
3. Tabelele de ranguri: variabilele sunt obtinute n urma unor clasa-
mente si sunt variabile calitative ordinale care pot transformate n
variabile continue.
tabelul 1.2.3. Clasamentul tablourilor a trei pictori,
PIC1 PIC3, realizat de patru exper Ti A D.
A B C D
PIC1 1 3 2 1
PIC2 3 1 1 3
PIC3 2 2 3 2
Dup a cum vom vedea, n functie de transform arile aduse tabelului de
date, analiza n componente principale prezint a numeroase variante: norul
de puncte-indivizi poate centrat sau nu, redus sau nu. Dintre aceste vari-
ante, analiza n componente principale normat a (central-redus a) este cea mai
utilizat a.
1.2.1 Date si caracteristicile lor
Se presupune c a dispunem de observatii asupra a p variabile continue
m asurate pe n indivizi. Valorile sunt "listate" ntr-un tabel de n linii si p
coloane. Not am cu X = (x
ij
)
j=1;p
i=1;n
matricea asociat a tabelului, unde x
ij
este
valoarea luat a de variabila j m asurat a pe individul i.
O variabil a este identicat a prin vectorul-coloan a j al tabelului X (no-
tatie x
j
) iar un individ prin vectorul-linie i (notatie x
i
).
Dac a datele nu au fost culese n urma unui sondaj aleator cu probabilit ati
egale atunci ec arui individ i i se atribuie o pondere
1
p
i
, conform importantei
pe care o are n studiul ntreprins.
Denitia 1.2.1 Se numeste matrice (sau metrica) de ponderi matricea
D = diag (p
1
; : : : ; p
n
) ; unde p
i
> 0; (\) i = 1; n si

i
p
i
= 1:
n cazul indivizilor echiponderati D =
1
n
I
n
, unde I
n
este matricea iden-
titate de dimensiune n.
S a not am c a x
j
poate interpretat ca o selectie de volum n asupra
variabilei j si c a, n acest context:
- media de selec tie a variabilei j este
m(x
j
) = x
j
=

i
p
i
x
ij
,
1
Termenii de "pondere" sau "mas a" sunt utilizati cu acelasi sens n statistic a si desem-
neaz a adesea frecventele relative sau probabilit atile a priori.
18 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
- dispersia de selec tie a variabilei j este
s
2
(x
j
) = s
2
j
=

i
p
i
(x
ij
x
j
)
2
,
- covarian ta de selec tie a variabilelor j si j
0
este
cov
_
x
j
; x
j
0
_
= v
jj
0 =

i
p
i
(x
ij
x
j
)
_
x
ij
0 x
j
0
_
,
- coecientul de corela tie de selectie a variabilelor j si j
0
este
cor
_
x
j
; x
j
0
_
= r
jj
0 =
v
jj
0
s
j
s
j
0
:
Denitia 1.2.2 Se numeste punct mediu (centru de greutate) al norului de
puncte-individ e
i

n
i=1
vectorul g
0
= (x
1
; : : : ; x
p
).
Se observ a c a:
g = X
0
D1
n
unde 1
0
n
= (1; : : : ; 1) R
n
:
ntr-adev ar,
X
0
D1
n
=
_
_
_
_
_
x
11
x
21
: : : x
n1
x
12
x
22
: : : x
n2
.
.
.
.
.
.
x
1p
x
2p
x
np
_
_
_
_
_
_
_
_
_
_
p
1
0 : : : 0
0 p
2
: : : 0
.
.
.
0 0 : : : p
n
_
_
_
_
_
_
_
_
_
_
1
1
.
.
.
1
_
_
_
_
_
=
=
_
_
_
_
_
p
1
x
11
p
2
x
21
p
n
x
n1
p
1
x
12
p
2
x
22
: : : p
n
x
n2
.
.
.
.
.
.
p
1
x
1p
p
2
x
2p
p
n
x
np
_
_
_
_
_
_
_
_
_
_
1
1
.
.
.
1
_
_
_
_
_
=
=
_
i
p
i
x
i1

i
p
i
x
i2
: : :

i
p
i
x
ip
_
0
=
_
x
1
x
2
: : : x
p
_
0
= g:
Denitia 1.2.3 Se numeste tabel centrat asociat lui X matricea
Y = (y
ij
)
j=1;p
i=1;n
unde y
ij
= x
ij
x
j
:
Se numeste tabel centrat-redus asociat lui X matricea
Z = (z
ij
)
j=1;p
i=1;n
unde z
ij
=
y
ij
s
j
:
1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP) 19
Lema 1.2.1
a) Y = X1
n
g
0
= (I
n
1
n
1
0
n
D) X.
b) Z = YD1
s
unde D1
s
= diag
_
1
s
1
; : : : ;
1
s
p
_
.
c) Matricea de variant a-covariant a asociat a tabelului X este
V = X
0
DXgg
0
= Y
0
DY:
d) Matricea de corelatie asociat a tabelului X este
R = D1
s
VD1
s
= Z
0
DZ:
Demonstratie. a) Conform denitiei,
Y =
_
_
_
_
_
x
11
x
1
x
12
x
2
: : : x
1p
x
p
x
21
x
1
x
22
x
2
: : : x
2p
x
p
.
.
.
.
.
.
x
n1
x
1
x
n2
x
2
: : : x
np
x
p
_
_
_
_
_
=
=
_
_
_
_
_
x
11
x
12
: : : x
1p
x
21
x
22
: : : x
2p
.
.
.
.
.
.
x
np
x
n2
x
np
_
_
_
_
_

_
_
_
_
_
x
1
x
2
: : : x
p
x
1
x
2
: : : x
p
.
.
.
.
.
.
x
1
x
2
x
p
_
_
_
_
_
=
=
_
_
_
_
_
x
11
x
12
: : : x
1p
x
21
x
22
: : : x
2p
.
.
.
.
.
.
x
np
x
n2
x
np
_
_
_
_
_

_
_
_
_
_
1
1
.
.
.
1
_
_
_
_
_
_
x
1
x
2
: : : x
p
_
= X1
n
g
0
dar
X1
n
g
0
= X1
n
_
X
0
D1
n
_
0
= X1
n
1
0
n
DX =
_
I
n
1
n
1
0
n
D
_
X:
b) Rezult a imediat din denitia lui Z:
c) Relatia V = Y
0
DY rezult a din denitia lui V: Pe de alt a parte,
v
kk
0 =

i
p
i
(x
ik
x
k
) (x
ik
0 x
k
0 ) =
=

i
p
i
x
ik
x
ik
0

i
p
i
x
ik
x
k
0

i
p
i
x
k
x
ik
0 +

i
p
i
x
k
x
k
0 =
=

i
p
i
x
ik
x
ik
0 x
k
0

i
p
i
x
ik
x
k

i
p
i
x
ik
0 + x
k
x
k
0

i
p
i
=
=

i
p
i
x
ik
x
ik
0 x
k
0 x
k
x
k
x
k
0 + x
k
x
k
0 =

i
p
i
x
ik
x
ik
0 x
k
x
k
0
== V = X
0
DXgg
0
; am folosit faptul c a x
k
=

i
p
i
x
ik
20 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
d)
R = D1
s
VD1
s
= D1
s
Y
0
DYD1
s
=
_
YD1
s
_
0
D
_
YD1
s
_
= Z
0
DZ
unde prima egalitate rezult a din denitia lui R.
Observatia 1.2.1
Relatia Z
0
DZ =
n

i=1
p
i
e
i
e
0
i
este o formul a util a implement arii pe calculator a
metodei deoarece evit a introducerea n memoria RAM a ntregii matrici X.
1.2.1.1 SPA TIUL INDIVIZILOR
S a analiz am exemplul din tabelul 1.2.2.:
MATEMATICA FIZICA ENGLEZA
STUD1 9 8 8
STUD2 10 9 6
STUD3 9 7 10
STUD4 7 5 10
Individul stud1 este caracterizat de cele trei note obtinute: 9 la matem-
atic a, 9 la zic a si 8 la englez a. La fel si indivizii stud2 stud4. Reamintim
c a notatia pentru individul i este e
0
i
. Asadar, pentru exemplul de mai sus:
e
0
1
= (9 8 8), e
0
2
= (10 9 6) etc.
n general, un individ e
0
i
este denit de p coordonate corespunznd valo-
rilor celor p variabile m asurate pe acest individ. l putem, deci, considera ca un
element dintr-un spatiu vectorial F R
p
, pe care l numim spa tiul indivizilor
(g. 1.2.1.). Multimea celor n indivizi formeaz a un "nor de puncte-individ"
n spatiul F, cu g centrul de greutate al norului. n continuare vom nzestra
acest spatiu cu o metric a ce permite denirea distantei dintre indivizi.
1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP) 21
fig. 1.2.1. Principiul reprezent

Arii geometrice
Fie M M
p;p
(R), o matrice simetric a, pozitiv denit a, de dimensiune p,
cu coecienti reali.
Denitia 1.2.4 Se numeste matricea produsului scalar ntre indivizi matricea
W = (w
ij
)
j=1;n
i=1;n
, unde w
ij
= e
i
; e
j

si e
i
; e
j
= e
0
i
Me
j
este produsul scalar pe spatiul F denit de metrica M.
Se observ a c a
W = XMX
0
si c a distanta dintre doi indivizi, e
i
si e
j
; din spatiul F este dat a de relatia
d
2
(e
i
; e
j
) = e
i
e
j
; e
i
e
j

M
= |e
i
e
j
|
2
M
n teorie, alegerea metricii depinde de utilizator, singurul care poate pre-
ciza metrica adecvat a. n practic a, metricile cele mai uzitate n ACP sunt:
M = I
p
; ce induce produsul scalar uzual si distanta euclidian a;
M = D 1
s
2
: Utilizarea acestei metrici revine la adimensionalizarea vari-
abilelor deoarece ecare valoare este mp artit a cu abaterea standard de
selectie a variabilei corespunz atoare (
x
ij
s
j
).
Metrica M = I
p
d a ec arei variabile aceeasi important a, independent de
dispersia sa. Utilizarea ei va privilegia variabilele cu dispersie mare, pentru
care diferentele ntre indivizi sunt mari, si va neglija diferentele ntre cele-
lalte variabile. n schimb metrica M = D 1
s
2
echilibreaz a inuenta variabilelor
transformndu-le n variabile cu dispersia de selectie unu.
Observatia 1.2.2
Dac a M = diag (m
1
; : : : ; m
p
) atunci
d
2
(e
i
; e
j
) =
p

k=1
m
k
(x
ik
x
jk
)
2
iar coecientii
_
_
m
k
_
k=1;p
pot considerati ca ponderi ale variabilelor x
j
n
distanta dintre indivizi.
Lema 1.2.2
Matricea produsului scalar ntre indivizi poate ntotdeauna exprimat a n
functie de metrica I
p
.
22 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
Demonstratie. ntr-adev ar, dac a M este simetric a si pozitiv denit a atunci
ea poate scris a ca M = T
0
T (conform algoritmului lui Cholesky din [15]).
Atunci e
i
; e
j

M
= e
0
i
Me
j
= e
0
i
T
0
Te
j
= (Te
i
)
0
(Te
j
) = (Te
i
)
0
I
p
(Te
j
), ceea
ce nseamn a c a W =(XT
0
) I
p
(TX
0
), adic a W este matricea produsului scalar
al tabelului XT
0
fat a de metrica M = I
p
.
Corolarul 1.2.1
Utilizarea metricii M = D 1
s
2
pentru tabelul Y revine la folosirea metricii
M = I
p
pentru tabelul centrat-redus Z.
Reamintim c a ipoteza fundamentala a unui demers ACP este aceea c a n-
treaga informatie este continut a n distantele dintre punctele-individ ale noru-
lui. Acest lucru justic a introducerea notiunii de inertie total a
2
.
Denitia 1.2.5 Se numeste iner tie totala (globala) a norului de puncte-individ
media ponderat a a p atratelor distantelor de la punctele-individ la centrul de
greutate al norului, adic a:
I
g
=
n

i=1
p
i
(e
i
g)
0
M(e
i
g) =
n

i=1
p
i
|e
i
g|
2
M
:
Prin analogie, iner tia ntr-un punct oarecare, a R
p
, se deneste ca ind
I
a
=
n

i=1
p
i
|e
i
a|
2
M
:
Propriet atile inertiei globale, puse n evident a de enunturile de mai jos,
sunt utile n demersul ce urmeaz a.
Propozitia 1.2.1 (formula lui Huygens)
Inertia fat a de un punct satisface urm atoarea relatie:
I
a
= I
g
+ (g a)
0
M(g a) = I
g
+|g a|
2
M
Demonstratie. ntr-adev ar,
I
a
=
n

i=1
p
i
(e
i
a)
0
M(e
i
a) =
=
n

i=1
p
i
[(e
i
g) + (g a)]
0
M[(e
i
g) + (g a)] =
=
n

i=1
p
i
(e
i
g)
0
M(e
i
g) +
n

i=1
p
i
(e
i
g)
0
M(g a) +
+
n

i=1
p
i
(g a)
0
M(e
i
g) +
n

i=1
p
i
(g a)
0
M(g a) :
2
Termenul iner tie este mprumutat din mecanic a si este sinonim, n acest context, cu
termenul statistic dispersie.
1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP) 23
Se observ a c a primul termen al sumei este chiar I
g
, c a produsul (g a)
0
M(g a)
nu depinde de i, c a
n

i=1
p
i
= 1 si c a produsele (e
i
g)
0
M(g a) si
(g a)
0
M(e
i
g) sunt scalare. Cu aceasta egalitatea de mai sus devine
I
a
= I
g
+ 2
__
n

i=1
p
i
e
i
0
Mg g
0
Mg
_
+
_
g
0
Ma
n

i=1
p
i
e
i
0
Ma
__
+
+|g a|
2
M
Se noteaz a b
0
= (Mg)
0
= (b
1
; : : : ;b
p
) si reamintind c a g
j
=
n

i=1
p
i
x
ij
rezult a
n

i=1
p
i
e
i
0
Mg g
0
Mg =

i
p
i
p

j=1
x
ij
b
j

p

j=1
g
j
b
j
=
=
p

j=1
b
j
_

i
p
i
x
ij
_

j=1
g
j
b
j
= 0:
Analog g
0
Ma
n

i=1
p
i
e
i
0
Ma = 0.
Corolarul 1.2.2
Pentru un nor de puncte-individ dat, g, centrul de greutate al norului, mini-
mizeaz a inertia total a.
Lema 1.2.3
Inertia total a este media p atratelor distantelor dintre punctele-individ, adic a:
2I
g
=
n

i=1
n

j=1
p
i
p
j
|e
i
e
j
|
2
M
:
Demonstratie. Se aplic a formula lui Huygens pentru ecare punct-individ,
apoi se adun a cele n relatii.
p
1
I
e
1
= p
1
I
g
+|e
1
g|
2
M
p
1
I
e
2
= p
2
I
g
+|e
2
g|
2
M
.
.
.
p
1
I
e
n
= p
n
I
g
+|e
n
g|
2
M
n

j=1
p
j
I
e
j
=
n

j=1
p
j
I
g
+
n

j=1
p
j
|e
i
g|
2
M
=
n

j=1
p
j
n

i=1
p
i
|e
i
e
j
|
2
M
= I
g
+ I
g
:
24 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
Lema 1.2.4
1. I
g
= tr (MV) = tr (VM), unde cu tr (A) =
n

i=1
a
ii
s-a notat urma
matricii A M
n;n
(R) :
2. Dac a centrul de greutate al norului este n originea axelor de coordonate,
adic a g = 0, atunci I
g
= tr (WD) = tr (DW).
Demonstratie.
1. ntr-adev ar
tr (MV) = tr
_
MY
0
DY
_
=
n

i=1
My
i
p
i
y
0
i
=
n

i=1
p
i
(e
i
g)
0
M(e
i
g) = I
g
:
Analog tr (VM) = I
g
:
2. Dac a g = 0 atunci I
g
=
n

i=1
p
i
e
i
0
Me
i
. Pe de alt a parte,
tr (WD) = tr
_
XMX
0
D
_
=
n

i=1
e
i
0
Me
i
p
i
= I
g
=
n

i=1
p
i
e
i
0
Me
i
=
= tr
_
DXMX
0
_
= tr (DW) :
Observatia 1.2.3
1. Dac a M = I
p
inertia este egal a cu suma dispersiilor de selectie a celor p
variabile.
2. Dac a M = D 1
s
2
atunci I
g
= tr
_
D 1
s
2
V
_
= tr
_
D1
s
VD1
s
_
= tr (R) =
p

j=1
r
jj
=
p

j=1
1 = p; asa cum rezult a din Lema 1.2.4. Inertia este, n acest
caz, egal a cu num arul variabilelor si nu depinde de valorile acestora.
1.2.1.2 SPA TIUL VARIABILELOR
Fiecare variabil a x
j
poate considerat a ca un vector al unui spatiu vec-
torial E _R
n
numit spa tiul variabilelor. Multimea celor p variabile formeaz a
un "nor de puncte-variabil a" n E (g. 1.2.1.). Metrica utilizat a n spatiul
variabilelor este dat a de D, matricea diagonal a a ponderilor indivizilor. Cu
acestea se observ a:
Lema 1.2.5
Dac a variabilele sunt centrate atunci:
a) produsul scalar indus de metrica D este egal cu covarianta de selectie
dintre cele dou a variabile necentrate;
1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP) 25
b) norma ("lungimea") unei variabile este egal a cu abaterea standard de
selectie a variabilei necentrate;
c) unghiul dintre dou a variabile este egal cu coecientul de corelatie liniar a
de selectie al variabilelor necentrate.
Demonstratie. ntr-adev ar:
1. y
j
; y
k

D
= y
0
j
Dy
k
=
n

i=1
p
i
(x
ij
x
j
) (x
ik
x
k
) = cov (x
j
; x
k
) :
2. |y
j
|
2
D
= y
j
; y
j

D
= y
0
j
Dy
j
=
n

i=1
p
i
(x
ij
x
j
)
2
=s
2
(x
j
).
3. Fie
jk
unghiul dintre variabilele y
j
si y
k
. Atunci
cos (
jk
) =
y
j
; y
k

D
|y
j
|
D
|y
k
|
D
=
cov (x
j
; x
k
)
s (x
j
) s (x
k
)
=
v
jk
s
j
s
k
= cor (x
j
; x
k
) :
Corolarul 1.2.3
a) Mediile de selectie ale variabilelor y
j

p
j=1
sunt nule, dispersiile de se-
lectie sunt egale cu dispersiile de selectie ale variabilelor x
j

p
j=1
si coe-
cientii de corelatie de selectie sunt egali cu coecientii de corelatie de
selectie ai variabilelor x
j

p
j=1
.
b) Mediile de selectie ale variabilelor z
j

p
j=1
sunt nule, dispersiile de se-
lectie sunt unitare si coecientii de corelatie liniar a de selectie sunt egali
cu coecientii de corelatie liniar a de selectie a variabilelor x
j

p
j=1
.
Din cele de mai sus rezult a:
Lema 1.2.6
d
2
(z
j
; z
k
) = 2 (1 r
jk
)
Demonstratie.
d
2
(z
j
; z
k
) = z
j
z
k
; z
j
z
k

0
D
=
n

i=1
p
i
(z
ij
z
ik
)
2
=
=
n

i=1
p
i
z
2
ij
+
n

i=1
p
i
z
2
ik
2
n

i=1
p
i
z
ij
z
ik
:
Conform corolarului de mai sus,
n

i=1
p
i
z
2
ij
= s
2
(z
j
) = 1 = s
2
(z
k
) =
n

i=1
p
i
z
2
ik
si
26 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
n

i=1
p
i
z
ij
z
ik
= cor (z
j
; z
k
) = r
jk
;
ceea ce implic a relatia din enunt.
Sistemul de proximit ati dintre dou a puncte-variabil a din E, indus de
relatia din Lema 1.2.6, este familiar statisticianului:
- dou a variabile puternic corelate sunt foarte apropiate una de cealalt a
(deoarece r
jk
- 1 implic a
d
2
(z
j
; z
k
) - 0) sau, din contr a, foarte dep ar-
tate (deoarece r
jk
- 1 implic a
d
2
(z
j
; z
k
) - 4), dup a cum relatia liniar a
care le leag a este direct a sau invers a;
- dou a variabile necorelate, deci ortogonale, sunt la distant a medie (deoa-
rece r
jk
- 0 implic a
d
2
(z
j
; z
k
) - 2 ).
fig. 1.2.2. Corela Tiile Si distan Tele ntre punctele-variabil

A
Proximitatea ntre dou a puncte-variabile se interpreteaz a, deci, n ter-
meni de corelatii
fig. 1.2.3. Sistemul de proximit

A Ti ntre dou

A puncte-variabil

A
Din Corolarul 1.2.3 punctul a) rezult a c a toate punctele-variabil a se a a
pe hipersfera de raz a 1, centrat a n originea axelor. Aceast a hipersfer a se
numeste sfera de corela tie.
Planurile n care vor proiectate variabilele intersecteaz a sfera dup a
cercurile diametrale, de raz a 1, numite cercuri de corela tie, n interiorul c arora
se a a proiectiile punctelor-variabil a.
1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP) 27
fig. 1.2.4. Reprezentarea sferei Si cercului de corela Tie
Observatia 1.2.4
Operatia de centrare a tabelului X are n spatiile R
p
si R
n
interpret ari geo-
metrice diferite.
- n R
p
aceast a transformare echivaleaz a cu o translatie a originii axelor
n centrul de greutate (punctul mediu) al norului.
- n R
n
aceast a transformare este o proiectie pe hiperplanul ce trece prin
originea axelor si este ortogonal pe dreapta ce trece prin originea axelor
si are ca parametri directori p
i

n
i=1
. Matricea P = I
n
1
n
1
0
n
D aso-
ciat a acestei transform ari este idempotent a (P
2
= P ) si M-simetric a
(P
0
M = MP ), cu M = I
n
. Ea este matricea proiectiei M-ortogonale
pe subspatiul generat de vectorii coloan a liniari independenti ai matricii
Y. Coordonatele acestor vectori satisfac relatia

i
p
i
y
ij
= 0; (\) j = 1; p,
ce reprezint a ecuatia unui hiperplan n R
n
care trece prin originea axelor
si are ca normal a n punctul 0
n
dreapta de parametri directori p
i

n
i=1
.
Dac a D =
1
n
I
n
atunci hiperplanul este ortogonal pe prima bisectoare.
Denitia 1.2.6 (conform [14]) Se numeste studiu un triplet (Y; M; D) unde:
- Y este matricea centrat a asociat a tabelului de date indivizi-variabile;
- M este o metric a n spatiul vectorial al indivizilor, F ;
- D este metrica ponderilor n spatiul vectorial al variabilelor, E.
Studiul este caracterizat de dou a obiecte:
- matricea W = YMY
0
a produsului scalar ntre indivizi;
- matricea V = Y
0
DY de variant a-covariant a a variabilelor centrate.

S-ar putea să vă placă și