L01 Acp

Capitolul 1
METODE EXPLORATORII
MULTIDIMENSIONALE
Metodele exploratorii multidimensionale îşi propun s¼ a furnizeze reprezen-

t¼
ari sintetice ale unor mulţimi mari de valori numerice, în general sub forma
unor vizualiz¼ ari gra…ce. Pentru aceasta, se urm¼ areşte reducerea dimensiu-
nilor tabelului de date prin reprezentarea asociaţiilor între indivizi şi variabile
în spaţii de dimensiuni mici. Distanţele între liniile sau între coloanele unui
tabel dreptunghiular de valori numerice pot … întotdeauna calculate dar nu
este posibil¼ a vizualizarea imediat¼ a a acestora, reprezent¼ arile geometrice asoci-
ate implicând, în general, spaţii de dimensiuni superioare lui trei. Este nece-
sar s¼a proced¼ am la transform¼ ari şi aproxim¼ ari pentru a obţine o reprezentare
plan¼ a.
Metodele exploratorii vor c¼ auta, în consecinţ¼ a, subspaţii de dimensiuni
mici - unu, doi sau trei - care aproximeaz¼ a cel mai bine norul de puncte-
individ sau cel de puncte-variabi¼ a astfel încât vecin¼ at¼
aţile m¼asurate în aceste
spaţii s¼
a re‡ecte cât mai exact proximit¼ aţile reale. Se obţine astfel un spaţiu
de reprezentare, spaţiul factorial. Geometria norilor de puncte şi calculul
proximit¼ aţilor sau a distanţelor care decurg de aici difer¼ a în funcţie de natura
liniilor şi coloanelor tabelului analizat.
Coloanele tabelelor dreptunghiulare de date pot … variabile continue sau
variabile nominale sau categorii în cazul tabelelor de contingenţ¼ a. Liniile pot
… indivizi sau categorii. Natura informaţiilor, codi…carea, speci…citatea dome-
niului de aplicaţie vor introduce variante în cadrul metodei factoriale.
În cele ce urmeaza vor … prezentate trei tehnici fundamentale:
analiza în componente principale (secţiunea 1.2) se aplic¼ a tabelelor

de tip "variabile-indivizi" unde coloanele sunt variabile numerice con-
tinue şi liniile sunt indivizi, observaţii, obiecte, etc. Proximit¼
aţile între
variabile se interpreteaz¼ a în termeni de corelaţii. Proximit¼ aţile între
indivizi se interpreteaz¼ a în termeni de similitudini globale ale valorilor
observate.
1
2 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
analiza corespondenţelor simple (secţiunea 1.3) se aplic¼ a tabelelor

de contingenţ¼a, adic¼
a tabelelor ce conţin num¼ arul indivizilor care posed¼a
concomitent dou¼ a modalit¼ aţi a dou¼
a variabile nominale. Aceste tabele
au particularitatea c¼ a atât liniile cât şi coloanele lor joac¼a un rol iden-
tic în analiza corespondenţelor simple. Analiza furnizeaz¼ a reprezent¼ari
ale asociatiilor între liniile şi coloanele tabelelor bazate pe o distanţ¼ a
între pro…le (care sunt vectori de frecvenţe condiţionate) cunoscut¼ a sub
numele de distanţa 2 .
analiza corespondenţelor multiple (secţiunea 1.4) este o extindere

a domeniului aplicaţiilor analizei corespondenţelor simple, având totuşi
proceduri de calcul şi reguli de interpretare speci…ce. Ea face obiectul
unei menţiuni particulare datorit¼ a num¼ arului mare de aplicaţii la care se
preteaz¼a. Analiza corespondenţelor multiple este în mod deosebit adap-
tat¼
a la descrierea tabelelor mari de variabile nominale, cum sunt …şierele
de anchete socio-economice sau cele medicale. Liniile acestor tabele sunt,
în general, indivizi sau observaţii (pot exista câteva mii); coloanele sunt
modalit¼ aţi ale variabilelor nominale, cel mai adesea modalit¼
aţile r¼aspun-
surilor la întreb¼ ari.
Oricare ar … tipul tabelului de date, toate tehnicile factoriale au un nucleu

comun prezentat în secţiunea 1.1 sub forma unor preliminarii matematice.
1.1 Preliminarii matematice

1.1.1 Concepte metrice într-un spaţiu euclidian
Fie X mulţime oarecare, X 6= ?.
De…niţia 1.1.1 O metric¼a pe mulţimea X este o aplicaţie, d : X X!R,

care satisface urm¼
atoarele axiome :
a) d (x; y) = d (y; x) ; (8) x; y 2 X (simetric¼

a);
b) d (x; y) 0; (8) x; y 2 X (pozitiv¼

a);
c) d (x; y) = 0 , x = y; (8) x; y 2 X (idempotent¼

a);
d) d (x; y) d (x; z) + d (z; y) ; (8) x; y; z 2 X (inegalitatea triunghiului).
De…niţia 1.1.2 Dac¼ a d : X X ! R este o aplicaţie care satisface axiomele

(a) (c) şi în plus este satisf¼
acut¼
a axioma
d’) d (x; y) max (d (x; z) ; d (z; y)) ; (8) x; y; z 2 X

atunci d se numeşte ultrametric¼a pe X.
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 15
În particular, maximul (minimul) formei p¼ atratice simetrice F (x; x) pe

sfera unitate este egal cu cea mai mare (cea mai mic¼ a) valoare proprie a lui
A.
Vectorul propriu corespunzând celei mai mari valori proprii este un vector
ce porneşte din origine şi trece prin punctul de pe sfera unitate în care este
atins maximul.
1.2 Analiza în componente principale (ACP)

Inventat¼a de Karl Pearson în 1901 şi introdus¼ a în statistica matematic¼ a
de Harold Hotelling în 1933, analiza în componente principale a început s¼ a …e
utilizat¼
a efectiv odat¼
a cu apariţia şi extinderea calculatoarelor electronice.
Analiza în componente principale, ACP, poate … prezentat¼ a din diverse
puncte de vedere:
pentru statisticianul clasic, analiza în componente principale înseamn¼ a

a estima, pornind de la un eşantion dat, axele principale ale elipsoidului
indicator al unei distribuţii normale multidimensionale. Aceasta este
prezentarea inţial¼
a a lui Hotelling urmat¼a apoi de manualele clasice de
analiz¼
a multivariat¼a (cazul lucr¼
arii fundamentale [2]);
pentru psihologi, analiza în componente principale este un caz particular

de analiz¼
a factorial¼
a utilizat¼
a în psihometrie (cazul dispersiilor nule sau
egale, conform [33]);
în …ne, pentru analiştii de date, analiza în componente principale este o

tehnic¼a de reprezentare a datelor cu un caracter optimal din punct de
vedere al unor criterii algebrice sau geometrice, utilizat¼ a, în general, f¼
ar¼
a
vreo referire la ipoteze de natur¼ a statistic¼
a sau la un model particular.
Acest punct de vedere, adoptat în cele ce urmeaz¼ a, este foarte r¼aspândit
la ora actual¼a. Este probabil cel mai vechi punct de vedere, reg¼ asindu-se
în lucr¼
arile lui Pearson. Desigur, în prezentarea acestuia nu este vorba
de analiza în componente principale aşa cum este ea expus¼ a ast¼
azi, dar
pot … deja întrev¼azute ideile esenţiale ale metodei. O discuţie mai larg¼ a
asupra acestui subiect se g¼ aseşte în articolul de sintez¼a [51].
Analiza în componente principale este utilizat¼

a pentru a pune în evidenţ¼
a:
sistemul de relaţii existente între variabile (asocierea sau opoziţia lor);
reprezentarea indivizilor în raport cu variabilelele observate (indivizi care

prezint¼
a caracteristici comune sau antagoniste).
Eventualul utilizator al analizei în componente principale trebuie s¼

a posede
un tabel dreptunghiular de m¼ asur¼atori în care coloanele reprezint¼
a variabile
numerice continue, sau care pot … considerate continue, iar liniile reprezint¼ a
indivizii pe care au fost m¼ asurate aceste variabile. În biometrie se procedeaz¼ a
frecvent la multiple m¼ asur¼
atori asupra unor organe sau animale, în economie
se înregistreaz¼
a diverşi indicatori privind agenţii economici.
Într-o manier¼ a general¼
a, condiţia pe care trebuie s¼
a o îndeplineasc¼
a aceste
tabele numerice pentru a face obiectul unei analize în componente principale
este urm¼ atoarea: una dintre dimensiunile tabelului (liniile în general) este
format¼a din unit¼aţi avînd caracter repetitiv, cealalt¼a dimensiune poate … mai
degrab¼a eterogen¼a. În exemplele de mai jos liniile au acest caracter repetitiv.
Acestea vor … numite indivizi sau observaţii. Coloanele vor … desemnate ca
variabile. Uneori liniile pot … considerate ca realiz¼ ari independente ale unor
vectori aleatori ale c¼ aror componente corespund la diferite variabile. Dup¼ a
provenienţa variabilelor, trei mari categorii de tabele pot face obiectul unui
demers de analiz¼ a în componente principale:
1. Tabelele de m¼asur¼ atori: variabilele sunt obţinute în urma unui sondaj

sau recens¼
amânt şi sunt cantitative.
tabelul 1.2.1. Consumul mediu anual În 1972, exprimat în
franci francezi, pentru 7 tipuri de alimente,
în cazul a 8 categorii socio-profesionale
PAO PAA VIO VIA POT LEC

¼
ŢARANI 167 1 163 23 41 8
SALARIAŢI AGRICOLI 162 2 141 12 40 12
LIBER PROFESIONIŞTI 119 6 69 56 39 5
CADRE SUPERIOARE 87 11 63 111 27 3
CADRE MEDII 103 5 68 77 32 4
FUNCŢIONARI 111 4 72 66 34 6
MUNCITORI 130 3 76 52 43 7
INACTIVI 138 7 117 74 53 8
(Surs¼a: A. Villeneuve, La consommation alimentaire des Français, collections
de l’INSEE, M34)
2. Tabelele de note: variabilele sunt obţinute în urma unor notaţii.

Notele sunt variabile calitative ce pot …, în general, asimilate cu vari-
abilele cantitative.
tabelul 1.2.2. Notele obŢ inute de 4 studenŢ i la 3 materii
¼
MATEMATICA ¼
FIZICA ¼
ENGLEZA
STUD1 9 8 8
STUD2 10 9 6
STUD3 9 7 10
STUD4 7 5 10
3. Tabelele de ranguri: variabilele sunt obţinute în urma unor clasa-

mente şi sunt variabile calitative ordinale care pot … transformate în
variabile continue.
tabelul 1.2.3. Clasamentul tablourilor a trei pictori,
PIC1 PIC3, realizat de patru experŢ i A D.
A B C D
PIC1 1 3 2 1
PIC2 3 1 1 3
PIC3 2 2 3 2
Dup¼ a cum vom vedea, în funcţie de transform¼arile aduse tabelului de

date, analiza în componente principale prezint¼a numeroase variante: norul
de puncte-indivizi poate … centrat sau nu, redus sau nu. Dintre aceste vari-
ante, analiza în componente principale normat¼a (central-redus¼
a) este cea mai
utilizat¼
a.
1.2.1 Date şi caracteristicile lor

Se presupune c¼ a dispunem de observaţii asupra a p variabile continue
m¼asurate pe n indivizi. Valorile sunt "listate" într-un tabel de n linii şi p
j=1;p
coloane. Not¼ am cu X = (xij )i=1;n matricea asociat¼a tabelului, unde xij este
valoarea luat¼ a de variabila j m¼ asurat¼a pe individul i.
O variabil¼a este identi…cat¼ a prin vectorul-coloan¼ a j al tabelului X (no-
taţie xj ) iar un individ prin vectorul-linie i (notaţie xi ).
Dac¼ a datele nu au fost culese în urma unui sondaj aleator cu probabilit¼aţi
egale atunci …ec¼ arui individ i i se atribuie o pondere1 pi , conform importanţei
pe care o are în studiul întreprins.
De…niţia 1.2.1 Se numeşte matrice (sau metric¼a) de ponderi matricea

X
D = diag (p1 ; : : : ; pn ) ; unde pi > 0; (8) i = 1; n şi pi = 1:
i
În cazul indivizilor echiponderaţi D = n1 In , unde In este matricea iden-

titate de dimensiune n.
S¼
a not¼ am c¼ a xj poate … interpretat ca o selecţie de volum n asupra
variabilei j şi c¼
a, în acest context:
- media de selecţie a variabilei j este

X
m (xj ) xj = pi xij ,
i
1
Termenii de "pondere" sau "mas¼ a" sunt utilizaţi cu acelaşi sens în statistic¼
a şi desem-
neaz¼
a adesea frecvenţele relative sau probabilit¼
aţile a priori.
- dispersia de selecţie a variabilei j este
X
s2 (xj ) s2j = pi (xij xj )2 ,
i
- covarianţa de selecţie a variabilelor j şi j 0 este

X
cov xj ; xj 0 vjj 0 = pi (xij xj ) xij 0 xj 0 ,
i
- coe…cientul de corelaţie de selecţie a variabilelor j şi j 0 este

vjj 0
cor xj ; xj 0 rjj 0 = :
sj sj 0
De…niţia 1.2.2 Se numeşte punct mediu (centru de greutate) al norului de

puncte-individ fei gni=1 vectorul g0 = (x1 ; : : : ; xp ).
Se observ¼
a c¼
a:
g = X0 D1n unde 10n = (1; : : : ; 1) 2 Rn :
Într-adev¼
ar,
0 10 10 1
x11 x21 : : : xn1 p1 0 : : : 0 1
Bx12 x22 C B C B
: : : xn2 C B 0 p2 : : : 0 C B1C
B C
X0 D1n = B . .. C B .. C B .. C =
@ .. . A @ . A @ .A
x1p x2p xnp 0 0 : : : pn 1
0 10 1
p1 x11 p2 x21 pn xn1 1
Bp1 x12 p2 x22 : : : pn xn2 C B1C
B CB C
= B . .. C B .. C =
@ .. . A @.A
p1 x1p p2 x2p pn xnp 1
X X X 0
pi xi1 pi xi2 : : : pi xip 0
= = x1 x2 : : : xp = g:
i i i
De…niţia 1.2.3 Se numeşte tabel centrat asociat lui X matricea
Y = (yij )j=1;p
i=1;n
unde yij = xij xj :
Se numeşte tabel centrat-redus asociat lui X matricea

yij
Z = (zij )j=1;p
i=1;n
unde zij = :
sj
Lema 1.2.1
a) Y = X 1n g0 = (In 1n 10n D) X.
1 1
b) Z = YD 1 unde D 1 = diag s1 ; : : : ; sp .
s s
c) Matricea de varianţ¼
a-covarianţ¼
a asociat¼
a tabelului X este
V = X0 DX gg0 = Y0 DY:
d) Matricea de corelaţie asociat¼

a tabelului X este
R = D 1 VD 1 = Z0 DZ:
s s
Demonstraţie. a) Conform de…niţiei,

0 1
x11 x1 x12 x2 : : : x1p xp
B x21 x1 x22 x2 : : : x2p xp C
B C
Y = B .. .. C=
@ . . A
xn1 x1 xn2 x2 : : : xnp xp
0 1 0 1
x11 x12 : : : x1p x1 x2 : : : xp
B x21 x22 : : : x2p C Bx1 x2 : : : xp C
B C B C
= B . .. C B .. .. C =
@ .. . A @. .A
xnp xn2 xnp x1 x2 xp
0 1 0 1
x11 x12 ::: x1p 1
B x21 x22 ::: x2p C B1C
B C B C
= B . .. C B .. C x1 x2 : : : xp = X 1n g 0
@ .. . A @.A
xnp xn2 xnp 1
dar
0
X 1n g0 = X 1n X0 D1n =X 1n 10n DX = In 1n 10n D X:
b) Rezult¼ a imediat din de…niţia lui Z:
c) Relaţia V = Y0 DY rezult¼ a din de…niţia lui V: Pe de alt¼
a parte,
X
vkk0 = pi (xik xk ) (xik0 xk0 ) =
i
X X X X
= pi xik xik0 pi xik xk0 pi xk xik0 + pi xk xk0 =
i i i i
X X X X
= pi xik xik0 xk0 pi xik xk pi xik0 + xk xk0 pi =
i i i i
X X
= pi xik xik0 xk0 xk xk xk0 + xk xk0 = pi xik xik0 xk xk0
i i
X
=) V = X0 DX gg0 ; am folosit faptul c¼
a xk = pi xik
i
d)
0
R = D 1 VD 1 = D 1 Y0 DYD 1 = YD 1 D YD 1 = Z0 DZ
s s s s s s
unde prima egalitate rezult¼

a din de…niţia lui R.
Observaţia 1.2.1P
n
Relaţia Z0 DZ = pi ei e0i este o formul¼
a util¼
a implement¼
arii pe calculator a
i=1
metodei deoarece evit¼
a introducerea în memoria RAM a întregii matrici X.
1.2.1.1 SPAŢIUL INDIVIZILOR
S¼
a analiz¼
am exemplul din tabelul 1.2.2.:
MATEMATICA FIZICA ENGLEZA

STUD1 9 8 8
STUD2 10 9 6
STUD3 9 7 10
STUD4 7 5 10
Individul stud1 este “caracterizat”de cele trei note obţinute: 9 la matem-
atic¼
a, 9 la …zic¼a şi 8 la englez¼
a. La fel şi indivizii stud2 stud4. Reamintim
a notaţia pentru individul i este e0i . Aşadar, pentru exemplul de mai sus:
c¼
e01 = (9 8 8), e02 = (10 9 6) etc.
În general, un individ e0i este de…nit de p coordonate corespunzând valo-
rilor celor p variabile m¼ asurate pe acest individ. Îl putem, deci, considera ca un
element dintr-un spaţiu vectorial F Rp , pe care îl numim spaţiul indivizilor
(…g. 1.2.1.). Mulţimea celor n indivizi formeaz¼ a un "nor de puncte-individ"
în spaţiul F, cu g centrul de greutate al norului. În continuare vom înzestra
acest spaţiu cu o metric¼ a ce permite de…nirea distanţei dintre indivizi.
fig. 1.2.1. Principiul reprezentA¼ rii geometrice
Fie M 2Mp;p (R), o matrice simetric¼

a, pozitiv de…nit¼
a, de dimensiune p,
cu coe…cienţi reali.
De…niţia 1.2.4 Se numeşte matricea produsului scalar între indivizi matricea
W = (wij )j=1;n
i=1;n
, unde wij = hei ; ej i
şi hei ; ej i = e0i Mej este produsul scalar pe spaţiul F de…nit de metrica M.
Se observ¼
a c¼
a
W = XMX0
a distanţa dintre doi indivizi, ei şi ej ; din spaţiul F este dat¼
şi c¼ a de relaţia
d2 (ei ; ej ) = hei ej ; ei ej iM = kei ej k2M
În teorie, alegerea metricii depinde de utilizator, singurul care poate pre-

ciza metrica adecvat¼ a. În practic¼
a, metricile cele mai uzitate în ACP sunt:
M = Ip ; ce induce produsul scalar uzual şi distanţa euclidian¼

a;
M = D 1 : Utilizarea acestei metrici revine la adimensionalizarea vari-

s2
abilelor deoarece …ecare valoare este împ¼ arţit¼
a cu abaterea standard de
x
atoare ( sijj ).
selecţie a variabilei corespunz¼
Metrica M = Ip d¼ a …ec¼
arei variabile aceeaşi importanţ¼
a, independent de
dispersia sa. Utilizarea ei va privilegia variabilele cu dispersie mare, pentru
care diferenţele între indivizi sunt mari, şi va neglija diferenţele între cele-
lalte variabile. În schimb metrica M = D 1 echilibreaz¼ a in‡uenţa variabilelor
s2
transformându-le în variabile cu dispersia de selecţie unu.
Observaţia 1.2.2
Dac¼
a M = diag (m1 ; : : : ; mp ) atunci
p
X
d2 (ei ; ej ) = mk (xik xjk )2
k=1
p
iar coe…cienţii mk k=1;p pot … consideraţi ca ponderi ale variabilelor xj în
distanţa dintre indivizi.
Lema 1.2.2
Matricea produsului scalar între indivizi poate … întotdeauna exprimat¼
a în
funcţie de metrica Ip .
Demonstraţie. Într-adev¼ ar, dac¼

a M este simetric¼ a şi pozitiv de…nit¼
a atunci
ea poate … scris¼ a ca M = T0 T (conform algoritmului lui Cholesky din [15]).
Atunci hei ; ej iM = e0i Mej = e0i T0 Tej = (Tei )0 (Tej ) = (Tei )0 Ip (Tej ), ceea
ce înseamn¼ a c¼a W = (XT0 ) Ip (TX0 ), adic¼
a W este matricea produsului scalar
al tabelului XT0 faţ¼
a de metrica M = Ip .
Corolarul 1.2.1
Utilizarea metricii M = D 1 pentru tabelul Y revine la folosirea metricii
s2
M = Ip pentru tabelul centrat-redus Z.
Reamintim c¼ a ipoteza fundamental¼a a unui demers ACP este aceea c¼ a în-
treaga informaţie este conţinut¼
a în distanţele dintre punctele-individ ale noru-
lui. Acest lucru justi…c¼ a”2 .
a introducerea noţiunii de “inerţie total¼
De…niţia 1.2.5 Se numeşte inerţie total¼a (global¼a) a norului de puncte-individ

media ponderat¼ a a p¼atratelor distanţelor de la punctele-individ la centrul de
greutate al norului, adic¼
a:
n
X n
X
Ig = pi (ei g)0 M (ei g) = pi kei gk2M :
i=1 i=1
Prin analogie, inerţia într-un punct oarecare, a 2 Rp , se de…neşte ca …ind

Pn
Ia = pi kei ak2M :
i=1
Propriet¼ aţile inerţiei globale, puse în evidenţ¼

a de enunţurile de mai jos,
sunt utile în demersul ce urmeaz¼ a.
Propoziţia 1.2.1 (formula lui Huygens)
Inerţia faţ¼
a de un punct satisface urm¼
atoarea relaţie:
Ia = Ig + (g a)0 M (g a) = Ig + kg ak2M
Demonstraţie. Într-adev¼
ar,
n
X
Ia = pi (ei a)0 M (ei a) =
i=1
Xn
= pi [(ei g) + (g a)]0 M [(ei g) + (g a)] =
i=1
Xn n
X
= pi (ei g)0 M (ei g) + pi (ei g)0 M (g a) +
i=1 i=1
n
X n
X
+ pi (g a)0 M (ei g) + pi (g a)0 M (g a) :
i=1 i=1
2
Termenul inerţie este împrumutat din mecanic¼
a şi este sinonim, în acest context, cu
termenul statistic dispersie.
Se observ¼
a c¼ a produsul (g a)0 M (g
a primul termen al sumei este chiar Ig , c¼ a)
Pn
nu depinde de i, c¼
a a produsele (ei g)0 M (g a) şi
pi = 1 şi c¼
i=1
(g a)0 M (ei g) sunt scalare. Cu aceasta egalitatea de mai sus devine
" n ! n
!#
X X
0 0 0 0
Ia = Ig + 2 pi ei Mg g Mg + g Ma pi ei Ma +
i=1 i=1
+ kg ak2M
P
n
a b0 = (Mg)0 = (b1 ; : : : ;bp ) şi reamintind c¼
Se noteaz¼ a gj = pi xij rezult¼
a
i=1
n
X X p
X p
X
0 0
pi ei Mg g Mg = pi xij bj gj b j =
i=1 i j=1 j=1
p
! p
X X X
= bj pi xij gj bj = 0:
j=1 i j=1
P
n
Analog g0 Ma pi ei 0 Ma = 0.
i=1
Corolarul 1.2.2
Pentru un nor de puncte-individ dat, g, centrul de greutate al norului, mini-
mizeaz¼
a inerţia total¼
a.
Lema 1.2.3
Inerţia total¼
a este media p¼
atratelor distanţelor dintre punctele-individ, adic¼
a:
n X
X n
2Ig = pi pj kei ej k2M :
i=1 j=1
Demonstraţie. Se aplic¼ a formula lui Huygens pentru …ecare punct-individ,

apoi se adun¼
a cele n relaţii.
p1 Ie1 = p1 Ig + ke1 gk2M
p1 Ie2 = p2 Ig + ke2 gk2M
..
.
p1 Ien = pn Ig + ken gk2M
n
X n
X n
X
pj Iej = pj Ig + pj kei gk2M )
j=1 j=1 j=1
n
X n
X
pj pi kei ej k2M = Ig + Ig :
j=1 i=1
Lema 1.2.4 P
n
1. Ig = tr (MV) = tr (VM), unde cu tr (A) = aii s-a notat urma
i=1
matricii A 2Mn;n (R) :
2. Dac¼a centrul de greutate al norului este în originea axelor de coordonate,

adic¼
a g = 0, atunci Ig = tr (WD) = tr (DW).
Demonstraţie.
1. Într-adev¼
ar
n
X n
X
tr (MV) = tr MY0 DY = Myi pi yi0 = pi (ei g)0 M (ei g) = Ig :
i=1 i=1
Analog tr (VM) = Ig :
P
n
2. Dac¼
a g = 0 atunci Ig = pi ei 0 Mei . Pe de alt¼
a parte,
i=1
n
X n
X
0 0
tr (WD) = tr XMX D = ei Mei pi = Ig = pi ei 0 Mei =
i=1 i=1
= tr DXMX0 = tr (DW) :
Observaţia 1.2.3
1. Dac¼a M = Ip inerţia este egal¼
a cu suma dispersiilor de selecţie a celor p
variabile.
2. Dac¼
a M = D 1 atunci Ig = tr D 1 V = tr D 1 VD 1 = tr (R) =
s2 s2 s s
Pp P
p
rjj = 1 = p; aşa cum rezult¼
a din Lema 1.2.4. Inerţia este, în acest
j=1 j=1
caz, egal¼
a cu num¼
arul variabilelor şi nu depinde de valorile acestora.
1.2.1.2 SPAŢIUL VARIABILELOR

Fiecare variabil¼
a xj poate … considerat¼
a ca un vector al unui spaţiu vec-
n
torial E R numit spaţiul variabilelor. Mulţimea celor p variabile formeaz¼ a
un "nor de puncte-variabil¼ a" în E (…g. 1.2.1.). Metrica utilizat¼a în spaţiul
variabilelor este dat¼
a de D, matricea diagonal¼ a a ponderilor indivizilor. Cu
acestea se observ¼a:
Lema 1.2.5
Dac¼
a variabilele sunt centrate atunci:
a) produsul scalar indus de metrica D este egal cu covarianţa de selecţie

dintre cele dou¼
a variabile necentrate;
b) norma ("lungimea") unei variabile este egal¼

a cu abaterea standard de
selecţie a variabilei necentrate;
c) unghiul dintre dou¼ a variabile este egal cu coe…cientul de corelaţie liniar¼

a
de selecţie al variabilelor necentrate.
Demonstraţie. Într-adev¼
ar:
P
n
1. hyj ; yk iD = yj0 Dyk = pi (xij xj ) (xik xk ) = cov (xj ; xk ) :
i=1
P
n
2. kyj k2D = hyj ; yj iD = yj0 Dyj = pi (xij xj )2 =s2 (xj ).
i=1
3. Fie jk unghiul dintre variabilele yj şi yk . Atunci
hyj ; yk iD cov (xj ; xk ) vjk

cos ( jk ) = = = = cor (xj ; xk ) :
kyj kD kyk kD s (xj ) s (xk ) sj sk
Corolarul 1.2.3
a) Mediile de selecţie ale variabilelor fyj gpj=1 sunt nule, dispersiile de se-
lecţie sunt egale cu dispersiile de selecţie ale variabilelor fxj gpj=1 şi coe-
…cienţii de corelaţie de selecţie sunt egali cu coe…cienţii de corelaţie de
selecţie ai variabilelor fxj gpj=1 .
b) Mediile de selecţie ale variabilelor fzj gpj=1 sunt nule, dispersiile de se-
lecţie sunt unitare şi coe…cienţii de corelaţie liniar¼
a de selecţie sunt egali
cu coe…cienţii de corelaţie liniar¼ a de selecţie a variabilelor fxj gpj=1 .
Din cele de mai sus rezult¼
a:
Lema 1.2.6
2
d (zj ; zk ) = 2 (1 rjk )
Demonstraţie.
n
X
2
d (zj ; zk ) = hzj zk ; zj zk i0D = pi (zij zik )2 =
i=1
n
X n
X Xn
2 2
= pi zij + pi zik 2 pi zij zik :
i=1 i=1 i=1
Conform corolarului de mai sus,

n
X n
X
2 2 2 2
pi zij = s (zj ) = 1 = s (zk ) = pi zik şi
i=1 i=1
n
X
pi zij zik = cor (zj ; zk ) = rjk ;
i=1
ceea ce implic¼a relaţia din enunţ.

Sistemul de proximit¼ aţi dintre dou¼ a din E, indus de
a puncte-variabil¼
relaţia din Lema 1.2.6, este familiar statisticianului:
- dou¼a variabile puternic corelate sunt foarte apropiate una de cealalt¼ a

(deoarece rjk 1 implic¼ a d2 (zj ; zk ) 0) sau, din contr¼
a, foarte dep¼ ar-
tate (deoarece rjk 1 implic¼a d2 (zj ; zk ) 4), dup¼
a cum relaţia liniar¼
a
care le leag¼
a este direct¼
a sau invers¼ a;
- dou¼a variabile necorelate, deci ortogonale, sunt la distanţ¼

a medie (deoa-
rece rjk 0 implic¼ 2
a d (zj ; zk ) 2 ).
fig. 1.2.2. CorelaŢ iile Ş i distanŢ ele între punctele-variabilA¼
Proximitatea între dou¼

a puncte-variabile se interpreteaz¼
a, deci, în ter-
meni de corelaţii
fig. 1.2.3. Sistemul de proximitA¼ Ţ i între douA¼ puncte-variabilA¼
Din Corolarul 1.2.3 punctul a) rezult¼ a c¼

a toate punctele-variabil¼ a se a‡a¼
pe hipersfera de raz¼ a 1, centrat¼a în originea axelor. Aceast¼ a hipersfer¼a se
numeşte sfera de corelaţie.
Planurile în care vor … proiectate variabilele intersecteaz¼ a sfera dup¼ a
cercurile diametrale, de raz¼ a 1, numite cercuri de corelaţie, în interiorul c¼
arora
se a‡a¼ proiecţiile punctelor-variabil¼
a.
fig. 1.2.4. Reprezentarea sferei Ş i cercului de corelaŢ ie
Observaţia 1.2.4
Operaţia de centrare a tabelului X are în spaţiile Rp şi Rn interpret¼
ari geo-
metrice diferite.
- În Rp aceast¼a transformare echivaleaz¼

a cu o translaţie a originii axelor
în centrul de greutate (punctul mediu) al norului.
- În Rn aceast¼ a transformare este o proiecţie pe hiperplanul ce trece prin

originea axelor şi este ortogonal pe dreapta ce trece prin originea axelor
şi are ca parametri directori fpi gni=1 . Matricea P = In 1n 10n D aso-
ciat¼ a acestei transform¼ari este idempotent¼ a (P2 = P ) şi M-simetric¼ a
0
(P M = MP ), cu M = In . Ea este matricea proiecţiei M-ortogonale
pe subspaţiul generat de vectorii coloan¼ a liniari P
independenţi ai matricii
Y. Coordonatele acestor vectori satisfac relaţia pi yij = 0; (8) j = 1; p,
i
ce reprezint¼a ecuaţia unui hiperplan în Rn care trece prin originea axelor
şi are ca normal¼a în punctul 0n dreapta de parametri directori fpi gni=1 .
1
Dac¼ a D = n In atunci hiperplanul este ortogonal pe prima bisectoare.
De…niţia 1.2.6 (conform [14]) Se numeşte studiu un triplet (Y; M; D) unde:
- Y este matricea centrat¼

a asociat¼
a tabelului de date indivizi-variabile;
a în spaţiul vectorial al indivizilor, F ;

- M este o metric¼
- D este metrica ponderilor în spaţiul vectorial al variabilelor, E.
Studiul este caracterizat de dou¼

a „obiecte”:
- matricea W = YMY0 a produsului scalar între indivizi;
- matricea V = Y0 DY de varianţ¼
a-covarianţ¼
a a variabilelor centrate.

L01 Acp

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

L01 Acp

Încărcat de

Drepturi de autor:

Formate disponibile

Capitolul 1

Metodele exploratorii multidimensionale îşi propun s¼ a furnizeze reprezen-

analiza în componente principale (secţiunea 1.2) se aplic¼ a tabelelor

analiza corespondenţelor simple (secţiunea 1.3) se aplic¼ a tabelelor

analiza corespondenţelor multiple (secţiunea 1.4) este o extindere

Oricare ar … tipul tabelului de date, toate tehnicile factoriale au un nucleu

1.1 Preliminarii matematice

De…niţia 1.1.1 O metric¼a pe mulţimea X este o aplicaţie, d : X X!R,

a) d (x; y) = d (y; x) ; (8) x; y 2 X (simetric¼

b) d (x; y) 0; (8) x; y 2 X (pozitiv¼

c) d (x; y) = 0 , x = y; (8) x; y 2 X (idempotent¼

d) d (x; y) d (x; z) + d (z; y) ; (8) x; y; z 2 X (inegalitatea triunghiului).

De…niţia 1.1.2 Dac¼ a d : X X ! R este o aplicaţie care satisface axiomele

d’) d (x; y) max (d (x; z) ; d (z; y)) ; (8) x; y; z 2 X

În particular, maximul (minimul) formei p¼ atratice simetrice F (x; x) pe

1.2 Analiza în componente principale (ACP)

pentru statisticianul clasic, analiza în componente principale înseamn¼ a

pentru psihologi, analiza în componente principale este un caz particular

în …ne, pentru analiştii de date, analiza în componente principale este o

Analiza în componente principale este utilizat¼

sistemul de relaţii existente între variabile (asocierea sau opoziţia lor);

reprezentarea indivizilor în raport cu variabilelele observate (indivizi care

Eventualul utilizator al analizei în componente principale trebuie s¼

1. Tabelele de m¼asur¼ atori: variabilele sunt obţinute în urma unui sondaj

PAO PAA VIO VIA POT LEC

2. Tabelele de note: variabilele sunt obţinute în urma unor notaţii.

3. Tabelele de ranguri: variabilele sunt obţinute în urma unor clasa-

Dup¼ a cum vom vedea, în funcţie de transform¼arile aduse tabelului de

1.2.1 Date şi caracteristicile lor

De…niţia 1.2.1 Se numeşte matrice (sau metric¼a) de ponderi matricea

În cazul indivizilor echiponderaţi D = n1 In , unde In este matricea iden-

- media de selecţie a variabilei j este

- dispersia de selecţie a variabilei j este

- covarianţa de selecţie a variabilelor j şi j 0 este

- coe…cientul de corelaţie de selecţie a variabilelor j şi j 0 este

De…niţia 1.2.2 Se numeşte punct mediu (centru de greutate) al norului de

g = X0 D1n unde 10n = (1; : : : ; 1) 2 Rn :

De…niţia 1.2.3 Se numeşte tabel centrat asociat lui X matricea

Se numeşte tabel centrat-redus asociat lui X matricea

d) Matricea de corelaţie asociat¼

Demonstraţie. a) Conform de…niţiei,

unde prima egalitate rezult¼

1.2.1.1 SPAŢIUL INDIVIZILOR

MATEMATICA FIZICA ENGLEZA

fig. 1.2.1. Principiul reprezentA¼ rii geometrice

Fie M 2Mp;p (R), o matrice simetric¼

De…niţia 1.2.4 Se numeşte matricea produsului scalar între indivizi matricea

d2 (ei ; ej ) = hei ej ; ei ej iM = kei ej k2M

În teorie, alegerea metricii depinde de utilizator, singurul care poate pre-

M = Ip ; ce induce produsul scalar uzual şi distanţa euclidian¼

M = D 1 : Utilizarea acestei metrici revine la adimensionalizarea vari-

Demonstraţie. Într-adev¼ ar, dac¼

De…niţia 1.2.5 Se numeşte inerţie total¼a (global¼a) a norului de puncte-individ

Prin analogie, inerţia într-un punct oarecare, a 2 Rp , se de…neşte ca …ind

Propriet¼ aţile inerţiei globale, puse în evidenţ¼

Demonstraţie. Se aplic¼ a formula lui Huygens pentru …ecare punct-individ,

2. Dac¼a centrul de greutate al norului este în originea axelor de coordonate,

1.2.1.2 SPAŢIUL VARIABILELOR

a) produsul scalar indus de metrica D este egal cu covarianţa de selecţie

b) norma ("lungimea") unei variabile este egal¼

c) unghiul dintre dou¼ a variabile este egal cu coe…cientul de corelaţie liniar¼

3. Fie jk unghiul dintre variabilele yj şi yk . Atunci

hyj ; yk iD cov (xj ; xk ) vjk