Documente Academic
Documente Profesional
Documente Cultură
L01 Acp
L01 Acp
METODE EXPLORATORII
MULTIDIMENSIONALE
1
2 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
numerice continue, sau care pot … considerate continue, iar liniile reprezint¼ a
indivizii pe care au fost m¼ asurate aceste variabile. În biometrie se procedeaz¼ a
frecvent la multiple m¼ asur¼
atori asupra unor organe sau animale, în economie
se înregistreaz¼
a diverşi indicatori privind agenţii economici.
Într-o manier¼ a general¼
a, condiţia pe care trebuie s¼
a o îndeplineasc¼
a aceste
tabele numerice pentru a face obiectul unei analize în componente principale
este urm¼ atoarea: una dintre dimensiunile tabelului (liniile în general) este
format¼a din unit¼aţi avînd caracter repetitiv, cealalt¼a dimensiune poate … mai
degrab¼a eterogen¼a. În exemplele de mai jos liniile au acest caracter repetitiv.
Acestea vor … numite indivizi sau observaţii. Coloanele vor … desemnate ca
variabile. Uneori liniile pot … considerate ca realiz¼ ari independente ale unor
vectori aleatori ale c¼ aror componente corespund la diferite variabile. Dup¼ a
provenienţa variabilelor, trei mari categorii de tabele pot face obiectul unui
demers de analiz¼ a în componente principale:
¼
MATEMATICA ¼
FIZICA ¼
ENGLEZA
STUD1 9 8 8
STUD2 10 9 6
STUD3 9 7 10
STUD4 7 5 10
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 17
A B C D
PIC1 1 3 2 1
PIC2 3 1 1 3
PIC3 2 2 3 2
X
s2 (xj ) s2j = pi (xij xj )2 ,
i
Se observ¼
a c¼
a:
Într-adev¼
ar,
0 10 10 1
x11 x21 : : : xn1 p1 0 : : : 0 1
Bx12 x22 C B C B
: : : xn2 C B 0 p2 : : : 0 C B1C
B C
X0 D1n = B . .. C B .. C B .. C =
@ .. . A @ . A @ .A
x1p x2p xnp 0 0 : : : pn 1
0 10 1
p1 x11 p2 x21 pn xn1 1
Bp1 x12 p2 x22 : : : pn xn2 C B1C
B CB C
= B . .. C B .. C =
@ .. . A @.A
p1 x1p p2 x2p pn xnp 1
X X X 0
pi xi1 pi xi2 : : : pi xip 0
= = x1 x2 : : : xp = g:
i i i
Y = (yij )j=1;p
i=1;n
unde yij = xij xj :
Lema 1.2.1
a) Y = X 1n g0 = (In 1n 10n D) X.
1 1
b) Z = YD 1 unde D 1 = diag s1 ; : : : ; sp .
s s
c) Matricea de varianţ¼
a-covarianţ¼
a asociat¼
a tabelului X este
V = X0 DX gg0 = Y0 DY:
d)
0
R = D 1 VD 1 = D 1 Y0 DYD 1 = YD 1 D YD 1 = Z0 DZ
s s s s s s
S¼
a analiz¼
am exemplul din tabelul 1.2.2.:
W = (wij )j=1;n
i=1;n
, unde wij = hei ; ej i
şi hei ; ej i = e0i Mej este produsul scalar pe spaţiul F de…nit de metrica M.
Se observ¼
a c¼
a
W = XMX0
a distanţa dintre doi indivizi, ei şi ej ; din spaţiul F este dat¼
şi c¼ a de relaţia
Metrica M = Ip d¼ a …ec¼
arei variabile aceeaşi importanţ¼
a, independent de
dispersia sa. Utilizarea ei va privilegia variabilele cu dispersie mare, pentru
care diferenţele între indivizi sunt mari, şi va neglija diferenţele între cele-
lalte variabile. În schimb metrica M = D 1 echilibreaz¼ a in‡uenţa variabilelor
s2
transformându-le în variabile cu dispersia de selecţie unu.
Observaţia 1.2.2
Dac¼
a M = diag (m1 ; : : : ; mp ) atunci
p
X
d2 (ei ; ej ) = mk (xik xjk )2
k=1
p
iar coe…cienţii mk k=1;p pot … consideraţi ca ponderi ale variabilelor xj în
distanţa dintre indivizi.
Lema 1.2.2
Matricea produsului scalar între indivizi poate … întotdeauna exprimat¼
a în
funcţie de metrica Ip .
22 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
Corolarul 1.2.1
Utilizarea metricii M = D 1 pentru tabelul Y revine la folosirea metricii
s2
M = Ip pentru tabelul centrat-redus Z.
Reamintim c¼ a ipoteza fundamental¼a a unui demers ACP este aceea c¼ a în-
treaga informaţie este conţinut¼
a în distanţele dintre punctele-individ ale noru-
lui. Acest lucru justi…c¼ a”2 .
a introducerea noţiunii de “inerţie total¼
Ia = Ig + (g a)0 M (g a) = Ig + kg ak2M
Demonstraţie. Într-adev¼
ar,
n
X
Ia = pi (ei a)0 M (ei a) =
i=1
Xn
= pi [(ei g) + (g a)]0 M [(ei g) + (g a)] =
i=1
Xn n
X
= pi (ei g)0 M (ei g) + pi (ei g)0 M (g a) +
i=1 i=1
n
X n
X
+ pi (g a)0 M (ei g) + pi (g a)0 M (g a) :
i=1 i=1
2
Termenul inerţie este împrumutat din mecanic¼
a şi este sinonim, în acest context, cu
termenul statistic dispersie.
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 23
Se observ¼
a c¼ a produsul (g a)0 M (g
a primul termen al sumei este chiar Ig , c¼ a)
Pn
nu depinde de i, c¼
a a produsele (ei g)0 M (g a) şi
pi = 1 şi c¼
i=1
(g a)0 M (ei g) sunt scalare. Cu aceasta egalitatea de mai sus devine
" n ! n
!#
X X
0 0 0 0
Ia = Ig + 2 pi ei Mg g Mg + g Ma pi ei Ma +
i=1 i=1
+ kg ak2M
P
n
a b0 = (Mg)0 = (b1 ; : : : ;bp ) şi reamintind c¼
Se noteaz¼ a gj = pi xij rezult¼
a
i=1
n
X X p
X p
X
0 0
pi ei Mg g Mg = pi xij bj gj b j =
i=1 i j=1 j=1
p
! p
X X X
= bj pi xij gj bj = 0:
j=1 i j=1
P
n
Analog g0 Ma pi ei 0 Ma = 0.
i=1
Corolarul 1.2.2
Pentru un nor de puncte-individ dat, g, centrul de greutate al norului, mini-
mizeaz¼
a inerţia total¼
a.
Lema 1.2.3
Inerţia total¼
a este media p¼
atratelor distanţelor dintre punctele-individ, adic¼
a:
n X
X n
2Ig = pi pj kei ej k2M :
i=1 j=1
Lema 1.2.4 P
n
1. Ig = tr (MV) = tr (VM), unde cu tr (A) = aii s-a notat urma
i=1
matricii A 2Mn;n (R) :
Analog tr (VM) = Ig :
P
n
2. Dac¼
a g = 0 atunci Ig = pi ei 0 Mei . Pe de alt¼
a parte,
i=1
n
X n
X
0 0
tr (WD) = tr XMX D = ei Mei pi = Ig = pi ei 0 Mei =
i=1 i=1
= tr DXMX0 = tr (DW) :
Observaţia 1.2.3
1. Dac¼a M = Ip inerţia este egal¼
a cu suma dispersiilor de selecţie a celor p
variabile.
2. Dac¼
a M = D 1 atunci Ig = tr D 1 V = tr D 1 VD 1 = tr (R) =
s2 s2 s s
Pp P
p
rjj = 1 = p; aşa cum rezult¼
a din Lema 1.2.4. Inerţia este, în acest
j=1 j=1
caz, egal¼
a cu num¼
arul variabilelor şi nu depinde de valorile acestora.
Demonstraţie. Într-adev¼
ar:
P
n
1. hyj ; yk iD = yj0 Dyk = pi (xij xj ) (xik xk ) = cov (xj ; xk ) :
i=1
P
n
2. kyj k2D = hyj ; yj iD = yj0 Dyj = pi (xij xj )2 =s2 (xj ).
i=1
Corolarul 1.2.3
a) Mediile de selecţie ale variabilelor fyj gpj=1 sunt nule, dispersiile de se-
lecţie sunt egale cu dispersiile de selecţie ale variabilelor fxj gpj=1 şi coe-
…cienţii de corelaţie de selecţie sunt egali cu coe…cienţii de corelaţie de
selecţie ai variabilelor fxj gpj=1 .
b) Mediile de selecţie ale variabilelor fzj gpj=1 sunt nule, dispersiile de se-
lecţie sunt unitare şi coe…cienţii de corelaţie liniar¼
a de selecţie sunt egali
cu coe…cienţii de corelaţie liniar¼ a de selecţie a variabilelor fxj gpj=1 .
Din cele de mai sus rezult¼
a:
Lema 1.2.6
2
d (zj ; zk ) = 2 (1 rjk )
Demonstraţie.
n
X
2
d (zj ; zk ) = hzj zk ; zj zk i0D = pi (zij zik )2 =
i=1
n
X n
X Xn
2 2
= pi zij + pi zik 2 pi zij zik :
i=1 i=1 i=1
n
X
pi zij zik = cor (zj ; zk ) = rjk ;
i=1
Observaţia 1.2.4
Operaţia de centrare a tabelului X are în spaţiile Rp şi Rn interpret¼
ari geo-
metrice diferite.
- matricea V = Y0 DY de varianţ¼
a-covarianţ¼
a a variabilelor centrate.