Sunteți pe pagina 1din 5

ACP n spaiul variabilelor

Soluia o constituie vectorul propriu de ordinul k al matricei

Analiza n componente principale realizat n spaiul variabilelor i propune


identificarea direct a componentelor principale astfel nct acestea s fie maxim corelate cu
variabilele iniiale i absolut necorelate ntre ele.
1
Etapa 1. Se determin prima variabil sintetic C astfel nct aceasta s fie maxim
corelat cu variabilele iniiale:

valorii proprii .
k

Legtura dintre cele dou abordri. n spaiul indivizilor , la etapa k se determin


k

factorul a , vector propriu de ordin k al matricei

(C 1 , X j ) s fie maxim.

determin C , vector propriu de ordin k al matricei

j 1

R 2 (C 2 , X j )
m

Cov(C 1 , X j ) 2
Var(C )Var( X j )

R 2 (C 1 , X j )

j 1

1
n

1 t
t 1
1 (C ) X j ( X j ) C
n
(C 1 ) t C 1

(C 1 ) t X j ( X j ) t C 1

j 1

(C 1 ) t C 1

1 (C1 ) t XX t C1
n (C1 ) t C1

Problema care se rezolv:

Maxim
C1

1 (C 1 ) t XX t C 1
.
n (C 1 ) t C 1

1
XX t , corespunztor celei
n
mai mari valori proprii 1 i se determin printr-o rezolvare a problemei similare celei date la
analiza n spaiul indivizilor.
2
Etapa 2. Se determin a doua component principal C , maxim corelat cu
1
variabilele iniiale i absolut necorelat cu prima component principal C .
Problema de maxim este:

1 (C 2 ) t XX t C 2

n (C 2 ) t C 2 .

C2
R(C 1 , C 2 ) 0

1
XX t , corespunztor celei
Soluia este vectorul propriu de ordinul 2 al matricei
n
2
de-a doua valori proprii .
k
Etapa k. n mod identic se determin variabila C maxim corelat cu variabilele
i
iniiale dar absolut necorelat cu celelate variabile noi, C , i=1,k-1.
Problema care se rezolv:

1 (C 1 ) t XX t C 1

n (C 1 ) t C 1

C1
R(C k , C i ) 0, i 1, k 1

Soluia o constituie primul vector propriu al matricei

Maxim

Maxim

1
XX t , corespunztor
n

dou abordri, este k.


Inmulind la stanga cu X relaia

1 t
X X . n spaiul variabilelor se
n

1
XX t . Valoarea proprie, comuna celor
n

1 t
k
k
X X a = k a , rezult:
n

1
1
XX t Xa k X k a k XX t C k k C k .
n
n
t
Numrul de etape n spaiul indiviziilor este m (gradul matricei X X) iar n spaiul
t
variabilelor este n (gradul matricei XX ). Prin urmare se opteaz pentru abordarea care da
numrul minim de etape.

Evaluarea rezultatelor
Criterii de alegere a numrului de axe
Notm cu s numrul de etape n care se efectueaz analiza. La fiecare etap este
extras mai puin informaie dect la etapa precedent. Exist mai multe criterii prin care s
se determine s, numrul de axe, numrul de componente principale alese n analiz, astfel
nct acoperirea informaional s fie satisfctoare.
1. Criteriul procentului de acoperire
O preocupare important n evaluarea calitii analizei este determinarea cantitii
de variaie (varian) explicat prin fiecare ax.
Deoarece criteriul de optim n alegerea axei k a fost maximizarea varianei pe axa
respectiv, se poate scrie:

1 k t t k
(a ) X Xa (a k ) t k a k k .
n

Variana explicat prin axa k este, deci, k. tim c variana total este m (tabelul X
este standardizat). Prin urmare, procentul de variaie explicat prin axa k este k/m , iar

k 1

procentul de variaie explicat prin primele k axe este vk =

j 1
m

n cazul n care

j
j 1

k 1

j 1
.
m
k
n mod similar, n spaiul variabilelor, la etapa k, corelaia dintre variabila nou C i
variabilele vechi este:
variabilele X sunt standardizate, vk =

R 2 (C k ,X j )
j 1

1 (C k ) t XX t C k (C k ) t k C k

k .
n (C k ) t C k
(C k ) t C k

Deci valoarea proprie

este tocmai suma coeficienilor de determinare dintre

variabila nou i cele vechi.


Conform criteriului procentului de acoperire, s este prima valoare pentru care vs>P,
unde P este procentul de acoperire ales.

Figura 1. Alegerea numrului de axe. Criteriul Cattell


Calitatea reprezentrii unui punct
Componentele principale constituie o nou spaiu de reprezentare a indivizilor numit
spaiul principal. Baza acestui spaiu, vectorii unitari ai axelor, este constituit de vectorii
proprii ak, k = 1, m, iar coordonatele indivizilor n aceste noi axe sunt date de vectorii Ck, k
=1,m. Coordonatele unui individ sunt: ci1, ci2, ..., cim, i =1, n. Ptratul distanelor individului i
m

2. Criteriul lui Kaiser


Este un criteriu aplicabil n cazul n care variabilele cauzale Xj, j = 1, m sunt
standardizate. Apare ca firesc n aceast situaie ca noile variabile, componentele principale,
s fie considerate "importante", semnificative, n msura n care cumuleaz mai mult
varian dect o variabil Xj. Criteriul lui Kaiser recomand reinerea acelor componente
principale care au varian mai mare dect 1.

spre centrul de greutate al norului de date este dup noile axe

(c
j 1

j 2

) . Un individ este cu
m

r 2

att mai bine reprezentat pe axa r cu ct (ci ) are o valoare mai mare n raport cu

j 1

j 2

) .

r 2

3. Criteriul Cattell
Acest criteriu se poate aplica n variant grafic (vizual - Figura 1) sau analitic. n
varianta grafic se detecteaz, ncepnd cu a treia valoare proprie, primul cot (unghi mai mic
decat 180). Se rein doar valorile proprii de pn n acel loc, inclusiv.
n varianta analitic se calculeaz diferente de ordinul doi ntre valorile proprii:
1 = 0, k = k-1- k, k = 2, m
1=2=0, k= k-1 - k , k=3, m
i se determin valoarea lui s astfel nct 1, 2, , s-1 s fie mai mari sau egale cu 0.

(c

Calitatea reprezentrii individului i pe axa r este dat de raportul (ci ) /

(c
j 1

j 2

) .

Valoarea raportului este egal i cu cosinusul unghiului dintre vectorul punctului i i vectorul
r
a.
Contribuia indivizilor la variana explicat prin axa r
Variana explicat prin axa r este

1 n r 2
(ci ) =r . Partea din aceast varian
n i 1

r 2

datorat individului i este (1/n)(ci ) .


r 2

Contribuia individului i la variana axei r este deci : (ci ) /r.


Comunalitile
Se numete comunalitate (communality) proporia explicat de componentele
principale din variana unei variabilei cauzale (iniiale). Am vzut c o component

principal, Ck, preia o cantitate de varian egal cu k, iar suma coeficienilor de determinare
dintre aceast component i variabilele iniiale este tot k. Comunalitatea unei variabile Xj n
raport cu primele s componente principale este deci suma coeficienilor de determinare dintre
s
2
R X j , C k . Pentru s = m aceast valoare
variabil i aceste componente principale:

k 1
este 1. Cele m componente principale preiau integral informaia din X.

Axa r
r

R(C ,Xj)
s

R(C ,Xj)

Axa s

2.5 Reprezentri grafice


Figura 2.3
Reprezentarea indiviziilor
Pentru a analiza rezultatele furnizate la dou etape r i s , reprezentarea indivizilor
r
s
este obinut proiectnd fiecare individ i pe un plan generat de factorii a i a . Se obine
r
s
astfel o descriere a norului de puncte prin proiectarea sa pe planul vectorilor a i a .
r
s
Coordonatele individului i sunt c i pentru axa r i c i pentru axa s.

Axa r

2.6 Calculul coeficienilor de corelaie


Coeficienii de corelaie dintre o variabil iniial Xj i componenta principal Cr se
calculeaz astfel:

R (C , X j )
2

ci

Cov(C r , X j ) 2
Var(C r )Var( X j )

Cov(C r , X j ) 2

, deoarece Var(Cr)=r, iar Var(Xj

) =1.
Matriceal, obinem vectorul coeficieniilor de corelaie dintre variabilele iniiale i

Axa s
s

ci
Figura 2.2

Cr:

1 t r 1 t
X C
X X r
ar
n
n
r ar r .

Concluzie. Vectorul corelaiilor dintre cele m variabile iniiale i componenta


principal de ordin r este factorul de ordin r nmulit cu

Reprezentarea variabilelor
Fiecare variabil poate fi proiectat n planul definit de componentele principale de
ordin r i s. Coordonata variabilei Xj pe axa r este coeficientul de corelaie ntre aceast
variabil i componenta principal r, iar pe axa s este coeficientul de corelaie cu componenta
principal s. Reprezentarea se face cu ajutorul cercului corelaiilor:

2.7 Variabile i indivizi suplimentari


n unele situaii poate fi interesant reprezentarea grafic a unuia sau mai multor
indivizi sau a uneia sau mai multor variabile care nu figurau iniial n tabelul de date.
Coordonatele acestor indivizi/variabile suplimentari se calculeaz n acelai mod ca pentru
indivizii/variabilele iniiali.
Coordonatele individului suplimentar l:

cls a1s xl1 a2s xl 2 ... a ms xlm


clr a1r xl1 a 2r xl 2 ... a mr xlm

unde xlj, j=1,m sunt valorile luate de individul suplimentar j pentru cele m variabile iar a i a
sunt factorii de ordin s i r.
Coordonatele variabilei suplimentare l n raport cu axele r i s sunt:

1 t r
X C
Cov( X l , C ) n l
r
R( X l , C )

Se poate n aceeai manier s se reconstituie matricea de corelaii

X C At X t A C t X t X A C t C At
1 t
1 t t
X X A C C A
n
n

1 t s
Xl C
R( X l , C s ) n
.

1 t
C C . Cum
n
1 t
k
componentele principale sunt dou cte dou necorelate, iar var(C )=k, rezult c C C
n

Matricea de covarian ntre componentele principale este

Reconstituirea datelor iniiale


Reconstituirea tabelului datelor iniiale
1
2
Am notat cu C matricea nm a componentelor principale aezate pe coloane: C , C ,
m
1
2
m
..., C . Notm cu A matricea mm a factorilor aezai de asemenea pe coloane: a , a , ..., a .

este o matrice diagonal cu elementul de pe poziia (k,k) egal cu k.


Matricea de corelaii va fi:
m
1 t
X X k a k (a k ) t .
n
k 1

Cunoaterea primilor factori permite o bun reconstituire a matricei de corelaii.

Deoarece C X a , pentru k =1,2,...,m, atunci, matriceal avem C=XA.


Cei m factori sunt normai i ortogonali doi cte doi. Prin urmare matricea A este o
-1
t
matrice ortogonal i deci A = A .
k

Rezult c

k t

k 1

Abaterea standard a unei componente principale este


rdcin ptrat din variana componentei , adic
m

X=

k 1

(C k )

i este egal cu

. Putem aadar scrie:

Ck
(a k ) t .
(C k )

Aceast relaie arat cum tabelul X poate fi reconstituit pornind de la elementele

t
C
a k , care au aceleai norme de la o etap la alta, fiind doar ponderate cu rdcina
k
C

valorilor proprii.
Dac lum n considerare numai primele r etape, informaia rezidual
m

k r 1

Ck
k
ak
k
C

Analiza n componente principale nenormat

X C A C A , sau altfel scris X C (a ) .


1

1 t
X X
n

pornind de la cei m factori:

Reconstituirea matricei de corelaii

este neglijabil, deoarece ultimele etape aduc un aport

nesemnificativ n reconstituirea tabelului X.

Renunnd la ipoteza c variabilele iniiale sunt standardizate, avem analiza n


componente principale nestandardizat sau nenormat. Variana variabilelor iniiale nu mai
este 1, iar analiza se va face pe matricea de covarian.
n spaiul indivizilor, criteriul de optim la o etap oarecare rmne acelai, doar c
el se aplic unui nor de puncte diferit, deoarece coloanele tabelului X nu sunt normate.
n spaiul variabilelor, criteriul de optim la o etap oarecare k,
m

Maxim R 2 (C k , X j ) , devine
C

j 1

Maxim Cov
C

j 1

(C k , X j ) .

Factorul principal corespunztor etapei k este vectorul propriu al matricei de


covarian

1 t
X X.
n

Analiza n componente principale ponderat


Analiza n componente principale poate fi generalizat pentru situaia n care
distanele dintre indivizi sunt calculate dup o metric euclidian oarecare.

Fiecrui individ i se asociaz o pondere. Fie pi, ponderea asociat individului i, 0<
n

pi<1,

p
i 1

1.

p1
0
Fie P matricea ponderilor: P =
...

0
Criteriul

de

optim

0
0
.

... pn

0 ...
p2 ...
0
spaiul

indivizilor

devine

urmtorul:

pi (cik ) 2 .
Maxim
i 1
Criteriul rmne neschimbat n spaiul variabilelor. Corelaia dintre dou variabile
este atunci calculat innd cont de ponderile indivizilor. Covariana dintre dou variabile
centrate X i Y se scrie:
n

Cov(X,Y) =

p x y
i 1

2
i

iar variana lui X:


n

Var(X) =

p x
i 1

Factorii vor fi calculai ca vectori proprii succesivi ai matricei


componentele principale ca vectori proprii succesivi ai matricei

X X tP.

X t P X iar

S-ar putea să vă placă și