Sunteți pe pagina 1din 9

ANALIZA IN COMPONENTE PRINCIPALE

Introducere

Analiza in component principale (ACP) este o prelucrare statistica a datelor prezentate


vectorial avand drept scop principal reducerea dimensiunii acestora cu pastrarea a cat mai mult
din informatia pe care o poarta. Aceasta tehnica este utla in transformarea datelor inaintea
efectuarii unor prelucrari de genul clasificarii sau gruparii precum si in prelucrarea semnalelor
(de exemplu pentru compresia imaginilor).
Din punct de vedere intuitiv ACP consta in transformarea unui ansamblu de informatii
reprezentate prin vectori N dimensionali intr-un ansamblu de vectori M dimensionali astfel
incat noile component ale vectorilor sa exprime cat mai bine variabilitatea datelor analizate.

Datele necesare rezolvarii peoblematicii ACP

- p variabile numerice X1, …, Xp, ale caror valori masurate pe un individ arbitrar
le vom nota prin x1, …, xp; abuziv, vom numi chiar valorile masurate x1, …, xp variabile
(initiale), subintelegand ca ne intereseaza semnificatia variabilelor propriu-zise X1, …, Xp, ca
modele ale unor caracteristici variabile observate la indivizii unui esantion extras dintr-o
pupulatie.
- valorile xj(i)=Xj(i) ale acestor variabile masurate pe indivizii unui esantion de
volum n, aranjate intr-un tabel X cu n linii si p coloane; in acest fel, individual I este identificat
cu linia I a acestui tabel, mai exact cu vectorul-linie
-
e i =( x 1 ( i ) , … , x p ( i ) ) ∈ R p

Subspatiul lui Rp generat de acesti vectori, adica de liniile tabelului X, se zice spatiul
indivizilor, iar subspatiul Rn generat de coloanele tabelului X se zice spatiul variabilelor
- o p x p – matrice M, simetrica si pozitiv definita, folosita pentru a defini pe Rp o
distanta euclidiana dM prin formula

d 2M ( e , f ) =( e−f )T M ( e−f )=( e−f , e−f )M , e , f ∈ R p

- o n x n – matrice diagonala D ale carei elementeau semnificatia de ponderi ale


indivizilor. Aceasta este o matrice folosita pentru a define in Rpo distant euclidiana prin formula
d 2D ( x , y )=( x− y )T D ( x− y )= ( x − y , x− y ) D , x , y ∈ Rn

( x , y )D
- unghiul dintre doua variabile: cos < ( x , y )= , x , y ∈ Rn
||x||D∗|| y||D

Notiuni necesare rezolvarii problematicii ACP

- valorile fictive generate de valorile x1, …, xp∈Rn ale variabilelor X1, …, Xp pe


esantionul dat; acestea sunt combinatii liniare de valorile masurate x1, …, xp, adica sunt vectori
n-dimensionali de forma: c=u 1 x 1+ …+un x n
Fiindca x1, …, xp au sens de variabile, combinatia c are semnificatia de variabila, dar
aceasta variabila are sens fictive prin raport cu semnificatia concreta a veriabilelor initiale. In
acelasi timp, privita ca o combinative liniara de vectori x1, …, xp din Rn, combinatia c poate fi
privita ca un vector din Rn; in acest fel, putem considera:
- componentele combinatiei liniare c: este vectorul format cu coordonatele lui c;
acestea primesc semnificatia de lista a valorilor variabilei c pe indivizii din esantion si astfel c
are semnificatia de functie de esantion
- factorul asociat combinatiei liniare c este vectorul u ∈Rp din reprezentarea c=Xu;
cunoscand factorul principal al unei component, vom putea determina componenta.
Notam ca, in calitate de functie de esantion, matricea de variant a lui c se obtine prin
formulele:
V ( c )=c T Dc=uT X T DXu=uT Vu

unde V este matricea de covarianta a tabeluluiX.

Masuri ale dependentei variabilelor (coloanelor) tabelului X

- dependent (liniare) intre doua variabile xj, xl: este masurata prin covarianta
sjl=cov(xj,xl); dependent intre toate variabilele tabelului X este descrisa prin matricea de
(co)variant
V =¿

Covarianta s2j a unei variabile xj cu ea insasi se zice variant (sau dispersia) variabilei
respective, iar radicalul sau s j=+ √ s 2j se zice abaterea standard a variabilei xj.
Mai convenabila este insa masurarea dependentei prin coeficientul de corelatie
rjl=r(xj, xl), iar pentru intregul table prin matricea de corelatie

R=¿
Legatura intre matricele de variant si corelatie pate fi scrisa matriceal prin formula:

1
⋯ 0
s1
R=Dl/ s V Dl / s=ZT DZ unde D l/ s= ⋮
( )
0


⋮ , iar z j ( i ) =
1
sp
x j ( i )− x́ j
sj

Tabelul (matricea) Z se zice tabelul standardizat al tabeluluiinitial X


Tabelul Y obtinut scazand din fiecare celula a tabelului initial X media x́ j a coloanei
(variabilei) sale se zice tabelul centrat a tabelului X; deci, elementele tabelului centrat se
calculeaza cu formulele:
z j ( i )=x j ( i ) − x́ j

Formam cu mediile variabilelor (coloanelor tabelului X) vectorul medie notat

x́ 1

()
x́= ⋮
x́ p

Atunci, trecerea de la tabelul initial X la tabelul centrat Y si apoi la tabelul standardizat


Z ale tabelului initial X se poate face cu formulele matriceale:

Y = X−1∗ x́ T , Z=Y D 1/ x

Masuri inertiale ale dispersiei indivizilor (a liniilor tabelului X)

Masurarea dispersarii presupune sa consideram mai intai:


- norul de puncte N(X) al indivizilor asociat tabelului X: este multimea de puncte
materiale format din liniile tabelului (interpretate ca indivizi) si ponderile asociate;
- centrul de masa g al tabelului X este centrul de masa al norului N(X), interpretat
ca un sistem de puncte materiale; el este vectorul-coloana g ∈ R p (punctul) ale carui coordonate
sunt:
n
g j=∑ pi∗x j ( i ) , j=1 , … p
i=1

Matriceal, el se calculeaza cu formula:


1
()
g= X T D 1unde 1= ⋮ ∈ R p
1

Notam ca centru de masa al norului indivizilor coincide cu vectorul mediilor


variabilelor.
Mai notam ca matricea de varianta se obtine direct din tabelul initial si centrul de masa
prin formula matriceala:

V = X T DX −g∗g T =Y T DY (Y tabelul centrat al lui X)

- inertia totala a tabelului initial X este inertia norului indivizilor prin raport cu
centrul sau masa g.
Amintim ca, din teorema lui Huygens, inertia relativ la centrul de masa al norului
indivizilor este minima printre inertiile acestui nor relativ la oricare alt punct; aceasta explica
denumirea de „totala” data inertiei fata de centrul de masa si notatia I l pentru inertia totala a
norului.
Aceasta inertie constituie principala masura a gradului de concentrare (dispersare) a
punctelor norului indivizilor; o inertie nula sau apropiata de zero arata ca toti indivizii sunt
identici, sau aproape identici si sunt confundati cu centrul lor de masa g.
Se poate considera de asemenea:
- inertia tabelului initial X relativ la o varietate L din spatiul Rp, trecand prin centrul
de masa, prin
n
I L ( X )=∑ pi∗d 2M (e i , L)
i=1

Metoda ACP

Amintim ca unul din scopurile ACP o constituie reprezentarea (adica M-proiectia


ortogonala a norului de puncte al indivizilor pe o varietate liniara trecand prin central de masa a
norului(un subspatiu,in cazul tabelului centrat) astfel incat dispersarea norului proiectat sa fie
cat mai apropiata de cea a norului initial,dar avand o dimensiune mult mai mica.In alti
termini,avem de cautat un subspatiu(subspatiulpe care se proiecteaza norul de puncte initial)de
dimensiune k de inertie maxima (adica inertia totala a norului proiectat pe subspatiul cautat este
maxima).In acest sens,este important sa observam ca ultima egalitate de descompunere a
inertiei totale dupa 2 directii complementare admite urmatoarea generalizare:
Pentru oricare doua subspatii M-ortogonale F,G are loc egalitatea:

I F ⊕G (X) = I F (X)+ I G(X)


Rezulta de aici ca:
Daca F este un subspatiu de dimensiune k avand inertia maxima si daca G este un
subspatiu de inertie maxima de dimensiune 1 siM-ortogonal la F,atunci suma directa
F⊕G este un subspatiu de inertie maxima de dimensiune k+1.
Notam ca terminologia folosita pentru un subspatiu de inertie maxima care este
subspatiu principal; prin urmare,rezultatul de mai sus permite construirea de subspatii
principale din aproape in aproape,pornind de la un subspatiu principal de la un subspatiu
principal de dimensiune 1,adica o axa principala M-ortogonala pe ea.
Vom construi deci un sir de axe principale ∆ 1 ,……,∆ p trecand prin originea sistemului
ortogonal ( central de masa al norului indivizilor,datorita centrarii presupuse a tabelului)
- Axele si factorii principali ϑ 1,…..,ϑ p cand M=I sunt vectori proprii ai matricei de
varianta corespunzatori valorilor proprii λ1,…..,λp scrise in ordine descrescatoare.
- Astfel,revine la diagonalizarea operatorului liniar asociat matricei de variant a
tabelului transformat prin factorizarea Cholesky a matricei M.
- Stiim ca componentele principale sunt necorelate doua cate doua ,deci ACP
pentru M=I revine la inlocuirea variabilelor initiale prin variabile necorelate de variant maxima
si importanta descrescatoare, astfel obtinem ACP pe tabelul initial X in cazul matricei M.
- Reconstituirea tabelului initial din componentele principale si factorii principali se
face prin formula de reconstituire:
-
p
c j , j=1 , … , p sunt componentele principale
-
j=1
T −1
X=∑ cju j M ,unde { u j , j=1 , … , p sunt factorii principali
.

Analiza factoriala a corespondentelor

Pe un esantion de volum 1212 extras dintr-o populatie se urmaresc valorile a doua


variabile (caractersistici,atribute,etc) X1 si X2,fiecare avand un numar de modalitati (valori ale
variabilelor)si anume:
X1 are 6 modalitati: 1…..,j,…………6
X2 are 5 modalitati: 1……,j,………..5
Adeseori este util sa interpretam fiecare variabila ca definind,prin modalitatile sale,o
partitie a indivizilor din esantion,iar in aceasta interpretare vom nota prin U 1 ,U2 partitiile
respective;este clar ca aceste 2 partitii definesc partitia mai fina U1(i) din partitia U1cu o
multime U2(j) din partitia U2 ; atunci, U1(i)∩U2(j) este formata de indivizii din esantion care au
modalitatea i dupa prima caracteristica si modalitatea j dupa a doua caracteristica.
Rezultatele observatiilor se prezinta intr-un tabel de contingenta:
SPITAL
PNEUMONI TOTAL PE
  CANCER HEPATITA SIDA TBC
  E LINII
M INGINER 45 15 7 100 60 227
E MEDIC 86 50 40 10 5 191
D STUDENT 3 38 20 31 80 172
I PROFESOR 10 24 4 84 77 199
U MUNCITOR 97 12 8 101 89 307
L CASIER 73 2 1 17 23 116
TOTAL PE
314 141 80 343 334 1212
  COLOANE

Valorile (xij )din acest tabel reprezinta numarul indivizilor din esantion care au
modalitatile i dupa prima variabila respectiv j dupa a doua variabila,adica frecventele absolute.
Putem estima probabilitatile ca un individ sa apartina perechii de modalitati(i,j) prin

nij
Frecvente relative : fij =
n
unde {i=1 ,… .. , 6
j=1 , ….,5

Notam prin F marticea frecventelor relative F=(fi,j ) unde {i=1 ,… .. , 6


j=1 , ….,5

Acestui tabel i se adauga o linie reprezentand suma elementelor coloanelor,si o


coloana,reprezentand suma elementelor liniilor.
Asociem totalurilor marginale matricele diagonale pentru cele doua variabile
-matricea totalurilor liniilor:se asociaza profilelor-linii

MATRICEA D1 ASOCIATA LINIILOR TABELULUI N


INGINER 227 0 0 0 0 0
MEDIC 0 191 0 0 0 0
STUDENT 0 0 172 0 0 0
PROFESOR 0 0 0 199 0 0
MUNCITOR 0 0 0 0 307 0
CASIER 0 0 0 0 0 116

-matricea totalurilor coloanelor:se asociaza profilelor-coloane


MATRICEA D2 ASOCIATA COLOANELOR TABELULUI N

SID TB
CANCER HEPATITA PNEUMONIE
A C
314 0 0 0 0
0 141 0 0 0
0 0 80 0 0
0 0 0 343 0
0 0 0 0 334

Vom intocmi tabelele de profiluri si anume : tabelul L (matricea)de profile a liniilor si


tabelul C (matricea) de profile a coloanelor data de formula frecventelor relative conditionate:

f n ij i este indice fix


i=1 , … … ,r ( r=6)
{
n
i∨ j=¿ i
nij
nj
−cand
{
j este indice variabil ¿
−cand i este indice variabil
{ j este indicefix
unde { j=1 , … … , s (s=5)

Notam ca liniile (coloanele) acestor tabele pot fi private ca repartitiile conditionate ale
liniilor (coloanelor) tabelului N.
Odata calculate frecventele conditionate,pot fi intocmite tabele de profiluri,si anume:
Tabelul(matricea) de profile a liniilor tabelului N este tabelul,notat L si definit prin

TABEL PROFILE
LINII
0.19823 0.066079 0.03083 0.44052 0.2643171
79 3 7 9 81
0.45026 0.261780 0.20942 0.05235 0.0261780
18 1 41 6 1
0.01744 0.220930 0.11627 0.18023 0.4651162
19 2 91 3 79
0.05025 0.02010 0.42211 0.3869346
0.120603
13 05 1 73
0.31596 0.039087 0.02605 0.2899022
0.32899
09 9 86 8
0.62931 0.017241 0.00862 0.14655 0.1982758
03 4 07 2 62

Linia i a acestui tabel ,se mai zice profilul lui U 1 (i) relative la partitia U2 ; in acest tabel
frecventele relative conditionate sunt “in linii”,dar in calcule aceste linii vor fi considerate ca
vectori coloane.
Tabelul (matricea) de profile a coloanelor tabelului N este tabelul definit prin:
TABEL PROFILE COLOANE
0.19823 0.45026 0.01744 0.05025 0.3159609
8 2 2 1 12 0.62931
0.06607 0.12060 0.0390879 0.01724
9 0.26178 0.22093 3 48 1
0.03083 0.20942 0.11627 0.02010 0.0260586 0.00862
7 4 9 1 32 1
0.44052 0.05235 0.18023 0.42211 0.3289902 0.14655
9 6 3 1 28 2
0.26431 0.02617 0.46511 0.38693 0.2899022 0.19827
7 8 6 5 8 6

Coloana j a acestui table,se mai zice profilul lui U 2(j) relative la partitia U1 ; in
acest tabel ,frecventele relative conditionate sunt “in coloane”.
Observatie. In tabelul profilelor-coloanelor “indivizii” figureaza in varful colanelor ;
astfel,pentru a pastra conventia ca indivizii figureaza pe linii,tabelul C va fi considerat in
calcule prin transpusul sau.

ACP al norilor de profile

Amintim schema generala a ACP;ea presupune a cunoaste:


-tabelul de date X (cu n linii si p e coloane) a carui analiza se efectueaza
-distanta pe spatiu R p al indivizilor, indusa de o matrice simetrica si pozitiva definita
M cu (p linii si p coloane)
-distanta pe spatiu R p al variabilelor, indusa de o matrice diagonala D ,cu n linii si n
coloane), avand semnificatia de ponderi ale liniilor tabelului X.
Odata stabilite distantele (matricele M si D)se calculeaza:
-centrul de masa al norului indivizilor : g= X T D1 (vector –coloana din R P)
-matricea de variant a tabelului X: V = X T DX-g gT
Acum se poate trece la :a ∈ R p
Efectuarea ACP a tabelului de date X care consta in parcurgerea urmatorilor pasi:
1) Determinarea valoriilor proprii ale matricei VM si aranjarea lor in ordine
descrescatoare
2) Determinarea axelor principale ca vectori proprii M-ortonormati a ∈ R p
3) Determinarea factorilor principali ca vectorii proprii M −1 ortonormati u∈ R p.
4) Determinarea componentelor principale ca vectori proprii D-ortogonali c ∈ R P astfel
incat matricei XM X T D : XM X T Dc=λc.

S-ar putea să vă placă și