Date Prelucrate: Analiza În Componente Principale

Analiza în componente principale
Analiza în componente principale (ACP) este cea mai utilizată metodă de analiză a datelor. A fost propusă de
Hotteling în 1938, dar necesitând numeroase și laborioase calcule s-a impus în practică abia începând cu anii 70 odată cu
apariția calculatoarelor. ACP sintetizează informația conținută în tabelele de date cantitative de mari dimensiuni, cu un
mare număr de instanțe și de variabile. O colectivitate statistică descrisă printr-un număr mare de variabile este greu de
studiat. ACP determină un număr mai mic de variabile noi, numite componente principale, care concentrează informația,
variabilitatea existentă la nivelul colectivității studiate. Componentele principale sunt construite sub formă de combinație
liniară de variabile inițiale, care concentrează o cât mai mare parte din varianță. Astfel, prima componentă principală
preia maximul din varianța variabilelor originale, a doua componentă preia maximul de varianță rămasă după eliminarea
primei componente şamd
ACP se utilizează ca instrument de analiză statistică în multe domenii de activitate, inclusiv în recunoașterea
formelor sau în scalarea multidimensională din grafică. În recunoașterea de forme, prin ACM se asigură selectarea
caracteristicilor esențiale, semnificative ale formelor analizate, caracteristici care asigură puterea cea mai mare de
discriminare. În grafică se asigură reprezentarea în 2D sau 3D a unor obiecte aflate in spații multidimensionale.
Date prelucrate
Datele analizate apar sub forma unui tabel de observații cu n linii şi m coloane:
 x11 ... x1m 
X   ... 

 x n1 .. x nm 
unde xij este valoarea luata de variabila j la individul i. Variabilele tabelului X mai sunt numite și variabile inițiale sau
variabile cauzale. Acestea sunt standardizate (medie 0 și varianță 1).
Se notează cu X j vectorul coloană format din valorile variabilei j pentru cei n indivizi.
Obiectivul propus este concentrarea varianței conținute de tabelul X într-un număr redus de variabile noi, numite
componente principale, absolut necorelate între ele, notate astfel: C1, C2, ..., Cs.
Determinarea acestor variabile se face succesiv, astfel:
Etapa 1. Se determină variabila sintetică C1, prima componentă principală, ca o combinație liniară de variabile
X j:
C1  a11X1  ...  a j1 X j  ...  am1 X m .
Valoarea înregistrată de o instanță oarecare, i, pentru componenta principală C1 este:
ci1  a11xi1  ...  a j1xij  ...  am1xim .
 a11 
a 
Notăm cu a1 =   vectorul care conține coeficienții legăturii liniare dintre variabilele cauzale și componenta
21
 ... 
 
 am1 
C1.
Etapa k. Se determină variabila sintetică Ck, combinație liniară de variabile X:
Ck  a1k X1  ...  a jk X j  ...  amk X m ,
 a1k 
a 
unde ak = 
2k 
este vectorul coeficienților legăturii liniare cu variabilele cauzale.
 ... 
 
am k 
Analiza în componente principale poate fi abordată atât din perspectiva instanțelor cât și din perspectiva
variabilelor analizate. Atunci când efectuăm analiza la nivelul instanțelor, componentele principale vor fi determinate
astfel încât varianța lor sa fie maximă, deci suma pătratelor valorilor înregistrate de instanțe pentru componentele
principale trebuie să fie cât mai mare. Când analiza se efectuează la nivelul variabilelor, deducerea componentelor
principale se face astfel încât acestea sa fie maxim corelate cu variabilele cauzale și absolut necorelate între ele. Ambele
modalități de deducere a componentelor principale conduc la aceleași rezultate după cum se va vedea în continuare.
Deducerea componentelor principale în spațiul instanțelor. Abordarea geometrică a
modelului
Instanțele formează un nor de n puncte într-un spațiu m-dimensional, în care cele m variabile sunt proiecțiile
instanțelor pe m axe de reprezentare.
În abordarea geometrică determinăm un sistem de axe ortonormat (axe ortogonale și de norma 1) în care vor fi
reprezentate cele n puncte. Fiecare axă corespunde unei componente principale, iar vectorii ak vor fi vectori unitari ai
m
axelor (versori), deci a
j 1
kj
2
=1, k = 1, s , unde s este numărul maxim de axe.
Etapa 1. Se determină axa 1, corespunzătoare primei componente principale , astfel încât indivizii să fie cat mai
bine reprezentați pe această axă (varianța componentei sa fie maximă). Se notează cu O centrul de greutate al norului de
puncte.
*
i
*
*
* Ci1
* * *
O
*
*
*
*
*
Figura 2.1
Distanța de la un punct/individ oarecare i la axa D1 corespunzătoare primei componente principale se notează cu

d(i,D1), iar distanţa de la punctul i la originea O cu d(i,O). Există următoarea relație între distanțe:
2 2 2
d(i,O) = d(i,D1) + ci1 ,
unde ci1 este proiecția punctului i pe axa D1.
Pentru toate punctele:
n n n
  c
1 1 1
d (i, O) 2  d (i, D1 ) 2  2
i1 .
n i 1 n i 1 n i 1
Suma distanțelor către centrul de greutate este constantă (nu depinde de alegerea axei). Varianța explicată prin
n
1 1
c
1
axa 1 este
2
i1 care matriceal se poate scrie (C1 ) t C1  (a1 ) t X t Xa1 . Problema se poate pune complementar
n i 1 n n
în două moduri cu același rezultat:
1. Se maximizează varianța explicată prin axa 1,
2. Se minimizează suma distanțelor punctelor la axa 1.
Problema de optim care se rezolvă este următoarea:
 1
Max (a1 ) X Xa1
t t
 a1 n .

 (a1 ) a1  1
t
Folosind metoda multiplicatorilor Langrange pentru rezolvarea acestei probleme de extrem cu restricții, funcția
1
Lagrangean asociată acestei probleme este: L(a1,) = (a1 ) X Xa1   (( a1 ) a1  1) .
t t t
n
Prin anularea derivatelor parțiale se obține:
L 1
 2 X t Xa1  2a1  0 ,
a1 n
L
 (a1 ) t a1  1  0 .

1 t 1
Din prima relație rezultă X Xa1  a1 . Prin urmare a1 este vector propriu al matricei X t X corespunzător
n n
1
valori proprii . Înmulțind această ultimă relație la stânga cu (a1) rezultă: (a1 ) t X t Xa1   . Deoarece cantitatea
t
n
1
(a1 ) t X t Xa1 este tocmai cea care se maximizează, rezultă că  este cea mai mare valoare proprie iar a1 este vectorul
n
propriu corespunzător ei. Vom nota  cu 1.
Etapa 2. Se determină axa 2 de vector a2 astfel încât aceasta să fie ortogonală în raport cu axa 1 şi să maximizeze
varianța explicată (punctele reprezentând indivizii să fie cât mai răsfirați pe axă). Optimizarea aplicată este:
 1
Max ( a 2 ) t X t Xa2
 a2 n

 (a2 ) t a2  1
 (a2 ) t a2  0

Funcția Lagrangean asociată este:
1
L(a2,1, 2) = (a2 ) t X t Xa2  1 ((a2 ) t a2  1)  2 (a2 ) t a1 .
n
Anularea derivatei parțiale în funcție de a2:
L 1
 2 X t Xa2  21a2  2 a1  0 .
a2 n
Dacă înmulțim această relație la stânga cu (a1)t obținem:
1
2 (a1 ) t X t Xa2  21 (a1 ) t a2  2 (a1 ) t a1  0 .
n
1 1
Avem (a1 ) t a 2  0 . Deoarece X t Xa1  1a1 , prin transpunere rezultă că şi (a1 )t X t X  1 (a1 )t deoarece
n n
t
matricea X X este simetrică.
1 1
Atunci: 2 (a1 )t X t Xa2  2 1 (a1 )t a2  0 . Prin urmare  2  0.
n n
1
Înlocuind în derivată, obținem X t Xa2  1a2 , deci a2 este vector propriu corespunzător valorii proprii 1 , iar
n
1 1
această valoare proprie este maximă conform relației, (a2 )t X t Xa2  1 , deoarece cantitatea (a2 )t X t Xa2 este cea
n n
care se maximizează la această etapă. Vom nota această valoare proprie cu 2.
Etapa k. Se determină axa k de vector ak astfel încât aceasta să fie ortogonală în raport cu axele anterioare şi sa
maximizeze, de asemenea, varianța explicată.
Problema de optim care se rezolvă este următoarea:
 1
 Max ( a k ) t X t Xak
 a k n
 (a ) t a  1 .
 k k
 (a k ) t a j  0, j  1, k  1

Funcția Lagrangean asociată este:
1
L(ak,1, 2,..., k) = (ak ) X t Xak  1 ((ak )t ak  1)  2 (ak )t a1  ...  k (ak )t ak 1 .
n
Anulând derivata parțială în a k obținem:
L 1
 2 X t Xak  21ak  2a1  ...  k ak 1  0 .
ak n
t t t
Folosim procedeul de la etapa 2: înmulțim prima relație, succesiv, cu (a1) , (a2) ,..., (ak-1) , şi obținem 2 = 0 , 3 = 0, ...,
1 t
k = 0. Revenind cu aceste rezultate în prima derivată parțială, obținem X Xak  1ak , ceea ce ne duce la concluzia că
n
1 t
ak este vector propriu al matricei X X , corespunzător valorii proprii 1, şi mai mult, deoarece cantitatea
n
1
(ak )t X t Xak este cea care se maximizează la acest pas, 1 este valoarea proprie de ordin k. Notăm valoarea proprie 1
n
cu k.
Noile axe formează un nou spațiu numit spațiul principal. Semnificația informațională a axelor este dată de
cantitatea de varianță explicată de fiecare axă.
Deducerea componentelor principale în spațiul variabilelor

Analiza în componente principale realizată în spațiul variabilelor își propune identificarea directă a
componentelor principale astfel încât acestea să fie maxim corelate cu variabilele inițiale şi absolut necorelate între ele.
Etapa 1. Se determină prima variabilă sintetică C1 astfel încât aceasta să fie maxim corelată cu variabilele inițiale:
m
 R (C , X
j 1
2
1 j) să fie maximă.
Cov(C1, X j ) 2 t t
1 (C1 ) X j ( X j ) C1
R 2 (C1, X j )  
Var(C1 )Var( X j ) n (C1 )t C1
m m
(C1 )t X j ( X j )t C1 1 (C1 )t XX t C1
 
1
R 2 (C1, X j )  t
=
j 1
n j 1 (C1 ) C1 n (C1 )t C1
Problema care se rezolvă:
1 (C1 )t XX t C1
Maxim C1
n (C1 )t C1
.
1
XX t , corespunzător celei mai mari valori proprii 1.
Soluția o constituie vectorul propriu al matricei
n
Etapa 2. Se determină a doua componentă principală C2, maxim corelată cu variabilele inițiale şi absolut
necorelată cu prima componentă principală C1.
Problema de optim este:
 1 (C 2 ) t XX t C 2
 Maxim
 C2
n (C 2 ) t C 2 .
 R (C , C )  0
 1 2
1
Soluția este vectorul propriu al matricei XX t corespunzător celei de-a doua valori proprii 2:
n
1
XX t  C2   2  C2
n
Etapa k. În mod identic se determină variabila Ck maxim corelată cu variabilele inițiale dar absolut necorelată cu
celelalte variabile noi, Ci, i=1,k-1.
Problema care se rezolvă:
 1 (C k ) t XX t C k

Maxim
 C1
n (C k ) t C k
 R(C , C )  0, i  1, k  1
 k i
1 1
Soluția o constituie vectorul propriu al matricei XX t corespunzător valorii proprii  k: XX t  Ck   k  Ck .
n n

Date Prelucrate: Analiza În Componente Principale

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Date Prelucrate: Analiza În Componente Principale

Încărcat de

Drepturi de autor:

Formate disponibile

Analiza în componente principale

Distanța de la un punct/individ oarecare i la axa D1 corespunzătoare primei componente principale se notează cu

Deducerea componentelor principale în spațiul variabilelor

S-ar putea să vă placă și