Acp1 PDF

Analiza în componente principale
Date prelucrate ................................................................................................................................... 1

Deducerea componentelor principale în spațiul instanțelor. Abordarea geometrică a
modelului............................................................................................................................................. 2
Analiza în componente principale (ACP) este cea mai utilizată metodă de analiză a datelor. A fost propusă de
Hotteling în 1938, dar necesitând numeroase și laborioase calcule s-a impus în practică abia începând cu anii 70 odată cu
apariția calculatoarelor. ACP sintetizează informația conținută în tabelele de date cantitative de mari dimensiuni, cu un
mare număr de instanțe și de variabile. O colectivitate statistică descrisă printr-un număr mare de variabile este greu de
studiat. ACP determină un număr mai mic de variabile noi, numite componente principale, care concentrează informația,
variabilitatea existentă la nivelul colectivității studiate. Componentele principale sunt construite sub formă de combinație
liniară de variabile inițiale, care concentrează o cât mai mare parte din varianță. Astfel, prima componentă principală
preia maximul din varianța variabilelor originale, a doua componentă preia maximul de varianță rămasă, neexplicată de
prima componentă principală, a treia componentă preia maximul din varianța rămasă, neexplicată de primele două
componente, şamd.
ACP se utilizează ca instrument de analiză statistică în multe domenii de activitate, inclusiv în recunoașterea
formelor sau în scalarea multidimensională din grafică. În recunoașterea de forme, prin ACM se asigură selectarea
caracteristicilor esențiale, semnificative ale formelor analizate, caracteristici care asigură puterea cea mai mare de
discriminare. În grafică se asigură reprezentarea în 2D sau 3D a unor obiecte aflate in spații multidimensionale.
Date prelucrate
Datele analizate apar sub forma unui tabel de observații cu n linii şi m coloane:
 x11 ... x1m 
X   ... 

 x n1 .. x nm 
unde xij este valoarea luata de variabila j la individul i. Variabilele tabelului X mai sunt numite și variabile observate sau
variabile cauzale. Acestea sunt standardizate (medie 0 și varianță 1).
Se notează cu X j vectorul coloană format din valorile variabilei j pentru cei n indivizi.
Obiectivul propus este concentrarea varianței conținute de tabelul X într-un număr redus de variabile noi, numite
componente principale, absolut necorelate între ele, notate astfel: C1, C2, ..., Cs.
Determinarea acestor variabile se face succesiv, astfel:
Etapa 1. Se determină variabila sintetică C1, prima componentă principală, ca o combinație liniară de variabile
X j:
C1  a11 X1  ...  a j1 X j  ...  am1 X m .
Valoarea înregistrată de o instanță oarecare, i, pentru componenta principală C1 este:
ci1  a11xi1  ...  a j1xij  ...  am1xim .
 a11 
a 
=   vectorul care conține coeficienții legăturii liniare dintre variabilele observate și
21
Notăm cu a1
 ... 
 
 am1 
componenta C1.
Etapa k. Se determină variabila sintetică Ck, combinație liniară de variabile X:
Ck  a1k X1  ...  a jk X j  ...  amk X m ,
 a1k 
a 
unde ak = 
2k 
este vectorul coeficienților legăturii liniare cu variabilele observate.
 ... 
 
amk 
Analiza în componente principale poate fi abordată atât din perspectiva instanțelor cât și din perspectiva
variabilelor analizate. Atunci când efectuăm analiza la nivelul instanțelor, componentele principale vor fi determinate
astfel încât varianța lor sa fie maximă, deci instanțele să asigure o maximă variabilitate componentelor. Când analiza se
efectuează la nivelul variabilelor, deducerea componentelor principale se face astfel încât acestea sa fie maxim corelate
cu variabilele observate și absolut necorelate între ele. Ambele modalități de deducere a componentelor principale conduc
la aceleași rezultate după cum se va vedea în continuare.
Deducerea componentelor principale în spațiul instanțelor. Abordarea geometrică a

modelului
Instanțele formează un nor de n puncte într-un spațiu m-dimensional, în care cele m variabile sunt proiecțiile
instanțelor pe m axe de reprezentare.
În abordarea geometrică determinăm un sistem de axe ortonormat (axe ortogonale și de norma 1) în care vor fi
reprezentate cele n puncte. Fiecare axă corespunde unei componente principale, iar vectorii ak vor fi vectori unitari ai
m
axelor (versori), deci a
j 1
kj
2
=1, k = 1, s , unde s este numărul maxim de axe.
Etapa 1. Se determină axa 1, corespunzătoare primei componente principale , astfel încât indivizii să fie cat mai
bine reprezentați pe această axă (varianța componentei sa fie maximă). Se notează cu O centrul de greutate al norului de
puncte.
*
i
*
*
* Ci1
* * *
O
*
*
*
*
*
Figura 2.1
Distanța de la un punct/individ oarecare i la axa D1 corespunzătoare primei componente principale se notează cu

d(i,D1), iar distanţa de la punctul i la originea O cu d(i,O). Există următoarea relație între distanțe:
2 2 2
d(i,O) = d(i,D1) + ci1 ,
unde ci1 este proiecția punctului i pe axa D1.
Pentru toate punctele:
n n n
  c
1 1 1
d (i, O) 2  d (i, D1 ) 2  2
i1 .
n i 1 n i 1 n i 1
Suma distanțelor către centrul de greutate este constantă (nu depinde de alegerea axei). Varianța explicată prin
n
1 1
c
1
axa 1 este
2
i1 care matriceal se poate scrie (C1 ) t C1  (a1 ) t X t Xa1 . Problema se poate pune complementar
n i 1 n n
în două moduri cu același rezultat:
1. Se maximizează varianța explicată prin axa 1,
2. Se minimizează suma distanțelor punctelor la axa 1.
Problema de optim care se rezolvă este următoarea:
 1
Max (a1 ) X Xa1
t t
 a1 n .

 (a1 ) a1  1
t
Folosind metoda multiplicatorilor Langrange pentru rezolvarea acestei probleme de extrem cu restricții, funcția
1
Lagrangean asociată acestei probleme este: L(a1,) = (a1 ) X Xa1   ((a1 ) a1  1) .
t t t
n
Prin anularea derivatelor parțiale se obține:
L 1
 2 X t Xa1  2a1  0 ,
a1 n
L
 (a1 )t a1  1  0 .

1 t 1
Din prima relație rezultă X Xa1  a1 . Prin urmare a1 este vector propriu al matricei X t X corespunzător
n n
1
valori proprii . Înmulțind această ultimă relație la stânga cu (a1) rezultă: (a1 ) t X t Xa1   . Deoarece cantitatea
t
n
1
(a1 ) t X t Xa1 este tocmai cea care se maximizează, rezultă că  este cea mai mare valoare proprie iar a1 este vectorul
n
propriu corespunzător ei. Vom nota  cu 1.
Etapa 2. Se determină axa 2 de vector a2 astfel încât aceasta să fie ortogonală în raport cu axa 1 şi să maximizeze
varianța explicată (punctele reprezentând indivizii să fie cât mai răsfirați pe axă). Optimizarea aplicată este:
 1 t t
 Max n (a2 ) X Xa2
 a2

 (a2 )t a2  1
 (a2 )t a1  0

Funcția Lagrangean asociată este:
1
L(a2,1, 2) = (a2 ) t X t Xa2  1 ((a2 ) t a2  1)  2 (a2 ) t a1 .
n
Anularea derivatei parțiale în funcție de a2:
L 1
 2 X t Xa2  21a2  2 a1  0 .
a2 n
Dacă înmulțim această relație la stânga cu (a1)t obținem:
1
2 (a1 ) t X t Xa2  21 (a1 ) t a2  2 (a1 ) t a1  0 .
n
1 1
Avem (a1 ) t a 2  0 . Deoarece X t Xa1  1a1 , prin transpunere rezultă că şi (a1 )t X t X  1 (a1 )t deoarece
n n
t
matricea X X este simetrică.
1 1
Atunci: 2 (a1 )t X t Xa2  2 1 (a1 )t a2  0 . Prin urmare  2  0.
n n
1
Înlocuind în derivată, obținem X t Xa2  1a2 , deci a2 este vector propriu corespunzător valorii proprii 1 , iar
n
1 1
această valoare proprie este maximă conform relației, (a2 )t X t Xa2  1 , deoarece cantitatea (a2 )t X t Xa2 este cea
n n
care se maximizează la această etapă. Vom nota această valoare proprie cu 2.
Etapa k. Se determină axa k de vector ak astfel încât aceasta să fie ortogonală în raport cu axele anterioare şi sa
maximizeze, de asemenea, varianța explicată.
Problema de optim care se rezolvă este următoarea:
 1
 Max (ak ) t X t Xak
 ak n
 (a ) t a  1 .
 k k
 (ak ) t a j  0, j  1, k  1

Funcția Lagrangean asociată este:
1
L(ak,1, 2,..., k) = (ak ) X t Xak  1 ((ak )t ak  1)  2 (ak )t a1  ...  k (ak )t ak 1 .
n
Anulând derivata parțială în ak obținem:
L 1
 2 X t Xak  21ak  2a1  ...  k ak 1  0 .
ak n
t t t
Folosim procedeul de la etapa 2: înmulțim prima relație, succesiv, cu (a1) , (a2) ,..., (ak-1) , şi obținem 2 = 0 , 3 = 0, ...,
1 t
k = 0. Revenind cu aceste rezultate în prima derivată parțială, obținem X Xak  1ak , ceea ce ne duce la concluzia că
n
1 t
ak este vector propriu al matricei X X , corespunzător valorii proprii 1, şi mai mult, deoarece cantitatea
n
1
(ak )t X t Xak este cea care se maximizează la acest pas, 1 este valoarea proprie de ordin k. Notăm valoarea proprie 1
n
cu k.
Noile axe formează un nou spațiu numit spațiul principal. Semnificația informațională a axelor este dată de
cantitatea de varianță explicată de fiecare axă.

Acp1 PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Acp1 PDF

Încărcat de

Drepturi de autor:

Formate disponibile

Analiza în componente principale

Date prelucrate ................................................................................................................................... 1

Deducerea componentelor principale în spațiul instanțelor. Abordarea geometrică a

Distanța de la un punct/individ oarecare i la axa D1 corespunzătoare primei componente principale se notează cu

S-ar putea să vă placă și