Documente Academic
Documente Profesional
Documente Cultură
Analiza în componente principale (ACP) este cea mai utilizată metodă de analiză a datelor. A fost propusă de
Hotteling în 1938, dar necesitând numeroase și laborioase calcule s-a impus în practică abia începând cu anii 70 odată cu
apariția calculatoarelor. ACP sintetizează informația conținută în tabelele de date cantitative de mari dimensiuni, cu un
mare număr de instanțe și de variabile. O colectivitate statistică descrisă printr-un număr mare de variabile este greu de
studiat. ACP determină un număr mai mic de variabile noi, numite componente principale, care concentrează informația,
variabilitatea existentă la nivelul colectivității studiate. Componentele principale sunt construite sub formă de combinație
liniară de variabile inițiale, care concentrează o cât mai mare parte din varianță. Astfel, prima componentă principală
preia maximul din varianța variabilelor originale, a doua componentă preia maximul de varianță rămasă, neexplicată de
prima componentă principală, a treia componentă preia maximul din varianța rămasă, neexplicată de primele două
componente, şamd.
ACP se utilizează ca instrument de analiză statistică în multe domenii de activitate, inclusiv în recunoașterea
formelor sau în scalarea multidimensională din grafică. În recunoașterea de forme, prin ACM se asigură selectarea
caracteristicilor esențiale, semnificative ale formelor analizate, caracteristici care asigură puterea cea mai mare de
discriminare. În grafică se asigură reprezentarea în 2D sau 3D a unor obiecte aflate in spații multidimensionale.
Date prelucrate
Datele analizate apar sub forma unui tabel de observații cu n linii şi m coloane:
x11 ... x1m
X ...
x n1 .. x nm
unde xij este valoarea luata de variabila j la individul i. Variabilele tabelului X mai sunt numite și variabile observate sau
variabile cauzale. Acestea sunt standardizate (medie 0 și varianță 1).
Se notează cu X j vectorul coloană format din valorile variabilei j pentru cei n indivizi.
Obiectivul propus este concentrarea varianței conținute de tabelul X într-un număr redus de variabile noi, numite
componente principale, absolut necorelate între ele, notate astfel: C1, C2, ..., Cs.
Determinarea acestor variabile se face succesiv, astfel:
Etapa 1. Se determină variabila sintetică C1, prima componentă principală, ca o combinație liniară de variabile
X j:
C1 a11 X1 ... a j1 X j ... am1 X m .
Valoarea înregistrată de o instanță oarecare, i, pentru componenta principală C1 este:
ci1 a11xi1 ... a j1xij ... am1xim .
a11
a
= vectorul care conține coeficienții legăturii liniare dintre variabilele observate și
21
Notăm cu a1
...
am1
componenta C1.
Etapa k. Se determină variabila sintetică Ck, combinație liniară de variabile X:
Ck a1k X1 ... a jk X j ... amk X m ,
a1k
a
unde ak =
2k
este vectorul coeficienților legăturii liniare cu variabilele observate.
...
amk
Analiza în componente principale poate fi abordată atât din perspectiva instanțelor cât și din perspectiva
variabilelor analizate. Atunci când efectuăm analiza la nivelul instanțelor, componentele principale vor fi determinate
astfel încât varianța lor sa fie maximă, deci instanțele să asigure o maximă variabilitate componentelor. Când analiza se
efectuează la nivelul variabilelor, deducerea componentelor principale se face astfel încât acestea sa fie maxim corelate
cu variabilele observate și absolut necorelate între ele. Ambele modalități de deducere a componentelor principale conduc
la aceleași rezultate după cum se va vedea în continuare.
Etapa 1. Se determină axa 1, corespunzătoare primei componente principale , astfel încât indivizii să fie cat mai
bine reprezentați pe această axă (varianța componentei sa fie maximă). Se notează cu O centrul de greutate al norului de
puncte.
*
i
*
*
* Ci1
* * *
O
*
*
*
*
*
Figura 2.1
c
1 1 1
d (i, O) 2 d (i, D1 ) 2 2
i1 .
n i 1 n i 1 n i 1
Suma distanțelor către centrul de greutate este constantă (nu depinde de alegerea axei). Varianța explicată prin
n
1 1
c
1
axa 1 este
2
i1 care matriceal se poate scrie (C1 ) t C1 (a1 ) t X t Xa1 . Problema se poate pune complementar
n i 1 n n
în două moduri cu același rezultat:
1. Se maximizează varianța explicată prin axa 1,
2. Se minimizează suma distanțelor punctelor la axa 1.
Problema de optim care se rezolvă este următoarea:
1
Max (a1 ) X Xa1
t t
a1 n .
(a1 ) a1 1
t
Folosind metoda multiplicatorilor Langrange pentru rezolvarea acestei probleme de extrem cu restricții, funcția
1
Lagrangean asociată acestei probleme este: L(a1,) = (a1 ) X Xa1 ((a1 ) a1 1) .
t t t
n
Prin anularea derivatelor parțiale se obține:
L 1
2 X t Xa1 2a1 0 ,
a1 n
L
(a1 )t a1 1 0 .
1 t 1
Din prima relație rezultă X Xa1 a1 . Prin urmare a1 este vector propriu al matricei X t X corespunzător
n n
1
valori proprii . Înmulțind această ultimă relație la stânga cu (a1) rezultă: (a1 ) t X t Xa1 . Deoarece cantitatea
t
n
1
(a1 ) t X t Xa1 este tocmai cea care se maximizează, rezultă că este cea mai mare valoare proprie iar a1 este vectorul
n
propriu corespunzător ei. Vom nota cu 1.
Etapa 2. Se determină axa 2 de vector a2 astfel încât aceasta să fie ortogonală în raport cu axa 1 şi să maximizeze
varianța explicată (punctele reprezentând indivizii să fie cât mai răsfirați pe axă). Optimizarea aplicată este:
1 t t
Max n (a2 ) X Xa2
a2
(a2 )t a2 1
(a2 )t a1 0
Funcția Lagrangean asociată este:
1
L(a2,1, 2) = (a2 ) t X t Xa2 1 ((a2 ) t a2 1) 2 (a2 ) t a1 .
n
Anularea derivatei parțiale în funcție de a2:
L 1
2 X t Xa2 21a2 2 a1 0 .
a2 n
Dacă înmulțim această relație la stânga cu (a1)t obținem:
1
2 (a1 ) t X t Xa2 21 (a1 ) t a2 2 (a1 ) t a1 0 .
n
1 1
Avem (a1 ) t a 2 0 . Deoarece X t Xa1 1a1 , prin transpunere rezultă că şi (a1 )t X t X 1 (a1 )t deoarece
n n
t
matricea X X este simetrică.
1 1
Atunci: 2 (a1 )t X t Xa2 2 1 (a1 )t a2 0 . Prin urmare 2 0.
n n
1
Înlocuind în derivată, obținem X t Xa2 1a2 , deci a2 este vector propriu corespunzător valorii proprii 1 , iar
n
1 1
această valoare proprie este maximă conform relației, (a2 )t X t Xa2 1 , deoarece cantitatea (a2 )t X t Xa2 este cea
n n
care se maximizează la această etapă. Vom nota această valoare proprie cu 2.
Etapa k. Se determină axa k de vector ak astfel încât aceasta să fie ortogonală în raport cu axele anterioare şi sa
maximizeze, de asemenea, varianța explicată.
Problema de optim care se rezolvă este următoarea:
1
Max (ak ) t X t Xak
ak n
(a ) t a 1 .
k k
(ak ) t a j 0, j 1, k 1
Funcția Lagrangean asociată este:
1
L(ak,1, 2,..., k) = (ak ) X t Xak 1 ((ak )t ak 1) 2 (ak )t a1 ... k (ak )t ak 1 .
n
Anulând derivata parțială în ak obținem:
L 1
2 X t Xak 21ak 2a1 ... k ak 1 0 .
ak n
t t t
Folosim procedeul de la etapa 2: înmulțim prima relație, succesiv, cu (a1) , (a2) ,..., (ak-1) , şi obținem 2 = 0 , 3 = 0, ...,
1 t
k = 0. Revenind cu aceste rezultate în prima derivată parțială, obținem X Xak 1ak , ceea ce ne duce la concluzia că
n
1 t
ak este vector propriu al matricei X X , corespunzător valorii proprii 1, şi mai mult, deoarece cantitatea
n
1
(ak )t X t Xak este cea care se maximizează la acest pas, 1 este valoarea proprie de ordin k. Notăm valoarea proprie 1
n
cu k.
Noile axe formează un nou spațiu numit spațiul principal. Semnificația informațională a axelor este dată de
cantitatea de varianță explicată de fiecare axă.