Documente Academic
Documente Profesional
Documente Cultură
p
j
j ij i
x x I
1
2
) (
Informaia total ( I ) este suma ptratelor distanelor, aferent celor n uniti, n ipoteza
c fiecare unitate are aceeai pondere, unde:
n
i
I
1
p
j
j ij
x x
1
2
) (
mrime ce n mecanic este denumit ineria norului de puncte.
Problema analizei componentelor principale const n a reduce cele p variabile iniale
ntr-un numr de q variabile denumite "componente principale" sau factori, q<p. Aceasta
presupune trecerea de la o matrice de date de dimensiune {n (uniti) *p (variabile)} de
forma:
1
1
1
1
1
1
1
]
1
np n n
ip i i
p
x x x
x x x
x x x
X
......
... .......... ..........
......
.... .......... ..........
......
2 1
2 1
1 12 11
la o matrice redus, de dimensiune (n*q)
1
1
1
1
1
1
1
]
1
nq n n
iq i i
q
f f f
f f f
f f f
F
......
.......... ..........
......
.......... ..........
......
2 1
2 1
1 12 11
Tehnica utilizat de A.C.P. pentru a trece de la p la q variabilele, q<p, const n a proiecta
norul de puncte pe un subspatiu de dimensiunea q,
q
R
, printr-o deformare minim posibil,
respectiv, pierderea de informaie s fie ct mai mic. Astfel considerm o direcie F n
spaiu, ce poate fi exprimat prin vectorul u,
u =
( )
p
u u u ,.... ,
2 1
Considernd dreapta ce trece prin centrul de greutate i are aceast direcie, vom
putea proiecta fiecare punct al norului pe aceast dreapt. Notnd cu
i
f
lungimea
segmentului ce unete proiecia punctului cu centrul de greutate, avem;
p ip i i i
u x u x u x f + + + ....
2 2 1 1
Informaia total reinut de aceste proiecii este:
n
i
i u
f I
1
2
Scopul A.C.P. const n determinarea acelor direcii ce maximizeaz informaia total
reinut, respectiv (maximizare n raport cu u):
+ + +
n
i
p ip i i u
u x u x u x I
1
2
2 2 1 1
) ... ( max max
cu restricia ca:
1 ...
2 2
2
2
1
+ + +
p
u u u
Ca urmare trebuie identificate principalele direcii (factori principali) ce asigur proiectarea norului
de puncte i furnizarea informaiei maxime.
Factorii principali (componente principale) trebuie s verifice urmtoarele condiii:
variabilele descriptive iniiale
( )
p
X X X ,... ,
2 1 sunt grupate n factori sintetici k
F
printr-o
combinaie liniar, de forma:
p
j
j kj k
x a F
1
p k , 1
factorii, componentele principale, sunt independeni
0 ) , (
m k
F F cor
m k
Procedeul de rezolvare a analizei componentelor principale este prezentat pe scurt n
schema urmtoare:
Matricea datelor iniiale
M( n*p)
Calculul matricii de varian-covarian
Vpp sau a matricii de corelaie R
Extragerea axelor factoriale
(vectorii proprii a lui V sau R)
Alegerea celor k axe principale
Calculul coordonatelor Calculul corelaiilor
unitilor pe axele ntre axele principale
principale i variabilele iniiale
In general variabilele se exprima n uniti de msur diferite, deci sunt eterogene, prelucrarea
datelor sub form iniial nu se recomand, din acest motiv trebuie centrate i eventual reduse.
Dac datele sunt omogene, pentru a gsi axele factoriale ne folosim de matricea de varian i
covarian (V) avnd ca element general
'
jj
V
, covariana dintre variabilele j i j',
'
j j iar
elementele de pe diagonala principal sunt varianele
'
jj
V
a diferitelor variabile.
Aceast matrice V este simetric, ptrat ( p*p ), cu suma elementelor de pe diagonal egal cu
variana total a norului de puncte denumita urma matricii.
,
_
pp p p
p
p
V V V
V V V
V V V
V
.....
.......... ..........
.....
.....
2 1
2 22 21
1 12 11
pp tot
V V V V + + + ...
22 11 -unde ''urma'' matricii V este variana total a norului de puncte ce
exprim informaia total ( I ).
Dac datele sunt eterogene, dup centrarea i reducerea lor, matricea folosit pentru
determinarea axelor factoriale este matricea de corelaie (R), unde
'
jj
r
reprezint coeficientul,
de corelaie dintre variabila j i j',
'
j j
, iar elementele de pe diagonala principal sunt egale
cu 1. In acest caz suma elementelor de pe diagonala principal este egal cu p respectiv
numrul de variabile.
,
_
1 .....
....... ..........
...... 1
...... 1
2 1
2 21
1 12
p p
p
p
r r
r r
r r
R
Principiul acestei metode este acela de a gsi succesiv un prim fator rezumnd cel mai
bine informaia coninut n matricea iniial, apoi al doilea factor, independent de primul,
rezumnd cel mai bine informaia rezidual i se continu pn este reinut toat variana
(informaia). Deci fiecare component principal restituie o parte din informaia iniial, msurat
prin variana sa,
K F
k
2
unde k este o valoare proprie (1) a matricii V sau R, iar
K
K
urmaV
sau
K
K
p
.
Cunoaterea informaiei adus de fiecare factor
K
F
ne furnizeaz date despre direcia
axelor. Acetia sunt vectorii proprii
K
u
asociai diferitelor valori proprii
K
(2).
S-a demonstrat c:
axele factoriale (sau componentele principale) trec prin centrul de gravitaie a norului de
puncte;
axele factoriale sunt vectorii proprii a matricii de varian i covarian (sau a matrici de
corelaie);
valoarea proprie asociat unei axe msoar variana raportat prin acea ax ;
prima component principal este vectorul propriu asociat celei mai mari valori proprii ; a
doua este asociat valorii proprii urmtoare etc... , deci p
....
2 1 .
Componentele principale (axele) sunt caracterizate de urmtoarele proprieti:
axele sunt ortogonale i n consecin sunt independente;
media fiecarei componenta este nul;
cea mai mare parte din variana total a norului de puncte este concentrat pe primele axe.
Alegerea numrului de axe este o problem important. Pentru aceasta exist mai multe
metode. Cea mai uzual este cea a calculrii varianei explicite adus de fiecare ax i
determinarea celei cumulate.
p
K
K
F V
1
1
1
) exp(
p
K
K
F F V
1
2 1
2 1
) , exp(
etc.
Astfel se poate fixa un prag minim pentru variana explicit cumulat de exemplu s
fie n jur de 80% . In momentul n care acest prag este atins se consider c sunt suficiente axele
retinute.
Sigur mai exista i o metoda grafic cat i una empiric.
Calitatea global a reprezentrii va fi msurat prin partea varianei explicat de
planul principal ( )
2 1
, F F , unde :
p
K
K
F F V
1
2 1
2 1
) , exp(
reprezentarea fiind bun dac Vexp este apropiat de 1.
In general este foarte important s poi interpreta axele factoriale. Pentru aceasta
este necesar s revenim la variabilele iniiale. Astfel vom determina importana variabilei
iniiale n formarea factorilor calculnd coeficienii de corelaie dintre variabilele iniiale i
axele factoriale (componentele principale).
Kj
j
k
F X
u r
K j
+
p
j
ij
iK
iK
i
x
f f
1
2
2 2
2
'
cos
o bun reprezentare a unitii i pe planul [Fk,Fk') corespunde unei valori a lui
i
aproape de
1.
Cordonatele componentelor principale se determin din urmtoarea relaie:
F = [X] I U
unde: x - matricea initiala
I - matricea unitate
U - vectoru propriu.
[ ]
k k
IU X F
( )
nk ik k k
f f f F ,... ,...
1
[Uk].
Bibliografie:
1.Lebart L., Morineau A., Piron M., Statistique exploratoire multidimensionnelle, Dunod,
1995, pg.32-48.
2. Volle M., Analyse des donnees, Ed. Economica, Paris, 1997, pg.108-129.
3. Saporta G., Stefanescu V., Analiza datelor & informatica, Ed. Economica, Bucuresti, 1996,
pg. 68-84.