Documente Academic
Documente Profesional
Documente Cultură
Denici
on y obtenci
on de las componentes principales
Propiedades de las componentes principales
Reducci
on de la dimensi
on
Consideremos la distancia eucldea (al cuadrado) entre los individuos p
La variaci
on total de X se dene como tr(S) = i=1 i .
i-esimo y j-esimo, en las nuevas coordenadas:
La variaci
on total de Y = X T es igual a la variacion total de X:
d2Euclid (i, j) = (yi yj )(yi yj ) = (xi T xj T)(T xi T xj )
1 p
= (xi xj ) T T (xi xj ) = (xi xj )(xi xj ) tr(var(Y)) = tr T X X T = tr(T S T) = tr(T T T T) = i .
n i=1
Ignorando orientaciones, podemos pensar la transformaci
on como
puesto que, S = T T , donde T es una matriz ortogonal.
una rotaci
on en Rp .
El primero de los nuevos ejes (la primera componente principal) es la Cuando el cociente (porcentaje de variabilidad explicada)
direccion a lo largo de la cual la dispersi
on de los puntos-individuos q
i
es maxima. Sucesivamente, cada componente principal es aquella Pq = i=1 100, q < p,
tr S
direccion, ortogonal a las anteriores, a lo largo de la cual hay
es cercano a 100%, entonces las variables Y1 , . . . , Yq pueden
dispersion maxima.
reemplazar a X1 , . . . , Xp sin gran perdida de informacion, en
terminos de variaci on total.
= diag(1.7245, 0.2755),
=
T . 3
0.2
0.6
2 2
X /s
Y2
2
Por tanto, las componentes principales son: 1.5
0.8
0.5 1.4
Siguiendo con el segundo ejemplo, las dos primeras componentes Las correlaciones entre las componentes principales y las variables
principales obtenidas a partir de R son: originales son:
Y1 Y2 Y1 Y2
Determinaci
on del n
umero de componentes
A.C.P. a partir de R (54.1806%)
10 1. Procentaje explicado. Es el metodo mas sencillo. Consiste en
31
jar un porcentaje de variabilidad explicado, por ejemplo el 90%,
5 y considerar las sucesivas componentes principales hasta superar
2a. C.P.
48 3
57
53 6849 80 5579 el porcentaje prejado.
9469 82 45688
29 24855 52 50 5143 666
0 21 6541
44
7154 28
27
30 22
59
70 2360
89
92 91 67 9 16
4234
2 95
863 64
1815
12
7835
96
93
7281 1746
58 19 77 45
3274
11
73 4090
76
7338426
14 75
61
87
10 3962 38 47 86
1 13 20 36 83 37
25 2. Criterio de Kaisser. Se excluyen aquellas componentes cuyos
5 autovalores sean menores que = tr(S)/p, o bien menores que 1
3 2 1 0 1 2 3 4 5 6
1a Componente Principal si se han calculado las componentes a partir de R.
Segun este ndice, Canad
a (16), Francia (37) y Reino Unido (75) seran los 3. Modicaci on de Jollife. Se ha comprobado que cuando p 20
pases con mayor grado de desarrollo, mientras que Yemen (94), Hait (42) el criterio de Kaisser tiende a incluir pocas componentes. La
y Angola (2) seran los de menor grado. Por otro lado, Ir an (48), Arabia modicaci on de Jollife excluye aquellas componentes cuyos
Saud (3) y Emiratos Arabes (31) son los pases con un mayor valor en la = 0.7 tr(S)/p, o bien que 0.7
autovalores sean menores que 0.7
segunda componente principal.
si se han calculado las componentes a partir de R.
Diplomatura en Estadstica 25 Diplomatura en Estadstica 26
30
% variabilidad
25
H
20
L
15
10
0
La tabla siguiente contiene estas variables medidas en mm.
1 2 3 4 5 6 7 8 9 10 11
autovalor
2a. C.P.
14
16
[T1,Y1,acum1,T2,Y2,acum2]=comp(X) 9 78
10
0 15 18 20
6
1 2 12
11 21 22
4 5 19
T1 = 3 24
5 23
0.8139 0.5549 0.1723 60 40 20 0 20 40 60
1a. Componente Principal
0.4961 -0.8180 0.2911
0.3025 -0.1514 -0.9411 Pregunta: Si los autovalores de la matriz de covarianzas son: