Documente Academic
Documente Profesional
Documente Cultură
1 / 25
Anlisis Multivariado
2 / 25
Introduccin
Como punto de partida consideremos un conjunto de p variables aleatorias continuas que estn relacionadas entre si. El Anlisis de Componentes Principales se reere a tratar de explicar la estructura de variabilidad - relacin entre las variables a travs de unas pocas variables articiales construidas a partir de las originales. En general, los objetivos de esta tcnica son dos:
reduccin de los datos interpretacin
4 / 25
Introduccin
Se pretende transformar un conjunto de p variables aleatorias correlacionadas en otro conjunto ms chico de variables hipotticas no correlacionadas. Las componentes principales se utilizan para descubrir e interpretar interdependencias entre variables y examinar relaciones que puedan existir entre los individuos. Se busca denir nuevas variables como combinacin lineal de las X originales con la menor prdida de informacin posible. Se desea encontrar un subespacio de dimensin r < p tal que al proyectar los puntos sobre ese espacio conserven su estructura con la menor distorsin posible. Esto se logra exigiendo que las distancias entre los puntos originales y sus proyeciones sobre el subespacio de dimensin r sean lo mas pequeas posibles.
5 / 25
6 / 25
Enfoque descriptivo
En consecuencia, si consideramos un punto xi y una direccin a1 = (a11 , a12 , ..., a1p ) denida por un vector a1 de norma unidad, la proyeccin del punto xi sobre esta direccin es el escalar: zi = a11 xi 1 + + a1p xip = a1 xi y el vector que representa esta proyeccin ser zi . Llamando ri a la distancia entre el punto xi y su proyeccin sobre la direccin a1 , este criterio implica:
n n
min
i =1
ri2
=
i =1
|xi zi |2
7 / 25
Enfoque descriptivo
La gura anterior muestra que al proyectar cada punto sobre la recta se forma un tringulo rectngulo donde la hipotenusa es la distancia del punto al origen, (xi xi )1/2 y los catetos corresponden a la proyeccin del punto sobre la recta zi y la distancia entre el punto y su proyeccin ri respectivamente. Por el teorema de Pitgoras y sumando para todos los individuos podemos escribir:
n n n
xi xi =
i =1 i =1
zi2
+
i =1
ri2
El primer miembro de la igualdad es constante y minimizar la suma de las distancias a la recta de todos los puntos es equivalente a maximizar la suma al cuadrado de los valores de las proyecciones.
8 / 25
Enfoque descriptivo
Como las proyecciones zi son por denicin variables de media cero, maximizar la suma de sus cuadrados es equivalente a maximizar su variancia y el criterio para encontrar la direccin de proyecciones consiste en hallar la direccin que maximice la variancia de los datos proyectados. Un criterio equivalente: buscar la direccin tal que los puntos proyectados sobre ella conserven lo mejor posible sus distancias relativas.
9 / 25
Enfoque estadstico
Representar puntos p dimensionales con la mnima prdida de informacin en un espacio de dimensin 1 es equivalente a sustituir las p variables originales por una nueva variable z1 que resuma ptimamente la informacin. Esto supone que la nueva variable debe tener la mxima correlacin con las variables originales y debe ser posible recuperar o pronosticar los valores de las variables originales con la mxima precisin. La condicin para que podamos pronosticar los datos observados con la mnima prdida de informacin es utilizar la variable de mxima variabilidad.
10 / 25
Enfoque geomtrico
Si consideramos la nube de puntos del grco anterior, vemos que los puntos se sitan formando una elipse, y podemos describirlos por su proyeccin en la direccin del eje mayor de la elipse. Se puede demostrar que este eje es la recta que minimiza las distancias ortogonales con lo cual volvemos al problema que ya planteamos y resolvimos. Si generalizamos el problema a dimensiones mas grandes, los datos denirn hiperelipsoides y la mejor aproximacin de los datos se obtiene por su proyeccin sobre el eje mayor del mismo. Si se desea encontrar la mejor aproximacin en dos dimensiones, se obtendr la proyeccin sobre el plano de los dos ejes mayores del elipsoide y as sucesivamente.
11 / 25
13 / 25
15 / 25
16 / 25
Si en lugar de maximizar la suma de las variancias (la traza de la matriz de covariancias de la proyeccin) se maximiza la variancia generalizada (el determinante de la matriz de covariancias) se obtiene el mismo resultado. Puede demostrarse con un razonamiento anlogo que el espacio de dimensin r que mejor representa a los puntos viene denido por los autovectores asociados a los r autovalores mas grandes de la matriz S . Estas direcciones se denominan direcciones principales.
18 / 25
Generalizacin
En general la matriz X (y por lo tanto S ) tiene rango p, entonces existen tantas componentes principales como variables originales. Se obtendrn calculando los autovalores 1 ,2 ,. . . , p de la matriz de variancias y covariancias S resolviendo |S I | = 0 y sus vectores asociados son: (S i I )ai = 0 Los trminos i son reales y positivos ya que S es simtrica y denida positiva. Por simetra de S , si i y h son dos races distintas sus vectores asociados son ortogonales. Si S fuera semidenida positiva de rango r < p habra solamente r autovalores positivos y el resto seran iguales a 0.
19 / 25
Generalizacin
Llamando Z a la matriz cuyas columnas son los valores de los p componentes en los n individuos, estas nuevas variables estn relacionadas con las originales mediante la relacin Z = XA donde A A = I . Calcular los componentes principales equivale a aplicar una transformacin ortogonal A a las variables X (ejes originales) para obtener unas nuevas variables Z no correlacionadas entre si. Esta operacin se puede interpretar como la eleccin de nuevos ejes coordenados, que coincidan con los ejes naturales de los datos.
20 / 25
Propiedades
Las Componentes Principales conservan la variabilidad inicial: la suma de las variancias de los componentes es igual a la suma de las variancias de las variables originales y la variancia generalizada de los componentes es igual a la original.
p p
var (Xi ) = 1 + 2 + + p =
i =1 i =1
var (zi )
La proporcin de variabilidad explicada por un componente es el cociente entre su variancia (el autovalor asociado al autovector que lo dene) y la suma de los autovalores de la matriz S. VarExp(zi ) = i (1 + 2 + + p )
21 / 25
Propiedades
La correlacin entre un componente principal y una variable X es proporcional al coeciente de esa variable en la denicin de la componente, donde el coeciente de proporcionalidad es el cociente entre el desvo estndar del componente y el desvo estndar de la variable. aik i corr (zi , Xk ) = var (Xk ) Si estandarizamos los componentes principales dividiendo cada uno por su desvo estndar se obtiene la estandarizacin multivariante de los datos originales.
22 / 25
M=
i =1
ai2 si2 + 2
i =1 j =i +1
ai aj sij
sujeto a la restriccin a a = 1. Cuando las escalas de medida de las variables son muy distintas, la maximizacin de M depender decisivamente de estas escalas y las variables con valores mas grandes tendrn mayor peso en el anlisis. Con variables estandarizadas el problema de maximizacin es:
p p
M =1+2
i =1 j =i +1
Alejandra Clemente (UTDT) Anlisis Estadstico Multivariado
ai aj rij
Segundo Trimestre de 2010 23 / 25
R i = traza(R ) = p
i =1
Las propiedades de los componentes extrados de R son: La proporcin de variancia explicada por cada componente ser R i /p Las correlaciones entre cada componente zj = Xaj y las variables originales X vienen dados directamente por ai
Alejandra Clemente (UTDT) Anlisis Estadstico Multivariado
R j .
24 / 25
25 / 25