Sunteți pe pagina 1din 23

Alejandra Clemente (UTDT)

Anlisis Estadstico Multivariado

Segundo Trimestre de 2010

1 / 25

Anlisis Multivariado

Anlisis de Componentes Principales Introduccin Determinacin de las componentes

Alejandra Clemente (UTDT)

Anlisis Estadstico Multivariado

Segundo Trimestre de 2010

2 / 25

Introduccin
Como punto de partida consideremos un conjunto de p variables aleatorias continuas que estn relacionadas entre si. El Anlisis de Componentes Principales se reere a tratar de explicar la estructura de variabilidad - relacin entre las variables a travs de unas pocas variables articiales construidas a partir de las originales. En general, los objetivos de esta tcnica son dos:
reduccin de los datos interpretacin

Alejandra Clemente (UTDT)

Anlisis Estadstico Multivariado

Segundo Trimestre de 2010

4 / 25

Introduccin
Se pretende transformar un conjunto de p variables aleatorias correlacionadas en otro conjunto ms chico de variables hipotticas no correlacionadas. Las componentes principales se utilizan para descubrir e interpretar interdependencias entre variables y examinar relaciones que puedan existir entre los individuos. Se busca denir nuevas variables como combinacin lineal de las X originales con la menor prdida de informacin posible. Se desea encontrar un subespacio de dimensin r < p tal que al proyectar los puntos sobre ese espacio conserven su estructura con la menor distorsin posible. Esto se logra exigiendo que las distancias entre los puntos originales y sus proyeciones sobre el subespacio de dimensin r sean lo mas pequeas posibles.

Alejandra Clemente (UTDT)

Anlisis Estadstico Multivariado

Segundo Trimestre de 2010

5 / 25

Alejandra Clemente (UTDT)

Anlisis Estadstico Multivariado

Segundo Trimestre de 2010

6 / 25

Enfoque descriptivo
En consecuencia, si consideramos un punto xi y una direccin a1 = (a11 , a12 , ..., a1p ) denida por un vector a1 de norma unidad, la proyeccin del punto xi sobre esta direccin es el escalar: zi = a11 xi 1 + + a1p xip = a1 xi y el vector que representa esta proyeccin ser zi . Llamando ri a la distancia entre el punto xi y su proyeccin sobre la direccin a1 , este criterio implica:
n n

min
i =1

ri2

=
i =1

|xi zi |2

Donde la notacin |u | representa la norma eucldea o mdulo del vector u.

Alejandra Clemente (UTDT)

Anlisis Estadstico Multivariado

Segundo Trimestre de 2010

7 / 25

Enfoque descriptivo
La gura anterior muestra que al proyectar cada punto sobre la recta se forma un tringulo rectngulo donde la hipotenusa es la distancia del punto al origen, (xi xi )1/2 y los catetos corresponden a la proyeccin del punto sobre la recta zi y la distancia entre el punto y su proyeccin ri respectivamente. Por el teorema de Pitgoras y sumando para todos los individuos podemos escribir:
n n n

xi xi =
i =1 i =1

zi2

+
i =1

ri2

El primer miembro de la igualdad es constante y minimizar la suma de las distancias a la recta de todos los puntos es equivalente a maximizar la suma al cuadrado de los valores de las proyecciones.

Alejandra Clemente (UTDT)

Anlisis Estadstico Multivariado

Segundo Trimestre de 2010

8 / 25

Enfoque descriptivo
Como las proyecciones zi son por denicin variables de media cero, maximizar la suma de sus cuadrados es equivalente a maximizar su variancia y el criterio para encontrar la direccin de proyecciones consiste en hallar la direccin que maximice la variancia de los datos proyectados. Un criterio equivalente: buscar la direccin tal que los puntos proyectados sobre ella conserven lo mejor posible sus distancias relativas.

Alejandra Clemente (UTDT)

Anlisis Estadstico Multivariado

Segundo Trimestre de 2010

9 / 25

Enfoque estadstico
Representar puntos p dimensionales con la mnima prdida de informacin en un espacio de dimensin 1 es equivalente a sustituir las p variables originales por una nueva variable z1 que resuma ptimamente la informacin. Esto supone que la nueva variable debe tener la mxima correlacin con las variables originales y debe ser posible recuperar o pronosticar los valores de las variables originales con la mxima precisin. La condicin para que podamos pronosticar los datos observados con la mnima prdida de informacin es utilizar la variable de mxima variabilidad.

Alejandra Clemente (UTDT)

Anlisis Estadstico Multivariado

Segundo Trimestre de 2010

10 / 25

Enfoque geomtrico
Si consideramos la nube de puntos del grco anterior, vemos que los puntos se sitan formando una elipse, y podemos describirlos por su proyeccin en la direccin del eje mayor de la elipse. Se puede demostrar que este eje es la recta que minimiza las distancias ortogonales con lo cual volvemos al problema que ya planteamos y resolvimos. Si generalizamos el problema a dimensiones mas grandes, los datos denirn hiperelipsoides y la mejor aproximacin de los datos se obtiene por su proyeccin sobre el eje mayor del mismo. Si se desea encontrar la mejor aproximacin en dos dimensiones, se obtendr la proyeccin sobre el plano de los dos ejes mayores del elipsoide y as sucesivamente.

Alejandra Clemente (UTDT)

Anlisis Estadstico Multivariado

Segundo Trimestre de 2010

11 / 25

Determinacin de las componentes


El primer componente principal se dene como la combinacin lineal de las variables originales que tiene variancia mxima. Los valores en este primer componente para los n individuos se representarn por un vector z1 dado por: z1 = Xa1 Como asumimos que las variables originales estaban centradas, z1 tambin tendr media 0. Su variancia ser: 1 1 z z1 = a1 X Xa1 = a1 Sa1 n 1 n donde S es la matriz de variancias y covariancias de las observaciones.

Alejandra Clemente (UTDT)

Anlisis Estadstico Multivariado

Segundo Trimestre de 2010

13 / 25

Determinacin de las componentes


Es claro que podemos maximizar la variancia arbitrariamente aumentando el mdulo del vector a1 . Para prevenir esta situacin y que la maximizacin de la variancia anterior tenga solucin imponemos una restriccin al mdulo del vector a1 , y sin prdida de generalidad impondremos que tenga norma unitaria, a1 a1 = 1. Introducimos esta restriccin mediante un multiplicador de Lagrange: M = a1 Sa1 (a1 a1 1) Derivando respecto a a1 e igualando a 0 y obtenemos: M = 2Sa1 2a1 = 0 a1 y obtenemos Sa1 = a1
Alejandra Clemente (UTDT) Anlisis Estadstico Multivariado Segundo Trimestre de 2010 14 / 25

Determinacin de las componentes


La solucin anterior implica que a1 es un autovector de la matriz S y su correspondiente autovalor. Para determinar que autovalor de S es el que corresponde a la solucin anterior, podemos premultiplicar por a1 esta ecuacin: a1 Sa1 = a1 a1 y concluimos que es la variancia de z1 . Como esta es la cantidad que queremos maximizar, ser el autovalor ms grande de la matriz S . El autovector a1 contiene los coecientes de cada variable en la combinacin lineal que dene al primer componente principal.

Alejandra Clemente (UTDT)

Anlisis Estadstico Multivariado

Segundo Trimestre de 2010

15 / 25

Determinacin de las componentes


Ahora vamos a obtener el mejor plano de proyeccin de las variables X . Establemos como funcin objetivo que la suma de las variancias de z1 = Xa1 y z2 = Xa2 sea mxima, donde a1 y a2 son los vectores que denen el plano. La funcin objetivo ser: Q = a1 Sa1 + a2 Sa2 1 (a1 a1 1) 2 (a2 a2 1) que ya incorpora restricciones acerca de la norma de los vectores ai . Derivando e igualando a cero obtenemos un sistema de ecuaciones que nos permiten averiguar los vectores que denen el mejor plano de proyeccin.

Alejandra Clemente (UTDT)

Anlisis Estadstico Multivariado

Segundo Trimestre de 2010

16 / 25

Determinacin de las componentes


Q = 2Sa1 21 a1 = 0 a1 Q = 2Sa2 22 a2 = 0 a2 La solucin de este sistema es : Sa1 = 1 a1 Sa2 = 2 a2 que indica que a1 y a2 deben ser los autovectores de S . Tomando los autovectores de norma unitaria y sustituyendo en Q se obtiene que en el mximo, la funcin objetivo es Q = 1 + 2 por lo tanto es claro que 1 y 2 deben ser los dos autovalores mas grandes de la matriz S y a1 y a2 sus correspondientes autovectores.
Alejandra Clemente (UTDT) Anlisis Estadstico Multivariado Segundo Trimestre de 2010 17 / 25

Determinacin de las componentes


las componentes principales no estn correlacionadas: 1 a X Xa2 = a1 Sa2 = 2 a1 a2 = 0 n 1

Cov (z1 , z2 ) = Cov (Xa1 , Xa2 ) =

Si en lugar de maximizar la suma de las variancias (la traza de la matriz de covariancias de la proyeccin) se maximiza la variancia generalizada (el determinante de la matriz de covariancias) se obtiene el mismo resultado. Puede demostrarse con un razonamiento anlogo que el espacio de dimensin r que mejor representa a los puntos viene denido por los autovectores asociados a los r autovalores mas grandes de la matriz S . Estas direcciones se denominan direcciones principales.

Alejandra Clemente (UTDT)

Anlisis Estadstico Multivariado

Segundo Trimestre de 2010

18 / 25

Generalizacin
En general la matriz X (y por lo tanto S ) tiene rango p, entonces existen tantas componentes principales como variables originales. Se obtendrn calculando los autovalores 1 ,2 ,. . . , p de la matriz de variancias y covariancias S resolviendo |S I | = 0 y sus vectores asociados son: (S i I )ai = 0 Los trminos i son reales y positivos ya que S es simtrica y denida positiva. Por simetra de S , si i y h son dos races distintas sus vectores asociados son ortogonales. Si S fuera semidenida positiva de rango r < p habra solamente r autovalores positivos y el resto seran iguales a 0.

Alejandra Clemente (UTDT)

Anlisis Estadstico Multivariado

Segundo Trimestre de 2010

19 / 25

Generalizacin
Llamando Z a la matriz cuyas columnas son los valores de los p componentes en los n individuos, estas nuevas variables estn relacionadas con las originales mediante la relacin Z = XA donde A A = I . Calcular los componentes principales equivale a aplicar una transformacin ortogonal A a las variables X (ejes originales) para obtener unas nuevas variables Z no correlacionadas entre si. Esta operacin se puede interpretar como la eleccin de nuevos ejes coordenados, que coincidan con los ejes naturales de los datos.

Alejandra Clemente (UTDT)

Anlisis Estadstico Multivariado

Segundo Trimestre de 2010

20 / 25

Propiedades
Las Componentes Principales conservan la variabilidad inicial: la suma de las variancias de los componentes es igual a la suma de las variancias de las variables originales y la variancia generalizada de los componentes es igual a la original.
p p

var (Xi ) = 1 + 2 + + p =
i =1 i =1

var (zi )

La proporcin de variabilidad explicada por un componente es el cociente entre su variancia (el autovalor asociado al autovector que lo dene) y la suma de los autovalores de la matriz S. VarExp(zi ) = i (1 + 2 + + p )

Alejandra Clemente (UTDT)

Anlisis Estadstico Multivariado

Segundo Trimestre de 2010

21 / 25

Propiedades
La correlacin entre un componente principal y una variable X es proporcional al coeciente de esa variable en la denicin de la componente, donde el coeciente de proporcionalidad es el cociente entre el desvo estndar del componente y el desvo estndar de la variable. aik i corr (zi , Xk ) = var (Xk ) Si estandarizamos los componentes principales dividiendo cada uno por su desvo estndar se obtiene la estandarizacin multivariante de los datos originales.

Alejandra Clemente (UTDT)

Anlisis Estadstico Multivariado

Segundo Trimestre de 2010

22 / 25

Componentes principales a partir de R


Las componentes principales se obtienen maximizando la variancia de la proyeccin. En trminos de las variables originales esto supone maximizar:
p p p

M=
i =1

ai2 si2 + 2
i =1 j =i +1

ai aj sij

sujeto a la restriccin a a = 1. Cuando las escalas de medida de las variables son muy distintas, la maximizacin de M depender decisivamente de estas escalas y las variables con valores mas grandes tendrn mayor peso en el anlisis. Con variables estandarizadas el problema de maximizacin es:
p p

M =1+2
i =1 j =i +1
Alejandra Clemente (UTDT) Anlisis Estadstico Multivariado

ai aj rij
Segundo Trimestre de 2010 23 / 25

Componentes principales a partir de R


La solucin depende de las correlaciones y no de las variancias. Las componentes principales normadas se obtienen calculando los autovectores y autovalores de la matriz de correlacin. Llamando R i (i = 1, 2, . . . , p ) a las races caractersticas de esa matriz se verica:
p

R i = traza(R ) = p
i =1

Las propiedades de los componentes extrados de R son: La proporcin de variancia explicada por cada componente ser R i /p Las correlaciones entre cada componente zj = Xaj y las variables originales X vienen dados directamente por ai
Alejandra Clemente (UTDT) Anlisis Estadstico Multivariado

R j .
24 / 25

Segundo Trimestre de 2010

Seleccin de la cantidad de componentes


Existen varias reglas: Realizar un grco de los autovalores de S o R. Seleccionar componentes hasta que los restantes tengan valores de i aproximadamente iguales. Seleccionar componentes hasta cubrir una proporcin determinada de variancia. Eliminar aquellos componentes asociados a autovalores menores a determinado umbral o cota, que suele jarse igual a la variancia media p i =1 i /p .

Alejandra Clemente (UTDT)

Anlisis Estadstico Multivariado

Segundo Trimestre de 2010

25 / 25

S-ar putea să vă placă și