Sunteți pe pagina 1din 61

ANALISIS MULTIVARIADO

ASOCIACIN: ANALISIS
2
BIVARIADIO
CORRELACIN
Pearson
X e Y Chi Cuadrado
DEPENDENCIA

Ambas normales Ambas Cualitativas y


frec. esperadas 5 o ms
Spearman Test Exacto Fisher
Al menos una no normal Ambas Cualitativas y
Al menos una ordinal alguna frec. esperada
menor a 5
COMPARACIN DE DOS GRUPOS COMPARACIN DE MS DE 2
T-STUDENT (Mann-Whitney GRUP.
s/normalidad) ANOVA (Kruskal-Wallis s/normalidad)
Una binaria: 2 categoras Una cualitativa: ms de 2 categ
MODELACIN: ANALISIS
3
UNIVARIADIO Y univariada
REGRESIN ANOVA
Y Continua Y Continua
X: una o ms variables X: una o ms variables
Continuas Cualitativas
Continuas y cualitativas Cualitativas y numricas
Regresin . c/ variables dummy ANOVA con covariables
Lineas pueden no ser paralelas Lineas paralelas

REGRESIN LOGSTICA
Y Binaria (u ordinal)
X: una o ms variables
Continuas o discretas
ANALISIS MULTIVARIADO
4 Y es multivariado
COMPONENTES PRINCIPALES ANALISIS DISCRIMINANTE
Y: ms de una variable numrica Y: ms de una variable numrica
X: eventualmente, variables X: variables cualitativas
cualitativas OBJETIVOS
OBJETIVOS Discriminar en base a los grupos
Analizar interdependencia de las Y. definidos a priori.
BIPLOT: Graficar las observaciones
BIPLOT: Graficar la variabilidad. en de forma que los grupos
presenten diferencias mximas.
Encontrar, con prdida mnima de Definir una regla de clasificacin
informacin, un nuevo conjunto de basada en variables independientes.
variables (CP) que: Clasificar nuevos casos en los
no estn correlacionadas, grupos en base a la regla.
COMPONENTES PRINCIPALES

5
DATOS MULTIVARIADOS

Variables (columnas)

Sujetos
(filas)
DATOS MULTIVARIADOS
Dos Variables

100 90 80 70 60 50
(dos columnas)

Peso
Estatura Peso
1,58 65
13 Sujetos 1,73 83
(13 filas) 1,62 70
1,55 65
1,57 60

10

12
1,76 88
1,66 70 Estatura
1,68 79
1,71 79
1,6 75 Representacin Grfica
1,64 80 (dos ejes 13 puntos)
1,65 87
1,7 93
DATOS MULTIVARIADOS
Dos Variables
(tres columnas)

Estatura Peso PAS


1,58 65 128
13 Sujetos 1,73 83 141
(13 filas) 1,62 70 135
1,55 65 118
1,57 60 96
1,76 88 119
1,66 70 125
1,68 79 131
1,71 79 99
1,6 75 100
1,64 80 123
Representacin Grfica
1,65 87 111
1,7 93 141
(tres
DATOS MULTIVARIADOS
Cuando se cuenta con tres variables, la visualizacin de la relacin
entre estas variables se dificulta.
Y cuando se tienen ms de tres variables, ya no es posible
visualizar la relacin entre ellas.

110
o

90
e
Ps

70
50
1,5 1,6 1,7 1,8

Estatura

Se hace necesario resumir o reducir variables.


VARIABILIDAD DE LOS DATOS
La variabilidad es muy importante cuando se representan los
datos:
Una variable: se mide a travs de la desviacin estndar y
representa la variabilidad de los individuos. Los sujetos no
son iguales, no reaccionan igual, no responden igual a un
tratamiento, etc. Variabilidad en PA
Modelo de regresin: se mide a travs de R2 y representa el
porcentaje de la variabilidad en la variable respuesta que
pueden explicar las variables predictoras. Como los sujetos
no son iguales y no responden igual a un tratamiento, es
importante detectar qu variables ayudan a explicar o
predecir estas diferencias. PA Consumo de sal / peso /
gentica / edad
COMPONENTES PRINCIPALES

La variabilidad es muy importante cuando se representan los


datos:
Un conjunto de muchas variables: como no es fcil
observar la relacin entre ellas, resulta necesario resumirlas,
reducir el conjunto, pero conservando la variabilidad.
Componentes Principales: se reduce el conjunto
construyendo nuevas variables que se llaman
Componentes Principales (CP). Los CP deben conservar
gran porcentaje de la variabilidad, pero reducir el nmero de
variables (ojal dos o tres CP).
COMPONENTES PRINCIPALES

La variabilidad es muy importante cuando se representan los


datos:
Un conjunto de muchas variables: como no es fcil
observar la relacin entre ellas, resulta necesario resumirlas,
reducir el conjunto, pero conservando la variabilidad.
Componentes Principales: se reduce el conjunto
construyendo nuevas variables que se llaman
Componentes Principales (CP). Los CP deben conservar
gran porcentaje de la variabilidad, pero reducir el nmero de
variables (ojal dos o tres CP).
COMPONENTES PRINCIPALES
Elementos que se deben tener en cuenta para construir CP:
Autovalores: ayudan a determinar cuntos componentes son
necesarios para representar al conjunto completo de
variables. Los autovalores mayores a 1 indican el nmero
adecuado de CP.
El % de la variabilidad total explicada por los CP: como
criterio, se incluye una cantidad de CP tal que explique al
menos 65% de la variabilidad.
Correlacin con variables originales: no slo es importante
obtener los CP, sino interpretarlos. Para esto es necesario
saber qu variables estn incluidas en cada CP. Una forma de
detectar esto es observar la correlacin de las variables
con los CP. Correlaciones grandes, indicaran variables
incluidas en el CP.
COMPONENTES PRINCIPALES
Elementos que se deben tener en cuenta para construir CP:
Estandarizacin: se recomienda utilizar los datos
estandarizados (sin unidad de medida), ya que las variables
generalmente no estn medidas en las mismas escalas
(peso: kg.; estatura: cm.), lo que afecta el peso que tiene
cada variables en en las CP. SPSS lo hace automtico.
Rotacin VARIMAX: se desea que los CP, a diferencia de las
variables originales, sean independientes entre s. Para ello
se considera una rotacin en el espacio de la relacin
original, que se conoce como VARIMAX, porque logra que las
CP expliquen el mayor % de variabilidad posible.
COMPONENTES PRINCIPALES
Elementos que se deben tener en KMO Anlisis CP
cuenta para construir CP: 0.0-0.49 Inaceptable
Si las variables estn relacionadas 0.5-0.59 Pobre
entre s, es factible extraer de 0.6-0.69 Mediocre
informacin comn que permita 0.7-0.79 Medio
disminuir la cantidad de variables, 0.8-0.89 Meritorio
mediante CP. 0.9-1.00 Maravilloso

Coef.KMO (Kaiser-Meyer-Olkin):
mide qu % de la variabilidad total
corresponde a variabilidad en
comn. Un valor grande valida la
obtencin de CP.
COMPONENTES PRINCIPALES
Elementos que se deben tener en cuenta para construir CP:
Test de esfericidad de Bartlet.
H0: Las variables son independientes entre s.
Aceptar H0 significa que no existe variabilidad comn, y no es
pertinente obtener CP (p>0.05).
Rechazar H0 significa que existe variabilidad comn, y valida
la obtencin de CP (p<0.05).
BIPLOT

Grfico de la representacin de las variables (y puntos o


caractersticas de los sujetos) a travs de los CP.
Los CP son los ejes.
Los puntos son los sujetos o caractersticas.
17 Las lneas son las variables originales.
INTERPRETACIN DE BIPLOT
Ejes CP: Son perpendiculares porque son independientes.
Puntos: corresponden a los sujetos (o caractersticas de ellos).
Las variables: se representan por lneas desde el centro.
Las lneas de las variables y las lneas imaginarias entre el centro
y el punto indican correlaciones con las CP:
Perpendiculares: no se asocian (ngulo cercano a 90).
Cercanas: estn muy asociados (ngulo pequeo, cercano a 0).
En direccin contraria: se asocian negativamente (ngulo de 180).
Largos: indican cunto pesa en la representacin por CP.
Largos coincidentes: contribuciones semejantes a la representacin.
18
SPSS

19
SPSS

20
SPSS

21
SPSS

22
SPSS

23
SPSS

24
SPSS

25
SPSS

26
SPSS

27
SPSS

28
INFOSTAT

29
ANLISIS DISCRIMINANTE

30
ANLISIS DISCRIMINANTE
Y: ms de una variable numrica
X: variables cualitativas

OBJETIVOS

Discriminar en base a los grupos definidos a priori.


BIPLOT: Graficar las observaciones de forma que los grupos presenten
diferencias mximas.
Definir una regla de clasificacin basada en variables independientes.
Clasificar nuevos casos en los grupos en base a la regla.
ANLISIS DISCRIMINANTE
Funcin discriminante FD: el mejor subconjunto de las variables
numricas que permiten generar la funcin regla de decisin
La regla de decisin define en qu grupo se clasifica cada caso.
Caractersticas de la FD:
Escoge las variables que detecten diferencias mximas entre grupos.
Escoge las variables que minimicen la probabilidad de clasificar mal a
los sujetos.
ANLISIS DISCRIMINANTE
Funcin discriminante FD: el mejor subconjunto de las variables
numricas que permiten generar la funcin regla de decisin
Ejemplo.
Grupos a discriminar: Interesados en contratar CDF.
Variables:
Nmero de partidos de ftbol que ha visto el ltimo mes.
Ingreso mensual percpita.
Edad.
Proporcin de varones en la familia.
Nivel de Estudios del Jefe de Hogar.
Monto que actualmente paga en TV-Cable.
ANLISIS DISCRIMINANTE
Criterio de Agrupamiento: v. cualitativas que definen los grupos
Restricciones:
Por cada grupo debe existir al menos tantas observaciones como
variables en la funcin discriminante.
Ejemplo:
5 var. en f. discriminante y un criterio de agr. con 2 categoras
En cada grupo debe haber por lo menos 20 individuos: 5x2 = 10.
ANLISIS DISCRIMINANTE
SUPUESTOS DEL MODELO
Homogeneidad de las Matrices de Covarianza de las variables para
los diferentes grupos:
Test de Box:
H0: homogeneidad de covarianzas v/s H1: heterogeneidad
Se quiere aceptar H0 (p>0.05)
Si las cov. son heterogneas, la func. debera ser no-lineal:
Cuadrtica sera primera alternativa, luego cbica, etc.
ANLISIS DISCRIMINANTE
SUPUESTOS DEL MODELO
Normalidad de las variables independientes.
Normalidad Multivariada
El Anlisis Discriminante es muy robusto a alejamientos de la
normalidad
Poder discriminante del conjunto de variables:
Lambda de Wilks:
H0: Las medias de las variables (como vectores, en conjunto)
coinciden en los grupos.
H1: Las medias de las variables difieren en los grupos.
Se quiere p<0.05.
ANLISIS DISCRIMINANTE
Ejes Cannicos
Por cada funcin discriminante, se genera un eje cannico, donde se
representarn grficamente los datos.
Los ejes cannicos son independientes u ortogonales.
Los ejes cannicos representan un porcentaje de la variabilidad, el
primero, el mayor %, y va decreciendo.
Los porcentajes de variabilidad se asocian a autovalores.
El mximo de ejes cannicos es el nmero de grupos menos uno.
Las medias de los centroides permiten detectar qu grupos son los
que estn siendo diferenciados en cada caso.
ANLISIS DISCRIMINANTE
BIPLOT
Las observaciones ms cercanas, estn en el mismo grupo.
Conviene graficar sobre los ejes tambin ciertas caractersticas que
ayuden a entender la clasificacin (edades <, PAS >, etc.), u otros
grupos que no eran el objetivo (sexo, etc.).
ANLISIS DISCRIMINANTE
Tasas de error de clasificacin
Reporte de la tasa o porcentaje de fallas que tiene la funcin
discriminante.
Las tasas de error de clasificacin subestiman el verdadero
porcentaje de error.
Validacin cruzada
Para validar el procedimiento, se utiliza una forma de clculo ms
excata del error de clasificacin.
La mitad de los datos se usa para generar la funcin discriminante, y la
otra mitad para validar que la funcin discriminante es adecuada. En
base a ello, se calcula la tasa de error de clasificacin.
ANLISIS DISCRIMINANTE
ANLISIS DISCRIMINANTE
ANLISIS DISCRIMINANTE
ANLISIS DISCRIMINANTE
ANLISIS DISCRIMINANTE
ANLISIS DISCRIMINANTE
ANLISIS DISCRIMINANTE
DESCRIPTIVOS
ANLISIS DISCRIMINANTE
SUPUESTOS DEL MODELO
Homogeneidad de Matrices
de Covarianza de variables
para los diferentes grupos:
Test de Box:
H0: homogeneidad
v/s H1: heterogeneidad
Se quiere aceptar H0 (p>0.05)
ANLISIS DISCRIMINANTE
SUPUESTOS DEL MODELO
Poder discriminante del conjunto de variables:
Lambda de Wilks:
H0: Las medias de las variables coinciden en los grupos.
H1: Las medias de las variables difieren en los grupos.
Se quiere p<0.05.
ANLISIS DISCRIMINANTE
Ejes Cannicos
Los ejes cannicos representan
un porcentaje de la variabilidad,
el primero, el mayor %, y va
decreciendo.
Los porcentajes de variabilidad
se asocian a autovalores.
Medias de centroides permiten
detectar qu grupos estn siendo
diferenciados en cada caso.
ANLISIS DISCRIMINANTE
Ejes Cannicos
Por cada funcin discriminante, se
genera un eje cannico, donde
se representarn grficamente
los datos.
Los ejes cannicos son
independientes u ortogonales.
El mximo de ejes cannicos es el
nmero de grupos menos uno.
Las observaciones ms cercanas,
estn en el mismo grupo.
ANLISIS DISCRIMINANTE
Tasas de error de
clasificacin
En general, subestiman el
verdadero % de error.
Validacin cruzada
Forma de clculo ms exacta
del error de clasificacin.
La mitad (u otro %) se usa para
generar la funcin
discriminante, y el resto
para validarla.
ANLISIS DISCRIMINANTE
Ejemplo de enfermos de cncer de pulmon.
Datos: parmetros obtenidos al momento del diagnstico y sobre
vida
ANLISIS DE
CORRESPONDENCIAS

53
ANLISIS DE CORRESPONDENCIAS

Permite reflejar grficamente la relacin entre variables cualitativas


Es el anlogo grfico de la tabla de contingencia

INTERPRETACIN

SE CONSTRUYE LA TABLA DE CONTINGENCIA


SE DETERMINAN LOS PERFILES (% DE LA VAR. COLUMNA EN CADA FILA)
LAS FILAS DE LA TABLA DE CONTINGENCIA SON PUNTOS EN EL BLIPLOT
LAS COORDENADAS DEL BIPLOT SON LAS COLUMNAS DE LA TABLA
ANLISIS DE CORRESPONDENCIAS
INTERPRETACIN
SE CONSTRUYE LA TABLA DE CONTINGENCIA
SE DETERMINAN LOS PERFILES (% DE LA VAR. COLUMNA EN CADA FILA)
LAS FILAS DE LA TABLA DE CONTINGENCIA SON PUNTOS EN EL BLIPLOT
LAS COORDENADAS DEL BIPLOT SON LAS COLUMNAS DE LA TABLA

sexo Fuma Fuma Fuma muy No Total


frecuente- ocasional- rara vez fuma
mente mente
femenino 25 18 31 26 100
masculino 42 16 17 25 100
ANLISIS DE CORRESPONDENCIAS
INTERPRETACIN
SE CONSTRUYE LA TABLA DE CONTINGENCIA
SE DETERMINAN LOS PERFILES (% DE LA VAR. COLUMNA EN CADA FILA)
LAS FILAS DE LA TABLA DE CONTINGENCIA SON PUNTOS EN EL BLIPLOT
LAS COORDENADAS DEL BIPLOT SON LAS COLUMNAS DE LA TABLA

sexo Fuma Fuma Fuma muy No


frecuente- ocasional- rara vez fuma
mente mente
femenino 25% 18% 31% 26%
masculino 42% 16% 17% 25%
ANLISIS DE CORRESPONDENCIAS
INTERPRETACIN
SE CONSTRUYE LA TABLA DE CONTINGENCIA
SE DETERMINAN LOS PERFILES (% DE LA VAR. COLUMNA EN CADA FILA)
LAS FILAS DE LA TABLA DE CONTINGENCIA SON PUNTOS EN EL BLIPLOT
LAS COORDENADAS DEL BIPLOT SON LAS COLUMNAS DE LA TABLA

45
40
35
30
25
femenino
20 masculino
15
10
5
0
Fuma frecuente. Fuma ocasional. Fuma muy rara vez No fuma
ANLISIS DE CORRESPONDENCIAS
INTERPRETACIN
SE CONSTRUYE LA TABLA DE CONTINGENCIA
SE DETERMINAN LOS PERFILES (% DE LA VAR. COLUMNA EN CADA FILA)
LAS FILAS DE LA TABLA DE CONTINGENCIA SON PUNTOS EN EL BLIPLOT
LAS COORDENADAS DEL BIPLOT SON LAS COLUMNAS DE LA TABLA
ANLISIS DE CORRESPONDENCIAS
INTERPRETACIN
SE CONSTRUYE LA TABLA DE CONTINGENCIA
SE DETERMINAN LOS PERFILES (% DE LA VAR. COLUMNA EN CADA FILA)
LAS FILAS DE LA TABLA DE CONTINGENCIA SON PUNTOS EN EL BLIPLOT
LAS COORDENADAS DEL BIPLOT SON LAS COLUMNAS DE LA TABLA

Estadstico Valor gl p

Chi Cuadrado Pearson 8,53 3 0,036


ANLISIS DE CORRESPONDENCIAS
PROTOCOLO
Si se cuenta con muchas variables cualitativas asociadas a la variable de inters,
primero se filtrar, dejando de lado aquellas que no estn asociadas con esa
variable En rigor, se deberan explorar TODAS LAS COMBINACIONES
Una vez seleccionadas las variables que parecen ser tiles, se realiza el Anlisis de
Correspondencias.
El grfico permite ver qu caractersticas se asocian a la variable de inters.
Las categoras de una misma variable que en el grfico estn muy cercanas, se
unen, para obtener una mejor apreciacin de los resultados.
ANLISIS DE CORRESPONDENCIAS

S-ar putea să vă placă și