Multivariado

ANALISIS MULTIVARIADO
ASOCIACIN: ANALISIS
2
BIVARIADIO
CORRELACIN
Pearson
X e Y Chi Cuadrado
DEPENDENCIA
Ambas normales Ambas Cualitativas y

frec. esperadas 5 o ms
Spearman Test Exacto Fisher
Al menos una no normal Ambas Cualitativas y
Al menos una ordinal alguna frec. esperada
menor a 5
COMPARACIN DE DOS GRUPOS COMPARACIN DE MS DE 2
T-STUDENT (Mann-Whitney GRUP.
s/normalidad) ANOVA (Kruskal-Wallis s/normalidad)
Una binaria: 2 categoras Una cualitativa: ms de 2 categ
MODELACIN: ANALISIS
3
UNIVARIADIO Y univariada
REGRESIN ANOVA
Y Continua Y Continua
X: una o ms variables X: una o ms variables
Continuas Cualitativas
Continuas y cualitativas Cualitativas y numricas
Regresin . c/ variables dummy ANOVA con covariables
Lineas pueden no ser paralelas Lineas paralelas
REGRESIN LOGSTICA
Y Binaria (u ordinal)
X: una o ms variables
Continuas o discretas
ANALISIS MULTIVARIADO
4 Y es multivariado
COMPONENTES PRINCIPALES ANALISIS DISCRIMINANTE
Y: ms de una variable numrica Y: ms de una variable numrica
X: eventualmente, variables X: variables cualitativas
cualitativas OBJETIVOS
OBJETIVOS Discriminar en base a los grupos
Analizar interdependencia de las Y. definidos a priori.
BIPLOT: Graficar las observaciones
BIPLOT: Graficar la variabilidad. en de forma que los grupos
presenten diferencias mximas.
Encontrar, con prdida mnima de Definir una regla de clasificacin
informacin, un nuevo conjunto de basada en variables independientes.
variables (CP) que: Clasificar nuevos casos en los
no estn correlacionadas, grupos en base a la regla.
COMPONENTES PRINCIPALES
5
DATOS MULTIVARIADOS
Variables (columnas)
Sujetos
(filas)
DATOS MULTIVARIADOS
Dos Variables
100 90 80 70 60 50
(dos columnas)
Peso
Estatura Peso
1,58 65
13 Sujetos 1,73 83
(13 filas) 1,62 70
1,55 65
1,57 60
10
12
1,76 88
1,66 70 Estatura
1,68 79
1,71 79
1,6 75 Representacin Grfica
1,64 80 (dos ejes 13 puntos)
1,65 87
1,7 93
DATOS MULTIVARIADOS
Dos Variables
(tres columnas)
Estatura Peso PAS

1,58 65 128
13 Sujetos 1,73 83 141
(13 filas) 1,62 70 135
1,55 65 118
1,57 60 96
1,76 88 119
1,66 70 125
1,68 79 131
1,71 79 99
1,6 75 100
1,64 80 123
Representacin Grfica
1,65 87 111
1,7 93 141
(tres
DATOS MULTIVARIADOS
Cuando se cuenta con tres variables, la visualizacin de la relacin
entre estas variables se dificulta.
Y cuando se tienen ms de tres variables, ya no es posible
visualizar la relacin entre ellas.
110
o
90
e
Ps
70
50
1,5 1,6 1,7 1,8
Estatura
Se hace necesario resumir o reducir variables.

VARIABILIDAD DE LOS DATOS
La variabilidad es muy importante cuando se representan los
datos:
Una variable: se mide a travs de la desviacin estndar y
representa la variabilidad de los individuos. Los sujetos no
son iguales, no reaccionan igual, no responden igual a un
tratamiento, etc. Variabilidad en PA
Modelo de regresin: se mide a travs de R2 y representa el
porcentaje de la variabilidad en la variable respuesta que
pueden explicar las variables predictoras. Como los sujetos
no son iguales y no responden igual a un tratamiento, es
importante detectar qu variables ayudan a explicar o
predecir estas diferencias. PA Consumo de sal / peso /
gentica / edad

datos:
Un conjunto de muchas variables: como no es fcil
observar la relacin entre ellas, resulta necesario resumirlas,
reducir el conjunto, pero conservando la variabilidad.
Componentes Principales: se reduce el conjunto
construyendo nuevas variables que se llaman
Componentes Principales (CP). Los CP deben conservar
gran porcentaje de la variabilidad, pero reducir el nmero de
variables (ojal dos o tres CP).

datos:
Un conjunto de muchas variables: como no es fcil
observar la relacin entre ellas, resulta necesario resumirlas,
reducir el conjunto, pero conservando la variabilidad.
Componentes Principales: se reduce el conjunto
construyendo nuevas variables que se llaman
Componentes Principales (CP). Los CP deben conservar
gran porcentaje de la variabilidad, pero reducir el nmero de
variables (ojal dos o tres CP).
Elementos que se deben tener en cuenta para construir CP:
Autovalores: ayudan a determinar cuntos componentes son
necesarios para representar al conjunto completo de
variables. Los autovalores mayores a 1 indican el nmero
adecuado de CP.
El % de la variabilidad total explicada por los CP: como
criterio, se incluye una cantidad de CP tal que explique al
menos 65% de la variabilidad.
Correlacin con variables originales: no slo es importante
obtener los CP, sino interpretarlos. Para esto es necesario
saber qu variables estn incluidas en cada CP. Una forma de
detectar esto es observar la correlacin de las variables
con los CP. Correlaciones grandes, indicaran variables
incluidas en el CP.
Estandarizacin: se recomienda utilizar los datos
estandarizados (sin unidad de medida), ya que las variables
generalmente no estn medidas en las mismas escalas
(peso: kg.; estatura: cm.), lo que afecta el peso que tiene
cada variables en en las CP. SPSS lo hace automtico.
Rotacin VARIMAX: se desea que los CP, a diferencia de las
variables originales, sean independientes entre s. Para ello
se considera una rotacin en el espacio de la relacin
original, que se conoce como VARIMAX, porque logra que las
CP expliquen el mayor % de variabilidad posible.
Elementos que se deben tener en KMO Anlisis CP
cuenta para construir CP: 0.0-0.49 Inaceptable
Si las variables estn relacionadas 0.5-0.59 Pobre
entre s, es factible extraer de 0.6-0.69 Mediocre
informacin comn que permita 0.7-0.79 Medio
disminuir la cantidad de variables, 0.8-0.89 Meritorio
mediante CP. 0.9-1.00 Maravilloso
Coef.KMO (Kaiser-Meyer-Olkin):
mide qu % de la variabilidad total
corresponde a variabilidad en
comn. Un valor grande valida la
obtencin de CP.
Test de esfericidad de Bartlet.
H0: Las variables son independientes entre s.
Aceptar H0 significa que no existe variabilidad comn, y no es
pertinente obtener CP (p>0.05).
Rechazar H0 significa que existe variabilidad comn, y valida
la obtencin de CP (p<0.05).
BIPLOT
Grfico de la representacin de las variables (y puntos o

caractersticas de los sujetos) a travs de los CP.
Los CP son los ejes.
Los puntos son los sujetos o caractersticas.
17 Las lneas son las variables originales.
INTERPRETACIN DE BIPLOT
Ejes CP: Son perpendiculares porque son independientes.
Puntos: corresponden a los sujetos (o caractersticas de ellos).
Las variables: se representan por lneas desde el centro.
Las lneas de las variables y las lneas imaginarias entre el centro
y el punto indican correlaciones con las CP:
Perpendiculares: no se asocian (ngulo cercano a 90).
Cercanas: estn muy asociados (ngulo pequeo, cercano a 0).
En direccin contraria: se asocian negativamente (ngulo de 180).
Largos: indican cunto pesa en la representacin por CP.
Largos coincidentes: contribuciones semejantes a la representacin.
18
SPSS
19
SPSS
20
SPSS
21
SPSS
22
SPSS
23
SPSS
24
SPSS
25
SPSS
26
SPSS
27
SPSS
28
INFOSTAT
29
ANLISIS DISCRIMINANTE
30
Y: ms de una variable numrica
X: variables cualitativas
OBJETIVOS
Discriminar en base a los grupos definidos a priori.

BIPLOT: Graficar las observaciones de forma que los grupos presenten
diferencias mximas.
Definir una regla de clasificacin basada en variables independientes.
Clasificar nuevos casos en los grupos en base a la regla.
Funcin discriminante FD: el mejor subconjunto de las variables
numricas que permiten generar la funcin regla de decisin
La regla de decisin define en qu grupo se clasifica cada caso.
Caractersticas de la FD:
Escoge las variables que detecten diferencias mximas entre grupos.
Escoge las variables que minimicen la probabilidad de clasificar mal a
los sujetos.
Funcin discriminante FD: el mejor subconjunto de las variables
numricas que permiten generar la funcin regla de decisin
Ejemplo.
Grupos a discriminar: Interesados en contratar CDF.
Variables:
Nmero de partidos de ftbol que ha visto el ltimo mes.
Ingreso mensual percpita.
Edad.
Proporcin de varones en la familia.
Nivel de Estudios del Jefe de Hogar.
Monto que actualmente paga en TV-Cable.
Criterio de Agrupamiento: v. cualitativas que definen los grupos
Restricciones:
Por cada grupo debe existir al menos tantas observaciones como
variables en la funcin discriminante.
Ejemplo:
5 var. en f. discriminante y un criterio de agr. con 2 categoras
En cada grupo debe haber por lo menos 20 individuos: 5x2 = 10.
SUPUESTOS DEL MODELO
Homogeneidad de las Matrices de Covarianza de las variables para
los diferentes grupos:
Test de Box:
H0: homogeneidad de covarianzas v/s H1: heterogeneidad
Se quiere aceptar H0 (p>0.05)
Si las cov. son heterogneas, la func. debera ser no-lineal:
Cuadrtica sera primera alternativa, luego cbica, etc.
Normalidad de las variables independientes.
Normalidad Multivariada
El Anlisis Discriminante es muy robusto a alejamientos de la
normalidad
Poder discriminante del conjunto de variables:
Lambda de Wilks:
H0: Las medias de las variables (como vectores, en conjunto)
coinciden en los grupos.
H1: Las medias de las variables difieren en los grupos.
Se quiere p<0.05.
Ejes Cannicos
Por cada funcin discriminante, se genera un eje cannico, donde se
representarn grficamente los datos.
Los ejes cannicos son independientes u ortogonales.
Los ejes cannicos representan un porcentaje de la variabilidad, el
primero, el mayor %, y va decreciendo.
Los porcentajes de variabilidad se asocian a autovalores.
El mximo de ejes cannicos es el nmero de grupos menos uno.
Las medias de los centroides permiten detectar qu grupos son los
que estn siendo diferenciados en cada caso.
BIPLOT
Las observaciones ms cercanas, estn en el mismo grupo.
Conviene graficar sobre los ejes tambin ciertas caractersticas que
ayuden a entender la clasificacin (edades <, PAS >, etc.), u otros
grupos que no eran el objetivo (sexo, etc.).
Tasas de error de clasificacin
Reporte de la tasa o porcentaje de fallas que tiene la funcin
discriminante.
Las tasas de error de clasificacin subestiman el verdadero
porcentaje de error.
Validacin cruzada
Para validar el procedimiento, se utiliza una forma de clculo ms
excata del error de clasificacin.
La mitad de los datos se usa para generar la funcin discriminante, y la
otra mitad para validar que la funcin discriminante es adecuada. En
base a ello, se calcula la tasa de error de clasificacin.
DESCRIPTIVOS
Homogeneidad de Matrices
de Covarianza de variables
para los diferentes grupos:
Test de Box:
H0: homogeneidad
v/s H1: heterogeneidad
Se quiere aceptar H0 (p>0.05)
Poder discriminante del conjunto de variables:
Lambda de Wilks:
H0: Las medias de las variables coinciden en los grupos.
H1: Las medias de las variables difieren en los grupos.
Se quiere p<0.05.
Ejes Cannicos
Los ejes cannicos representan
un porcentaje de la variabilidad,
el primero, el mayor %, y va
decreciendo.
Los porcentajes de variabilidad
se asocian a autovalores.
Medias de centroides permiten
detectar qu grupos estn siendo
diferenciados en cada caso.
Ejes Cannicos
Por cada funcin discriminante, se
genera un eje cannico, donde
se representarn grficamente
los datos.
Los ejes cannicos son
independientes u ortogonales.
El mximo de ejes cannicos es el
nmero de grupos menos uno.
Las observaciones ms cercanas,
estn en el mismo grupo.
Tasas de error de
clasificacin
En general, subestiman el
verdadero % de error.
Validacin cruzada
Forma de clculo ms exacta
del error de clasificacin.
La mitad (u otro %) se usa para
generar la funcin
discriminante, y el resto
para validarla.
Ejemplo de enfermos de cncer de pulmon.
Datos: parmetros obtenidos al momento del diagnstico y sobre
vida
ANLISIS DE
CORRESPONDENCIAS
53
ANLISIS DE CORRESPONDENCIAS
Permite reflejar grficamente la relacin entre variables cualitativas

Es el anlogo grfico de la tabla de contingencia
INTERPRETACIN
SE CONSTRUYE LA TABLA DE CONTINGENCIA

SE DETERMINAN LOS PERFILES (% DE LA VAR. COLUMNA EN CADA FILA)
LAS FILAS DE LA TABLA DE CONTINGENCIA SON PUNTOS EN EL BLIPLOT
LAS COORDENADAS DEL BIPLOT SON LAS COLUMNAS DE LA TABLA
INTERPRETACIN
sexo Fuma Fuma Fuma muy No Total

frecuente- ocasional- rara vez fuma
mente mente
femenino 25 18 31 26 100
masculino 42 16 17 25 100
INTERPRETACIN
sexo Fuma Fuma Fuma muy No

frecuente- ocasional- rara vez fuma
mente mente
femenino 25% 18% 31% 26%
masculino 42% 16% 17% 25%
INTERPRETACIN
45
40
35
30
25
femenino
20 masculino
15
10
5
0
Fuma frecuente. Fuma ocasional. Fuma muy rara vez No fuma
INTERPRETACIN
INTERPRETACIN
Estadstico Valor gl p
Chi Cuadrado Pearson 8,53 3 0,036

PROTOCOLO
Si se cuenta con muchas variables cualitativas asociadas a la variable de inters,
primero se filtrar, dejando de lado aquellas que no estn asociadas con esa
variable En rigor, se deberan explorar TODAS LAS COMBINACIONES
Una vez seleccionadas las variables que parecen ser tiles, se realiza el Anlisis de
Correspondencias.
El grfico permite ver qu caractersticas se asocian a la variable de inters.
Las categoras de una misma variable que en el grfico estn muy cercanas, se
unen, para obtener una mejor apreciacin de los resultados.

Multivariado

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Multivariado

Încărcat de

Drepturi de autor:

Formate disponibile

ANALISIS MULTIVARIADO

Ambas normales Ambas Cualitativas y

Estatura Peso PAS

Se hace necesario resumir o reducir variables.

La variabilidad es muy importante cuando se representan los

La variabilidad es muy importante cuando se representan los

Grfico de la representacin de las variables (y puntos o

Discriminar en base a los grupos definidos a priori.

Permite reflejar grficamente la relacin entre variables cualitativas

SE CONSTRUYE LA TABLA DE CONTINGENCIA

sexo Fuma Fuma Fuma muy No Total

sexo Fuma Fuma Fuma muy No

Chi Cuadrado Pearson 8,53 3 0,036

S-ar putea să vă placă și