Lab Report 2

Analisis Discriminante para la base de datos
Pima.tr
Johan Steven Aparicio Arce
Diego Fernando Soto Sarria
Diciembre 1, 2017
Institucion: Universidad del Valle

Asignatura: Estadstica Aplicada III
Instructor: Andres Felipe Ochoa Munoz
Introduccion
El analisis discriminante es una tecnica de clasificacion donde el objetivo es obtener una funcion
capaz de clasificar a un nuevo individuo a partir del conocimiento de los valores de ciertas
variables discriminadoras. Este, a diferencia del Analisis de Cluster, deben conocerse los grupos
previamente y a que grupo pertenecen ciertos individuos, de los que tambien se conoce sus
valores en las variables discriminantes. Para ilustrar esto se presentara una aplicacion del AD.
Descripcion de variables
La base de datos cuenta con informacion de 200 mujeres de ascendencia india pima1 , con edades
superiores a los 21 anos y que habitaban en Phoenix, Arizona. Estas fueron sometidas a pruebas
de diabetes segun los criterios de la OMS y a su vez se registraron 8 variables: 7 numericas y
una clasifiatoria, detalladas a continuacion:
npreg: Numero de veces embarazada (NVE).
glu: Concentracion de glucosa plasmatica a las 2hs de una prueba de tolerancia oral a la
glucosa (G120 mg/dl)
bp: Presion arterial diastolica (PAD mmHg)
skin: Grosor del pliegue de la piel del trceps (GPPT mm)
bmi: Indice de masa corporal (IMC=kg/m2 )
ped: Antecedentes Familiares o funcion de pedigr de diabetes (FPD)
age: Edad en anos.
type: Variable clasifiatoria (Yes, No) donde Yes, representa positivo para diabetes
1
Grupo de nativos americanos que viven en el centro y el sur de Arizona
1
Johan Aparicio & Diego Soto
Matriz de correlaciones
Antes de iniciar con el analisis, se presentara la matriz de correlaciones categorizada por la
variable type, que nos indica, como ya se menciono, si los individuos padecen de diabetes o no.
npreg glu bp skin bmi ped age

Cor : 0.171 Cor : 0.252 Cor : 0.109 Cor : 0.0583 Cor : 0.119 Cor : 0.599
npreg
No: 0.144 No: 0.263 No: 0.0949 No: 0.002 No: 0.276 No: 0.628
Yes: 0.0685 Yes: 0.14 Yes: 0.0106 Yes: 0.054 Yes: 0.0933 Yes: 0.481
Cor : 0.269 Cor : 0.218 Cor : 0.217 Cor : 0.0607 Cor : 0.343
No: 0.276 No: 0.0455 No: 0.112 No: 0.0729 No: 0.232
glu
Yes: 0.068 Yes: 0.236 Yes: 0.0689 Yes: 0.0076 Yes: 0.168
Cor : 0.265 Cor : 0.239 Cor : 0.0474 Cor : 0.391

No: 0.28 No: 0.235 No: 0.0261 No: 0.442
bp
Yes: 0.138 Yes: 0.0926 Yes: 0.191 Yes: 0.198
Cor : 0.659 Cor : 0.0954 Cor : 0.252
skin
No: 0.719 No: 0.0254 No: 0.177
Yes: 0.478 Yes: 0.0788 Yes: 0.189
Cor : 0.191 Cor : 0.132
bmi
No: 0.0852 No: 0.115
Yes: 0.265 Yes: 0.143
Cor : 0.0714
ped
No: 0.211
Yes: 0.101
age
Figura 1: Matriz de correlaciones
Lo que nos permite ver la figura 1, es que las correlaciones entre las variables son muy bajas,
presentandose leves diferencias entre las que tienen diabetes y las que no. Las variables mas
correlacionadas fueron la edad, con el numero de embarazos, obteniendo una correlacion de 0.6
aproximadamente, y el IMC con FPD, con una correlacion de 0.659, siendo esta la mas alta .
1. Analisis de Componentes Principales

Para abordar la metodologa del analisis discriminante, primero procederemos a realizar un
analisis de componentes principales, iniciando con el porcentaje de inercia explicado por cada
uno de los ejes:
Tabla 1: Porcentaje de Inercia Explicada

Valor Propio % Inercia % Inercia Acumulada
comp 1 2.41 34.42 34.42
comp 2 1.50 21.38 55.80
comp 3 0.91 13.03 68.82
comp 4 0.80 11.43 80.25
comp 5 0.69 9.86 90.11
comp 6 0.39 5.57 95.68
comp 7 0.30 4.32 100.00
En este se puede ver que el porcentaje de inercia explicado, por los dos primeros ejes es del
55.8 %, siendo esto relativamente bajo y consecuente con la matriz de correlaciones presentada
en la Figura 1.
Universidad del Valle / Facultad de Ingenieras / Escuela de Estadstica

1.1. Nube de Variables

Se puede observar en la Figura 3, la nube de variables, en donde es posible apreciar que to-
das las variables presentan una correlacion positiva, situandose al lado derecho del plano. Tal
disposicion evidencia el efecto tamano, que segun Tarres et al. (2016), es caracterstico de
los datos biometricos. Por otro lado, se vuelve a apreciar que el FPD y el GPPT, son las mas
correlacionadas, seguidas de la Edad y el Numero de veces embarazada.
Variables PCA
1.0
IMC
FPD
GPPT
0.5
Dim2 (21.4%)
GLU
0.0
PAD
EDAD
0.5
NVE
1.0
1.0 0.5 0.0 0.5 1.0

Dim1 (34.4%)
Figura 2: Nube de Variables
Cosenos Cuadrados y Contribuciones
Variables PCA Variables PCA

1.0 1.0
IMC IMC
FPD FPD
GPPT GPPT
0.5 0.5
cos2 contrib
Dim2 (21.4%)
Dim2 (21.4%)
0.7 17.5
GLU 0.6 GLU 15.0
0.0 0.0
PAD 0.5 PAD 12.5
0.4 10.0
EDAD EDAD
0.5 NVE 0.5 NVE
1.0 1.0
1.0 0.5 0.0 0.5 1.0 1.0 0.5 0.0 0.5 1.0
Dim1 (34.4%) Dim1 (34.4%)
Figura 3: Cosenos Cuadrados y Contribuciones

La Figura 3, indica que las variables FDP, GPPT, Edad y Numero de embarazos de la mujer,
son las mas correlacionadas y las que mas contribuyen a la formacion del primer plano fac-
torial, por tanto son las variables mejor representadas en los dos primeros ejes. Mientras que
Antecedentes Familiares y PAD y G120, son las menos representadas por los ejes.
1.2. Representacion simultanea
PCA Biplot
11

50 140

IMC

FPD 110
15 GPPT

31 10
2.5 193

129
148
4 157
198
165 167
74

59 104 119
153 131
186115 28
70 146
13635 76
2554

99 191162
48

contrib
12240 69 124 145

42 183
45 134
160
126 192
199
Dim2 (21.4%)

30 3
9062196
91
175 8785
71
128 52 7 143

154

180 156
195
98
55
164 33107
29 142 92174 184 197
75
17 89 39
194 14949
11347 123
120 100 2
181 8137
8 3222 105

152

127 158 72155 67 66 3 173
163 GLU
172

0.0 147 144
77 68
5

1

27 94 57 130
189

58 95 10946

5619 171
1
34 118 82 185 178111
38 12124 79

170

166 86108 101 61

20
138
78
43
102

169161

135
168 6 26190
200 106
93

PAD 60

44177 141 13
117

96

65 97 23 64
83 63
53
137
51 133 151 73

139 21 16

179
116 125 182 41
114

88 176 159
112
84

12
188 18
103 187 132

14 9

150

2

EDAD
2.5
NVE
80

36

2 0 2 4
Dim1 (34.4%)
Figura 4: Representacion simultanea
La Figura 4, muestra la representacion simultanea y la contribucion de cada mujer al primer

plano factorial. Este nos indica que la mujer registrada con el numero 157, tiene la mayor
coordenada en el eje 1, por tanto tiene una mayor medicion en las variables Numero de veces
embarazada, G120, PAD, GPPT, IMC y Edad. Por otro lado las mujeres 11, 50, 140, 157, 80,
36, 32, 96 y 60, son las mas excentricas, pues tienen las contribuciones mas altas, y estan mas
alejadas del origen, situandose a la derecha del primer plano factorial.
2. Analisis Discriminante
A continuacion se presentan las medias de las variables, para cada uno de los grupos.

npreg X 1,I 2,92 X 1,II 4,84
glu X 2,I 113,11 X 2,II 145,06

bp X 3,I 69,55 X 3,II 74,59

skin ; X 4,I = 27,20 ; X 4,II = 33,12 (1)

bmi X 5,I 31,07 X 5,II 34,71

ped X 6,I 0,42 X 6,II 0,55
age X 7,I 29,23 X 7,II 37,69

donde X I , representa el centro de gravedad del grupo I (No-Diabetes) y X II , el centro de

gravedad o centroide para el grupo 2 (Si-Diabetes).
wilks lambda F statistic p value

NVE 0.93 15.70 0.00
GLU 0.77 59.01 0.00
PAD 0.96 9.01 0.00
GPPT 0.94 12.05 0.00
IMC 0.92 17.05 0.00
FPD 0.96 8.76 0.00
EDAD 0.87 30.61 0.00
Tabla 2: Pruebas de igualdad de medias de los grupos
Debido a que el de Wilks, esta muy cercano a 1 para cada variable, quiere decir que en general
su poder discriminane es bajo, sin embargo, se puede decir que las variable GLU y EDAD, son
las variables que mejor discriminan, pues para estas toma los valores mas pequenos. Por otro
lado, la comparacion de igualdad de medias de la F , arrojo un pv alor < 0,05, para cada caso, es
decir que bajo un nivel de significancia del 5 % o menos, hay evidencia suficiente para rechazar
la hipotesis de que las medias de los grupos son iguales en cada variable. Por tanto se puede
afirmar que la media entre grupos son significativamente diferentes.
2.1. Poder discriminante para cada variable

Con el fin de determinar que variables discriminan mejor dentro del analisis, se usara el es-
tadstico de Wilks, en el cual, se consideran las variables de modo individual, la es el
cociente entre la suma de cuadrados dentro de los grupos y la suma de cuadrados total (sin
distinguir grupos). Esto equivale a las desviaciones a la media dentro de cada grupo, entre las
desviaciones a la media total sin distinguir grupos.
|V | |V |
= = (0 < < 1) (2)
|T | |V + F |
Donde V , es la suma de cuadrados dentro de los grupos y T , la suma de cuadrados total (sin
distinguir grupos) para cada variable.
Cuanto este mas cerca de 0, mayor es el poder discriminante de las variables conside-
radas, y cuanto mas cerca de 1, menor es el poder discriminante.
Por otro lado, tambien se uso el F de Snedecor, el cual compara para cada variable las desviacio-
nes de las medias de cada uno de los grupos a la media total, entre las desviaciones a la media
dentro de cada grupo. Si F es grande para cada variable, entonces las medias de cada grupo
estan muy separadas y la variable discrimina bien. Si F es pequena, la variable discriminara
poco, ya que habra poca homogeneidad en los grupos y estos estaran muy proximos.

2.2. Funciones Discriminante
No Si Coeficientes
constant -35.51 -46.11 -10.60
NVE -0.18 -0.06 0.12
GLU 0.10 0.13 0.04
PAD 0.44 0.44 -0.00
GPPT -0.26 -0.26 -0.00
IMC 0.97 1.04 0.08
FPD 4.78 6.69 1.90
EDAD 0.15 0.19 0.05
Tabla 3: Funcion discriminante de Fisher
El criterio para clasificar el individuo i-esimo es el siguiente:

FI = 35,51 0,18X1 + 0,1X2 + 0,44X3 0,26X4 + 0,97X5 + 4,78X6 + 0,15X7
FII = 46,11 0,06X1 + 0,13X2 + 0,44X3 0,26X4 + 1,04X5 + 6,69X6 + 0,19X7
Se evaluan cada una de las variables en las funciones FI y FII y se clasificara a un individuo
en el grupo respectivo, para el cual la funcion F arroja un mayor resultado.
Esta clasificacion la podemos ver de otra manera haciendo FII FI , de lo cual se obtiene:
FII F I = 10,6 + 0,12X1 + 0,04X2 + 0,08X5 + 1,9X6 + 0,05X7 (3)
Y ahora sencillamente, ya no tendremos que evaluar en dos funciones, sino, que solo se evaluaran
las variables en la funcion FII FI , en donde si el resultado es positivo o negativo, el individuo
pertenecera al grupo II o I, respectivamente.
2.3. Nuevos Individuos

Ahora bien, mediante la funcion (3), se procede a clasificar a dos mujeres, que toman valores
extremos en sus covariables:
Tabla 4: Mujeres excentricas

M1 M2
NVE 5.00 0.00
GLU 200.00 50.00
PAD 65.00 50.00
GPPT 60.00 18.00
IMC 35.00 20.00
FPD 0.60 0.32
EDAD 70.00 22.00

FII F I (M1 ) = 4,17111 (4)
FII F I (M2 ) = 5,762136 (5)

Debido a que, para la mujer 1, el resultado es positivo, quiere decir que pertenece al grupo
II(Diabeticos), mientras que la segunda mujer que presenta valores mas bajos en este variable,
pertenece al grupo I(No diabetes).
2.4. Presencia de diabetes

En la Figura 5, se realiza una comparacion de los graficos generados por el analisis de componen-
te principales y por el analisis discriminante. En este se observan diferencias en la clasificacion
por ambos metodos, siendo mas acentuada en el AD, donde los centroides de las elipses se
situan mas alejados del centro de gravedad.
PCA Biplot PCA Biplot
IMC IMC

FPD FPD
GPPT GPPT

2.5
2.5

Dim2 (21.4%)
Dim2 (21.4%)

Diabetes

Diabetes

No
No

0.0

GLU
0.0

GLU
Si

Si

PAD

PAD

EDAD

EDAD 2.5
2.5 NVE
NVE

2.5 0.0 2.5 5.0 2.5 0.0 2.5 5.0

Dim1 (34.4%) Dim1 (34.4%)
Figura 5: Representacion simultanea ACP Vs AD

3. Comparacion metodos discriminantes Lineal, Cuadrati-

co y PLSDA
A continuacion se muestra la representacion simultanea, para los diferentes criterios de clasifi-
cacion, con el fin de diferenciar los resultados obtenidos en cada metodo.
IMC IMC

FPD FPD
GPPT GPPT

2.5
2.5

Dim2 (21.4%)
Dim2 (21.4%)

Diabetes

Diabetes

No
No

0.0

GLU
0.0

GLU
Si

Si

PAD

PAD

EDAD

EDAD 2.5
2.5 NVE
NVE

2.5 0.0 2.5 5.0 2.5 0.0 2.5 5.0

Dim1 (34.4%) Dim1 (34.4%)
Figura 6: Comparacion ACP Vs Lineal
IMC IMC

FPD FPD
GPPT GPPT

2.5 2.5

Dim2 (21.4%)
Dim2 (21.4%)

Diabetes Diabetes

No

No
0.0

GLU 0.0

GLU

Si

Si

PAD

PAD

EDAD EDAD
2.5 2.5
NVE NVE
2.5 0.0 2.5 5.0 2.5 0.0 2.5 5.0

Dim1 (34.4%) Dim1 (34.4%)
Figura 7: Comparacion PLS Vs Cuadratico
Debido a que la clasificacion de los individuos con diabetes y no diabetes, tiene un poder
discriminante muy bajo, en la grafica de clasificacion original los elipses de cada grupo se
sobreponen, ocasionando que se obtuvieran errores de clasificacion alrededor del 23 %. Por
otro lado, a pesar que las graficas de los 3 metodos se diferencia de la original, entre ellas
tienen clasificacion muy similares, situando a la derecha del grafico a las mujeres que presenten
diabetes, y al lado izquierdo a la mujeres que no presentan la enfermedad.

3.1. Comparacion de correcta clasificacion
Tabla 5: Porcentaje de mujeres bien clasificadas

Lineal Cuadratico PLS
% De Buena Calificacon 77.00 77.00 78.00
Se observa, de que para los tres metodos de clasificacion, no hay diferencias significativas en el
% de mujeres bien discriminadas, siendo este cercano al 77 % en todos los casos (teniendo en
cuenta que en el metodo PLS, el proceso es aleatorio)
3.2. Comparacion de medias entre grupos
Tabla 6: Comparacion de Medias de los grupos

Orig.F Orig.p value Lineal.F Fisher.p value Cuad.F Cuad.p value PLS.F PLS.p value
NVE 15.70 0.00 45.27 0.00 51.03 0.00 39.99 0.00
GLU 59.01 0.00 179.74 0.00 139.69 0.00 181.48 0.00
PAD 9.01 0.00 25.85 0.00 31.48 0.00 29.47 0.00
GPPT 12.05 0.00 16.22 0.00 10.35 0.00 17.43 0.00
IMC 17.05 0.00 21.36 0.00 11.63 0.00 17.58 0.00
FPD 8.76 0.00 10.15 0.00 10.98 0.00 11.67 0.00
EDAD 30.61 0.00 93.52 0.00 112.84 0.00 93.26 0.00
Continuando con la comparacion de los metodos, los pv alores de la prueba F para comparar si
las medias de cada grupo son diferentes en cada variable, fueron aproximadamente 0, es decir,
que para los tres metodos de clasificacion y todas las variables, se tiene que las medias son muy
diferentes entre los grupos (Si-No).
3.3. Poder discriminante de cada variable
Tabla 7: de Wilks
Originales Lineal Cuadratico PLS
NVE 0.93 0.81 0.80 0.83
GLU 0.77 0.52 0.59 0.52
PAD 0.96 0.88 0.86 0.87
GPPT 0.94 0.92 0.95 0.92
IMC 0.92 0.90 0.94 0.92
FPD 0.96 0.95 0.95 0.94
EDAD 0.87 0.68 0.64 0.68
Finalmente el de Wilks para cada variable, fue relativamente cercana 1, para los tres metodos,
siendo mas pequeno en la variable GLU y la Edad, es decir que estas variables siguen siendo las
que mejor clasifican a una mujer como diabetica o no. Por otra parte, se observa que el poder
de discriminacion en los metodos fue mayor, que para las variables originales, pues en esta, los
grupos se encontraban muy cercanos.

Referencias
Husson, F., Josse, J., Le, S., Mazet, J., y Husson, M. F. (2017). Package factominer.
Josse, Julie and Holmes, Susan and others (2016). Measuring multivariate association and
beyond. Statistics Surveys, 10:132167.
Kassambara, A. y Mundt, F. (2016). Factoextra: extract and visualize the results of multivariate
data analyses. R package version, 1(3).
Tarres, M. C., Moscoloni, N., Navone, H., y DOttavio, A. E. (2016). Analisis multidimensional
de una base de datos de mujeres pima/multidimensional analysis from a database of pima
women. Biotecnia, 18(3):1419.

Lab Report 2

Încărcat de

Informații document

Descriere originală:

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Lab Report 2

Încărcat de

Drepturi de autor:

Formate disponibile

Analisis Discriminante para la base de datos

Institucion: Universidad del Valle

npreg: Numero de veces embarazada (NVE).

bp: Presion arterial diastolica (PAD mmHg)

skin: Grosor del pliegue de la piel del trceps (GPPT mm)

bmi: Indice de masa corporal (IMC=kg/m2 )

ped: Antecedentes Familiares o funcion de pedigr de diabetes (FPD)

age: Edad en anos.

npreg glu bp skin bmi ped age

Cor : 0.265 Cor : 0.239 Cor : 0.0474 Cor : 0.391

Cor : 0.659 Cor : 0.0954 Cor : 0.252

Cor : 0.191 Cor : 0.132

1. Analisis de Componentes Principales

Tabla 1: Porcentaje de Inercia Explicada

Universidad del Valle / Facultad de Ingenieras / Escuela de Estadstica

1.1. Nube de Variables

1.0 0.5 0.0 0.5 1.0

Figura 2: Nube de Variables

Cosenos Cuadrados y Contribuciones

Variables PCA Variables PCA

Figura 3: Cosenos Cuadrados y Contribuciones

Universidad del Valle / Facultad de Ingenieras / Escuela de Estadstica

1.2. Representacion simultanea

Figura 4: Representacion simultanea

La Figura 4, muestra la representacion simultanea y la contribucion de cada mujer al primer

Universidad del Valle / Facultad de Ingenieras / Escuela de Estadstica

donde X I , representa el centro de gravedad del grupo I (No-Diabetes) y X II , el centro de

wilks lambda F statistic p value

Tabla 2: Pruebas de igualdad de medias de los grupos

2.1. Poder discriminante para cada variable

Universidad del Valle / Facultad de Ingenieras / Escuela de Estadstica

2.2. Funciones Discriminante

Tabla 3: Funcion discriminante de Fisher

El criterio para clasificar el individuo i-esimo es el siguiente:

FII F I = 10,6 + 0,12X1 + 0,04X2 + 0,08X5 + 1,9X6 + 0,05X7 (3)

2.3. Nuevos Individuos

Tabla 4: Mujeres excentricas

Universidad del Valle / Facultad de Ingenieras / Escuela de Estadstica

FII F I (M1 ) = 4,17111 (4)

FII F I (M2 ) = 5,762136 (5)

2.4. Presencia de diabetes

2.5 0.0 2.5 5.0 2.5 0.0 2.5 5.0

Figura 5: Representacion simultanea ACP Vs AD

Universidad del Valle / Facultad de Ingenieras / Escuela de Estadstica

3. Comparacion metodos discriminantes Lineal, Cuadrati-

2.5 0.0 2.5 5.0 2.5 0.0 2.5 5.0

Figura 6: Comparacion ACP Vs Lineal

PCA Biplot PCA Biplot

2.5 0.0 2.5 5.0 2.5 0.0 2.5 5.0

Figura 7: Comparacion PLS Vs Cuadratico

Universidad del Valle / Facultad de Ingenieras / Escuela de Estadstica

3.1. Comparacion de correcta clasificacion

Tabla 5: Porcentaje de mujeres bien clasificadas

3.2. Comparacion de medias entre grupos

Tabla 6: Comparacion de Medias de los grupos

3.3. Poder discriminante de cada variable

Universidad del Valle / Facultad de Ingenieras / Escuela de Estadstica

Universidad del Valle / Facultad de Ingenieras / Escuela de Estadstica

S-ar putea să vă placă și