Documente Academic
Documente Profesional
Documente Cultură
Pima.tr
Johan Steven Aparicio Arce
Diego Fernando Soto Sarria
Diciembre 1, 2017
Introduccion
El analisis discriminante es una tecnica de clasificacion donde el objetivo es obtener una funcion
capaz de clasificar a un nuevo individuo a partir del conocimiento de los valores de ciertas
variables discriminadoras. Este, a diferencia del Analisis de Cluster, deben conocerse los grupos
previamente y a que grupo pertenecen ciertos individuos, de los que tambien se conoce sus
valores en las variables discriminantes. Para ilustrar esto se presentara una aplicacion del AD.
Descripcion de variables
La base de datos cuenta con informacion de 200 mujeres de ascendencia india pima1 , con edades
superiores a los 21 anos y que habitaban en Phoenix, Arizona. Estas fueron sometidas a pruebas
de diabetes segun los criterios de la OMS y a su vez se registraron 8 variables: 7 numericas y
una clasifiatoria, detalladas a continuacion:
glu: Concentracion de glucosa plasmatica a las 2hs de una prueba de tolerancia oral a la
glucosa (G120 mg/dl)
type: Variable clasifiatoria (Yes, No) donde Yes, representa positivo para diabetes
1
Grupo de nativos americanos que viven en el centro y el sur de Arizona
1
Johan Aparicio & Diego Soto
Matriz de correlaciones
Antes de iniciar con el analisis, se presentara la matriz de correlaciones categorizada por la
variable type, que nos indica, como ya se menciono, si los individuos padecen de diabetes o no.
npreg
No: 0.144 No: 0.263 No: 0.0949 No: 0.002 No: 0.276 No: 0.628
Yes: 0.0685 Yes: 0.14 Yes: 0.0106 Yes: 0.054 Yes: 0.0933 Yes: 0.481
Cor : 0.269 Cor : 0.218 Cor : 0.217 Cor : 0.0607 Cor : 0.343
No: 0.276 No: 0.0455 No: 0.112 No: 0.0729 No: 0.232
glu
Yes: 0.068 Yes: 0.236 Yes: 0.0689 Yes: 0.0076 Yes: 0.168
bp
Yes: 0.138 Yes: 0.0926 Yes: 0.191 Yes: 0.198
skin
No: 0.719 No: 0.0254 No: 0.177
Yes: 0.478 Yes: 0.0788 Yes: 0.189
bmi
No: 0.0852 No: 0.115
Yes: 0.265 Yes: 0.143
Cor : 0.0714
ped
No: 0.211
Yes: 0.101
age
Figura 1: Matriz de correlaciones
Lo que nos permite ver la figura 1, es que las correlaciones entre las variables son muy bajas,
presentandose leves diferencias entre las que tienen diabetes y las que no. Las variables mas
correlacionadas fueron la edad, con el numero de embarazos, obteniendo una correlacion de 0.6
aproximadamente, y el IMC con FPD, con una correlacion de 0.659, siendo esta la mas alta .
En este se puede ver que el porcentaje de inercia explicado, por los dos primeros ejes es del
55.8 %, siendo esto relativamente bajo y consecuente con la matriz de correlaciones presentada
en la Figura 1.
Variables PCA
1.0
IMC
FPD
GPPT
0.5
Dim2 (21.4%)
GLU
0.0
PAD
EDAD
0.5
NVE
1.0
IMC IMC
FPD FPD
GPPT GPPT
0.5 0.5
cos2 contrib
Dim2 (21.4%)
Dim2 (21.4%)
0.7 17.5
GLU 0.6 GLU 15.0
0.0 0.0
PAD 0.5 PAD 12.5
0.4 10.0
EDAD EDAD
0.5 NVE 0.5 NVE
1.0 1.0
1.0 0.5 0.0 0.5 1.0 1.0 0.5 0.0 0.5 1.0
Dim1 (34.4%) Dim1 (34.4%)
La Figura 3, indica que las variables FDP, GPPT, Edad y Numero de embarazos de la mujer,
son las mas correlacionadas y las que mas contribuyen a la formacion del primer plano fac-
torial, por tanto son las variables mejor representadas en los dos primeros ejes. Mientras que
Antecedentes Familiares y PAD y G120, son las menos representadas por los ejes.
PCA Biplot
11
50 140
IMC
FPD 110
15 GPPT
31 10
2.5 193
129
148
4 157
198
165 167
74
59 104 119
153 131
186115 28
70 146
13635 76
2554
99 191162
48
contrib
12240 69 124 145
42 183
45 134
160
126 192
199
Dim2 (21.4%)
30 3
9062196
91
175 8785
71
128 52 7 143
154
180 156
195
98
55
164 33107
29 142 92174 184 197
75
17 89 39
194 14949
11347 123
120 100 2
181 8137
8 3222 105
152
127 158 72155 67 66 3 173
163 GLU
172
0.0 147 144
77 68
5
1
27 94 57 130
189
58 95 10946
5619 171
1
34 118 82 185 178111
38 12124 79
170
166 86108 101 61
20
138
78
43
102
169161
135
168 6 26190
200 106
93
PAD 60
44177 141 13
117
96
65 97 23 64
83 63
53
137
51 133 151 73
139 21 16
179
116 125 182 41
114
88 176 159
112
84
12
188 18
103 187 132
14 9
150
2
EDAD
2.5
NVE
80
36
2 0 2 4
Dim1 (34.4%)
2. Analisis Discriminante
A continuacion se presentan las medias de las variables, para cada uno de los grupos.
npreg X 1,I 2,92 X 1,II 4,84
glu X 2,I 113,11 X 2,II 145,06
bp X 3,I 69,55 X 3,II 74,59
skin ; X 4,I = 27,20 ; X 4,II = 33,12 (1)
bmi X 5,I 31,07 X 5,II 34,71
ped X 6,I 0,42 X 6,II 0,55
age X 7,I 29,23 X 7,II 37,69
Debido a que el de Wilks, esta muy cercano a 1 para cada variable, quiere decir que en general
su poder discriminane es bajo, sin embargo, se puede decir que las variable GLU y EDAD, son
las variables que mejor discriminan, pues para estas toma los valores mas pequenos. Por otro
lado, la comparacion de igualdad de medias de la F , arrojo un pv alor < 0,05, para cada caso, es
decir que bajo un nivel de significancia del 5 % o menos, hay evidencia suficiente para rechazar
la hipotesis de que las medias de los grupos son iguales en cada variable. Por tanto se puede
afirmar que la media entre grupos son significativamente diferentes.
|V | |V |
= = (0 < < 1) (2)
|T | |V + F |
Donde V , es la suma de cuadrados dentro de los grupos y T , la suma de cuadrados total (sin
distinguir grupos) para cada variable.
Cuanto este mas cerca de 0, mayor es el poder discriminante de las variables conside-
radas, y cuanto mas cerca de 1, menor es el poder discriminante.
Por otro lado, tambien se uso el F de Snedecor, el cual compara para cada variable las desviacio-
nes de las medias de cada uno de los grupos a la media total, entre las desviaciones a la media
dentro de cada grupo. Si F es grande para cada variable, entonces las medias de cada grupo
estan muy separadas y la variable discrimina bien. Si F es pequena, la variable discriminara
poco, ya que habra poca homogeneidad en los grupos y estos estaran muy proximos.
No Si Coeficientes
constant -35.51 -46.11 -10.60
NVE -0.18 -0.06 0.12
GLU 0.10 0.13 0.04
PAD 0.44 0.44 -0.00
GPPT -0.26 -0.26 -0.00
IMC 0.97 1.04 0.08
FPD 4.78 6.69 1.90
EDAD 0.15 0.19 0.05
FI = 35,51 0,18X1 + 0,1X2 + 0,44X3 0,26X4 + 0,97X5 + 4,78X6 + 0,15X7
FII = 46,11 0,06X1 + 0,13X2 + 0,44X3 0,26X4 + 1,04X5 + 6,69X6 + 0,19X7
Se evaluan cada una de las variables en las funciones FI y FII y se clasificara a un individuo
en el grupo respectivo, para el cual la funcion F arroja un mayor resultado.
Esta clasificacion la podemos ver de otra manera haciendo FII FI , de lo cual se obtiene:
Y ahora sencillamente, ya no tendremos que evaluar en dos funciones, sino, que solo se evaluaran
las variables en la funcion FII FI , en donde si el resultado es positivo o negativo, el individuo
pertenecera al grupo II o I, respectivamente.
IMC IMC
FPD FPD
GPPT GPPT
2.5
2.5
Dim2 (21.4%)
Dim2 (21.4%)
Diabetes
Diabetes
No
No
0.0
GLU
0.0
GLU
Si
Si
PAD
PAD
EDAD
EDAD 2.5
2.5 NVE
NVE
IMC IMC
FPD FPD
GPPT GPPT
2.5
2.5
Dim2 (21.4%)
Dim2 (21.4%)
Diabetes
Diabetes
No
No
0.0
GLU
0.0
GLU
Si
Si
PAD
PAD
EDAD
EDAD 2.5
2.5 NVE
NVE
IMC IMC
FPD FPD
GPPT GPPT
2.5 2.5
Dim2 (21.4%)
Dim2 (21.4%)
Diabetes Diabetes
No
No
0.0
GLU 0.0
GLU
Si
Si
PAD
PAD
EDAD EDAD
2.5 2.5
NVE NVE
Debido a que la clasificacion de los individuos con diabetes y no diabetes, tiene un poder
discriminante muy bajo, en la grafica de clasificacion original los elipses de cada grupo se
sobreponen, ocasionando que se obtuvieran errores de clasificacion alrededor del 23 %. Por
otro lado, a pesar que las graficas de los 3 metodos se diferencia de la original, entre ellas
tienen clasificacion muy similares, situando a la derecha del grafico a las mujeres que presenten
diabetes, y al lado izquierdo a la mujeres que no presentan la enfermedad.
Se observa, de que para los tres metodos de clasificacion, no hay diferencias significativas en el
% de mujeres bien discriminadas, siendo este cercano al 77 % en todos los casos (teniendo en
cuenta que en el metodo PLS, el proceso es aleatorio)
Continuando con la comparacion de los metodos, los pv alores de la prueba F para comparar si
las medias de cada grupo son diferentes en cada variable, fueron aproximadamente 0, es decir,
que para los tres metodos de clasificacion y todas las variables, se tiene que las medias son muy
diferentes entre los grupos (Si-No).
Tabla 7: de Wilks
Originales Lineal Cuadratico PLS
NVE 0.93 0.81 0.80 0.83
GLU 0.77 0.52 0.59 0.52
PAD 0.96 0.88 0.86 0.87
GPPT 0.94 0.92 0.95 0.92
IMC 0.92 0.90 0.94 0.92
FPD 0.96 0.95 0.95 0.94
EDAD 0.87 0.68 0.64 0.68
Finalmente el de Wilks para cada variable, fue relativamente cercana 1, para los tres metodos,
siendo mas pequeno en la variable GLU y la Edad, es decir que estas variables siguen siendo las
que mejor clasifican a una mujer como diabetica o no. Por otra parte, se observa que el poder
de discriminacion en los metodos fue mayor, que para las variables originales, pues en esta, los
grupos se encontraban muy cercanos.
Referencias
Husson, F., Josse, J., Le, S., Mazet, J., y Husson, M. F. (2017). Package factominer.
Josse, Julie and Holmes, Susan and others (2016). Measuring multivariate association and
beyond. Statistics Surveys, 10:132167.
Kassambara, A. y Mundt, F. (2016). Factoextra: extract and visualize the results of multivariate
data analyses. R package version, 1(3).
Tarres, M. C., Moscoloni, N., Navone, H., y DOttavio, A. E. (2016). Analisis multidimensional
de una base de datos de mujeres pima/multidimensional analysis from a database of pima
women. Biotecnia, 18(3):1419.