Sunteți pe pagina 1din 10

Analisis Discriminante para la base de datos

Pima.tr
Johan Steven Aparicio Arce
Diego Fernando Soto Sarria
Diciembre 1, 2017

Institucion: Universidad del Valle


Asignatura: Estadstica Aplicada III
Instructor: Andres Felipe Ochoa Munoz

Introduccion
El analisis discriminante es una tecnica de clasificacion donde el objetivo es obtener una funcion
capaz de clasificar a un nuevo individuo a partir del conocimiento de los valores de ciertas
variables discriminadoras. Este, a diferencia del Analisis de Cluster, deben conocerse los grupos
previamente y a que grupo pertenecen ciertos individuos, de los que tambien se conoce sus
valores en las variables discriminantes. Para ilustrar esto se presentara una aplicacion del AD.

Descripcion de variables
La base de datos cuenta con informacion de 200 mujeres de ascendencia india pima1 , con edades
superiores a los 21 anos y que habitaban en Phoenix, Arizona. Estas fueron sometidas a pruebas
de diabetes segun los criterios de la OMS y a su vez se registraron 8 variables: 7 numericas y
una clasifiatoria, detalladas a continuacion:

npreg: Numero de veces embarazada (NVE).

glu: Concentracion de glucosa plasmatica a las 2hs de una prueba de tolerancia oral a la
glucosa (G120 mg/dl)

bp: Presion arterial diastolica (PAD mmHg)

skin: Grosor del pliegue de la piel del trceps (GPPT mm)

bmi: Indice de masa corporal (IMC=kg/m2 )

ped: Antecedentes Familiares o funcion de pedigr de diabetes (FPD)

age: Edad en anos.

type: Variable clasifiatoria (Yes, No) donde Yes, representa positivo para diabetes
1
Grupo de nativos americanos que viven en el centro y el sur de Arizona

1
Johan Aparicio & Diego Soto

Matriz de correlaciones
Antes de iniciar con el analisis, se presentara la matriz de correlaciones categorizada por la
variable type, que nos indica, como ya se menciono, si los individuos padecen de diabetes o no.

npreg glu bp skin bmi ped age


Cor : 0.171 Cor : 0.252 Cor : 0.109 Cor : 0.0583 Cor : 0.119 Cor : 0.599

npreg
No: 0.144 No: 0.263 No: 0.0949 No: 0.002 No: 0.276 No: 0.628
Yes: 0.0685 Yes: 0.14 Yes: 0.0106 Yes: 0.054 Yes: 0.0933 Yes: 0.481

Cor : 0.269 Cor : 0.218 Cor : 0.217 Cor : 0.0607 Cor : 0.343
No: 0.276 No: 0.0455 No: 0.112 No: 0.0729 No: 0.232

glu
Yes: 0.068 Yes: 0.236 Yes: 0.0689 Yes: 0.0076 Yes: 0.168

Cor : 0.265 Cor : 0.239 Cor : 0.0474 Cor : 0.391


No: 0.28 No: 0.235 No: 0.0261 No: 0.442

bp
Yes: 0.138 Yes: 0.0926 Yes: 0.191 Yes: 0.198

Cor : 0.659 Cor : 0.0954 Cor : 0.252

skin
No: 0.719 No: 0.0254 No: 0.177
Yes: 0.478 Yes: 0.0788 Yes: 0.189

Cor : 0.191 Cor : 0.132

bmi
No: 0.0852 No: 0.115
Yes: 0.265 Yes: 0.143

Cor : 0.0714

ped
No: 0.211
Yes: 0.101

age
Figura 1: Matriz de correlaciones

Lo que nos permite ver la figura 1, es que las correlaciones entre las variables son muy bajas,
presentandose leves diferencias entre las que tienen diabetes y las que no. Las variables mas
correlacionadas fueron la edad, con el numero de embarazos, obteniendo una correlacion de 0.6
aproximadamente, y el IMC con FPD, con una correlacion de 0.659, siendo esta la mas alta .

1. Analisis de Componentes Principales


Para abordar la metodologa del analisis discriminante, primero procederemos a realizar un
analisis de componentes principales, iniciando con el porcentaje de inercia explicado por cada
uno de los ejes:

Tabla 1: Porcentaje de Inercia Explicada


Valor Propio % Inercia % Inercia Acumulada
comp 1 2.41 34.42 34.42
comp 2 1.50 21.38 55.80
comp 3 0.91 13.03 68.82
comp 4 0.80 11.43 80.25
comp 5 0.69 9.86 90.11
comp 6 0.39 5.57 95.68
comp 7 0.30 4.32 100.00

En este se puede ver que el porcentaje de inercia explicado, por los dos primeros ejes es del
55.8 %, siendo esto relativamente bajo y consecuente con la matriz de correlaciones presentada
en la Figura 1.

Universidad del Valle / Facultad de Ingenieras / Escuela de Estadstica


Johan Aparicio & Diego Soto

1.1. Nube de Variables


Se puede observar en la Figura 3, la nube de variables, en donde es posible apreciar que to-
das las variables presentan una correlacion positiva, situandose al lado derecho del plano. Tal
disposicion evidencia el efecto tamano, que segun Tarres et al. (2016), es caracterstico de
los datos biometricos. Por otro lado, se vuelve a apreciar que el FPD y el GPPT, son las mas
correlacionadas, seguidas de la Edad y el Numero de veces embarazada.

Variables PCA

1.0

IMC
FPD
GPPT
0.5
Dim2 (21.4%)

GLU
0.0

PAD

EDAD
0.5
NVE

1.0

1.0 0.5 0.0 0.5 1.0


Dim1 (34.4%)

Figura 2: Nube de Variables

Cosenos Cuadrados y Contribuciones

Variables PCA Variables PCA


1.0 1.0

IMC IMC
FPD FPD
GPPT GPPT
0.5 0.5

cos2 contrib
Dim2 (21.4%)

Dim2 (21.4%)

0.7 17.5
GLU 0.6 GLU 15.0
0.0 0.0
PAD 0.5 PAD 12.5
0.4 10.0

EDAD EDAD
0.5 NVE 0.5 NVE

1.0 1.0

1.0 0.5 0.0 0.5 1.0 1.0 0.5 0.0 0.5 1.0
Dim1 (34.4%) Dim1 (34.4%)

Figura 3: Cosenos Cuadrados y Contribuciones

Universidad del Valle / Facultad de Ingenieras / Escuela de Estadstica


Johan Aparicio & Diego Soto

La Figura 3, indica que las variables FDP, GPPT, Edad y Numero de embarazos de la mujer,
son las mas correlacionadas y las que mas contribuyen a la formacion del primer plano fac-
torial, por tanto son las variables mejor representadas en los dos primeros ejes. Mientras que
Antecedentes Familiares y PAD y G120, son las menos representadas por los ejes.

1.2. Representacion simultanea

PCA Biplot
11

50 140

IMC

FPD 110
15 GPPT

31 10
2.5 193

129
148
4 157
198
165 167
74


59 104 119
153 131
186115 28
70 146
13635 76
2554

99 191162
48

contrib
12240 69 124 145


42 183
45 134
160
126 192
199
Dim2 (21.4%)


30 3
9062196
91
175 8785
71

128 52 7 143

154

180 156
195
98
55
164 33107
29 142 92174 184 197
75
17 89 39
194 14949
11347 123
120 100 2
181 8137
8 3222 105


152

127 158 72155 67 66 3 173
163 GLU
172

0.0 147 144
77 68
5

1

27 94 57 130
189

58 95 10946




5619 171
1
34 118 82 185 178111
38 12124 79

170

166 86108 101 61

20
138
78
43
102

169161

135
168 6 26190
200 106
93

PAD 60

44177 141 13
117

96


65 97 23 64
83 63
53
137
51 133 151 73

139 21 16

179
116 125 182 41
114


88 176 159
112
84

12
188 18
103 187 132

14 9

150

2

EDAD
2.5

NVE
80

36

2 0 2 4
Dim1 (34.4%)

Figura 4: Representacion simultanea

La Figura 4, muestra la representacion simultanea y la contribucion de cada mujer al primer


plano factorial. Este nos indica que la mujer registrada con el numero 157, tiene la mayor
coordenada en el eje 1, por tanto tiene una mayor medicion en las variables Numero de veces
embarazada, G120, PAD, GPPT, IMC y Edad. Por otro lado las mujeres 11, 50, 140, 157, 80,
36, 32, 96 y 60, son las mas excentricas, pues tienen las contribuciones mas altas, y estan mas
alejadas del origen, situandose a la derecha del primer plano factorial.

2. Analisis Discriminante
A continuacion se presentan las medias de las variables, para cada uno de los grupos.

npreg X 1,I 2,92 X 1,II 4,84
glu X 2,I 113,11 X 2,II 145,06

bp X 3,I 69,55 X 3,II 74,59

skin ; X 4,I = 27,20 ; X 4,II = 33,12 (1)

bmi X 5,I 31,07 X 5,II 34,71

ped X 6,I 0,42 X 6,II 0,55
age X 7,I 29,23 X 7,II 37,69

Universidad del Valle / Facultad de Ingenieras / Escuela de Estadstica


Johan Aparicio & Diego Soto

donde X I , representa el centro de gravedad del grupo I (No-Diabetes) y X II , el centro de


gravedad o centroide para el grupo 2 (Si-Diabetes).

wilks lambda F statistic p value


NVE 0.93 15.70 0.00
GLU 0.77 59.01 0.00
PAD 0.96 9.01 0.00
GPPT 0.94 12.05 0.00
IMC 0.92 17.05 0.00
FPD 0.96 8.76 0.00
EDAD 0.87 30.61 0.00

Tabla 2: Pruebas de igualdad de medias de los grupos

Debido a que el de Wilks, esta muy cercano a 1 para cada variable, quiere decir que en general
su poder discriminane es bajo, sin embargo, se puede decir que las variable GLU y EDAD, son
las variables que mejor discriminan, pues para estas toma los valores mas pequenos. Por otro
lado, la comparacion de igualdad de medias de la F , arrojo un pv alor < 0,05, para cada caso, es
decir que bajo un nivel de significancia del 5 % o menos, hay evidencia suficiente para rechazar
la hipotesis de que las medias de los grupos son iguales en cada variable. Por tanto se puede
afirmar que la media entre grupos son significativamente diferentes.

2.1. Poder discriminante para cada variable


Con el fin de determinar que variables discriminan mejor dentro del analisis, se usara el es-
tadstico de Wilks, en el cual, se consideran las variables de modo individual, la es el
cociente entre la suma de cuadrados dentro de los grupos y la suma de cuadrados total (sin
distinguir grupos). Esto equivale a las desviaciones a la media dentro de cada grupo, entre las
desviaciones a la media total sin distinguir grupos.

|V | |V |
= = (0 < < 1) (2)
|T | |V + F |
Donde V , es la suma de cuadrados dentro de los grupos y T , la suma de cuadrados total (sin
distinguir grupos) para cada variable.

Cuanto este mas cerca de 0, mayor es el poder discriminante de las variables conside-
radas, y cuanto mas cerca de 1, menor es el poder discriminante.

Por otro lado, tambien se uso el F de Snedecor, el cual compara para cada variable las desviacio-
nes de las medias de cada uno de los grupos a la media total, entre las desviaciones a la media
dentro de cada grupo. Si F es grande para cada variable, entonces las medias de cada grupo
estan muy separadas y la variable discrimina bien. Si F es pequena, la variable discriminara
poco, ya que habra poca homogeneidad en los grupos y estos estaran muy proximos.

Universidad del Valle / Facultad de Ingenieras / Escuela de Estadstica


Johan Aparicio & Diego Soto

2.2. Funciones Discriminante

No Si Coeficientes
constant -35.51 -46.11 -10.60
NVE -0.18 -0.06 0.12
GLU 0.10 0.13 0.04
PAD 0.44 0.44 -0.00
GPPT -0.26 -0.26 -0.00
IMC 0.97 1.04 0.08
FPD 4.78 6.69 1.90
EDAD 0.15 0.19 0.05

Tabla 3: Funcion discriminante de Fisher

El criterio para clasificar el individuo i-esimo es el siguiente:

 
FI = 35,51 0,18X1 + 0,1X2 + 0,44X3 0,26X4 + 0,97X5 + 4,78X6 + 0,15X7
FII = 46,11 0,06X1 + 0,13X2 + 0,44X3 0,26X4 + 1,04X5 + 6,69X6 + 0,19X7

Se evaluan cada una de las variables en las funciones FI y FII y se clasificara a un individuo
en el grupo respectivo, para el cual la funcion F arroja un mayor resultado.

Esta clasificacion la podemos ver de otra manera haciendo FII FI , de lo cual se obtiene:

FII F I = 10,6 + 0,12X1 + 0,04X2 + 0,08X5 + 1,9X6 + 0,05X7 (3)

Y ahora sencillamente, ya no tendremos que evaluar en dos funciones, sino, que solo se evaluaran
las variables en la funcion FII FI , en donde si el resultado es positivo o negativo, el individuo
pertenecera al grupo II o I, respectivamente.

2.3. Nuevos Individuos


Ahora bien, mediante la funcion (3), se procede a clasificar a dos mujeres, que toman valores
extremos en sus covariables:

Tabla 4: Mujeres excentricas


M1 M2
NVE 5.00 0.00
GLU 200.00 50.00
PAD 65.00 50.00
GPPT 60.00 18.00
IMC 35.00 20.00
FPD 0.60 0.32
EDAD 70.00 22.00

Universidad del Valle / Facultad de Ingenieras / Escuela de Estadstica


Johan Aparicio & Diego Soto

FII F I (M1 ) = 4,17111 (4)

FII F I (M2 ) = 5,762136 (5)


Debido a que, para la mujer 1, el resultado es positivo, quiere decir que pertenece al grupo
II(Diabeticos), mientras que la segunda mujer que presenta valores mas bajos en este variable,
pertenece al grupo I(No diabetes).

2.4. Presencia de diabetes


En la Figura 5, se realiza una comparacion de los graficos generados por el analisis de componen-
te principales y por el analisis discriminante. En este se observan diferencias en la clasificacion
por ambos metodos, siendo mas acentuada en el AD, donde los centroides de las elipses se
situan mas alejados del centro de gravedad.
PCA Biplot PCA Biplot

IMC IMC


FPD FPD
GPPT GPPT

2.5
2.5
















Dim2 (21.4%)

Dim2 (21.4%)




Diabetes


Diabetes






No
No


0.0



GLU
0.0






GLU
Si








Si











PAD

PAD


























EDAD

EDAD 2.5
2.5 NVE
NVE

2.5 0.0 2.5 5.0 2.5 0.0 2.5 5.0


Dim1 (34.4%) Dim1 (34.4%)

Figura 5: Representacion simultanea ACP Vs AD

Universidad del Valle / Facultad de Ingenieras / Escuela de Estadstica


Johan Aparicio & Diego Soto

3. Comparacion metodos discriminantes Lineal, Cuadrati-


co y PLSDA
A continuacion se muestra la representacion simultanea, para los diferentes criterios de clasifi-
cacion, con el fin de diferenciar los resultados obtenidos en cada metodo.
PCA Biplot PCA Biplot

IMC IMC


FPD FPD
GPPT GPPT

2.5
2.5
















Dim2 (21.4%)

Dim2 (21.4%)



Diabetes


Diabetes







No
No



0.0



GLU
0.0




GLU
Si








Si











PAD

PAD























EDAD

EDAD 2.5
2.5 NVE
NVE

2.5 0.0 2.5 5.0 2.5 0.0 2.5 5.0


Dim1 (34.4%) Dim1 (34.4%)

Figura 6: Comparacion ACP Vs Lineal

PCA Biplot PCA Biplot

IMC IMC

FPD FPD
GPPT GPPT

2.5 2.5














Dim2 (21.4%)

Dim2 (21.4%)


Diabetes Diabetes




No

No
0.0





GLU 0.0



GLU



Si


Si
















PAD


PAD





















EDAD EDAD
2.5 2.5
NVE NVE

2.5 0.0 2.5 5.0 2.5 0.0 2.5 5.0


Dim1 (34.4%) Dim1 (34.4%)

Figura 7: Comparacion PLS Vs Cuadratico

Debido a que la clasificacion de los individuos con diabetes y no diabetes, tiene un poder
discriminante muy bajo, en la grafica de clasificacion original los elipses de cada grupo se
sobreponen, ocasionando que se obtuvieran errores de clasificacion alrededor del 23 %. Por
otro lado, a pesar que las graficas de los 3 metodos se diferencia de la original, entre ellas
tienen clasificacion muy similares, situando a la derecha del grafico a las mujeres que presenten
diabetes, y al lado izquierdo a la mujeres que no presentan la enfermedad.

Universidad del Valle / Facultad de Ingenieras / Escuela de Estadstica


Johan Aparicio & Diego Soto

3.1. Comparacion de correcta clasificacion

Tabla 5: Porcentaje de mujeres bien clasificadas


Lineal Cuadratico PLS
% De Buena Calificacon 77.00 77.00 78.00

Se observa, de que para los tres metodos de clasificacion, no hay diferencias significativas en el
% de mujeres bien discriminadas, siendo este cercano al 77 % en todos los casos (teniendo en
cuenta que en el metodo PLS, el proceso es aleatorio)

3.2. Comparacion de medias entre grupos

Tabla 6: Comparacion de Medias de los grupos


Orig.F Orig.p value Lineal.F Fisher.p value Cuad.F Cuad.p value PLS.F PLS.p value
NVE 15.70 0.00 45.27 0.00 51.03 0.00 39.99 0.00
GLU 59.01 0.00 179.74 0.00 139.69 0.00 181.48 0.00
PAD 9.01 0.00 25.85 0.00 31.48 0.00 29.47 0.00
GPPT 12.05 0.00 16.22 0.00 10.35 0.00 17.43 0.00
IMC 17.05 0.00 21.36 0.00 11.63 0.00 17.58 0.00
FPD 8.76 0.00 10.15 0.00 10.98 0.00 11.67 0.00
EDAD 30.61 0.00 93.52 0.00 112.84 0.00 93.26 0.00

Continuando con la comparacion de los metodos, los pv alores de la prueba F para comparar si
las medias de cada grupo son diferentes en cada variable, fueron aproximadamente 0, es decir,
que para los tres metodos de clasificacion y todas las variables, se tiene que las medias son muy
diferentes entre los grupos (Si-No).

3.3. Poder discriminante de cada variable

Tabla 7: de Wilks
Originales Lineal Cuadratico PLS
NVE 0.93 0.81 0.80 0.83
GLU 0.77 0.52 0.59 0.52
PAD 0.96 0.88 0.86 0.87
GPPT 0.94 0.92 0.95 0.92
IMC 0.92 0.90 0.94 0.92
FPD 0.96 0.95 0.95 0.94
EDAD 0.87 0.68 0.64 0.68

Finalmente el de Wilks para cada variable, fue relativamente cercana 1, para los tres metodos,
siendo mas pequeno en la variable GLU y la Edad, es decir que estas variables siguen siendo las
que mejor clasifican a una mujer como diabetica o no. Por otra parte, se observa que el poder
de discriminacion en los metodos fue mayor, que para las variables originales, pues en esta, los
grupos se encontraban muy cercanos.

Universidad del Valle / Facultad de Ingenieras / Escuela de Estadstica


Johan Aparicio & Diego Soto

Referencias
Husson, F., Josse, J., Le, S., Mazet, J., y Husson, M. F. (2017). Package factominer.

Josse, Julie and Holmes, Susan and others (2016). Measuring multivariate association and
beyond. Statistics Surveys, 10:132167.

Kassambara, A. y Mundt, F. (2016). Factoextra: extract and visualize the results of multivariate
data analyses. R package version, 1(3).

Tarres, M. C., Moscoloni, N., Navone, H., y DOttavio, A. E. (2016). Analisis multidimensional
de una base de datos de mujeres pima/multidimensional analysis from a database of pima
women. Biotecnia, 18(3):1419.

Universidad del Valle / Facultad de Ingenieras / Escuela de Estadstica

S-ar putea să vă placă și