Documente Academic
Documente Profesional
Documente Cultură
1.- Introduccin..............................................................................................................2
2.- Supuestos del modelo...............................................................................................2
3.- Procedimiento...........................................................................................................2
4.- Aplicacin prctica ..................................................................................................3
4.1.- Comprobacin de los supuestos del modelo..........................................................4
4.1.1.- Normalidad ........................................................................................................5
4.1.2.- Medias diferentes ...............................................................................................7
4.1.3.- Igualdad de matrices de varianzas-covarianzas .................................................9
4.2.- Clculo de las funciones discriminantes .............................................................10
4.3.- Clasificacin .......................................................................................................13
Bibliografa .................................................................................................................16
ANLISIS DISCRIMINANTE
1.- Introduccin
El anlisis discriminante es una tcnica que permite asignar a distintos grupos (definidos
previamente) a un conjunto de individuos en funcin de un conjunto de variables de estos
sujetos medidas cuantitativamente (se admiten dicotmicas con codificacin dummy). Es
pues una tcnica de clasificacin. Por ejemplo, si disponemos de los resultados de una
cierta encuesta donde conocemos las personas que han votados al candidato A, B o C, nos
puede interesar conocer qu rasgos de estas personas ayudan a conocer los resultados en
su opcin poltica. Tiene inters por cuanto una vez realizadas las relaciones y efectuada la
generalizacin correspondiente a nivel poblacional, podemos trabajar con muestras
distintas de sujetos (a los que no se les pas la encuesta) para poder realizar los
pronsticos oportunos.
En trminos puramente estadsticos tenemos una variable dependiente de agrupacin, que
ser cualitativa con dos o ms categoras, y un conjunto de variables independientes o
explicativas, de carecer cuantitativo, que ser aquellas variables, cuyos valores nos
permitan predecir a qu grupo ser asignado el sujeto correspondiente.
El anlisis discriminante persigue un doble objetivo. Por un lado, determinar aquellas
variables independientes que mejor discriminan a los sujetos a los distintos grupos. Y por
otro lado, en base a esta informacin clasificar a los sujetos en tales grupos.
2.- Supuestos del modelo
Como todo modelo estadstico se exige unos ciertos supuestos para su aplicacin.
Destaquemos lo siguientes:
.- Las variables que definen los grupos han de ser categricas, mientras que las
independientes (aqu discriminantes) han de ser medidas al menos en una escala de
intervalo (o categricas codificadas en dummy).
.- Las variables han de seguir distribuciones normales y sus medias han de ser
estadsticamente diferentes para los distintos grupos.
.- Las matrices de varianzas-covarianzas de los distintos grupos han de ser
estadsticamente equivalentes.
3.- Procedimiento
En primer lugar comprobaremos los supuestos del modelo, para ello recurrimos como es
habitual, a la descripcin estadstica de las distintas variables. Se analizan el tema de la
normalidad de las distintas variables independientes junto a la igualdad de las matrices de
varianzas covarianzas. Igualmente se comprueba si los promedios entre los grupos para
las distintas variables difieren entre s, lo que sera indicativo de que los valores en tales
variables son discriminantes en el sentido de permiten diferenciar unos grupos de otros.
El siguiente punto consiste en obtener las funciones discriminantes sobre la base de las
variables anteriores que mostraban un comportamiento diferente entre los distintos grupos.
Las funciones discriminantes tiene cierto parecido con el anlisis factorial y consiste en
determinar un conjunto de variables latentes o factores, combinacin lineal de las variables
independientes consideradas, que reflejan las dimensiones bsicas subyacentes de
variabilidad de las variables originales. La idea es operar, no con el conjunto de variables
discriminantes, lo que sera bastante engorroso, sino con lo substancial de la misma.
Por ltimo, y sobre la base de las funciones discriminantes se procede a clasificar al
conjunto de individuos en los distintos grupos especificados en la variable dependiente.
Para ello se determina la probabilidad de pertenencia que otorga la funcin discriminante,
y esta probabilidad ser indicativo de la bondad de nuestro procedimiento de
clasificacin.
4.- Aplicacin prctica
Vamos a operar con el trabajo original de Fisher (1936), que supuso la introduccin de este
tipo de tcnicas. Se trata de distinguir tres tipos de lirios (Setosa, Versicolor y Virginica) a
partir de las medidas de diferentes partes de tales flores; en concreto, de la longitud y
anchura que presentan los ptalos y spalos (en milmetros). Para ello disponemos de una
muestra de 150 flores distribuidas en partes iguales en los tres tipos de lirios.
Se trata, como se ha comentado, de comprobar inicialmente de la eficacia discriminante de
las variables estudiadas, para acto seguido, extraer de las mismas la dimensin relevante
(funcin discriminante) que permita diferenciar tales variables en los distintos grupos. Y
por ltimo, proceder a clasificar los lirios segn los valores de la funcin discriminante.
Tengamos para ello el fichero lirios.sav donde se contemplan las variables mencionadas:
N
Parmetros
a,b
normales
Media
Desviacin tpica
Diferencias ms
extremas
Absoluta
Positiva
Negativa
Z de Kolmogorov-Smirnov
Sig. asintt. (bilateral)
Longitud
del spalo
50
5,0060
Anchura
del spalo
50
3,4280
Longitud
del ptalo
50
1,4620
Anchura
del ptalo
50
,2460
,35249
,37906
,17366
,10539
,115
,115
-,093
,105
,105
-,091
,153
,153
-,141
,349
,349
-,231
,812
,740
1,085
2,466
,524
,644
,190
,000
N
Parmetros
a,b
normales
Media
Desviacin tpica
Diferencias ms
extremas
Absoluta
Positiva
Negativa
Z de Kolmogorov-Smirnov
Sig. asintt. (bilateral)
Longitud
del spalo
50
5,9360
Anchura
del spalo
50
2,7700
Longitud
del ptalo
50
4,2600
Anchura
del ptalo
50
1,3260
,51617
,31380
,46991
,19775
,096
,096
-,079
,121
,072
-,121
,117
,055
-,117
,148
,112
-,148
,681
,853
,828
1,044
,743
,460
,499
,225
N
Parmetros
a,b
normales
Media
Desviacin tpica
Diferencias ms
extremas
Absoluta
Positiva
Negativa
Z de Kolmogorov-Smirnov
Sig. asintt. (bilateral)
Longitud
del spalo
50
6,5880
Anchura
del spalo
50
2,9740
Longitud
del ptalo
50
5,5520
Anchura
del ptalo
50
2,0260
,63588
,32250
,55189
,27465
,115
,115
-,065
,128
,128
-,112
,114
,114
-,067
,121
,115
-,121
,813
,904
,803
,854
,522
,387
,539
,459
Y obtendremos:
ANOVA
Inter-grupos
Intra-grupos
Total
Inter-grupos
Intra-grupos
Total
Inter-grupos
Intra-grupos
Total
Inter-grupos
Intra-grupos
Total
Suma de
cuadrados
63,212
38,956
102,168
11,345
16,962
28,307
437,103
27,223
464,325
80,413
6,157
86,570
gl
2
147
149
2
147
149
2
147
149
2
147
149
Media
cuadrtica
31,606
,265
F
119,265
Sig.
,000
5,672
,115
49,160
,000
218,551
,185
1180,161
,000
40,207
,042
960,007
,000
Si recurrimos a la Lambda de Wilks obtendremos los mismos resultados. Para ello hay que
entrar ya en el anlisis discriminante propiamente dicho y marcar en Analizar/
Clasificar/Discriminante:
Los resultados:
Pruebas de igualdad de las medias de los grupos
Lambda
de Wilks
,381
,599
,059
,071
F
119,265
49,160
1180,161
960,007
gl1
2
2
2
2
gl2
147
147
147
147
Sig.
,000
,000
,000
,000
Setosa
Versicolor
Virginica
Total
Setosa
Versicolor
Virginica
Total
Setosa
Versicolor
Virginica
Total
Setosa
Versicolor
Virginica
Total
N
50
50
50
150
50
50
50
150
50
50
50
150
50
50
50
150
Media
5,0060
5,9360
6,5880
5,8433
3,4280
2,7700
2,9740
3,0573
1,4620
4,2600
5,5520
3,7580
,2460
1,3260
2,0260
1,1993
Desviacin
tpica
,35249
,51617
,63588
,82807
,37906
,31380
,32250
,43587
,17366
,46991
,55189
1,76530
,10539
,19775
,27465
,76224
Error tpico
,04985
,07300
,08993
,06761
,05361
,04438
,04561
,03559
,02456
,06646
,07805
,14414
,01490
,02797
,03884
,06224
Los resultados:
9
Resultados de la prueba
M de Box
F
146,663
Aprox.
7,045
gl1
20
gl2
77566,75
Sig.
,000
Contrasta la hiptesis nula de que las matrices
de covarianza poblacionales son iguales.
Autovalor
% de varianza
32,192 a
99,1
,285 a
,9
% acumulado
99,1
100,0
Correlacin
cannica
,985
,471
Hay dos funciones discriminantes que explican el 100% de la varianza. El primero mucho
ms importante que el segundo. Por otro lado, las puntuaciones medias logradas al aplicar
estas funciones discriminantes en los distintos grupos son muy diferentes entre s como
atestigua la Lambda de Wilks:
10
Lambda de Wilks
Contraste de
las funciones
1 a la 2
2
Lambda
de Wilks
,023
,778
Chi-cuadrado
546,115
36,530
gl
8
3
Sig.
,000
,000
2
,024
2,165
-,932
2,839
-6,661
Funcin
1
2
-,427
,012
-,521
,735
,947
-,401
,575
,581
Valores medios muy diferentes, tal como ya qued sealado en la Lambda de Wilks.
11
Si nos interesa conocer las funciones discriminantes para cada uno de las observaciones
podemos recurrir a la opcin de guardar. As:
12
Descriptivos
Puntuaciones discriminantes de la funcin 1 para el anlisis 1
N
Setosa
Versicolor
Virginica
Total
50
50
50
150
Media
-7,60760
1,825049
5,782550
,0000000
Desviacin
tpica
,84746079
1,03617013
1,09916408
5,72244702
Error tpico
,11984905
,14653659
,15544527
,46723584
4.3.- Clasificacin
Por ltimo nos interesa saber cmo de bien lo han hecho las funciones discriminantes para
distinguir los distintos grupos. Nos ofrecen una informacin global grfica, otra numrica,
y por ltimo, individualizada para cada uno de los lirios. A tal respecto, marcamos
clasificar:
13
f2
u
n
c
i
o
n
e
s
d
i
s
c
r
i
m
n
a
t
e
s
c
a
n
i
c
a
s
T
i
p
o
d
e
l
i
r
o
3
S
e
t
o
s
a
V
r
i
c
l
o
r
g
n
C
e
t
d
e
1
d
u
p
V
i
r
g
n
i
c
a
S
e
t
o
s
a
0
Funci2
V
e
r
s
i
c
o
l
r
--1
2
3
-1
0
-5
0
5
1
0
F
u
n
c
i
n
1
Se observa que los grupos estn bastante discriminados. Tan slo algunos lirios del tipo
versicolor (verde) se entremezclan con los lirios viginica (gris).
Tambin, en trminos generales, cuntos han sido clasificados correctamente:
14
Resultados de la clasificacin a
Original
Recuento
Tipo de lirio
Setosa
Versicolor
Virginica
Setosa
Versicolor
Virginica
Total
50
50
50
100,0
100,0
100,0
15
Grupo mayor
N
me
ro
de
cas
os
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
Gru
po
real
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
Gr
up
o
pr
on
os
tic
ad
o
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
P(D>d | G=g)
p
gl
,594
2
,271
2
,522
2
,830
2
,015
2
,493
2
,775
2
,916
2
,451
2
,885
2
,553
2
,419
2
,541
2
,434
2
,880
2
,481
2
,540
2
,491
2
,586
2
,770
2
,349
2
,875
2
,939
2
,975
2
,713
2
,857
2
,288
2
,833
2
,389
2
,972
2
,899
2
,920
2
,611
2
,598
2
,769
2
,533
2
,921
2
,951
2
,190
2
,710
2
,915
2
,916
2
,667
2
,168
2
,458
2
,592
2
,049
2
,674
2
,012
2
,032
2
,192
2
,133
2
,174
2
,071
2
,923
2
,407
2
,628
2
,227
2
,457
2
,905
2
,582
2
,510
2
,968
2
,252
2
,752
2
,480
2
,086
2
,954
2
,809
2
,946
2
,798
2
P(G=g |
D=d)
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
,964
1,000
1,000
1,000
1,000
,999
1,000
1,000
1,000
1,000
,981
1,000
1,000
,999
1,000
1,000
Distancia
de
Mahalano
bis al
cuadrado
hasta el
centroide
1,043
2,610
1,301
,372
8,406
1,416
,509
,176
1,591
,245
1,183
1,738
1,229
1,669
,256
1,465
1,233
1,421
1,069
,523
2,105
,268
,127
,051
,677
,308
2,489
,365
1,890
,057
,214
,166
,986
1,027
,526
1,260
,164
,101
3,325
,684
,177
,175
,811
3,573
1,563
1,048
6,052
,789
8,767
6,907
3,302
4,033
3,493
5,300
,159
1,800
,930
2,964
1,565
,199
1,084
1,347
,064
2,756
,569
1,467
4,897
,094
,423
,110
,450
Gru
po
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
P(G=g
| D=d)
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,036
,000
,000
,000
,000
,001
,000
,000
,000
,000
,019
,000
,000
,001
,000
,000
Distancia
de
Mahalan
obis al
cuadrad
o hasta
el
centroid
e
88,319
70,401
76,724
82,401
57,510
74,623
81,347
82,854
112,956
86,981
74,934
83,875
73,833
73,686
82,182
70,406
80,173
84,102
78,984
104,048
73,958
96,040
90,545
89,444
76,208
96,894
71,791
100,692
66,592
91,019
98,807
93,993
92,325
100,435
100,372
78,587
97,024
95,935
123,745
104,694
86,314
87,188
106,390
114,881
95,558
110,246
134,044
100,956
132,642
141,657
35,312
30,962
35,476
40,892
15,371
8,350
16,801
32,832
26,994
17,425
15,872
26,593
16,274
29,387
20,322
9,318
40,443
19,142
13,427
18,325
22,271
Puntuaciones
discriminantes
Funcin 1
-7,572
-6,561
-6,934
-7,241
-5,662
-6,813
-7,187
-7,213
-8,681
-7,490
-6,829
-7,327
-6,765
-6,759
-7,219
-6,559
-7,129
-7,343
-7,062
-8,330
-6,771
-7,959
-7,672
-7,605
-6,823
-7,918
-6,414
-8,132
-6,251
-7,688
-8,062
-7,781
-7,586
-8,021
-8,082
-6,859
-7,991
-7,925
-9,126
-8,314
-7,375
-7,497
-8,397
-8,582
-7,702
-8,614
-9,468
-8,078
-9,158
-9,850
,223
1,194
,293
-,476
1,958
2,934
2,262
,606
1,107
1,956
2,402
1,090
2,006
,378
1,326
2,768
-,307
1,549
2,430
1,616
1,182
Funcin 2
-,805
-1,015
-,706
-,273
-1,934
-,671
-,361
,356
,878
-,265
-,545
-1,073
-,505
-,759
-,110
-,389
-,787
-,947
-,663
,228
-,971
-,165
-,135
-,012
,463
,675
1,247
,514
,440
-,009
,300
,584
1,208
1,141
,763
1,052
,086
,210
1,224
,645
,566
-,188
,647
1,834
1,462
,403
1,825
,969
2,738
1,586
-1,585
-2,634
-1,799
-,800
-,352
,027
-1,587
-1,943
-1,752
-1,154
-1,595
-1,627
-,905
,087
-,163
,032
-1,319
-,593
-,966
-,470
-,538
16
Se observa, hasta donde es visible, que el grupo real y pronosticado coinciden. Luego
entre los restantes valores destaca P(G=g | D=d) que indica la pertenencia a un
determinado grupo dada una cierta puntuacin discriminante. La probabilidad en estos
casos es de 1 ya que no habido error posible. La distancia Mahalanobis puede considerarse
una distancia eucldea ponderada por sus varianzas-covarianzas, y tiene inters para saber
cun lejos se encuentra de la media de su grupo de pertenencia. Precisamente sobre los
que estn ms lejos pueden estar incorrectamente clasificados.
17
BIBLIOGRAFA
A.A. And Clark, V. (1996) Computer-Aided Multivariate Analysis. Third Edition. Texts in
Statistical Science. Chapman and Hall.
Everitt, B. And Graham, D. (1991). Applied Multivariate Data Analysis. Arnold.
Ferran, M. (1997). SPSS para WINDOWS. Programacin y Anlisis Estadstico. Mc.Graw
Hill.
Gil Flores, J., Garca Jimnez, E., Rodrguez Gmez, G (2001). Anlisis discriminante.
Madrid. La Muralla.
Hair, J., Anderson, R., Tatham, R. Y Black, W. (1999). Anlisis Multivariante. 5 Edicin.
Prentice Hall.
Huberty, Carl J. (1994). Applied discriminant analysis . NY: Wiley-Interscience. (Wiley
Series in Probability and Statistics).
Jobson, J.D. (1992) Applied Multivariate Data Analysis. Volume II: Categorical and
Multivariate Methods. Springer-Verlag.
Klecka, William R. (1980). Discriminant analysis. Quantitative Applications in the Social
Sciences Series, No. 19. Thousand Oaks, CA: Sage Publications.
Lachenbruch, P. A. (1975). Discriminant analysis. NY: Hafner.
Mardia, K.V., Kent, J.T. Y Bibby, J.M. (1994). Multivariate Analysis. Academic Press.
McLachlan, Geoffrey J. (2004). Discriminant analysis and statistical pattern recognition.
NY: Wiley-Interscience. (Wiley Series in Probability and Statistics).
Sharma, S. (1998). Applied Multivariate Techiques. John Wiley and Sons.
SPSS (1999). SPSS Advanced Models 10.0. Chicago: SPSS Inc.
18