Sunteți pe pagina 1din 15

STATGRAPHICS Rev.

9/14/2006

Anlisis Discriminante
Resumen
El procedimiento de Anlisis Discriminante es diseado para ayudar a distinguir entre dos o
ms grupos de datos basados en un conjunto de p variables cuantitativas observadas. Esto se
hace construyendo funciones discriminantes que son combinaciones lineales de las variables. El
objetivo de tal anlisis es generalmente uno o ambos de los que siguen:
1. La habilidad para describir los casos observados matemticamente de una manera que los
separa en grupos tan bien como sea posible.
2. La habilidad para clasificar nuevas observaciones como pertenencia a uno u algunos
grupos.
En la construccin de las funciones discriminantes, el procedimiento permite incluir a todas las
variables o usar un procedimiento de seleccin paso a paso que incluye solamente algunas
variables que son estadsticamente significativas para discriminar sobre los grupos. Los
resmenes y pruebas estadsticas con significancia para el nmero de funciones discriminantes
necesarias sern incluidos.
Las funciones discriminantes derivadas pueden utilizarse para clasificar nuevos casos dentro de
los grupos. Las probabilidades a priori de pertenencia para cada grupo sern ingresadas o
derivadas de los datos observados.

Ejemplo StatFolio: discriminant.sgp


Datos del Ejemplo:
El archivo iris.sf6 contiene un conjunto de datos famosos por Fisher (1936). Los datos consisten
de un total de n = 150 diafragmas, 50 de cada una de g = 3 diferentes especies: setosa,
versicolor, y virginica. Las mediciones fueron hechas sobre p = 4 variables, describiendo la
longitud y anchura del spalo y ptalo. La tabla muestra una lista parcial de los datos del
archivo:
Sample
(Muestra)

1
2
3
4
5
6
7
8
9
10

Sepal
Length
(Longitud
Spalo)
5.1
4.9
4.7
4.6
5
5.4
4.6
5
4.4
4.9

2006 por StatPoint, Inc.

Sepal
Width
(Anchura
Spalo)
3.5
3
3.2
3.1
3.6
3.9
3.4
3.4
2.9
3.1

Petal
Length
(Longitud
Ptalo)
1.4
1.4
1.3
1.5
1.4
1.7
1.4
1.5
1.4
1.5

Petal
Width
(Anchura
Ptalo)
0.2
0.2
0.2
0.2
0.2
0.4
0.3
0.2
0.2
0.1

Species
(Especie)

setosa
setosa
setosa
setosa
setosa
setosa
setosa
setosa
setosa
setosa

Anlisis Discriminante - 1

STATGRAPHICS Rev. 9/14/2006

Un grfico matriz de los datos observados se muestra en la grafica de abajo:


Species

Sepal length

setosa
versicolor

Sepal width

virginica

Petal length
Petal width

Observe como las especies son naturalmente divididas entre grupos. Existe, sin embargo, algn
traslape entre los grupos, particularmente versicolor y virginica.

Entrada de Datos
La caja de dialogo para la entrada de datos requiere el nombre de una columna que identifique
los grupos y los nombres de las variables p que sern utilizadas para discriminar sobre los
grupos:

2006 por StatPoint, Inc.

Anlisis Discriminante - 2

STATGRAPHICS Rev. 9/14/2006

Factor de Clasificacin: Columna numrica o no numrica conteniendo un identificador de


que grupo pertenece a cada observacin. Debe haber valores nicos de g en esta columna.

Datos: Los nombres de las variables p que sern usadas para discriminar acerca de los
grupos.

Etiquetas de Puntos: Etiquetas opcionales para cada observacin.

Seleccin: Seleccin de un subconjunto de los datos.

Modelo Estadstico
La meta del procedimiento de Anlisis Discriminante es la construccin de combinaciones
lineales de p variables de entrada que discriminen mejor acerca de los g grupos. El j-simo
funcin discriminante toma la forma de:
D j = d j1 Z 1 + d j 2 Z 2 + ... + d jp Z p

(1)

donde las Zs son las variables de entrada X estandarizadas, creadas restando la media muestral y
dividiendo entre la desviacin estndar muestral.
Las s funciones discriminantes son encontradas por la determinacin de eigenvalores por:
W 1 B

(2)

donde W es la suma de cuadrados de la muestra dentro de grupos y la matriz de productocruzado y B es la suma de cuadrados de la muestra entre grupos y la matriz de producto-cruzado.
Los coeficientes de las funciones discriminadoras son derivadas de los eigenvectores.
Bsicamente, las funciones discriminantes son derivadas para maximizar la separacin de los
grupos.
Para clasificar nuevos casos dentro de grupos, las funciones de clasificacin tambin son
derivadas. Para clasificar una observacin, una puntuacin es derivada para cada grupo. La
puntuacin para el j-simo grupo es calculado por:
C j = c j1 X 1 + c j 2 X 2 + ... + c jp X p + c j 0

(3)

Nuevos casos son clasificados como perteneciendo a cualquier grupo si tiene el valor ms grande
de Cj * a priorij.
donde a priorij es la probabilidad a priori de pertenecer al j-simo grupo. Los a priori se pueden
ingresar por el usuario, la estimacin de los datos, o asumir que son iguales.

Resumen del Anlisis


La tabla del Resumen del Anlisis se muestra abajo:
2006 por StatPoint, Inc.

Anlisis Discriminante - 3

STATGRAPHICS Rev. 9/14/2006


Anlisis Discriminante
Variable de clasificacin: Species (type of iris)
Variables independientes:
Sepal length (centimeters)
Sepal width (centimeters)
Petal length (centimeters)
Petal width (centimeters)
Nmero de casos completos: 150
Nmero de grupos: 3
Funcin
Discriminante
1
2
Funciones
Derivadas
1
2

Eigenvalor

Porcentaje
Relativo
99.12
0.88

32.1919
0.285391

Lambda
de Wilks
0.0234386
0.777973

Chi-Cuadrada
546.1153
36.5297

Correlacin
Cannica
0.98482
0.47120

GL
8
3

Valor-P
0.0000
0.0000

Se despliega en la seccin superior de la tabla:

Nombres de Variables: Los nombres de las p variables de entrada.

Nmero de Casos Completos: El nmero de casos n para los cuales no se cuenta con ningn
dato en blanco.

Nmero de Grupo: Nmero de diferentes grupos g dentro de los cuales los casos sern
divididos.

Funcin Discriminante: El ndice de la funcin discriminante j.

Eigenvalor: j, el j-simo eigenvalor de W 1 B .

Porcentaje Relativo: El porcentaje de la suma de varianzas de las p variables independientes


considerado por el j-simo funcin discriminante, calculado dividiendo el j-simo eigenvalor
por la suma de todos los eigenvalores.

Correlacin Cannica: La correlacin cannica *j asociada con el j-simo eigenvalor,


calculado de
2

*j =
2

j
1 + J

(4)

el cual representa la habilidad relativa para discriminar sobre los grupos.

Lamda de Wilk: Un estadstico calculado de las correlaciones cannicas de acuerdo a


q

j = 1 i*
i= j

2006 por StatPoint, Inc.

(5)

Anlisis Discriminante - 4

STATGRAPHICS Rev. 9/14/2006

Chi-Cuadrada: Una prueba estadstica utilizada para probar la hiptesis de que todas las
correlaciones cannicas numeradas por j son iguales a 0. Esto se calcula por
1

2 = n 1 ( p + g ) ln j
2

(6)

g.l.: Los grados de libertad (p-j+1)(g-j) asociados con el estadstico Chi-Cuadrada.

Valor-P: Un valor-p unilateral para lo observado en la prueba Chi-Cuadrada. Valores P


pequeos (menor que 0.05 si esta operando en un nivel de significancia del 5%) corresponde
para las funciones discriminantes que son significativamente diferentes de cero.

En el ejemplo, ambas funciones discriminantes son estadsticamente significativas, aunque las


primeras consideran la mayor parte de la varianza en los datos.

Opciones del Anlisis


La caja de dialogo de Opciones del Anlisis determina si todas las variables p debern incluirse
en el anlisis o si el procedimiento para la seleccin de variables paso a paso deber utilizarse
potencialmente para seleccionar solamente un subconjunto de las variables:

Estimar Especifica si todas las variables independientes especificadas sobre la caja de


dialogo de la entrada de datos debern incluirse en el modelo final, o si una seleccin de la
variables paso a paso ser aplicada s. Un ejemplo de la regresin paso a paso se incluye
abajo.

F-para-Ingresar En una regresin paso a paso, las variables que debern ingresar dentro
del modelo en un paso calculado si sus valores F son mayor o igual al valor especificado en
F-para-Ingresar.

2006 por StatPoint, Inc.

Anlisis Discriminante - 5

STATGRAPHICS Rev. 9/14/2006


F-para-Remover - En una regresin paso a paso, las variables que debern removerse del
modelo en un paso calculado si sus valores F son menor que el valor especificado en F-paraRemover.

Pasos Mximos El nmero mximo de pasos permitidos cuando se realiza una regresin
paso a paso.

Desplegar Si se presentan los resultados de cada paso cuando se realiza una regresin paso
a paso.

Ejemplo Regresin Paso a Paso


Las Opciones del Anlisis debern usarse para desarrollar una eleccin de seleccin paso a paso
hacia atrs o paso a paso hacia adelante.

Seleccin Hacia Atrs Comienza con un modelo que implica solamente al trmino
constante e ingresa una variable a la vez basado sobre la significancia estadstica si se agrega al
modelo actual. En cada paso, el algoritmo trae al modelo la variable que podr ser la
de mayor significancia estadstica si se ingresa. La seleccin de las variables esta
basada en una prueba F-para-Ingresar. Mientras las variables ms significativas
tengan un valor F mayor o igual al especificado en la caja de dialogo Resumen del
Anlisis, ser incluida al modelo. Cuando ninguna variable tiene un valor ms grande
que F, la seleccin de las variables para. Adems, las variables incorporadas al
modelo inicial con el procedimiento pueden ser removidas ms adelante si sus valores
F caen abajo del criterio F-para-Remover.

Seleccin Hacia Adelante Comienza con un modelo implicando todas las variables
especificadas en la caja de dialogo entrada de datos y remueve una sola variable a la
vez basando en la significancia estadstica del modelo actual. En cada paso, el
algoritmo remueve del modelo la variable que podr ser la de menor significancia
estadstica. Las variables removidas estn basadas sobre la prueba F-para-Remover.
Si la variable de menor significancia tiene un valor menor que la F especificada sobre
la caja en la caja de dialogo Resumen del Anlisis, entonces se podr remover del
modelo. Cuando todas las variables removidas tengan un valor ms grande que F, la
seleccin de las variables para. Adems, las variables removidas del modelo inicial
con el procedimiento pueden ser reincorporadas ms adelante si sus valores F cae
debajo del criterio F-para-Ingresar.

La salida de abajo muestra los resultados de una Seleccin Hacia Atrs para los datos del
ejemplo:
Regresin por pasos
Mtodo: seleccin hacia adelante
F para introducir: 4.0
F para eliminar: 4.0
Paso 0:
0 variables en el modelo.
Paso 1:
Agregando variable Petal length con F para introducir = 1180.16
1 variables en el modelo.
Lambda de Wilk = 0.0586283 F aproximada = 1180.16 con valor-P = 0.0000

2006 por StatPoint, Inc.

Anlisis Discriminante - 6

STATGRAPHICS Rev. 9/14/2006


Paso 2:
Agregando variable Sepal width con F para introducir = 43.0355
2 variables en el modelo.
Lambda de Wilk = 0.0368841 F aproximada = 307.105 con valor-P = 0.0000
Paso 3:
Agregando variable Petal width con F para introducir = 34.5687
3 variables en el modelo.
Lambda de Wilk = 0.0249755 F aproximada = 257.503 con valor-P = 0.0000
Paso 4:
Agregando variable Sepal length con F para introducir = 4.72115
4 variables en el modelo.
Lambda de Wilk = 0.0234386 F aproximada = 199.145 con valor-P = 0.0000
Modelo final seleccionado.

Todas las cuatros variables se adicionan significativamente al ajuste cuando son incorporadas.

Grfico de Dispersin 2D
El Grfico de Dispersin 2D grafica los datos de cualquier par de variables X.
Diagrama de Dispersin
Species
setosa
versicolor
virginica

4.4

Sepal width

4
3.6
3.2
2.8
2.4
2
4.3

5.3

6.3

7.3

8.3

Sepal length

2006 por StatPoint, Inc.

Anlisis Discriminante - 7

STATGRAPHICS Rev. 9/14/2006


Opciones del Panel

Seleccione las variables a definir en los ejes horizontal y vertical.

Grfico de Dispersin 3D
El Grfico de Dispersin 3D grafica los datos de cualquier tercia de variables X.

Diagrama de Dispersin
Species
setosa
versicolor
virginica

Petal length

8
6
4
2
0
4.3

5.3

6.3

7.3

8.3

4.4
3.64
2.83.2
2 2.4
Sepal width

Sepal length

2006 por StatPoint, Inc.

Anlisis Discriminante - 8

STATGRAPHICS Rev. 9/14/2006


Opciones del Panel

Seleccione las variables a definir en los tres ejes.

Estadsticas por Grupo


Esta tabla despliega la media muestral y desviacin estndar muestral para cada una de las p
variables en cada uno de los g grupos.
Resumen Estadstico por Grupo
Species
setosa
RECUENTO
50
MEDIAS
Sepal length
5.006
Sepal width
3.428
Petal length
1.462
Petal width
0.246
DESVIACIONES ESTD.
Sepal length
0.35249
Sepal width
0.379064
Petal length
0.173664
Petal width
0.105386

2006 por StatPoint, Inc.

versicolor
50

virginica
50

TOTAL
150

5.936
2.77
4.26
1.326

6.588
2.974
5.552
2.026

5.84333
3.05733
3.758
1.19933

0.516171
0.313798
0.469911
0.197753

0.63588
0.322497
0.551895
0.27465

0.828066
0.435866
1.7653
0.762238

Anlisis Discriminante - 9

STATGRAPHICS Rev. 9/14/2006

Correlaciones por Grupos


Esta tabla muestra la estimacin combinada dentro-grupos de las matrices de covarianza y
correlacin.
Estadsticas agrupadas Dentro-de-Grupo para Species
Matriz de Covarianza Dentro-de-Grupo
Sepal length Sepal width Petal length
Sepal length 0.265008
0.0927211
0.167514
Sepal width
0.0927211
0.115388
0.0552435
Petal length
0.167514
0.0552435
0.185188
Petal width
0.0384014
0.0327102
0.0426653

Petal width
0.0384014
0.0327102
0.0426653
0.0418816

Matriz de Correlacin Dentro-de-Grupo


Sepal length Sepal width
Sepal length 1.0
0.530236
Sepal width
0.530236
1.0
Petal length
0.756164
0.377916
Petal width
0.364506
0.470535

Petal width
0.364506
0.470535
0.484459
1.0

Petal length
0.756164
0.377916
1.0
0.484459

Funciones Discriminantes
Las Funciones Discriminantes son combinaciones lineales de las variables de entrada usadas
para separar los datos en diferentes grupos. Este panel muestra ambos los coeficientes
estandarizados y sin estandarizar:
Coeficientes de la Funcin Discriminante para Species
A
Sepal length
Sepal width
Petal length
Petal width

1
0.426955
0.521242
-0.947257
-0.575161

Coeficientes Sin Estandarizar


1
Sepal length
0.829378
Sepal width
1.53447
Petal length
-2.20121
Petal width
-2.81046
CONSTANTE
2.10511

2
0.0124075
0.735261
-0.401038
0.58104

2
0.0241021
2.16452
-0.931921
2.83919
-6.66147

La j-sima funcin discriminante toma la forma


D j = d j1 Z 1 + d j 2 Z 2 + ... + d jp Z p

(7)

donde las Z son la forma estandarizada de las variables X de entrada, creadas por la resta de la
media muestral dividida entre la desviacin estndar muestral. La j-sima funcin discriminante
sin estandarizar toma la forma de
U j = u j1 X 1 + u j 2 X 2 + ... + u jp X p + u j 0

(8)

Cuando las variables estn en unidades diferentes o tiene distintas varianzas, ms provecho se
obtiene de los coeficientes estandarizados.
2006 por StatPoint, Inc.

Anlisis Discriminante - 10

STATGRAPHICS Rev. 9/14/2006


En los datos del ejemplo, note que la primer funcin discrimnate es bsicamente un contraste
entre el tamao del spalo. La segunda funcin discriminante es primariamente un contraste
entre la combinacin del ancho del spalo y ptalo y el largo del ptalo.

Grafica de Funciones Discriminantes


Este panel despliega los valores de cualquier par de funciones discriminantes para cada uno de n
casos.
Grfica de Funciones Discriminantes
Species
setosa
versicolor
virginica
Centroides

3.3

Funcin 2

2.3
1.3
0.3
-0.7
-1.7
-2.7
-10

-6

-2

10

Funcin 1

Es de mucha ayuda en la visualizacin de que tambin las funciones separan los datos.
Claramente, la primer funcin separa completamente setosa de las otras dos especies, dejando
una cantidad pequea de traslapes entre versicolor y virginica. La segunda funcin discriminante
puede ayudar un poco a separar las ltimas dos especies. Adicionalmente a las observaciones, la
localizacin de las medias de los valores de las funciones discriminantes para cada grupo son
mostradas con signos +.

2006 por StatPoint, Inc.

Anlisis Discriminante - 11

STATGRAPHICS Rev. 9/14/2006


Opciones del Panel

Introduce el nmero de las dos funciones discriminantes para graficar en el eje horizontal y en el
eje vertical.

Centroides de Grupos
El panel muestra el centroide o los valores medios para cada uno de los g grupos en cada una de
las s funciones discriminantes
Centroides de Grupo para Species
Grupo
1
2
setosa
7.6076
0.215133
versicolor -1.82505 -0.7279
virginica
-5.78255 0.512767

Funciones de Clasificacin
Las funciones de clasificacin son usadas para determinar a cual de los g grupos una muestra
cualquiera parece pertenecer:
Coeficientes de la Funcin de Clasificacin para Species
setosa
versicolor virginica
Sepal length
23.5442
15.6982
12.4458
Sepal width
23.5879
7.07251
3.68528
Petal length
-16.4306
5.21145
12.7665
Petal width
-17.3984
6.43423
21.0791
CONSTANTE
-86.3085
-72.8526
-104.368

Una puntuacin ser calculada para cada observacin i y cada grupo j de acuerdo a
C ij = c j1 X i1 + c j 2 X i 2 + ... + c jp X ip

(9)

Si los datos son asumidos que proviene de una distribucin normal multivariada, entonces los
scores son relacionados a las probabilidades de que una observacin pertenezca a un grupo
particular.

2006 por StatPoint, Inc.

Anlisis Discriminante - 12

STATGRAPHICS Rev. 9/14/2006

Tabla de Clasificacin
La Tabla de Clasificacin muestra el resultado de usar la regla de clasificacin para asigna casos
observados y nuevos casos a grupos. Para un conjunto de valores X dado, un caso es asignado al
grupo que corresponde el valor C ij * prior j ms grande, donde a priori rj es la probabilidad a
priori de que un individuo provenga del grupo j. Ya que el tamao de poblacin de cada grupo
no es el mismo, la probabilidad de que un individuo pertenezca a un grupo particular a priori
puede variar de grupo a grupo. Por ejemplo, en investigacin para una enfermedad, la proporcin
de individuos dada una prueba de diagnostico quienes actualmente han tenido un enfermedad
puede ser muy pequea, un hecho que necesitamos tomar en cuenta. Usando Opciones de Panel,
el usuario especifica como manejar las probabilidades a priori. Puede asumir ser la misma para
todos los grupos, ser proporcional a la fraccin de datos dentro de cada grupo. O ser introducida
por el usuario.
La tabla muestra una salida tpica:
Tabla de Clasificacin
Actual
Tamao
Species
de Grupo
setosa
50

Predicho
Species
setosa
versicolor
virginica
50
0
0
(100.00%)
( 0.00%)
( 0.00%)
versicolor 50
0
48
2
( 0.00%)
( 96.00%)
( 4.00%)
virginica
50
0
1
49
( 0.00%)
( 2.00%)
( 98.00%)
Porcentaje de casos correctamente clasificados: 98.00%

Grupo
1
2
3

Probabilidad
Previa
0.3333
0.3333
0.3333

Grupo
Grupo
Fila Actual
Ms Alto
71
versicolor *virginica
84
versicolor *virginica
134 virginica
*versicolor
151
virginica
* = incorrectamente clasificado.

Valor
Ms Alto
80.0769
79.093
82.0789
99.945

Distancia
Cuadrada
4.55382
3.59634
4.0068
0.73244

Prob.
0.7468
0.8566
0.7294
0.9996

2 Grupo
Ms Alto
versicolor
versicolor
virginica
versicolor

2 Valor
Ms Alto
78.9954
77.3056
81.0874
91.9996

Distancia
Cuadrada
6.71675
7.17114
5.98984
16.6234

Prob.
0.2532
0.1434
0.2706
0.0004

La parte de arriba muestra que tan bien la regla de clasificacin realizo la clasificacin de los
datos del ejemplo. Cada rengln tabula los resultados para los casos que actualmente pertenecen
a un grupo en particular. Las columnas muestran que tan frecuente fueron clasificados como
pertenecientes a cada grupo. En la parte de abajo se muestra el porcentaje de casos que fueron
correctamente clasificados.
La parte del centro de la tabla muestra las probabilidades a priori. Para los datos del ejemplo, las
probabilidades a priori fueron asumidas ser las mismas para todos los grupos.
La parte ms baja de la tabla muestra los dos grupos que recibieron los scores ms altos para los
casos seleccionados. La tabla muestra:

2006 por StatPoint, Inc.

Anlisis Discriminante - 13

1.
2.
3.

4.

STATGRAPHICS Rev. 9/14/2006


El grupo mas grande y el segundo mas grande Los dos grupos con las puntuaciones
mas altas.
Valores Los valores de los scores calculados para los dos grupos.
Distancias Cuadradas La distancia cuadrada de Mahalanobis de las observaciones
de los centroides de los grupos, en el espacio de las funciones discriminantes. La
lejana de una observacin al centroide del grupo, el que parece menos pertenecer al
grupo.
Probabilidad La probabilidad estimada de que el caso pertenezca a un grupo. La
probabilidad es basada en la razn de la altura de la funcin de densidad normal en la
distancia de la observacin de cada centroide de grupo y en las probabilidades a
priori.

Por ejemplo, suponga que un nuevo iris fue observado con las siguientes caractersticas:
sepal length = 6.6 inches
sepal width = 2.9 inches
petal length = 5.1 inches
petal width = 2.2 inches
Estos valores estaran en el rengln #151 de la hoja de datos. La tabla muestra que el grupo con
la puntuacin ms alta para estos valores es virginica, seguida por versicolor. La gran diferencia
entre las distancias y as las probabilidades posteriores implican que la muestra parece pertenecer
mas a el grupo virginica.

Opciones del Panel

Probabilidades a Priori: Mtodo para determinar la probabilidad de pertenencia un grupo


antes de que los datos sean examinados. Selecciona Todos los Grupos Iguales para asumir a
priori iguales para todos los grupos, Proporcional a lo Observado para fijar las a prioris igual

2006 por StatPoint, Inc.

Anlisis Discriminante - 14

STATGRAPHICS Rev. 9/14/2006


a la fraccin de n representada por cada grupo, o Usar-Especificada para introducir una
columna con g valores que sumen 1.

Despliega: Todos los Datos desplegaran todas las observaciones en la hoja de datos,
clasificado equivocadamente y Nuevas Observaciones desplegaran cualquier caso que fue
clasificado equivocadamente o que tiene un valor perdido para el indicador del grupo,
mientras que Nuevas Observaciones solamente desplegaran los datos no usados para
determinar las funciones discriminantes.

Guardar Resultados
Los siguientes resultados pueden ser guardados en una hoja de datos:
1. Valores de la Funcin Discriminante - Los valores D de las funciones discriminantes
para cada una de n observaciones.
2. Coeficientes de la Funcin de Clasificacin Los valores C de las funciones de
clasificacin para cada una de n observaciones.
3. Coeficientes Estandarizados - s columnas que contienen los valores de los p coeficientes
dij de cada funcin discriminante estandarizada.
4. Coeficientes no Estandarizados - s columnas que contienen los valores de los p+1
coeficientes uij de cada funcin discriminante no estandarizada.
5. Probabilidades Previas Las probabilidades a priori de pertenecer a cada uno de los g
grupos.
6. Medias de Variables Las medias de cada una de las p variables X.
7. Desviaciones Estndar de Variables Las desviaciones estndar mustrales de cada una
de las p variables X.

2006 por StatPoint, Inc.

Anlisis Discriminante - 15