Sunteți pe pagina 1din 39

ANÁLISIS DISCRIMINANTE

R. Pérez Juste
Catedrático emérito de la UNED
INTRODUCCIÓN
EL TALLER DE DATOS CUANTITATIVOS
—  Módulo básico
—  Módulo multivariable:
Ø  Regresión múltiple
Ø  Análisis discriminante
Ø  Análisis factorial
Ø  Metaanálisis
© R. Pérez Juste
PRESENTACIÓN
0. PUNTO DE PARTIDA: UN CASO
1.  Qué es el Análisis Discriminante
2.  Para qué tipo de problemas se utiliza
3.  Qué exigencias presenta
4.  Cómo se lleva a cabo
5.  Cómo se interpreta
© R. Pérez Juste
0.
PUNTO DE PARTIDA:
Un caso
Punto de partida: un problema
pedagógico
¿Sería conveniente dar un tratamiento metodológico
diferencial para el logro de las competencias a los
alumnos de la UNED de difentes tipos de carreras?
a)  Humanidades (Gª e Hª, Filología, Filosofía)
b)  Sociales (Derecho, Pedagogía, Sociología)
c)  Ciencias: (Física, Química, Matemáticas)
d)  Ciencias de la Salud (Psicología)
e)  Técnicas: (Ingenierías, Económicas y Empresariales)
La respuesta parece depender de que existan o no diferencias
entre ellos en el logro de las competencias propias de tales
estudios. © R. Pérez Juste
Punto de partida: un problema
pedagógico. 2
o  Disponemos de cinco grupos, a priori diferentes
o  Interesa conocer la base de tales diferencias:
hipotetizamos las variables que pueden diferenciarlos.
(Estado de la cuestión, momento esencial, clave)
o  Queremos identificar las variables que mejor diferencian
a los grupos entre sí, reduciendo el número inicial de
variables hipotetizadas.
o  A partir de ahí, pretendemos asignar los alumnos de
cursos sucesivos a los grupos, para ser tratados
pedagógicamente en forma adecuada. © R. Pérez Juste
1.
QUÉ ES EL ANÁLISIS
DISCRIMINANTE (AD)
ANTECEDENTES DEL ANÁLISIS
DISCRIMINANTE
Se trata de una técnica multivariable:
•  De fácil interpretación
•  Parsimoniosa (Stevens)
•  Y adecuada para el estudio de realidades complejas.

Figuras clave:
•  K. Pearson (1920)
•  P.C. Mahalanobis (1936)
•  R.A. Fisher (1936) Annals of Eugenics
© R. Pérez Juste
QUÉ ES EL ANÁLISIS DISCRIMINANTE
Técnica multivariable:
• Dos grandes objetivos:
•  Identificar las variables que mejor diferencian a
grupos (variables discriminantes)
•  Asignar nuevos sujetos a tales grupos con el menor
riesgo de error posible
•  Por tanto se trata de una técnica de
•  Clasificación
•  Predicción

© R. Pérez Juste
QUÉ ES EL ANÁLISIS DISCRIMINANTE
• Los grupos existen antes del AD
• Si están bien definidos, el AD ayuda a localizar las
variables que mejor los definen.
• El número de estas será inferior al de las originales.
•  Además, informa de la importancia relativa de cada
una de ellas (coeficientes o pesos)
•  Si los grupos no estuvieran bien definidos, el A.D.
difícilmente hará aportaciones relevantes
•  Las nuevas variables se denominan “canónicas”
© R. Pérez Juste
QUÉ ES EL ANÁLISIS DISCRIMINANTE
•  Las variables canónicas son combinaciones lineales de las variables
originales
•  Se presentan en forma de funciones discriminantes
•  Se pueden calcular tantas funciones discriminantes como grupos
menos 1 (hay casos especiales)
•  Ecuación de la función discriminante:
D = B1 X1 + B2 X2 +… + Bn Xn + a
ü  D: Valor para un caso concreto
ü X: valores de las variables seleccionadas
ü B: coeficientes, peso de la variable
ü a = constante
© R. Pérez Juste
2.

EXIGENCIAS QUE PLANTEA

© R. Pérez Juste
QUÉ EXIGENCIAS PLANTEA EL AD

• Muestras representativas (tamaño suficiente, selección


imparcial)

•  Correcta selección de las variables que inicialmente se


considera que diferencian a los grupos (esencial)

• Tamaño de los grupos tendiendo a la igualdad


•  Cumplimiento de los supuestos paramétricos

© R. Pérez Juste
QUÉ EXIGENCIAS PLANTEA EL AD

•  Cumplimiento de los supuestos paramétricos (los dos primeros, los


más importantes)
§  Las matrices de varianza-covarianza de los grupos son
estadísticamente iguales
§  Los vectores que representan las variables en el espacio
siguen la ley multinormal
§  Tendencia a la linealidad (relación lineal entre las variables)
§ Ausencia de multicolinealidad
§ Ausencia de singularidad
— Los diferencias entre los centroides de los grupos deben ser
estadísticamente significativas (centroide: media de cada grupo)
© R. Pérez Juste
QUÉ EXIGENCIAS PLANTEA EL AD: ¿QUÉ
OCURRE EN CASO DE INCUMPLIMIENTO

Incumplimiento de los supuestos paramétricos


•  Para diferentes autores, su incumplimiento no es muy grave si
las muestras son de tamaño elevado (Klecka, 1980)

• En general, la técnica es muy robusta y soporta


aceptablemente la violación de los mismos

•  El incumplimiento es preocupante si el % de sujetos


correctamente clasificados es bajo, próximo al 50 %
•  En tal caso, la violación podría conducir a clasificaciones
incorrectas en ambos sentidos
© R. Pérez Juste
QUÉ EXIGENCIAS PLANTEA EL AD: ¿QUÉ
OCURRE EN CASO DE INCUMPLIMIENTO

a) Las matrices de varianza-covarianza de los grupos


son estadísticamente iguales
§  Debe comprobarse mediante la prueba M de Box
§ Difícilmente se cumple
§ En muestras muy grandes puede no cumplirse por efecto
del tamaño
§ El incumplimiento es preocupante en caso de muestras de
tamaño pequeño y desigual
§ No es importante cuando el AD se utiliza para la predicción
(en esos casos, la función lineal se sustituye por la función
cuadrática)
© R. Pérez Juste
QUÉ EXIGENCIAS PLANTEA EL AD: ¿QUÉ
OCURRE EN CASO DE INCUMPLIMIENTO

b) Los vectores que representan las variables en el


espacio siguen la ley multinormal
§  Pruebas difíciles de aplicar
§ Una alternativa insuficiente: la normalidad univariada
(pruebas de bondad de ajuste, Kolmogorov-Smirnov)
§ Preocupante con muestras pequeñas y de tamaño desigual
§ Más problemática cuando la no normalidad se debe a casos
extremos en lugar de al resto de casos.
§ Cuidado cuando los casos asignados tienen probabilidades
a su favor próximas al 50 %.

© R. Pérez Juste
QUÉ EXIGENCIAS PLANTEA EL AD: ¿QUÉ
OCURRE EN CASO DE INCUMPLIMIENTO

c) Linealidad (relación lineal entre las variables)


§  Las relaciones entre las variables son lineales dentro de cada grupo.
§  Su cumplimiento puede apreciarse mediante la representación gráfica
(diagrama de dispersión)
§  La variable resultante de la relación lineal entre varias variables suele
llamarse “variante”
§  “Una combinación lineal no es sino la suma ponderada de las
variables, de modo que los productos de los pesos por las variables se
combinan de forma aditiva para formar una nueva variable o
variante”. (Martínez Arias, 1999: 17)
§  Sobre el número de variables de la combinación, conviene acudir al
principio de parsimonia

© R. Pérez Juste
QUÉ EXIGENCIAS PLANTEA EL AD: ¿QUÉ
OCURRE EN CASO DE INCUMPLIMIENTO

d) Ausencia de multicolinealidad
§  Se da multicolinealidad cuando dos variables presentan
correlaciones muy elevadas, tendiendo a perfectas
§ Equivale a decir que esas variables aportan información muy
similar y, por ello, redundante
§ Si ocurre, conviene eliminarla del análisis

© R. Pérez Juste
QUÉ EXIGENCIAS PLANTEA EL AD: ¿QUÉ
OCURRE EN CASO DE INCUMPLIMIENTO

e) Ausencia de singularidad
§ Una variable es combinación lineal de varias; se da entre ellas algo así
como una correlación múltiple
§ Se da cuando las puntuaciones en una de las variables viene a ser algo
así como el resultado de la combinación lineal de otras
§ Si ocurre, conviene eliminarla

f) Nivel de medida
•  Variable predicha: nominal; pertenencia o no a un grupo
•  Variables discriminantes: de intervalo o razón
•  Con variables ordinales: si lo medido es de tipo continuo y si presentan
una aceptable dispersión o variabilidad.
•  En ciertos casos (tamaño grande) variables dicotomizadas
© R. Pérez Juste
QUÉ EXIGENCIAS PLANTEA EL AD: ¿QUÉ
OCURRE EN CASO DE INCUMPLIMIENTO

g) Los diferencias entre los centroides de cada grupo son


estadísticamente significativas
•  Si no fuera así, el AD no haría aportaciones relevantes

•  Variable predicha: nominal; pertenencia o no a un grupo


•  Variables discriminantes: de intervalo o razón
•  Con variables ordinales: si lo medido es de tipo continuo y si presentan
una aceptable dispersión o variabilidad.
•  En ciertos casos (tamaño grande) variables dicotomizadas

© R. Pérez Juste
3.
PARA QUÉ TIPO DE
PROBLEMAS
PARA QUÉ TIPO DE PROBLEMAS

• Para identificar las variables que caracterizan y mejor


discriminan / diferencian a los grupos
•  Para asignar nuevos sujetos a grupos
•  Para predecir en función de las características del grupo
asignado
•  Para asignación de tratamientos pedagógicos (o
utilidades semejantes)

© R. Pérez Juste
3.
CÓMO SE REALIZA EL
PROCESO
CÓMO SE REALIZA EL PROCESO

1.  Identificar grupos que existen en la realidad


2.  Decidir, fundamentadamente, las variables que pueden
definirlos (estado de la cuestión)
3.  Medir las variables con instrumentos fiables y válidos
4.  Obtener las medias y desviaciones típicas de cada
variable en cada grupo
5.  Obtener las matrices de varianza-covarianza inter e
intragrupos (W)
6.  Seleccionar paso a paso las variables que mejor
discriminan (procedimiento “step-wise”: hay otros
alternativos) © R. Pérez Juste
CÓMO SE REALIZA EL PROCESO

•  Se seleccionan sucesivamente las variables con mayor F o con


menor lambda de Wilks (λ):
•  F = determinante de la matriz de covarianza intergrupos/ determinante
de la matriz de covarianza intragrupos
•  Cuanto mayor sea el primero (distancia entre centroides de los
grupos), y menor el segundo (más homogeneidad dentro de cada
grupo), mejor discriminan
•  El proceso continúa mientras los valores de F sean iguales o
superiores a 1
•  En la ecuación, junto a las variables que se han seleccionado, (X),
se incluyen los coeficientes o pesos de las mismas, y la constante
“a”
•  Sustituyendo los valores obtenemos la puntuación discriminante de
© R. Pérez Juste
cada sujeto
CÓMO SE REALIZA EL PROCESO

Regla de Bayes
•  Permite estimar la probabilidad de que un sujeto concreto, con
su puntuación discriminante, pertenezca a un grupo
•  Cada sujeto se asigna al grupo cuya probabilidad de
pertenencia al grupo sea más elevada

La matriz de confusión
•  Relaciona los casos reales que pertenecen a los grupos con los
valores predichos a partir del AD
•  Indica el número de casos asignados correctamente a los
diferentes grupos a partir de sus puntuaciones.
•  Lo ideal es que cada caso sea asignado a un solo grupo y que
esté bien asignado
© R. Pérez Juste
5.

CÓMO SE INTERPRETA
CÓMO SE INTERPRETA

Primer objetivo: el AD nos informa:


•  Sobre la calidad de las variables inicialmente hipotetizadas
como delimitadoras de los grupos
•  De las que mejor discriminan entre grupos
•  Del peso que estas variables tienen al caracterizar los grupos
Segundo objetivo: el AD nos informa:
•  Del valor predictivo de las variables discriminantes para asignar
sujetos a grupos
•  De la caracterización de los grupos
•  De la aplicabilidad a los sujetos concretos de las características
de los grupos
•  Por ello se puede aplicar a los sujetos los tratamientos
pedagógicos del grupo asignado © R. Pérez Juste
CONCLUYENDO
CONCLUYENDO

• Técnica útil en un campo del saber, como es la


Educación, entre cuyas características se encuentra la
de COMPLEJIDAD de los fenómenos que le son
propios.

•  Ayuda a:
Ø  Clasificar los fenómenos
Ø  Asignar sujetos a las clases

•  Facilita la toma de decisiones pedagógicas


© R. Pérez Juste
AUTOCONTROL
AUTOCONTROL

1.  El AD permite formar clases con grupos de sujetos (V /


F)
2.  En nuestro ejemplo, el número de funciones
discriminantes será de 5 (V/F)
3.  La función discriminante es una función lineal de las
variables seleccionadas con sus correspondientes
pesos (V/F)
4.  El AD permite reducir el número de variables
hipotetizadas inicialmente como características de
grupos ya existentes (V/F)
5.  Las dos principales exigencias para aplicar el AD son:

© R. Pérez Juste
AUTOCONTROL

6.  Si se diera “singularidad” se recomienda suprimir tal


variable (V/F)
7.  Si una variable es el resultado de la combinación lineal
de varias estamos ante la:
8.  Los coeficientes factoriales indican el peso de cada
variable discriminante (V/F)
9.  El procedimiento seguido para obtener las funciones
discriminantes se denomina “paso a paso” (V/F)
10.  El AD es muy sensible a las violaciones de los
supuestos paramétricos (V/F)

© R. Pérez Juste
AUTOCONTROL

11. La matriz que recoge el número de casos asignados


correctamente a los diferentes grupos se denomina:
12.  Podemos estimar la probabilidad de que un sujeto
concreto pertenezca a un grupo mediante la regla de:
13. El procedimiento “step wise” selecciona variables cuyo
valor de F ≥ 1 (V/F)
14. Si dos variables mantienen una correlación muy
elevada, estamos ante la:
15. F es un cociente entre los determinantes de las dos
matrices siguientes:

© R. Pérez Juste
AUTOCONTROL

16. Los coeficientes factoriales indican el peso de cada


variable discriminante (V/F)
17. El procedimiento seguido para obtener las funciones
discriminantes se denomina “paso a paso” (V/F)
18.  La puntuación que representa en el espacio a un
grupo se denomina:
19. La alternativa a F es:
20.  Para que la interpretación del AD sea fácil es preciso
que las diferencias entre los centroides sean:

© R. Pérez Juste
BIBLIOGRAFÍA
RECOMENDADA
BIBLIOGRAFIA RECOMENDADA
MARTÍNEZ ARIAS, R (1999) El análisis multivariante en la
investigación científica. Madrid: Editorial La Muralla
GIL ROBLES, J y otros (2001) Análisis discriminante. Madrid:
Editorial La Muralla
KLECKA, W.R. (1982) Discriminant analysis. A Sage
University Paper
BISQUERRA ALZINA, R. (1989) Introducción conceptual al
análisis multivariable, Barcelona: PPU
SÁNCHEZ CARRIÓN, J.J. (1984) Introducción a las técnicas
de análisis multivariable aplicadas a las ciencias sociales.
Madris: CIS

© R. Pérez Juste
© R. Pérez Juste

S-ar putea să vă placă și