Sunteți pe pagina 1din 10

Validacin de Instrumentos de Evaluacin: Uso de ndices de Evaluacin

en preguntas con calificacin tricotmica

La evaluacin constituye un juicio, una apreciacin, una valoracin sobre un


elemento o situacin objeto de inters y que en la mayora de los casos
conduce a una toma de decisiones. En el marco del proceso educativo es un
recurso fundamental para la direccin del aprendizaje.
La evaluacin puede ser considerada como la comprobacin de la validez de
las estrategias didcticas1, es decir, como la bsqueda de datos que nos
ayuden a decidir si la estrategia metodolgica desarrollada fue o no
adecuada, o en qu medida lo fue, para guiar un proceso de enseanza que
desemboque en la obtencin de los resultados de aprendizaje previamente
propuestos.
En este sentido, el instrumento evaluativo usado debe poseer validez y
confiabilidad, lo que constituye un requisito indispensable para lograr
justeza y equidad en la evaluacin. Ya que la evaluacin del aprendizaje,
tiene por finalidad medir el alcance de los objetivos fijados, los instrumentos
de evaluacin (tipo de examen o prueba) variarn en funcin del tipo de
objetivo a medir.
En el marco de las propiedades psicomtricas de las preguntas, dentro de
los numerosos instrumentos de evaluacin cuantitativa existentes, los
ndices de Dificultad (IDf) y Discriminacin (IDc) son herramientas probadas
tiles en la valoracin de la calidad de las preguntas de examen, que
permiten medir su mayor o menor facilidad y la capacidad de las mismas
para distinguir a grupos diferentes de alumnos. Permiten, entre otras cosas,
la eliminacin o modificacin de preguntas que no satisfacen un conjunto de
propiedades que hacen de la prueba un instrumento apropiado e insesgado
en la estimacin del rendimiento.
Junto a estos indicadores se utiliza frecuentemente una variante de la
Correlacin de Pearson, el punto de correlacin biserial (PCB), que es capaz
de valorar la efectividad discriminativa de una pregunta y combina la
relacin entre el criterio del reactivo y el nivel de dificultad global del
examen.

Sin embargo estos tres indicadores suelen aplicarse sobre resultados con
opciones de correccin dicotmicas (Bien-Mal), fundamentalmente (o casi
exclusivamente) en preguntas de seleccin mltiple.
En este contexto, la enseanza de la Histologa y su evaluacin plantea la
necesidad, por el tipo de preguntas efectuadas, de considerar una posicin
intermedia de respuesta (Regular), ya que frecuentemente las preguntas no
estructuradas y semiestructuradas son respondidas en forma parcial y/o
incompleta. Hasta el presente no se han elaborado, en la teora clsica de
los test de evaluacin, ndices o marcadores con formulacin matemtica
adecuada que contemplen las tres opciones de correccin y que aporten
validez al mtodo empleado.
Objetivos: Comparar la capacidad de discriminacin de indicadores de
evaluacin modificados, aplicados a preguntas de evaluaciones parciales de
la asignatura Histologa de la carrera de Medicina en dos perodos sucesivos
(2010 2011), bajo dos modalidades, con y sin la incorporacin de la opcin
regular.
Material y Mtodos: Se analizaron las preguntas escritas confeccionadas y
respondidas en la primera evaluacin parcial de la materia Histologa en los
aos 2010 y 2011, idnticas en ambos aos.
Sobre 125 preguntas, distribuidas en 5 temas, con opcin de correccin
tricotmica (Bien=B; Regular=R; Mal=M) se aplicaron 3 ndices de
evaluacin, en cada pregunta respondida por todos los alumnos (n), bajo
dos modalidades:
Modalidad 1:

Preguntas Bien respondidas:

Grupo

B1
Preguntas Regular y Mal Respondidas:

Grupo

M1
Modalidad 2:

Preguntas Bien y Regular respondidas:

Grupo B2
Preguntas Mal respondidas:

Grupo M2

Se formularon y aplicaron, por lo tanto, sobre cada pregunta, seis


indicadores:

1) ndice de Dificultad 1: Proporcin de personas que respondieron


correctamente una pregunta de la prueba (B 1/n)
2) ndice de Dificultad 2: Proporcin de personas que respondieron Bien o
Regular una pregunta de la prueba (B 2/n)
3) ndice de Discriminacin 1: Diferencia entre la frecuencia relativa de
respuestas Bien en el grupo de los sobresalientes grupo superior (GS B 1)
(27 % superior) y la frecuencia de respuestas Bien en el grupo de los
deficientes o grupo inferior (GI B1)(27 % inferior).
2 x ((GS B1-GI B1)/n)
4) ndice de Discriminacin 2: Diferencia entre la frecuencia relativa de
respuestas Bien y Regular en el grupo de los sobresalientes (GS B 2) (27 %
superior) y la frecuencia de respuestas Bien y Regular en el grupo de los
deficientes (GI B2)(27 % inferior).
2 x ((GS B2-GI B2)/n)
5) Punto de Correlacin Biserial 1: Relacin entre las respuestas bien
respondidas y las calificaciones en el test de todas las personas.
PCB 1:
XB = Media del puntaje total de los alumnos que respondieron Bien la
pregunta
XRM = Media del puntaje total de los alumnos que respondieron Regular y
Mal la pregunta
SX = Desvo Standard del puntaje total de los alumnos
NB = Nmero de alumnos que respondieron Bien la pregunta
NRM = Nmero de alumnos que respondieron Regular y Mal la pregunta
n = NB + NRM

6) Punto de Correlacin Biserial 2: Relacin entre las respuestas bien y


regular respondidas y las calificaciones en el test de todas las personas.

PCB 2:
XBR = Media del puntaje total de los alumnos que respondieron Bien y
Regular la pregunta
XM = Media del puntaje total de los alumnos que respondieron Mal la
pregunta
SX = Desvo Standard del puntaje total de los alumnos
nBR = Nmero de alumnos que respondieron Bien o Regular la pregunta
nM = Nmero de alumnos que respondieron Mal la pregunta
N = NBR + NM
A partir de los indicadores individuales de cada pregunta se calcul el
ndice de discriminacin global promedio y el punto de correlacin biserial
global promedio en cada grupo y en cada ao, los que fueron comparados
entre s.
Segn criterios previamente reconocidos 2 Se consideraron valores
aceptables para cada ndice los siguientes: ndice de Dificultad: 0,50-0-60;
ndice de Discriminacin: 0,25-0,35 (o mayor); Punto de Correlacin Biserial:
>0,20
Se realiz un anlisis descriptivo y de comparacin mediante test t de
2 muestras, previa verificacin de la distribucin normal de los grupos. El
nivel de significacin fue del 5%.
Resultados:
125 preguntas agrupadas en 5 temas y respondidas por 210 alumnos en
2010 y 195 alumnos en 2011, fueron analizadas con los ndices descriptos.
El anlisis fue completo en todos los grupos.
La dificultad promedio de los exmenes expresada por el ndice de dificultad
fue aceptable segn estndares establecidos (tabla 1), y similar en ambos
perodos examinados.

Tabla 1. Indice de Dificultad promedio global en primer examen parcial. Ao


2010 y 2011

Ind. Dificultad 1

Ao 2010
0,55 (0,47-0,61)

Ao 2011
0,50 (0,46-0,56)

P
0.09

Ind. Dificultad 2

0,74(0,72-0,76)

0,73 (0,70-0,77)

9
0.63
1

Como era esperable, el ndice de dificultad 2 (que incorpora la opcin


regular como bien) fue mayor, sealando una menor dificultad en general
de las preguntas cuando el criterio de correccin incorpora esta tercera
opcin. Cabe sealar que el comportamiento de los reactivos fue
estadsticamente similar en ambos aos.
La capacidad de discriminacin medida por el ndice de discriminacin
global promedio fue muy buena en los dos perodos examinados (Tabla 2),
acorde a estndares internacionales y, aunque significativamente menor en
el ao 2011, siempre se mantuvo en valores de discriminacin considerados
excelentes.

Tabla 2. ndice de Discriminacin global promedio en primer examen parcial.


Ao 2010 y 2011

Ind.

Ao 2010
0,39 (0,33-0,50)

Ao 2011
0,35 (0,30-0,43)

p
0,045

Discriminacin 1
Ind.

0,32 (0,19-0,41)

0,30 (0,26-0,38)

0,46

0,015

0,14

Discriminacin 2
p

Ao 2010 y
Ind.

2011
0,37

Discriminacin 1
Ind.

0,31

Discriminacin 2

0,006

La

comparacin

modalidades

de

ambos

mostr

ndices

diferencias

de

discriminacin

significativas,

bajo

siendo

las

dos

menor

la

discriminacin cuando se consider la correccin regular como bien


(ndice de discriminacin 2), aunque, de notar, los valores siempre fueron
superiores al mnimo considerado aceptable.
Igualmente el Poder de discriminacin medido por el Punto de Correlacin
Biserial (Tabla 3) mostr valores significativamente menores al incorporar la
opcin regular (Punto de Correlacin Biserial 2), en ambos perodos; no
obstante los valores promedio obtenidos siempre fueron superiores al
mnimo deseable.
Tabla 3. Punto de Correlacin Biserial global promedio en primer examen
parcial.
Ao 2010 y 2011 por separado
Ao
P.

Correlacin

Biserial 1
P.
Correlacin

Ao

2010
0,44

2011
0,41

0,2

0,37

0,35

2
0,5

0,002

0,043

Biserial 2

1
p

Ao 2010 y 2011en conjunto


Ao 2010 y
P.

Correlacin

Biserial 1
P.
Correlacin
Biserial 2

Discusin:

2011
0,43
0,000
0,36

El presente trabajo demuestra que la aplicacin de indicadores de calidad


de preguntas tales como el ndice de Discriminacin y el Punto de
correlacin biserial es factible de llevarse a cabo en reactivos con opcin de
correccin tricotmica, esto es, con tres posibilidades de correccin (Bien,
Regular y Mal), sin una prdida importante de la capacidad discriminativa.
En efecto, al no existir una formulacin matemtica para ndices de
discriminacin que contemple tres categoras (Bien, Regular y Mal), se
incorpor en el presente trabajo la opcin Regular a una de las dos
categoras restantes (Bien-Mal) y en la comparacin se observ que, pese a
registrarse un descenso estadsticamente significativo de la capacidad de
discriminacin de las preguntas, la inclusin de la categora Regular en la
Categora Bien mantuvo niveles de discriminacin considerados aceptables,
y, por lo tanto, es factible de considerar como opcin vlida ampliar el
criterio de correccin de las preguntas a tres categoras (Bien Regular
Mal) sin una prdida significativa del poder de discriminacin entre alumnos
de alto y bajo rendimiento.
El tipo de preguntas que se formulan en Histologa debe necesariamente
contemplar la evaluacin de otras reas de competencia cognoscitiva
diferentes de las que abarcan las preguntas de seleccin mltiple, objeto
primero para las que fueron diseados los ndices de dificultad y
discriminacin, las que frecuentemente reducen su campo de accin a una
memorizacin comprensiva que deja de lado a un conjunto importante de
procesos y competencias involucrados en el aprendizaje que debieran ser
objeto de evaluacin. As deben incluirse, por ejemplo, esquemas, dibujos,
ordenamiento de procesos, enunciados verdadero-falso, etc., los cuales a
menudo son respondidas en forma parcial incompleta, sin permitir
encasillar la misma en las dos categoras clsicamente aceptadas (BienMal). Surge as la necesidad de incorporar ms categoras para la
correccin, hecho condicionado a la inexistencia, dentro de la teora clsica,
de herramientas aptas de medicin adaptaciones de las mismas, lo que
fue el objetivo del presente estudio.
En otro orden, es conocido que el poder discriminativo de las preguntas y
del conjunto de ellas se relaciona directamente con la calidad de la prueba.
De la misma manera que para el ndice de dificultad, el promedio de los
ndices de discriminacin es un indicador del poder global que tiene la

prueba para distinguir entre buenos y malos desempeos. Cabe destacar


que el ndice de dificultad y el ndice de discriminacin de un tem estn
estrechamente relacionados y que aquellos tems que tienen un coeficiente
de dificultad medio, de acuerdo con la psicometra, son los que mejor
discriminan y por tanto proporcionan mayor informacin sobre las
diferencias de nivel de competencia 3. En nuestro trabajo el ndice de
dificultad promedio global en los dos aos examinados (0,50 y O,55) se
encuadr dentro de lo considerado como trmino medio y, por lo tanto, le
agrega valor a la discriminacin.
Ya que dentro de las limitaciones de la utilizacin de los ndices se
encuentran, entre otras, las caractersticas del grupo evaluado (Menor
dificultad en grupo muy capacitado) y la heterogeneidad de habilidades
(Mayor discriminacin en grupo heterogneo), y en aras de evitar dicho
sesgo, nuestro estudio contempl 2 grupos de alumnos de diferentes aos
(2010 y 2011) en similares condiciones educativas y evaluados segn el
mismo instrumento. Ambos grupos mostraron un comportamiento
estadsticamente igual en trminos de capacidad discriminativa de los
exmenes.
No existe consenso sobre cual mtodo expresa mejor el poder
discriminatorio de un test4. Guilford5 y Nunnally6 sostienen que el punto de
correlacin Biserial dice ms sobre la contribucin de un determinado tem a
la validez predictiva del test en general. Por otra parte Henrysson 7 sugiere
que el coeficiente Biserial nos dice ms sobre la validez predictiva del test
que el punto de correlacin biserial, ya que ste tiende a favorecer los
reactivos de dificultad media, ya que la variable continua posee una
distribucin normal.
Nuestro estudio utiliz dos marcadores de la efectividad discriminativa de
un pregunta prueba: El ndice de discriminacin y el Punto de correlacin
Biserial, ste ltimo definido como un coeficiente de discriminacin,
variante de la Correlacin de Pearson. La ventaja de utilizar el Punto de
Correlacin Biserial en lugar del ndice de discriminacin (D) es que con el
primer mtodo se toman en cuenta todas y cada una de las personas
evaluadas, mientras que con el segundo, slo se toma al 54% de ellas (27%
ms alto y 27% ms bajo). Por otra parte, se ha afirmado que dicho

coeficiente es una medida que combina la relacin entre el criterio de la


pregunta prueba y el nivel de dificultad de la misma.
En nuestro estudio, ambos indicadores de discriminacin mostraron valores
considerados aceptables como instrumentos de medicin de calidad de las
preguntas. En este contexto cabe destacar que la incorporacin de la opcin
regular a cualquiera de las dos categoras clsicas de correccin (Bien-Mal)
no modific sustancialmente el poder discriminatorio de las preguntas en
forma global, medidas tanto con el ndice de discriminacin como con el
Punto de Correlacin Biserial. Dicho de otro modo, puede considerarse
vlida la correccin de preguntas con tres opciones (Bien-Regular-Mal) sin
prdida del poder discriminatorio, situacin que refleja ms certeramente la
realidad de categorizacin evaluativa de un test.
En sntesis, es factible la validacin de instrumentos evaluativos adaptados,
pertenecientes a la teora clsica de los test de evaluacin, ya que la
incorporacin de exmenes en una opcin de correccin dicotmica (BienMal) no parece reflejar de igual modo la realidad de su incorporacin en una
opcin tricotmica (Bien-Regular-Mal). Incluso sera factible considerar ms
categoras de correccin en aras de encuadrar correctamente

a dichos

instrumentos y alumnos evaluados.


Conclusin: La aplicacin de indicadores de evaluacin en preguntas con
opcin de correccin tricotmica, es posible y mantienen su capacidad
discriminativa al incorporar la opcin regular como grado de correccin.

Bibliografa:
1. Gimeno Sacristn J. Teora de la Enseanza y desarrollo del
currculo. Editorial .Morata. Salamanca. p. 225. Espaa. 1986
2. Lazarte, A. Anlisis de Preguntas. Separata del curso PSB234. PUCP.
Facultad de Psicologa 3p. 1995
3. Ebel, R.L. y Frisbie, D.A. Essentials of Educational Measurement.
Englewood Cliffs, NJ: Prentice Hall. 5ta edicin. 1991

4. Oosterhof A.C. Similarity of Various Item Discrimination Indices.


Journal of Educational measurement Vol 13 N 2. 1976
5. Guilford J. P. Fundamental Statistics in Psychology and Education. New
York: McGraw-Hill. 1965
6. Nunnally, J. Psychometric Theory. New York: McGraw-Hill. 1967
7. Henrysson, S. Gathering, Analyzing and Using Data on Test Items,
en Thorndike, R. (Comp.). Educational Measurement. Washington, DC:
American Council on Education, 120-135. 1971