Documente Academic
Documente Profesional
Documente Cultură
481-490
ISSN 0214 - 9915 CODEN PSOTEG
Copyright © 1998 Psicothema
Desde los inicios del estudio del sesgo cionantes: el trabajo metodológico se ha
en los ítems, ha estado presente la preocu- convertido en un fin en sí mismo (Scheu-
pación por identificar los factores respon- neman, 1987); la predicción del posible
sables del mismo (Angoff y Ford, 1973). sesgo de un item es muy difícil (Skagg y
Tras aproximadamente dos décadas de es- Lissitz, 1992); los factores responsables
tudio, la evaluación mayoritaria coincide conocidos son muy pocos y la compren-
en que los logros conseguidos son decep- sión de cómo actúan limitada (Schmitt,
Holland y Dorans, 1993), etc. La justifica-
ción principal para esta ausencia de logros
Correspondencia: José Luis Padilla García significativos puede estar en una concep-
Facultad de Psicología ción teórica inicial sobre las posibles cau-
Universidad de Granada
18071 Granada (Spain) sas demasiado simple: la hipótesis de la
E-mail: jpadilla@platon.ugr.es carga cultural.
481
LA EXPLICACIÓN DEL SESGO EN LOS ÍTEMS DE RENDIMIENTO
Esta situación general no debe ocultar los Muthén (1989) formuló un modelo de TRI
esfuerzos realizados para identificar los fac- que incorpora información sobre la instruc-
tores responsables del sesgo en los ítems de ción. Propone la idea de que la instrucción
rendimiento. Scheuneman (1982) agrupa mejora la «habilidad objetivo» y, posible-
los trabajos en dos categorías dependiendo mente, las destrezas específicas –«habilida-
de las posibles fuentes de sesgo analizadas: des ruido»– que pueden favorecer la elec-
(a) defectos en los ítems a los que los miem- ción de la respuesta correcta a algunos
bros de grupos diferentes son diferencial- ítems.
mente sensibles; y (b) diferencias genuinas Los resultados de esta línea de investiga-
entre los grupos que pueden o no reflejar di- ción son aún insuficientes para sostener una
ferencias válidas en la habilidad medida. teoría global, si fuera posible, sobre la ex-
El objetivo del primer grupo de trabajos plicación del FDI. Nos atrevemos a apuntar
es identificar características irrelevantes de algunas razones de la falta de resultados
los ítems que den lugar a estimaciones equi- consolidados. Por ejemplo: (a) la mayoría
vocadas de la habilidad de las personas. Es- no son estudios diseñados intencionada-
te es el objetivo general compartido de los mente para examinar las causas del sesgo,
trabajos de Angoff y Ford (1973), Linn y suele tratarse de análisis «a posteriori»; (b)
Harnish (1981), O’Neill y McPeek (1993), los tests analizados son tests comerciales
Scheuneman y Gerriz (1990) y Schmitt y que han pasado numerosos controles, por lo
Dorans (1990). La mayoría de estos trabajos que rara vez aparecen ítems con un FD sig-
concluyen que las diferencias en las expe- nificativo; y (c) predomina el análisis subje-
riencias instruccionales de los miembros de tivo de los ítems, por lo que falta la mani-
cada grupo son las responsables del funcio- pulación controlada de las posibles fuentes
namiento diferencial de los ítems (FDI). de sesgo.
El papel de las diferencias instrucciona- Este estudio pretende explorar el efecto
les es estudiado directamente por Miller y de las diferencias en las experiencias ins-
Linn (1988). Investigaron el grado en el que truccionales sobre el sesgo en los ítems de
las funciones características de los ítems rendimiento. La lógica del estudio, inspira-
eran invariables entre grupos con diferentes da en la «teoría multidimensional del ses-
experiencias instruccionales. Los resultados go» (Fidalgo, 1996), es que las diferencias
mostraron que entre el 20% y el 30% de los en las experiencias instruccionales pueden
ítems no lograban la invarianza. Kok, Me- provocar diferencias en la «habilidad objeti-
llenbergh y van der Flier (1985) realizaron vo» (rendimiento en el área de contenido), y
una investigación especialmente interesante en las «habilidades ruido» (destrezas espe-
por mostrar la posibilidad de inducir sesgo cíficas para responder al item). La presencia
de forma controlada, manipulando los pro- de habilidades ruido provocará que las res-
cesos instruccionales que seguían dos gru- puestas a los ítems no sean unidimensiona-
pos de personas. Tatsuoka, Linn, Tatsuoka y les, y la aparición de un FD en los ítems
Yamamoto (1988) compararon la ejecución afectados por dichas habilidades.
en los ítems de un test de sustracción de El objetivo del estudio se puede concre-
fracciones de dos grupos de niños, formados tar en dos proposiciones interrelacionadas:
a partir de los procesos cognitivos reales (a) obtener evidencias para determinar si re-
–método de cálculo– que empleaban para cibir o no una estrategia instruccional puede
resolver las tareas. Los ítems que requerían ser una factor explicativo del FD de los
un método particular de cálculo favorecían ítems de un test de rendimiento; y (b) exa-
a los alumnos que empleaban dicho método. minar si el posible FD de los ítems de ren-
diferencial (EID). En concreto, en el informe los apartados del contenido objeto de una
que se entregaba a los sujetos del GR, la pre- estrategia instruccional diferencial. Los
sentación de estos apartados, además de ha- ítems demandan la interpretación de los re-
cerse de forma descriptiva se acompañaba sultados del índice ‘p’ de la forma presenta-
de diagramas (1 diagrama principal y cuatro da en los ejemplos y no-ejemplos de las uni-
diagramas parciales), ejemplos y no-ejem- dades de tratamiento. El número de ítems
plos. El diagrama principal representa un «potencialmente sesgado» se ajustaba a los
modelo que describe la utilización del índice criterios expuestos por diversos autores pa-
‘p’ para analizar la calidad de un item. Los ra evitar la aparición de un «sesgo penetran-
ejemplos y no-ejemplos interpretan los re- te» (Oshima y Miller, 1992).
sultados del índice ‘p’ para las alternativas
de respuesta al item. La interpretación anali- Procedimiento
za la elección de la respuesta correcta y los
distractores. En el GF la presentación de los El estudio del contenido de los informes,
contenidos era fundamentalmente descripti- la administración del cuestionario y el test
va. La secuencia de presentación de los con- de rendimiento, se realizaron en sesiones de
tenidos fue la misma en los dos informes. grupo. Las personas no conocían los objeti-
La Tabla 1 presenta el esquema del pro- vos del estudio.
ceso instruccional que reciben los sujetos en Tras repartir los informes, se pedía a las
el apartado del contenido objeto de una personas para que estudiaran el contenido
EID. como «si se estuvieran preparando para un
examen...». También se les informaba que
Tabla 1 después de estudiar el material iban a res-
Proceso Instruccional ponder a un cuestionario y a un test sobre
los contenidos estudiados. Después de estu-
Grupos Estrategia Modo de Número de
diar el material respondían al test.
instruccional presentación ítems
1) DIMENSIONALIDAD DEL TEST DE RENDIMIENTO puede recurrir para conocer los detalles de
El análisis de la dimensionalidad del test su aplicación (e.g. Nandakumar, 1993,
de rendimiento tiene un doble objetivo. Pri- 1994; Hattie, Krakowski, Rogers y Swami-
mero, determinar si el conjunto de respues- nathan, 1996).
tas al test de rendimiento es unidimensional. La Tabla 2 muestra los resultados de la
Segundo, determinar si las respuestas a los aplicación del estadístico «T» de Stout al
ítems diseñados para mostrar sesgo forman conjunto de todos los ítems del test. El pro-
un conjunto multidimensional. grama asignó automáticamente los ítems
El análisis de la unidimensionalidad se re- que formaron el subtest de evaluación
alizó mediante la aplicación del estadístico (AT1).
«T» de Stout (e.g. Stout, 1987), por su rele-
vancia para los objetivos de la investigación Tabla 2
y para evitar los problemas del análisis facto- Estadístico «T» para el test completo
rial al estudiar la dimensionalidad de un test
T-Conservador T’-Más potente
de rendimiento (e.g. Cuesta, 1993). El esta-
dístico «T» de Stout prueba la hipótesis de TL TB T p-valor TL TB T’ p-valor
«unidimensionalidad esencial» en el conjun-
to de respuestas a los ítems del test. El cálcu- 3.5629 1.7628 1.2728 0.1015 4.2550 2.1499 1.4885 0.0683
lo del valor del estadístico «T» se realizó con
el programa DIMTEST (Stout, l990). El valor del estadístico de Stout, tanto en
El estadístico asume el principio funda- su versión conservadora (T= 1.2728, p=
mental de que la independencia local se de- .1015) como en la más potente (T’= 1.4885,
bería cumplir aproximadamente cuando la p= .06831), no permite rechazar la hipóte-
muestra procede de un subpoblación de per- sis nula de que en el conjunto de datos se
sonas con aproximadamente el mismo nivel cumple el supuesto de unidimensionalidad
de habilidad. Así, un test es esencialmente esencial.
unidimensional si el promedio de las cova- Para determinar si la respuesta de los
rianzas condicionadas entre todas las pare- sujetos a ítems objeto de EID forman un
jas de ítems es pequeño. conjunto multidimensional, aplicamos
El procedimiento consiste en formar un también el estadístico «T» de Stout. En es-
conjunto de ítems unidimensionales, llama- ta ocasión, se utilizó la opción de asigna-
do subtest de evaluación, mediante un aná- ción «basada en la opinión de expertos»
lisis subjetivo del contenido de los ítems o del programa DIMTEST para formar AT1
mediante un análisis factorial exploratorio. (i.e. los ítems diseñados para mostrar un
El resto de los ítems forman el subtest de FD).
agrupación. Después, las personas son asig- La Tabla 3 muestra los resultados de la
nadas a diferentes grupos por sus puntua- aplicación del estadístico «T» de Stout.
ciones en los ítems del subtest de agrupa-
ción. Si el conjunto total de ítems es undi- Tabla 3
mensional, ambos subtest serán unidimen- Estadístico «T» para las respuestas a los items
sionales, pero si no es así, el subtest de agru- objeto de EID
pación contendrá muchos ítems que «carga-
T-Conservador T’-Más potente
rán» en al menos otra dimensión no medida
por el subtest de evaluación (Stout, 1987). TL TB T p-valor TL TB T’ p-valor
El procedimiento DIMTEST ha sido ana-
6.8536 1.7718 .35935 .0001 7.6476 2.1517 3.8862 .00005
lizado en numerosos estudios a los que se
Los valores del estadístico «T» de Stout, adecuados (i.e. por encima o próximos a
tanto en su versión conservadora (T= rbis= .50); dichos niveles son una garantía
3.5935, p= .000162), como en la más poten- más de la identidad entre lo que mide el
te (T= 3.8862, p= .000051), permiten recha- item y la distribución de puntuaciones tota-
zar la hipótesis nula de que en el conjunto les (Angoff, 1993). El análisis subjetivo del
de datos formado por los ítems objeto de item 20 aclaró que su comportamiento anó-
EID se cumple la unidimensionalidad esen- malo podía deberse a que no era congruente
cial. También puede destacarse el incremen- con el objetivo educativo que se pretendía
to en los valores del estadístico TL (i.e. me- medir.
dida de la multidimensionalidad presente en Por lo que respecta al análisis de las dis-
las respuestas a los ítems del subtest de eva- tribuciones de puntuaciones totales, realiza-
luación uno), para los ítems objeto de EID mos dos contrastes de diferencias de me-
(TL= 6.8536), en comparación con el resto dias, con y sin los ítems diseñados para
de los ítems del test (TL= 3.5629). mostrar sesgo, entre los dos grupos. La in-
Este resultado, junto con el anterior, pue- clusión de los ítems diseñados para mostrar
de interpretarse así: a pesar de que la unidi- sesgo favorecía al GR de forma significati-
mensionalidad esencial se cumple para el va (t = 4.26; p<.001); mientras que con su
conjunto de datos del test, también en este exclusión las distribuciones de puntuacio-
conjunto existen dimensiones menores que, nes totales eran muy semejantes (t = 1.29; p
en el caso de los ítems objeto de EID, pue- = .1995).
den dar lugar a su posible FD. Estos resultados y la reflexión teórica de-
terminaron el protocolo de aplicación del
3) ESTUDIO DE LOS ÍTEMS DISEÑADOS PARA procedimiento:
MOSTRAR SESGO
El análisis de los ítems diseñados para 1) La estrategia de igualación. La es-
mostrar sesgo comenzó con dos controles es- trategia típica es la utilización simple de la
tadísticos relevantes para la aplicación del puntuación total en el test (para n ítems,
procedimiento χ2 de Mantel-Haenszel (MH): n+1 niveles en la variable de igualación).
el análisis numérico de los ítems y de las dis- La alternativa utilizada en este estudio es
tribuciones de puntuaciones totales en el test una de las estrategias de igualación grue-
de rendimiento. sa: los quintiles de la distribución conjun-
Los valores del índice ‘p’ en los dos gru- ta de puntuaciones totales. Las razones pa-
pos de todos los ítems objeto de una EID in- ra esta decisión fueron tres: (a) conseguir
dican que estos ítems, salvo el item 20, son mayor estabilidad en las estimaciones de
más fáciles para el GR que para el GF. Las las frecuencias esperadas; (b) utilizar la
diferencias en los valores del índice ‘p’ son mayor parte de los datos disponibles, re-
considerables (superiores a .30) para los duciendo el número de filas y columnas
ítems 1, 2, 12, 24 y 28; y apreciables (supe- con frecuencia cero; y (c) ser la igualación
riores a .10) para los ítems 11 y 33. Estas di- gruesa más cercana a la tradicional iguala-
ferencias en los valores del índice ‘p’ reve- ción delgada, en cuanto a la comparabili-
lan la efectividad de la manipulación ins- dad de las personas.
truccional, y se producen en la dirección 2) La inclusión de los ítems estudiados
prevista. en el criterio de igualación es recomendada
Podemos resaltar también, que todos los por la mayoría de los autores para establecer
ítems objeto de EID, salvo nuevamente el el paralelismo entre el procedimiento MH y
item 20, tienen niveles de discriminación la detección del FDI desde el modelo de
Rasch. Nosotros decidimos excluirlos para Como puede verse en la Tabla 4, 9 de los
obtener un criterio de igualación lo más uni- 10 ítems diseñados para medir los conteni-
dimensional posible. dos objeto de una EID, muestran un FD sig-
nificativo. Los valores D-MH de los 9 ítems
Primero, aplicamos el procedimiento con un FD significativo son negativos, lo
MH al conjunto de ítems diseñados para que indican que favorecen al grupo de re-
medir los contenidos objeto de una estrate- ferencia.
gia instruccional diferencial (EID); y des- El item 20, a pesar de estar diseñado pa-
pués, al resto de los ítems del test. ra medir un contenido objeto de una EID, no
La estrategia de igualación utilizada hace presenta un FD significativo para ninguno
que los valores del estadístico MH-CHI2 se- de los dos grupos (MH-CHI2 = 2.9689, p =
an más fiables que los del estimador DEL- 0.0849).
TA-MH (D-MH) (Donoghue y Allen, Este patrón de resultados es una confir-
1993); siendo estos últimos meros indicado- mación general de las predicciones expues-
res de la «dirección» y «magnitud» del FD tas en la introducción del estudio.
del item estudiado. Por último, el procedimiento MH de-
La Tabla 4 presenta los resultados de la tecto un posible funcionamiento diferen-
aplicación del procedimiento MH a los cial de otros 5 ítems del test de rendi-
ítems diseñados para medir los contenidos miento. El análisis subjetivo de los ítems
objeto de EID. no reveló ningún patrón significativo en
estos ítems.
Tabla 4
Aplicación del procedimiento MH a los items Discusión
diseñados para mostrar sesgo
puestas a los ítems diseñados para mostrar Sin duda, el tamaño de los grupos es re-
sesgo proporciona evidencia sobre el posi- ducido, pero pensamos que los posibles pro-
ble mecanismo explicativo del sesgo: la ac- blemas ocasionados son el precio justo por
tuación de «habilidades ruido» distribuidas el control de las experiencias instrucciona-
de forma diferente entre los grupos de com- les en un estudio exploratorio.
paración. La interpretación general de los resulta-
El procedimiento MH identificó el posi- dos del estudio se debe hacer en el marco
ble funcionamiento diferencial de 9 de los de la Teoría de la Validez. Camilli (1992)
10 ítems diseñados para mostrar sesgo. Este piensa que los índices de FDI son medidas
resultado es una confirmación general de las de la multidimensionalidad presente en las
predicciones apuntadas en la introducción respuestas a los ítems. El análisis de la va-
del estudio. lidez de constructo debe determinar si la
No obstante, la falta de fiabilidad común multidimensionalidad encontrada por los
a los procedimientos estadísticos para de- procedimientos estadísticos es una parte
tectar el FDI, obliga a un análisis de la apli- legítima del constructo o es una evidencia
cación realizada en este estudio del procedi- de sesgo. Creemos que nuestro estudio se
miento MH, centrada en la idoneidad del presta a una reflexión de este tipo. Los re-
criterio de igualación. sultados encontrados son una evidencia de
La aplicación que hemos realizado del sesgo para la utilización tradicional de los
procedimiento MH ha pretendido utilizar tests de rendimiento: la interpretación
un criterio de igualación tan fiable y unidi- normativa de la ejecución en el test. Sin
mensional como fuera posible. De ahí, la embargo, podría ser una «multidimensio-
utilización de una estrategia de igualación nalidad relevante» para otras interpreta-
gruesa y la exclusión de los ítems diseña- ciones dictadas por el contexto particular
dos para mostrar sesgo del criterio de igua- de utilización del test, por ejemplo: una
lación. Hay diversos estudios en los que la interpretación relativa a objetivos educati-
estrategia de igualación gruesa aporta esti- vos concretos.
maciones precisas de los índices de FDI La distinción entre «multidimensionali-
(Raju, Bode y Larsen 1989); y los mejores dad relevante» y «sesgo» (Camilli y She-
resultados cuando la medida de FDI es el pard, 1994) supera polémicas históricas
estadístico MH-CHI2 (Doneghue y Allen, sobre la utilización de los métodos esta-
1993). Además, Hambleton, Clauser, Ma- dísticos. Así, la decisión de si el FD detec-
zor y Jones (1993) han encontrado que si tado es o no sesgo, dependerá del objetivo
las distribuciones de habilidad son seme- para el que se utilicen las puntuaciones, y
jantes, las diferencias entre los resultados no simplemente, de que se conozcan o no
con las distintas estrategias de igualación las causas de la ejecución diferencial de
son mínimas. las personas. Además, abre nuevas pers-
La exclusión del item estudiado del cri- pectivas a la utilización de los procedi-
terio de igualación pretende que este sea mientos estadísticos para detectar FD. Por
lo más unidimensional posible. Hambleton ejemplo, para estudiar los cambios en el
et al. (1993) han encontrado efectos per- significado subyacente de lo que mide un
versos despreciables en tests suficiente- item cuando se comparan grupos de perso-
mente largos (a partir de 20 ítems), y cuan- nas con diferentes historias instrucciona-
do las distribuciones de habilidad son se- les. Este trabajo puede ser un ejemplo de
mejantes. esta posibilidad.
Referencias
Angoff, W. H. (1993). Perspectives on differen- tion of differential functioning test ítems. Eu-
tial item functioning methodology. En P.W. ropean Journal of Psychological Assessment.
Holland y H. Wainer (Eds.), Differential item 9, 1-18.
functioning, (pp. 3-23). Hillsdale, New Jer- Hattie, J., Krakowski, K., Rogers, H. J. y Swa-
sey: Lawrence Erlbaum Associates, Publis- minathan, H. (1996). An assessment of
hers. Stout’s index of essential unidimensionality.
Angoff, W. H., y Ford, S. F. (1973). Item-race in- Applied Psychological Measurement. 20, 1-
teraction on a test of scholastic aptitude. Jour- 14.
nal of Educational Measurement. 10, 95-106. Holland, P. W. y Thayer, D. T. (1988). Differen-
Camilli, G. (1992). A conceptual analysis of dif- tial item performance and the Mantel-Haens-
ferential item functioning in terms of a multi- zel procedure. En H. Wainer y H. Braun
dimensional item response model. Journal of (Eds.), Test validity, (pp. 129-145). Hillsdale,
Educational Measurement, 16, 129-147. New Jersey: Lawrence Erlbaum Associates,
Camilli, G. y Shepard, L. (1994). Methods for Publishers.
identifiying biased test item. Thousand Oaks. Kok, F. G., Mellenbergh, G. J. y van der Flier, H.
CA: Sage Publications, Inc. (1985). Detecting experimentally induced
Crocker, L. y Algina, J. (1986). Introduction to item bias using the iterative logit method.
clasical and modern test theory. Rinehart and Journal of Educational Measurement. 22,
Winston, New York. 295-303.
Cuesta, M. (1993). Utilización de modelos logís- Linn, R. L. y Harnish, D. L. (1981). Interaction
ticos unidimensionales con datos multidimen- between item content and group menbership
sionales. Tesis doctoral no publicada, Univer- on achievement test ítems. Journal of educa-
sidad de Oviedo. Oviedo. España. tional measurement. 18, 109-118.
Donoghue, J. R. y Allen, N. L. (1993). Thin ver- Magnusson, D. (1968). Teoría de los tests. Tri-
sus thick matching in the Mantel-Haenszel llas. Mexico.
procedure for detecting DIF. Journal of Edu- Merrill, M. D., Tennyson, R. D. y Posey, L. O.
cational Statistics. 18, 131-154. (1992). Teaching concepts: An instructional
Dorans, N. J. y Holland, P. W. (1993). DIF de- design guide. Englewood Cliffs, New Jersey:
tection and description: Mantel-Haenszel and Educational Technology Publications, Inc.
standardization. En P. W. Holland y H. Wai- Miller, M. D. y Linn, R. L. (1988). Invariance of
ner (Eds.), Differential item functioning, (pp. item characteristic functions with variations
35-66). Hillsdale, New Jersey: Lawrence Erl- in instructional coverage. Journal of Educa-
baum Associates, Publishers. tional Measurement. 25, 205-219.
Fidalgo, A. M. (1996). Funcionamiento diferen- Muthén, B. O. (1989). Using item-specific ins-
cial de los ítems. En J. Muñiz (cord). Psico- tructional information in achievement mode-
metría. (pp. 371-457). Madrid: Editorial Uni- ling. Psychometrika. 135-396.
versitas, S.A. Nandakumar, R. (1993). Assessing essential uni-
Gagné, R. M. (1987). Instructional Technology: dimensionality of real data. Applied Psycho-
Foundation. Hillsdale, New Jersey: Lawrence logical Measurement. 17, 29-38.
Erlbaum Associates, Publishers. Nandakumar, R. (1994). Assessing dimensiona-
Gagné, R. M. y Glaser, R. (1987). Foundations in lity of a set of item responses. Comparasion
learning research. En R. M. Gagné (Ed.) Ins- of different approaches. Journal of Educatio-
tructional Technology: Foundation. (pp. 49- nal Measurement. 31, 17-35.
84). Hillsdale, New Jersey: Lawrence Erl- O’Neill, K. A. y McPeek, W. M. (1993). Item
baum Associates, Publishers. and test characteristics that are associated
Gagné, R. M., Briggs, L. J. y Wager, W. W. with differential item functioning. En P.W.
(1988). Principles of instructional design. Holland y H. Wainer (Eds.), Differential item
(3ed). New York: Holt, Rinehart y Winston. functioning. (pp. 255-277). Hillsdale, New
Hambleton, R. K., Clauser, B. E., Mazor, K. M. Jersey: Lawrence Erlbaum Associates, Pu-
y Jones, R. W. (1993). Advances in the detec- blishers.