Jose Luis-Laesplicacion Del Sesgo

Psicothema, 1998. Vol. 10, nº 2, pp.
481-490
ISSN 0214 - 9915 CODEN PSOTEG
Copyright © 1998 Psicothema
LA EXPLICACIÓN DEL SESGO EN LOS ÍTEMS

DE RENDIMIENTO
José Luis Padilla García, Cristino Pérez Meléndez y Andrés González Gómez
Universidad de Granada
La identificación de los factores responsables del sesgo en los items no ha alcan-

zado las expectativas iniciales. La investigación para determinar las causas ha seguido
dos líneas interrelacionadas: las características de los items o las características diferen-
ciales de las personas. Presentamos un estudio empírico que explora el efecto de recibir
diferentes experiencias instruccionales sobre el sesgo en los items de rendimiento. El
sesgo es intencionadamente inducido manipulando la estrategia instruccional. La ads-
cripción de las personas a los dos grupos de comparación depende de la estrategia ins-
truccional recibida. El procedimiento estadístico χ2 de Mantel Haenszel detecta el posi-
ble funcionamiento diferencial de 10 items especialmente diseñados para mostrar sesgo.
Las implicaciones de los resultados son discutidas desde la perspectiva de la teoría de la
validez.
The influence of instructional experience on achievement item bias. Identification

of factors responsible for item bias has not reached initial expectations. Research to de-
termine its causes has followed two main interrelated lines: items characteristic or diffe-
rential characteristics of people. We present an empirical study that explores the effect
of receiving different instructional experiences on achievement item bias. Manipulating
instructional strategy intentionally induces bias. The assignment of people to the com-
parison groups depends on the instructional strategy received. Mantel-Haenszel’s statis-
tical procedure χ2 detects a possible differential functioning of 10 items especially de-
signed to display bias. Implications of results are addressed from the validity theory
perspective.
Desde los inicios del estudio del sesgo cionantes: el trabajo metodológico se ha
en los ítems, ha estado presente la preocu- convertido en un fin en sí mismo (Scheu-
pación por identificar los factores respon- neman, 1987); la predicción del posible
sables del mismo (Angoff y Ford, 1973). sesgo de un item es muy difícil (Skagg y
Tras aproximadamente dos décadas de es- Lissitz, 1992); los factores responsables
tudio, la evaluación mayoritaria coincide conocidos son muy pocos y la compren-
en que los logros conseguidos son decep- sión de cómo actúan limitada (Schmitt,
Holland y Dorans, 1993), etc. La justifica-
ción principal para esta ausencia de logros
Correspondencia: José Luis Padilla García significativos puede estar en una concep-
Facultad de Psicología ción teórica inicial sobre las posibles cau-
Universidad de Granada
18071 Granada (Spain) sas demasiado simple: la hipótesis de la
E-mail: jpadilla@platon.ugr.es carga cultural.
481
LA EXPLICACIÓN DEL SESGO EN LOS ÍTEMS DE RENDIMIENTO
Esta situación general no debe ocultar los Muthén (1989) formuló un modelo de TRI
esfuerzos realizados para identificar los fac- que incorpora información sobre la instruc-
tores responsables del sesgo en los ítems de ción. Propone la idea de que la instrucción
rendimiento. Scheuneman (1982) agrupa mejora la «habilidad objetivo» y, posible-
los trabajos en dos categorías dependiendo mente, las destrezas específicas –«habilida-
de las posibles fuentes de sesgo analizadas: des ruido»– que pueden favorecer la elec-
(a) defectos en los ítems a los que los miem- ción de la respuesta correcta a algunos
bros de grupos diferentes son diferencial- ítems.
mente sensibles; y (b) diferencias genuinas Los resultados de esta línea de investiga-
entre los grupos que pueden o no reflejar di- ción son aún insuficientes para sostener una
ferencias válidas en la habilidad medida. teoría global, si fuera posible, sobre la ex-
El objetivo del primer grupo de trabajos plicación del FDI. Nos atrevemos a apuntar
es identificar características irrelevantes de algunas razones de la falta de resultados
los ítems que den lugar a estimaciones equi- consolidados. Por ejemplo: (a) la mayoría
vocadas de la habilidad de las personas. Es- no son estudios diseñados intencionada-
te es el objetivo general compartido de los mente para examinar las causas del sesgo,
trabajos de Angoff y Ford (1973), Linn y suele tratarse de análisis «a posteriori»; (b)
Harnish (1981), O’Neill y McPeek (1993), los tests analizados son tests comerciales
Scheuneman y Gerriz (1990) y Schmitt y que han pasado numerosos controles, por lo
Dorans (1990). La mayoría de estos trabajos que rara vez aparecen ítems con un FD sig-
concluyen que las diferencias en las expe- nificativo; y (c) predomina el análisis subje-
riencias instruccionales de los miembros de tivo de los ítems, por lo que falta la mani-
cada grupo son las responsables del funcio- pulación controlada de las posibles fuentes
namiento diferencial de los ítems (FDI). de sesgo.
El papel de las diferencias instrucciona- Este estudio pretende explorar el efecto
les es estudiado directamente por Miller y de las diferencias en las experiencias ins-
Linn (1988). Investigaron el grado en el que truccionales sobre el sesgo en los ítems de
las funciones características de los ítems rendimiento. La lógica del estudio, inspira-
eran invariables entre grupos con diferentes da en la «teoría multidimensional del ses-
experiencias instruccionales. Los resultados go» (Fidalgo, 1996), es que las diferencias
mostraron que entre el 20% y el 30% de los en las experiencias instruccionales pueden
ítems no lograban la invarianza. Kok, Me- provocar diferencias en la «habilidad objeti-
llenbergh y van der Flier (1985) realizaron vo» (rendimiento en el área de contenido), y
una investigación especialmente interesante en las «habilidades ruido» (destrezas espe-
por mostrar la posibilidad de inducir sesgo cíficas para responder al item). La presencia
de forma controlada, manipulando los pro- de habilidades ruido provocará que las res-
cesos instruccionales que seguían dos gru- puestas a los ítems no sean unidimensiona-
pos de personas. Tatsuoka, Linn, Tatsuoka y les, y la aparición de un FD en los ítems
Yamamoto (1988) compararon la ejecución afectados por dichas habilidades.
en los ítems de un test de sustracción de El objetivo del estudio se puede concre-
fracciones de dos grupos de niños, formados tar en dos proposiciones interrelacionadas:
a partir de los procesos cognitivos reales (a) obtener evidencias para determinar si re-
–método de cálculo– que empleaban para cibir o no una estrategia instruccional puede
resolver las tareas. Los ítems que requerían ser una factor explicativo del FD de los
un método particular de cálculo favorecían ítems de un test de rendimiento; y (b) exa-
a los alumnos que empleaban dicho método. minar si el posible FD de los ítems de ren-
482 Psicothema, 1998

JOSÉ LUIS PADILLA GARCÍA, CRISTINO PÉREZ MELÉNDEZ Y ANDRÉS GONZÁLEZ GÓMEZ
dimiento puede proceder de la multidimen- modelo mental utiliza diagramas, ejemplos

sionalidad que las diferentes experiencias y no-ejemplos adecuados para las tareas que
instruccionales originan en las respuestas a deberán resolver los alumnos.
los ítems. En definitiva, la manipulación instruc-
cional consiste en realizar una enseñanza di-
Método rigida a favorecer la adquisición de un mo-
delo mental para mejorar la ejecución en un
Sujetos y diseño conjunto específico de ítems, mediante la
adquisición de supuestas «habilidades rui-
Participaron 336 personas de ambos se- do», que pueden facilitar la elección de la
xos. Todas cursaban la asignatura de Psico- respuesta correcta al item.
metría dentro del tercer curso de la Licen-
ciatura de Psicología. El área de contenido Materiales
utilizada para la experiencia instruccional
fue el tema «Análisis numérico de ítems». Los materiales son un cuestionario, las uni-
Las personas fueron asignadas al azar a dos dades de tratamiento y un test de rendimiento.
grupos: 165 sujetos al grupo de referencia Los instrumentos de medida fueron elabora-
(GR) y 171 al grupo focal (GF). dos por los autores, siguiendo los pasos esta-
blecidos en la literatura (Osterlind, 1989).
Experiencia instruccional
1) CUESTIONARIO
La oportunidad de aprender (ODA) ha si- El cuestionario proporcionó información
do la variable instruccional tradicionalmen- sobre variables que podían influir en la eje-
te empleada por los psicómetras para obte- cución de las personas en los ítems del test
ner información sobre las experiencias ins- de rendimiento: datos demográficos, actitud
truccionales de las personas. La ODA es hacia la estadística y conocimientos previos
una variable dicotómica cuyos valores de- de estadística descriptiva.
penden de que las personas hayan tenido o
no, oportunidad de aprender el contenido 2) UNIDADES DE TRATAMIENTO
examinado en los ítems (Muthén, 1989). Las unidades de tratamiento son dos in-
Sin embargo, según algunos autores (i.e. formes escritos que presentan básicamente
Miller y Linn, 1988) la ODA podría ocultar la misma información sobre el tema «Análi-
la dinámica de la enseñanza en las aulas. sis numérico de ítems». Ambos informes,
Por esta razón, decidimos sustituir la ODA recogen los contenidos del tema tal y como
por otra variable instruccional: haber recibi- aparecen en los manuales de Psicometría
do o no una enseñanza dirigida a favorecer más conocidos (e.g. Crocker y Algina,
la adquisición de un modelo mental sobre 1986; Magnusson, 1968; Osterlind, 1989)
un contenido instruccional. Numerosos es- Los informes que recibían los dos grupos
tudios (i.e. Gagné, 1987) muestran que, du- diferían en el modo de presentación. Estas
rante el aprendizaje, las personas elaboran diferencias se limitan a dos apartados del te-
representaciones –«modelos mentales»– ma: «La utilización del índice ‘p’ en el aná-
que dirigen su ejecución en tareas de eva- lisis de ítems» y «La comparación de los ín-
luación. Los modelos mentales incluyen in- dices ‘p’ obtenidos por subgrupos de sujetos
formación sobre los requisitos de la tarea y con altos y bajos niveles de habilidad», ya
cómo realizarla (Gagné y Glaser, 1987). La que son estos los apartados sobre los que se
enseñanza dirigida a la adquisición de un deseaba realizar una estrategia instruccional
Psicothema, 1998 483

diferencial (EID). En concreto, en el informe los apartados del contenido objeto de una
que se entregaba a los sujetos del GR, la pre- estrategia instruccional diferencial. Los
sentación de estos apartados, además de ha- ítems demandan la interpretación de los re-
cerse de forma descriptiva se acompañaba sultados del índice ‘p’ de la forma presenta-
de diagramas (1 diagrama principal y cuatro da en los ejemplos y no-ejemplos de las uni-
diagramas parciales), ejemplos y no-ejem- dades de tratamiento. El número de ítems
plos. El diagrama principal representa un «potencialmente sesgado» se ajustaba a los
modelo que describe la utilización del índice criterios expuestos por diversos autores pa-
‘p’ para analizar la calidad de un item. Los ra evitar la aparición de un «sesgo penetran-
ejemplos y no-ejemplos interpretan los re- te» (Oshima y Miller, 1992).
sultados del índice ‘p’ para las alternativas
de respuesta al item. La interpretación anali- Procedimiento
za la elección de la respuesta correcta y los
distractores. En el GF la presentación de los El estudio del contenido de los informes,
contenidos era fundamentalmente descripti- la administración del cuestionario y el test
va. La secuencia de presentación de los con- de rendimiento, se realizaron en sesiones de
tenidos fue la misma en los dos informes. grupo. Las personas no conocían los objeti-
La Tabla 1 presenta el esquema del pro- vos del estudio.
ceso instruccional que reciben los sujetos en Tras repartir los informes, se pedía a las
el apartado del contenido objeto de una personas para que estudiaran el contenido
EID. como «si se estuvieran preparando para un
examen...». También se les informaba que
Tabla 1 después de estudiar el material iban a res-
Proceso Instruccional ponder a un cuestionario y a un test sobre
los contenidos estudiados. Después de estu-
Grupos Estrategia Modo de Número de
diar el material respondían al test.
instruccional presentación ítems
Grupo de Adquirir 5 diagramas Resultados

Referencia modelo mental + 9 ejemplos
relevante + 4 no-ejemplos 10 items
El análisis de las variables que podían in-
Grupo Focal Presentación 4 ejemplos fluir en la ejecución de las personas en el
descriptiva test de rendimiento mostró que: (a) el 86,2%
de las personas era la primera vez que cur-
La elaboración de los informes se hizo de saban la asignatura de Psicometría; (b) no
acuerdo con la aproximación al diseño ins- había diferencias significativas entre los
truccional basada en los trabajos sobre el te- grupos con respecto a la actitud hacia la es-
ma (e.g. Gagné, Briggs y Wager, 1988; Me- tadística (t= -1.27; p= 0.20), ni en cuanto a
rrill, Tennyson y Posey, 1992). los conocimientos previos de estadística
descriptiva (t= 0.36; p= 0.76).
3) TEST DE RENDIMIENTO El bloque principal de resultados de los
El test de rendimiento fue elaborado pa- análisis lo hemos dividido en dos apartados:
ra medir la ejecución de las personas en el (a) el estudio de la dimensionalidad del test
tema del «Análisis numérico de ítems». Es- de rendimiento; y (b) la aplicación del pro-
taba formado por 37 ítems de elección múl- cedimiento χ2 de Mantel-Haenszel, para el
tiple con tres alternativas de respuesta. El análisis de los ítems diseñados para mostrar
test contenía 10 ítems diseñados para medir sesgo.

1) DIMENSIONALIDAD DEL TEST DE RENDIMIENTO puede recurrir para conocer los detalles de
El análisis de la dimensionalidad del test su aplicación (e.g. Nandakumar, 1993,
de rendimiento tiene un doble objetivo. Pri- 1994; Hattie, Krakowski, Rogers y Swami-
mero, determinar si el conjunto de respues- nathan, 1996).
tas al test de rendimiento es unidimensional. La Tabla 2 muestra los resultados de la
Segundo, determinar si las respuestas a los aplicación del estadístico «T» de Stout al
ítems diseñados para mostrar sesgo forman conjunto de todos los ítems del test. El pro-
un conjunto multidimensional. grama asignó automáticamente los ítems
El análisis de la unidimensionalidad se re- que formaron el subtest de evaluación
alizó mediante la aplicación del estadístico (AT1).
«T» de Stout (e.g. Stout, 1987), por su rele-
vancia para los objetivos de la investigación Tabla 2
y para evitar los problemas del análisis facto- Estadístico «T» para el test completo
rial al estudiar la dimensionalidad de un test
T-Conservador T’-Más potente
de rendimiento (e.g. Cuesta, 1993). El esta-
dístico «T» de Stout prueba la hipótesis de TL TB T p-valor TL TB T’ p-valor
«unidimensionalidad esencial» en el conjun-
to de respuestas a los ítems del test. El cálcu- 3.5629 1.7628 1.2728 0.1015 4.2550 2.1499 1.4885 0.0683
lo del valor del estadístico «T» se realizó con
el programa DIMTEST (Stout, l990). El valor del estadístico de Stout, tanto en
El estadístico asume el principio funda- su versión conservadora (T= 1.2728, p=
mental de que la independencia local se de- .1015) como en la más potente (T’= 1.4885,
bería cumplir aproximadamente cuando la p= .06831), no permite rechazar la hipóte-
muestra procede de un subpoblación de per- sis nula de que en el conjunto de datos se
sonas con aproximadamente el mismo nivel cumple el supuesto de unidimensionalidad
de habilidad. Así, un test es esencialmente esencial.
unidimensional si el promedio de las cova- Para determinar si la respuesta de los
rianzas condicionadas entre todas las pare- sujetos a ítems objeto de EID forman un
jas de ítems es pequeño. conjunto multidimensional, aplicamos
El procedimiento consiste en formar un también el estadístico «T» de Stout. En es-
conjunto de ítems unidimensionales, llama- ta ocasión, se utilizó la opción de asigna-
do subtest de evaluación, mediante un aná- ción «basada en la opinión de expertos»
lisis subjetivo del contenido de los ítems o del programa DIMTEST para formar AT1
mediante un análisis factorial exploratorio. (i.e. los ítems diseñados para mostrar un
El resto de los ítems forman el subtest de FD).
agrupación. Después, las personas son asig- La Tabla 3 muestra los resultados de la
nadas a diferentes grupos por sus puntua- aplicación del estadístico «T» de Stout.
ciones en los ítems del subtest de agrupa-
ción. Si el conjunto total de ítems es undi- Tabla 3
mensional, ambos subtest serán unidimen- Estadístico «T» para las respuestas a los items
sionales, pero si no es así, el subtest de agru- objeto de EID
pación contendrá muchos ítems que «carga-
T-Conservador T’-Más potente
rán» en al menos otra dimensión no medida
por el subtest de evaluación (Stout, 1987). TL TB T p-valor TL TB T’ p-valor
El procedimiento DIMTEST ha sido ana-
6.8536 1.7718 .35935 .0001 7.6476 2.1517 3.8862 .00005
lizado en numerosos estudios a los que se

Los valores del estadístico «T» de Stout, adecuados (i.e. por encima o próximos a
tanto en su versión conservadora (T= rbis= .50); dichos niveles son una garantía
3.5935, p= .000162), como en la más poten- más de la identidad entre lo que mide el
te (T= 3.8862, p= .000051), permiten recha- item y la distribución de puntuaciones tota-
zar la hipótesis nula de que en el conjunto les (Angoff, 1993). El análisis subjetivo del
de datos formado por los ítems objeto de item 20 aclaró que su comportamiento anó-
EID se cumple la unidimensionalidad esen- malo podía deberse a que no era congruente
cial. También puede destacarse el incremen- con el objetivo educativo que se pretendía
to en los valores del estadístico TL (i.e. me- medir.
dida de la multidimensionalidad presente en Por lo que respecta al análisis de las dis-
las respuestas a los ítems del subtest de eva- tribuciones de puntuaciones totales, realiza-
luación uno), para los ítems objeto de EID mos dos contrastes de diferencias de me-
(TL= 6.8536), en comparación con el resto dias, con y sin los ítems diseñados para
de los ítems del test (TL= 3.5629). mostrar sesgo, entre los dos grupos. La in-
Este resultado, junto con el anterior, pue- clusión de los ítems diseñados para mostrar
de interpretarse así: a pesar de que la unidi- sesgo favorecía al GR de forma significati-
mensionalidad esencial se cumple para el va (t = 4.26; p<.001); mientras que con su
conjunto de datos del test, también en este exclusión las distribuciones de puntuacio-
conjunto existen dimensiones menores que, nes totales eran muy semejantes (t = 1.29; p
en el caso de los ítems objeto de EID, pue- = .1995).
den dar lugar a su posible FD. Estos resultados y la reflexión teórica de-
terminaron el protocolo de aplicación del
3) ESTUDIO DE LOS ÍTEMS DISEÑADOS PARA procedimiento:
MOSTRAR SESGO
El análisis de los ítems diseñados para 1) La estrategia de igualación. La es-
mostrar sesgo comenzó con dos controles estrategia típica es la utilización simple de la
tadísticos relevantes para la aplicación del puntuación total en el test (para n ítems,
procedimiento χ2 de Mantel-Haenszel (MH): n+1 niveles en la variable de igualación).
el análisis numérico de los ítems y de las dis- La alternativa utilizada en este estudio es
tribuciones de puntuaciones totales en el test una de las estrategias de igualación grue-
de rendimiento. sa: los quintiles de la distribución conjun-
Los valores del índice ‘p’ en los dos gru- ta de puntuaciones totales. Las razones pa-
pos de todos los ítems objeto de una EID in- ra esta decisión fueron tres: (a) conseguir
dican que estos ítems, salvo el item 20, son mayor estabilidad en las estimaciones de
más fáciles para el GR que para el GF. Las las frecuencias esperadas; (b) utilizar la
diferencias en los valores del índice ‘p’ son mayor parte de los datos disponibles, re-
considerables (superiores a .30) para los duciendo el número de filas y columnas
ítems 1, 2, 12, 24 y 28; y apreciables (supe- con frecuencia cero; y (c) ser la igualación
riores a .10) para los ítems 11 y 33. Estas di- gruesa más cercana a la tradicional iguala-
ferencias en los valores del índice ‘p’ reve- ción delgada, en cuanto a la comparabili-
lan la efectividad de la manipulación ins- dad de las personas.
truccional, y se producen en la dirección 2) La inclusión de los ítems estudiados
prevista. en el criterio de igualación es recomendada
Podemos resaltar también, que todos los por la mayoría de los autores para establecer
ítems objeto de EID, salvo nuevamente el el paralelismo entre el procedimiento MH y
item 20, tienen niveles de discriminación la detección del FDI desde el modelo de

Rasch. Nosotros decidimos excluirlos para Como puede verse en la Tabla 4, 9 de los
obtener un criterio de igualación lo más uni- 10 ítems diseñados para medir los conteni-
dimensional posible. dos objeto de una EID, muestran un FD sig-
nificativo. Los valores D-MH de los 9 ítems
Primero, aplicamos el procedimiento con un FD significativo son negativos, lo
MH al conjunto de ítems diseñados para que indican que favorecen al grupo de re-
medir los contenidos objeto de una estrate- ferencia.
gia instruccional diferencial (EID); y des- El item 20, a pesar de estar diseñado pa-
pués, al resto de los ítems del test. ra medir un contenido objeto de una EID, no
La estrategia de igualación utilizada hace presenta un FD significativo para ninguno
que los valores del estadístico MH-CHI2 se- de los dos grupos (MH-CHI2 = 2.9689, p =
an más fiables que los del estimador DEL- 0.0849).
TA-MH (D-MH) (Donoghue y Allen, Este patrón de resultados es una confir-
1993); siendo estos últimos meros indicado- mación general de las predicciones expues-
res de la «dirección» y «magnitud» del FD tas en la introducción del estudio.
del item estudiado. Por último, el procedimiento MH de-
La Tabla 4 presenta los resultados de la tecto un posible funcionamiento diferen-
aplicación del procedimiento MH a los cial de otros 5 ítems del test de rendi-
ítems diseñados para medir los contenidos miento. El análisis subjetivo de los ítems
objeto de EID. no reveló ningún patrón significativo en
estos ítems.
Tabla 4
Aplicación del procedimiento MH a los items Discusión
diseñados para mostrar sesgo
Nº del MH-CHI2 p-valor DELTA-MH Error Valoración

Este estudio se realizó para examinar el
ítem DELTA-MH DELTA-MH efecto de recibir diferentes estrategias ins-
truccionales sobre el FD de los ítems de
1 63.2422 .0000 -6.8289 1.0335 Grande rendimiento. El análisis de las respuestas a
2 113.3036 0.0000 -8.3263 0.9575 Grande
6 11.1198 0.0091 -3.9948 1.2342 Grande
los ítems diseñados para mostrar sesgo re-
11 8.2914 0.0029 -3.6067 1.2104 Grande veló que 1) las respuestas a los ítems for-
12 36.0907 0.0091 -5.8881 1.1181 Grande man un conjunto multidimensional; y 2) los
20 2.9689 0.0849 1.1874 0.6433 Moderado ítems están sesgados a favor del grupo que
24 68.8180 0.0000 -3.5170 0.7133 Grande
28 54.4301 0.0000 -4.3949 0.6170 Grande
recibe la instrucción dirigida a la adquisi-
31 3.9760 0.0462 -1.1103 0.5355 Moderado ción de un modelo mental relevante. Dicha
33 13.4063 0.0003 -3.9395 1.1127 Grande instrucción favorece la adquisición de «ha-
bilidades ruido» que afectan a la ejecución
Los valores negativos de D-MH indican en el item.
que el item favorece al GR. Según la clasi- El análisis de la dimensionalidad del test
ficación del Educational Testing Service de rendimiento es especialmente relevante
(ETS), valores D-MH menores de 1 en va- por dos razones. Primera, la unidimensio-
lor absoluto se considera un FDI desprecia- nalidad del conjunto de las respuestas al
ble, valores D-MH mayores de 1,5 en valor test apoya el que los resultados de la apli-
absoluto indican un FDI grande, y los ítems cación del procedimiento MH no están con-
con valores D-MH intermedios se clasifican taminados por la hipotética multidimensio-
como un FDI moderado (Dorans y Holland, nalidad del criterio de igualación. Segunda,
l993). la falta de unidimensionalidad en las res-

puestas a los ítems diseñados para mostrar Sin duda, el tamaño de los grupos es re-
sesgo proporciona evidencia sobre el posi- ducido, pero pensamos que los posibles pro-
ble mecanismo explicativo del sesgo: la ac- blemas ocasionados son el precio justo por
tuación de «habilidades ruido» distribuidas el control de las experiencias instrucciona-
de forma diferente entre los grupos de com- les en un estudio exploratorio.
paración. La interpretación general de los resulta-
El procedimiento MH identificó el posi- dos del estudio se debe hacer en el marco
ble funcionamiento diferencial de 9 de los de la Teoría de la Validez. Camilli (1992)
10 ítems diseñados para mostrar sesgo. Este piensa que los índices de FDI son medidas
resultado es una confirmación general de las de la multidimensionalidad presente en las
predicciones apuntadas en la introducción respuestas a los ítems. El análisis de la va-
del estudio. lidez de constructo debe determinar si la
No obstante, la falta de fiabilidad común multidimensionalidad encontrada por los
a los procedimientos estadísticos para de- procedimientos estadísticos es una parte
tectar el FDI, obliga a un análisis de la apli- legítima del constructo o es una evidencia
cación realizada en este estudio del procedi- de sesgo. Creemos que nuestro estudio se
miento MH, centrada en la idoneidad del presta a una reflexión de este tipo. Los re-
criterio de igualación. sultados encontrados son una evidencia de
La aplicación que hemos realizado del sesgo para la utilización tradicional de los
procedimiento MH ha pretendido utilizar tests de rendimiento: la interpretación
un criterio de igualación tan fiable y unidi- normativa de la ejecución en el test. Sin
mensional como fuera posible. De ahí, la embargo, podría ser una «multidimensio-
utilización de una estrategia de igualación nalidad relevante» para otras interpreta-
gruesa y la exclusión de los ítems diseña- ciones dictadas por el contexto particular
dos para mostrar sesgo del criterio de igua- de utilización del test, por ejemplo: una
lación. Hay diversos estudios en los que la interpretación relativa a objetivos educati-
estrategia de igualación gruesa aporta esti- vos concretos.
maciones precisas de los índices de FDI La distinción entre «multidimensionali-
(Raju, Bode y Larsen 1989); y los mejores dad relevante» y «sesgo» (Camilli y She-
resultados cuando la medida de FDI es el pard, 1994) supera polémicas históricas
estadístico MH-CHI2 (Doneghue y Allen, sobre la utilización de los métodos esta-
1993). Además, Hambleton, Clauser, Ma- dísticos. Así, la decisión de si el FD detec-
zor y Jones (1993) han encontrado que si tado es o no sesgo, dependerá del objetivo
las distribuciones de habilidad son seme- para el que se utilicen las puntuaciones, y
jantes, las diferencias entre los resultados no simplemente, de que se conozcan o no
con las distintas estrategias de igualación las causas de la ejecución diferencial de
son mínimas. las personas. Además, abre nuevas pers-
La exclusión del item estudiado del cri- pectivas a la utilización de los procedi-
terio de igualación pretende que este sea mientos estadísticos para detectar FD. Por
lo más unidimensional posible. Hambleton ejemplo, para estudiar los cambios en el
et al. (1993) han encontrado efectos per- significado subyacente de lo que mide un
versos despreciables en tests suficiente- item cuando se comparan grupos de perso-
mente largos (a partir de 20 ítems), y cuan- nas con diferentes historias instrucciona-
do las distribuciones de habilidad son se- les. Este trabajo puede ser un ejemplo de
mejantes. esta posibilidad.

Referencias
Angoff, W. H. (1993). Perspectives on differen- tion of differential functioning test ítems. Eu-
tial item functioning methodology. En P.W. ropean Journal of Psychological Assessment.
Holland y H. Wainer (Eds.), Differential item 9, 1-18.
functioning, (pp. 3-23). Hillsdale, New Jer- Hattie, J., Krakowski, K., Rogers, H. J. y Swa-
sey: Lawrence Erlbaum Associates, Publis- minathan, H. (1996). An assessment of
hers. Stout’s index of essential unidimensionality.
Angoff, W. H., y Ford, S. F. (1973). Item-race in- Applied Psychological Measurement. 20, 1-
teraction on a test of scholastic aptitude. Jour- 14.
nal of Educational Measurement. 10, 95-106. Holland, P. W. y Thayer, D. T. (1988). Differen-
Camilli, G. (1992). A conceptual analysis of dif- tial item performance and the Mantel-Haens-
ferential item functioning in terms of a multi- zel procedure. En H. Wainer y H. Braun
dimensional item response model. Journal of (Eds.), Test validity, (pp. 129-145). Hillsdale,
Educational Measurement, 16, 129-147. New Jersey: Lawrence Erlbaum Associates,
Camilli, G. y Shepard, L. (1994). Methods for Publishers.
identifiying biased test item. Thousand Oaks. Kok, F. G., Mellenbergh, G. J. y van der Flier, H.
CA: Sage Publications, Inc. (1985). Detecting experimentally induced
Crocker, L. y Algina, J. (1986). Introduction to item bias using the iterative logit method.
clasical and modern test theory. Rinehart and Journal of Educational Measurement. 22,
Winston, New York. 295-303.
Cuesta, M. (1993). Utilización de modelos logís- Linn, R. L. y Harnish, D. L. (1981). Interaction
ticos unidimensionales con datos multidimen- between item content and group menbership
sionales. Tesis doctoral no publicada, Univer- on achievement test ítems. Journal of educa-
sidad de Oviedo. Oviedo. España. tional measurement. 18, 109-118.
Donoghue, J. R. y Allen, N. L. (1993). Thin ver- Magnusson, D. (1968). Teoría de los tests. Tri-
sus thick matching in the Mantel-Haenszel llas. Mexico.
procedure for detecting DIF. Journal of Edu- Merrill, M. D., Tennyson, R. D. y Posey, L. O.
cational Statistics. 18, 131-154. (1992). Teaching concepts: An instructional
Dorans, N. J. y Holland, P. W. (1993). DIF de- design guide. Englewood Cliffs, New Jersey:
tection and description: Mantel-Haenszel and Educational Technology Publications, Inc.
standardization. En P. W. Holland y H. Wai- Miller, M. D. y Linn, R. L. (1988). Invariance of
ner (Eds.), Differential item functioning, (pp. item characteristic functions with variations
35-66). Hillsdale, New Jersey: Lawrence Erl- in instructional coverage. Journal of Educa-
baum Associates, Publishers. tional Measurement. 25, 205-219.
Fidalgo, A. M. (1996). Funcionamiento diferen- Muthén, B. O. (1989). Using item-specific ins-
cial de los ítems. En J. Muñiz (cord). Psico- tructional information in achievement mode-
metría. (pp. 371-457). Madrid: Editorial Uni- ling. Psychometrika. 135-396.
versitas, S.A. Nandakumar, R. (1993). Assessing essential uni-
Gagné, R. M. (1987). Instructional Technology: dimensionality of real data. Applied Psycho-
Foundation. Hillsdale, New Jersey: Lawrence logical Measurement. 17, 29-38.
Erlbaum Associates, Publishers. Nandakumar, R. (1994). Assessing dimensiona-
Gagné, R. M. y Glaser, R. (1987). Foundations in lity of a set of item responses. Comparasion
learning research. En R. M. Gagné (Ed.) Ins- of different approaches. Journal of Educatio-
tructional Technology: Foundation. (pp. 49- nal Measurement. 31, 17-35.
84). Hillsdale, New Jersey: Lawrence Erl- O’Neill, K. A. y McPeek, W. M. (1993). Item
baum Associates, Publishers. and test characteristics that are associated
Gagné, R. M., Briggs, L. J. y Wager, W. W. with differential item functioning. En P.W.
(1988). Principles of instructional design. Holland y H. Wainer (Eds.), Differential item
(3ed). New York: Holt, Rinehart y Winston. functioning. (pp. 255-277). Hillsdale, New
Hambleton, R. K., Clauser, B. E., Mazor, K. M. Jersey: Lawrence Erlbaum Associates, Pu-
y Jones, R. W. (1993). Advances in the detec- blishers.

Oshima, T. C. y Miller, M. D. (1992). Multidi- the SAT. Jounal of Educational Measurement.

mensionality and item bias in item response 27, 67-81.
theory. Applied Psychological Measurement. Schmitt, A. P., Holland, P. W. y Dorans, N. J.
16, 237-248. (1993). Evaluating hypotheses about diffe-
Osterlind, S. J. (1989). Constructing test ítems. rential item functioning. En P.W. Holland
Norwell. Massachusetts: Kluwer Academic y H. Wainer (Eds), Differential item func-
Publishers. tioning. (pp. 281-313). Hillsdale, New Jer-
Raju, N.S., Bode, R.K. y Larsen, V.S. (1989). An sey: Lawrence Erlbaum Assocites, Publis-
empirical assesment of the Mantel-Haenszel hers.
statistic for studying differential item perfor- Skagg, G. y Lissitz, R. W. (1992). The consis-
mance. Applied Psychological Measurement. tency of detecting item bias across different
2, 1-13. test administrations: implications of another
Scheuneman, J. D. (1982). A posteriori analyses failure. Journal of Educational Measurement.
of biased ítems. En R.A. Berk (Ed.), Handbo- 29, 227-242.
ok of methods for detecting test bias. (pp. 64- Stout, W. F. (1987). A nonparametric approach
96). Baltimore. Maryland: The Johns Hop- for assessing latent trait unidimensionality.
kins University Press. Psychometrika. 52, 589-617.
Scheuneman, J. D. (1987). An experimental, ex- Stout, W. F. (1990). A new item response theory
ploratory study of causes of bias in test ítems. modeling approach with applications to uni-
Journal of Educational Measurement. 24, 97- dimensionality assessment and ability esti-
118. mation. Psychometrika. 55, 293-325.
Scheuneman, J. D. y Gerriz, K. (1990). Using Tatsuoka, K. K., Linn, R. L., Tatsuoka, M. M. y
differential ítems functioning procedures to Yamamoto, K. (1988). Differential item func-
explore sources of ítems difficulty and group tioning resulting from the use of different so-
performance characteristics. Journal of Edu- lution strategies. Journal of Educational Me-
cational Measurement. 27, 109-131. asurement. 25, 301-319.
Schmitt, A.P. y Dorans, N.J. (1990). Differential
item functioning for minority examinees on Aceptado el 29 de octubre de 1997

Jose Luis-Laesplicacion Del Sesgo

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Jose Luis-Laesplicacion Del Sesgo

Încărcat de

Drepturi de autor:

Formate disponibile

Psicothema, 1998. Vol. 10, nº 2, pp.

LA EXPLICACIÓN DEL SESGO EN LOS ÍTEMS

La identificación de los factores responsables del sesgo en los items no ha alcan-

The influence of instructional experience on achievement item bias. Identification

482 Psicothema, 1998

dimiento puede proceder de la multidimen- modelo mental utiliza diagramas, ejemplos

Psicothema, 1998 483

Grupo de Adquirir 5 diagramas Resultados

484 Psicothema, 1998

Psicothema, 1998 485

486 Psicothema, 1998

Nº del MH-CHI2 p-valor DELTA-MH Error Valoración

Psicothema, 1998 487

488 Psicothema, 1998

Psicothema, 1998 489

Oshima, T. C. y Miller, M. D. (1992). Multidi- the SAT. Jounal of Educational Measurement.

490 Psicothema, 1998

S-ar putea să vă placă și