Documente Academic
Documente Profesional
Documente Cultură
INFORMATIZADOS
Julio Olea
Vicente Ponsoda
Presentacin
Cuando elaboramos la presente monografa lo hacemos con el
objetivo bsico de que nuestros alumnos (los presenciales y,
fundamentalmente, los no presenciales) del curso Tests Adaptativos
Informatizados, del programa de doctorado interuniversitario de
Metodologa de las Ciencias del Comportamiento, dispongan de
forma ordenada de los contenidos bsicos para un buen
aprovechamiento del mismo. Dada la gran variedad de formacin en
Psicometra que tienen nuestros alumnos, hemos optado por incluir
una breve introduccin a la TRI para quienes no hayan tenido la
oportunidad de estudiarla en su licenciatura. Pueden ampliarse los
conocimientos sobre estos modelos TRI en los textos en castellano de
Lpez Pina (1995), Martnez Arias (1995, caps. 10 y 11), Muiz
(1997), Santisteban (1990, caps. 10 a 14) y, en esta misma coleccin
de monografas, en Santisteban y Alvarado (2001, caps. 4 y 5). En
cuanto a los objetivos que nos marcamos, no vamos a limitarnos a
mostrar el funcionamiento bsico de este tipo de pruebas, sino que
pretendemos entrar en la descripcin de los principales desafos con
que se enfrenta en la actualidad la investigacin terica y aplicada
sobre el tema. Es nuestro inters acercar al estudiante los diferentes
mtodos de investigacin que se aplican para resolver los problemas,
para lo cual describiremos determinados trabajos de investigacin,
entre los cuales se encuentran algunos de los desarrollados por un
equipo al que pertenecen de forma estable Pedro Hontangas, de la
universidad de Valencia, Steve Wise, de la James Madison university
(USA) y Paco Abad, Javier Revuelta, Carmen Ximnez y nosotros
mismos, en la universidad Autnoma de Madrid.
Resulta un tanto paradjico transmitir en papel la complejidad de
procedimientos implicados en estas pruebas, que por definicin se
aplican en soporte informtico. Los alumnos tendrn la oportunidad
durante el curso de comprobar cmo se responde a este tipo de tests
en un ordenador, la informacin que proporcionan, diversas variantes
en los algoritmos y algunas de sus ventajas e inconvenientes.
Madrid, Noviembre de 2002
Los autores
ndice
1. INTRODUCCIN CONCEPTUAL E HISTRICA
1.1. Elementos bsicos y beneficios previsibles..................... 5
1.2. Orgenes, desarrollo y aplicaciones.................................. 9
2. CONCEPTOS BSICOS DE LA TEORA DE LA
RESPUESTA AL TEM
2.1. Ventajas de la teora de la respuesta al tem.................... 13
2.2. Algunos modelos de la teora de la respuesta al tem...... 15
2.3. El supuesto de unidimensionalidad.................................. 19
2.4. Estimacin del nivel de rasgo.......................................... 21
2.5. Precisin de las estimaciones........................................... 26
3. DISEO DEL BANCO DE TEMS
3.1. Componentes de un banco de tems................................. 31
3.2. Elaboracin de tems........................................................ 31
3.3. Calibracin....................................................................... 34
3.4. Propiedades psicomtricas............................................... 41
3.5. Mantenimiento y renovacin del banco de tems............. 45
4. ALGORITMOS ADAPTATIVOS
4.1. Proceso de aplicacin de un TAI.................................... 47
4.2. Procedimientos de arranque............................................ 48
4.3. Mtodos de estimacin del nivel de rasgo...................... 51
TESTS ADAPTATIVOS INFORMATIZADOS
4
4.4. Algoritmos para la seleccin de tems............................. 54
4.5. Procedimientos de parada................................................ 61
4.6. Requerimientos informticos........................................... 63
5. PROPIEDADES PSICOMTRICAS DEL TAI
5.1. Precisin........................................................................... 67
5.2. Validez............................................................................. 69
6. INVESTIGACIN ACTUAL EN TESTS ADAPTATIVOS
INFORMATIZADOS
(en colaboracin con P. Hontangas, F. J. Abad y J. Revuelta)
6.1. Presentacin..................................................................... 73
6.2. Precisin y sesgo de las estimaciones.............................. 75
6.3. Alternativas a la informacin de Fisher........................... 79
6.4. Restricciones en la seleccin de tems............................. 82
6.5. Control de la exposicin................................................... 85
6.6. Generacin automtica de tems...................................... 87
6.7. Nuevos modelos............................................................... 94
6.8. Condiciones de aplicacin............................................... 107
6.9. Otros objetivos de investigacin...................................... 114
7. REFERENCIAS BIBLIOGRFICAS.................................... 125
Captulo 1
Introduccin conceptual e histrica
1.1.- Elementos bsicos y beneficios previsibles
Un Test Adaptativo Informatizado (TAI) es una prueba,
construida para fines de evaluacin psicolgica o educativa, cuyos
tems se presentan y responden mediante un ordenador, siendo su
caracterstica fundamental que se va adaptando al nivel de
competencia progresivo que va manifestando la persona. Tal
denominacin, hoy generalmente empleada en los trabajos publicados
en castellano y propuesta por primera vez en Olea y Ponsoda (1996),
es la traduccin de la expresin inglesa Computerized Adaptive
Test (CAT).
Los elementos bsicos de un TAI son: a) un banco de tems con
propiedades psicomtricas conocidas, es decir, con parmetros
estimados desde un modelo de la Teora de la Respuesta al tem
(TRI) determinado, b) un procedimiento que establezca la manera de
comenzar y finalizar la prueba, as como la forma de seleccionar
progresivamente los mejores tems, y c) un mtodo estadstico de
estimacin de los niveles de rasgo. Aunque ya desde Binet se han
intentando procedimientos de evaluacin adaptativos mediante tests
psicolgicos (sus tests de inteligencia tenan formas diferentes segn
el nivel educativo de los nios), en las ltimas dcadas, y dada la
confluencia entre los avances psicomtricos realizados desde la TRI y
los avances tcnicos en el campo de la informtica, se han
desarrollado instrumentos informatizados para presentar nicamente
TESTS ADAPTATIVOS INFORMATIZADOS
6
los tems que resultan altamente informativos para estimar el nivel de
cada sujeto en un determinado rasgo. Entre otros factores, el nivel de
informacin depende de que los tems seleccionados para un
evaluando tengan una dificultad apropiada para su nivel de rasgo. En
este sentido, en un test convencional de longitud fija se presentan
todos los tems que lo integran (y en la misma secuencia) a todos los
individuos. Para una persona en concreto, los tems que le resulten
muy fciles o muy difciles pueden contribuir poco a determinar de
forma precisa su nivel; de hecho, los tests fijos requieren tems de
dificultad heterognea y tienen algunas caractersticas mejorables:
requieren mayor tiempo para la aplicacin y pueden incrementar en
los evaluandos su sensacin de aburrimiento (si se le presentan
muchos tems que le resultan fciles) o de fracaso (cuando un nmero
elevado de tems resultan excesivamente difciles para su nivel). Sin
embargo, desde la conocida propiedad de invarianza de la TRI, en un
TAI ser posible estimar los niveles de rasgo de personas diferentes
en la misma escala aunque hayan respondido a tems diferentes
(fciles, los evaluandos de bajo nivel; difciles, los de alto nivel de
rasgo).
En principio, cualquier test informatizado tiene ya determinadas
ventajas de indudable valor aplicado (Olea y Hontangas, 1999):
permiten homogeneizar las condiciones de aplicacin, establecer
controles para preservar la seguridad de la prueba, registrar
informacin que puede ser til para la evaluacin (por ejemplo, los
tiempos de respuesta a los tems), conseguir un rpido procesamiento
de los datos, minimizar errores de correccin, proporcionar feedback
inmediato a los evaluandos, evaluar procesos psicolgicos bsicos u
otro tipo de destrezas o competencias que exigen la presentacin de la
informacin de forma dinmica, etc.
Parshall, Davey y Pashley (2000) han denominado como tipos
innovadores de tems a los que se benefician del soporte informtico
en varios aspectos relacionados con su construccin (uso de sonido,
grficos, animacin o vdeo) o con el procedimiento de respuesta (por
ejemplo, marcar en figuras o grficos, seleccionar partes de un texto,
mover objetos, reordenar estmulos, escribir el resultado de un
problema, responder mediante micrfono...). Los TAIs, dada su
CAPTULO 1. INTRODUCCIN CONCEPTUAL E HISTRICA
7
condicin adaptativa, tienen al menos tres importantes ventajas
adicionales:
a) Mejoran la seguridad del test, ya que gran parte de los tems
que se presentan a los evaluandos son diferentes. Esta es una
preocupacin fundamental de los responsables de la
evaluacin en contextos aplicados ya que, incluso cuando se
decide aplicar tests convencionales, uno de los mayores
obstculos a la validez de los tests es que los evaluandos
puedan conocer de antemano los tems que se le van a
administrar. Como veremos, esto no significa que los TAIs
resuelvan el problema de la copia o transmisin de los tems
(suele ocurrir que un escaso porcentaje de tems se aplican a
muchos evaluandos), pero el problema es menor que en los
tests convencionales de lpiz y papel o en los tests
informatizados fijos; de hecho, cualquier algoritmo
adaptativo desarrollado recientemente incorpora
procedimientos para preservar la integridad del banco de
tems en que se fundamenta el TAI.
b) Reducen el tiempo de aplicacin (a veces a menos de la
mitad), ya que consiguen niveles similares de precisin que
los tests convencionales con un nmero menor de tems. Para
las empresas responsables de la aplicacin, el tiempo se
asocia inexorablemente a los costes de la evaluacin. Para los
evaluandos, que adems suelen manifestar una actitud
positiva hacia los tests informatizados en general y hacia los
TAIs en particular, este tipo de pruebas tienen la ventaja de
permitir conocer sus puntuaciones en varios rasgos o
conocimientos en una nica sesin de evaluacin, que
eventualmente podra incluso realizarse mediante Internet.
c) Permiten adems, con el mismo nmero de tems que un test
convencional, realizar estimaciones ms precisas. Bajo
condiciones similares a las de un test convencional (en
tiempo requerido y nmero de tems aplicados) un TAI
permite mayores garantas (menor error de medida) respecto
TESTS ADAPTATIVOS INFORMATIZADOS
8
a los niveles que se estiman y, por tanto, respecto a las
decisiones que se toman a partir de las puntuaciones en los
tests. Si el banco tiene un tamao suficiente de tems con
elevado poder discriminante para los diferentes niveles de
rasgo, un TAI puede resultar enormemente eficaz para medir
los niveles extremos de rasgo, algo difcil de conseguir en la
aplicacin de tests convencionales, informatizados o no.
Estos tres aspectos resultan muy importantes cuando se realizan
aplicaciones masivas de tests de rendimiento o de conocimientos, por
ejemplo en contextos de seleccin de personal, de evaluacin
educativa o en pruebas de certificacin profesional o licenciatura. De
hecho, algunos de los TAIs que ms se aplican (por ejemplo el CAT-
ASVAB, el CAT-GRE o algunos tests de certificacin) tuvieron sus
ancestros en versiones de lpiz y papel o en versiones informatizadas
convencionales, que requeran ms tiempo de aplicacin (por tanto
mayor incomodidad para los evaluandos y, bajo ciertas
circunstancias, mayores costes) adems de mayor riesgo de difusin
para futuras aplicaciones a las mismas o a distintas personas. De
cualquier forma, resultara equvoco creer que los tests adaptativos
representan la piedra filosofal de la evaluacin mediante tests
psicomtricos. Lo han reflejado muy bien algunos autores (Wainer,
2000b, Wainer y Eignor, 2000) al reflexionar sobre los resultados de
la masiva aplicacin de los TAIs que se ha producido en la ltima
dcada y al analizar bajo qu circunstancias u objetivos de
evaluacin resultan autnticamente tiles; para estos autores, tiene
sentido su uso: a) cuando la naturaleza del constructo sea tal que la
administracin informatizada ayude a su evaluacin, b) cuando el
test ha de ofrecerse de forma continua y no slo una o pocas veces al
ao, y c) cuando las personas que hacen el test , y por supuesto los
responsables de la aplicacin, tienen inters en obtener el nivel de
rasgo correcto (por ejemplo, cuando la puntuacin estimada va a
servir para recomendar o no un determinado programa de
instruccin, o en situaciones donde los evaluandos no tienen inters
en obtener una puntuacin ms alta o baja que les d ms
posibilidades de ser seleccionado a un puesto de trabajo,..). Algunos
inconvenientes, como por ejemplo la necesidad de calibrar bancos en
CAPTULO 1. INTRODUCCIN CONCEPTUAL E HISTRICA
9
muestras muy numerosas, la escasa informacin diagnstica que
proporcionan o determinados impactos negativos que pueden tener en
los evaluandos, podran incluso hacerlos inviables en la prctica.
Tampoco los TAIs pueden considerarse como algo nico e
invariable. Existen modos bastante diferentes de aplicar de forma
adaptativa un banco de tems, pueden utilizarse modelos de TRI
diferentes para estudiar sus propiedades y, como veremos, tienen
todava que dar respuesta a diversos interrogantes o problemas, tanto
tcnicos como aplicados, que se intentan responder desde diferentes
lneas de investigacin.
1.2.- Orgenes, desarrollo y aplicaciones
Las primeras experiencias sobre aplicacin adaptativa de tems
las desarrollaron Binet y Simon (1905), quienes construyeron tests de
inteligencia diferentes segn la edad o el nivel educativo de los
estudiantes.
Sin embargo, al plantear los orgenes de los TAIs resulta
obligado citar la obra de Lord y Novick (1968), fundamentalmente
los captulos de Birnbaum en este libro, donde se establecen las bases
de la TRI y los fundamentos estadsticos para ordenar a diversos
evaluandos en la misma escala de medida aunque hayan respondido
tems distintos.
La idea original de los TAIs fundamentados en la TRI es de Lord
(1970), y se ha desarrollado durante los aos 80 en el marco de un
convenio de la Universidad de Minnesota (dirigido por D. Weiss) con
el ejrcito estadounidense para elaborar versiones adaptativas del
Armed Services Vocational Aptitude Battery (ASVAB). La necesidad
aplicada del ejrcito era realizar estimaciones precisas de los niveles
aptitudinales de muestras muy numerosas y heterogneas de
candidatos. Durante una dcada se estudiaron las previsibles ventajas
de una versin adaptativa de este test, aplicado anualmente a ms de
500.000 personas, antes de utilizarla realmente como prueba de
seleccin. A mediados de los 80 se aplic la primera versin
adaptativa del ASVAB.
TESTS ADAPTATIVOS INFORMATIZADOS
10
Durante las dcadas de los 70 y 80 se propusieron diferentes
procedimientos o estrategias adaptativas de seleccin de tems (una
descripcin ms detallada puede verse en Renom, 1993), algunas de
las cuales se idearon para la presentacin de los tems en formato de
papel y lpiz, dado que en esos aos los ordenadores difcilmente
podan realizar con la rapidez necesaria los clculos matemticos
requeridos por la TRI:
a) Lord (1971c) propuso la estrategia de dos etapas, segn la
cual todos los evaluandos responden a un primer test de
escasa longitud (test rutina). Despus de estimar sus niveles
de rasgo, se aplica a cada sujeto uno de k tests de ubicacin,
homogneo en dificultad y apropiado para el nivel estimado
en el test rutina.
b) Tambin Lord (1971a,b) propuso la estrategia de nivel
flexible, apropiada para la administracin de bancos de escasa
longitud. Se divide el banco de tems en dos mitades segn
su dificultad: la primera con los tems ms fciles y la
segunda con los ms difciles; se comienza con el tem de
dificultad media; si se acierta se pasa al siguiente ms difcil
y si se falla se presenta el siguiente ms fcil (entre los que no
se han presentado todava de esa mitad); la prueba se termina
cuando se responde a la mitad del banco.
c) Weiss (1974) describe varias estrategias alternativas de
ramificacin fija o estructura de rbol, que tienen en comn
el establecimiento previo de una ordenacin de los tems a
modo de pirmide segn su dificultad; la eleccin de un tem
depende de la respuesta al tem previo, pero las posibles
secuencias de tems a presentar estn prefijadas de antemano.
d) Lord (1980) describe una estrategia de ramificacin variable,
segn la cual se estima un nivel provisional de rasgo despus
de responder a un nmero determinado de tems y se elige el
tem ms informativo para dicho nivel; este procedimiento de
seleccin se denominar como mtodo de mxima
CAPTULO 1. INTRODUCCIN CONCEPTUAL E HISTRICA
11
informacin. Owen (1975) haba propuesto previamente
procedimientos bayesianos de seleccin progresiva de tems.
En paralelo a los desarrollos psicomtricos comienzan a
ensayarse los primeros TAIs en contextos aplicados para la
evaluacin de conocimientos de diversas oposiciones (Urry, 1977),
exmenes escolares (Cusick, 1989; Kingsbury, 1990), aptitudes
intelectuales (Lord, 1977; McBride, 1988; Schoonman, 1989) o
dominio del ingls (Abernathy, 1986).
Actualmente existen versiones adaptativas de tests
convencionales, por ejemplo, del Test of English as a Foreign
Language (TOEFL), del Graduate Management Admissions Tests
(GMAT), o del Graduate Record Exam (GRE), de diversos tests de
aptitudes intelectuales (como el Differential Aptitude Tests), y de
mltiples tests desarrollados tanto en Estados Unidos como en Europa
para evaluar los conocimientos y aptitudes en contextos de seleccin
de personal (por ejemplo, el CAT-ASVAB en su versin actual o
algunos subtests de la batera MICROPAT para la seleccin de
pilotos y controladores areos), en pruebas de admisin a centros
educativos (es el caso del Law School Admission Test), para la
evaluacin educativa de nios y jvenes (por ejemplo el COMPASS
placement tests, el NWEA o el sistema CARAT), para la evaluacin
de conocimientos matemticos de personas adultas (la prueba
holandesa MATHCAT) o en exmenes de licenciatura o certificacin
(por ejemplo los que se realizan en Estados Unidos para las
profesiones de enfermera y medicina). Wainer (2000b) plantea el
crecimiento exponencial de la aplicacin de los TAIs, que l estima
en ms de un milln de pruebas aplicadas en el ao 1999 slo en
USA.
Captulo 2
Conceptos bsicos de la
Teora de la respuesta al tem
2.1.- Ventajas de la teora de la respuesta al tem
Hace ya unos 40 aos desde que se publicaron los primeros
bosquejos de una nueva teora de los tests, denominada como Teora
de la Respuesta al tem (TRI) o modelos de rasgo latente, en parte
para superar algunos de los inconvenientes de la ms tradicional
Teora Clsica de los Tests (TCT). Como es conocido, la TCT se
sustenta en un supuesto fundamental (X=V+E), segn el cual la
puntuacin emprica de una persona en un test es igual a la suma de
su puntuacin verdadera y el error. Se asume que los errores en un
test son aleatorios (con media cero) en la poblacin de referencia, que
correlacionan cero con las puntuaciones verdaderas y con los errores
de otros tests. A partir de estos supuestos, y otros adicionales sobre el
concepto de formas paralelas, se deducen teoremas que posibilitan la
obtencin de medidas empricas de fiabilidad (coeficiente de
fiabilidad, error tpico de medida) y validez (coeficiente de validez,
error tpico de estimacin) de los tests, as como indicadores
estadsticos de las propiedades psicomtricas de los tems (v.g.
dificultad, discriminacin,..).
Algunas de las limitaciones de la TCT, que por otra parte
intentarn superar los diferentes modelos propuestos desde la TRI,
son las siguientes:
TESTS ADAPTATIVOS INFORMATIZADOS
14
a) En primer lugar, resulta difcil contrastar empricamente el
cumplimiento de los supuestos en que se fundamenta.
b) Es evidente que las propiedades psicomtricas de los tems
(por ejemplo, los ndices de dificultad y de discriminacin) y
del test en su conjunto (coeficientes de fiabilidad y de
validez) dependen de las caractersticas de la muestra donde
se obtienen (su nivel medio, su variabilidad) y de la propia
longitud del test.
c) Resulta difcil comparar el rendimiento de dos personas en
dos tests diferentes que no son paralelos (por ejemplo, si
tienen tems de diferente dificultad).
d) La TCT asume que la precisin con la que se estima el nivel
de rasgo de cualquier persona en un test es la misma.
Como cuestiones generales, desde la TRI se van a plantear los
siguientes objetivos fundamentales:
a) Establecer modelos estadsticos cuyo ajuste a los datos se
puede contrastar.
b) Realizar estimaciones invariantes de las propiedades
psicomtricas de los tems (independientes del nivel de rasgo
de las personas) y de los niveles de rasgo de las personas
(independientes de las propiedades psicomtricas de los
tems). Por ejemplo, algo que resultar esencial en los TAIs,
las estimaciones estadsticas del nivel de rasgo de dos
personas podrn compararse, aunque se les haya aplicado
distintos tems (otra cosa ser la precisin obtenida en cada
caso).
c) Obtener medidas individuales de precisin para cada persona
evaluada.
CAPTULO 2. CONCEPTOS BSICOS DE LA TRI
15
2.2.- Algunos modelos de teora de la respuesta al
tem
Cualquier modelo de TRI establece una relacin matemtica
entre la probabilidad de emitir una determinada respuesta a un tem
(v.g. dar con la respuesta correcta o elegir una de k categoras de
respuesta) y otras caractersticas del sujeto (v.g. su nivel en uno o ms
rasgos) y del tem (v.g. su dificultad o su discriminacin). Cuando se
asume y se comprueba que el rendimiento en un tem depende de un
nico rasgo latente se habla de modelos unidimensionales; cuando el
rendimiento en un tem depende de dos o ms rasgos se habla de
modelos multidimensionales. Por otra parte, si el modo de
cuantificacin de las respuestas es dicotmico, normalmente el que
corresponde a tems de rendimiento ptimo donde se producen
aciertos y errores, se formulan modelos dicotmicos; si se consideran
ms de dos categoras de respuesta (v.g. en tems de escalas de
actitudes o de tests de personalidad) se establecen modelos
politmicos. En las siguientes pginas describiremos
fundamentalmente algunos modelos unidimensionales dicotmicos,
aunque en apartados posteriores avanzaremos las caractersticas de
ciertos modelos multidimensionales y politmicos que representan la
base psicomtrica de ciertos TAIs particulares que actualmente estn
siendo sometidos a prueba.
Comencemos por uno de los modelos ms sencillos, que es un
modelo dicotmico unidimensional, denominado modelo logstico de
1 parmetro (1P) o modelo de Rasch:
) (
) (
1
) (
j
j
b D
b D
e
e
P
En este modelo P() es la probabilidad de acertar el tem j
cuando la persona tiene un nivel de rasgo . Este parmetro
normalmente asume valores entre 4 y +4. b
j
es el parmetro de
dificultad del tem (normalmente asume valores entre 4 y +4, pues
se mide en la misma escala que ), D es un valor constante (si D=1 se
TESTS ADAPTATIVOS INFORMATIZADOS
16
habla de escala logstica; si D=1.7, de escala normal), y e es la base
de los logaritmos naturales (e=2.718).
Con el modelo 1P se est asumiendo en realidad que el
rendimiento en un tem depende nicamente del nivel de rasgo del
sujeto y de la dificultad del tem. Grficamente, el funcionamiento de
cualquier tem descrito por un modelo dicotmico unidimensional
puede representarse mediante la curva caracterstica del tem (CCI),
que pone en relacin los niveles con sus correspondientes P().
Figura 1. Curvas caractersticas de dos items para modelo 1P
Vase por ejemplo la figura 1, en ella se han representado las
curvas caractersticas de dos tems segn 1P: el tem 1 con una
dificultad de 0 (curva ms a la derecha), y el tem 2 que tiene un
parmetro de dificultad igual a 2. La dificultad de un tem indica
por tanto el grado en que su CCI est desplazada hacia la izquierda
(tendencia a la facilidad) o a la derecha (tendencia a la dificultad).
Para un tem en concreto, basta con sustituir en la expresin del
4,00
3,50
3,00
2,50
2,00
1,50
1,00
,50
,00
-,50
-1,00
-1,50
-2,00
-2,50
-3,00
-3,50
-4,00
P()
1,0
,8
,6
,4
,2
0,0
tem 1
tem 2
CAPTULO 2. CONCEPTOS BSICOS DE LA TRI
17
modelo 1P los correspondientes valores y su parmetro b para
obtener los correspondientes valores P().
Si se analizan con detalle la expresin de P() y la figura
anterior, pueden comprobarse tres propiedades importantes de este
modelo:
a) Cuando el nivel de rasgo coincide con la dificultad del tem,
la probabilidad de acertarlo es igual a 0.5. Dicho de otro
modo, la dificultad de un tem es el valor tal que P()=0.5.
b) Si el nivel es extremadamente bajo, la probabilidad de
acierto se aproxima a cero. En la expresin de P() se puede
ver que cuando el nivel tiende a -, el valor P() tiende a 0.
Es decir, este modelo considera que no se producen aciertos
por azar.
c) La pendiente que tiene la CCI en b es la misma para cualquier
tem. Como veremos a continuacin, tal pendiente tiene que
ver con la discriminacin del tem. Este modelo considera
que todos los tems tienen la misma discriminacin.
El modelo logstico de 2 parmetros (2P) incorpora a la funcin
logstica un parmetro de discriminacin del tem (a
j
). Su expresin
matemtica es:
) (
) (
1
) (
j j
j j
b Da
b Da
e
e
P
donde a
j
es proporcional a la pendiente de la CCI en el valor = b
j
.
Este parmetro de discriminacin, que suele oscilar entre 0 y 3,
indica el grado en que el tem discrimina entre los niveles
superiores e inferiores a la dificultad del tem. Si la CCI tiene poca
pendiente en b
j
(a
j
cercano a 0), el tem resulta poco discriminativo;
si su pendiente es elevada, el tem sirve para diferenciar los niveles de
rasgo por encima y por debajo de su dificultad.
TESTS ADAPTATIVOS INFORMATIZADOS
18
En la figura 2 se representan las CCI de dos tems segn el
modelo 2P. Ambos tienen la misma dificultad (b=0) pero diferente
discriminacin (a
1
=2, a
2
= 1).
Podemos observar que el punto de interseccin entre las dos CCI
indica precisamente que ambos tienen la misma dificultad, dado que
en este caso coincide en los dos tems que =0 para P() = 0.5.
Figura 2. Curvas caractersticas de dos items para modelo 2P
Adems, puede verse tambin que la pendiente de ambos tems
en b no es la misma. El tem 1 discrimina mejor que el 2 entre los
sujetos que tienen un nivel de rasgo cercano a =0. Como ocurra en
el modelo 1P, este modelo no considera tampoco la probabilidad de
acierto aleatorio. Podemos comprobar tambin que, si en el modelo
2P se sustituye el parmetro a por el valor 1, el modelo resultante es
el 1P.
El modelo logstico de 3 parmetros (3P) aade al anterior un
nuevo parmetro (c
j
), denominado como parmetro de pseudoazar
(puede oscilar aproximadamente entre 0 y 0.5), que es la asntota
inferior de la CCI y representa la probabilidad que tienen de acertar el
4,00
3,50
3,00
2,50
2,00
1,50
1,00
,50
,00
-,50
-1,00
-1,50
-2,00
-2,50
-3,00
-3,50
-4,00
P()
1,0
,8
,6
,4
,2
0,0
tem1
tem2
CAPTULO 2. CONCEPTOS BSICOS DE LA TRI
19
tem personas con nivel extremadamente bajo (lmite de P()
cuando tiende a -). Su expresin matemtica es:
) (
) (
1
) 1 ( ) (
j j
j j
b Da
b Da
j j
e
e
c c P
+
+
En la figura 3 se representan dos tems con igual dificultad,
idntica discriminacin pero diferente parmetro de pseudoazar.
Mientras que para el tem 1 c
1
=0.5, el parmetro de pseudoazar del
tem 2 es c
2
=0.1. Si supiramos, por ejemplo, que ambos tems tienen
diferente nmero de opciones de respuesta, seguramente el tem 2
tendra mayor nmero de opciones que el tem 1, ya que resulta
menos probable de acertar teniendo un nivel de rasgo muy bajo.
Figura 3. Curvas caractersticas de dos items para modelo 3P
4,00
3,50
3,00
2,50
2,00
1,50
1,00
,50
,00
-,50
-1,00
-1,50
-2,00
-2,50
-3,00
-3,50
-4,00
P()
1,0
,8
,6
,4
,2
0,0
tem 1
tem 2
TESTS ADAPTATIVOS INFORMATIZADOS
20
Algunas propiedades de este modelo son:
a) Cuando c
j
=0, el modelo resultante es el 2P.
b) El valor de c
j
suele asumir valores alrededor de 1/k, siendo k
el nmero de opciones de respuesta del tem.
c) A diferencia de los modelos 1P y 2P, en el modelo 3P, P(b
j
)=
(1+c
j
)/2. De ah que las CCI representadas en la figura 3 no
sean en principio muy ilustrativas para comprobar
visualmente la equivalencia en dificultad y discriminacin de
los dos tems.
2.3.- El supuesto de unidimensionalidad
Los tres modelos expuestos son modelos unidimensionales,
dado que suponen que el rendimiento en un tem depende del nivel
que tienen las personas en un nico rasgo . El grado de
unidimensionalidad de un test o de un banco de tems puede evaluarse
mediante tcnicas de anlisis factorial exploratorio aplicadas a la
matriz de correlaciones entre los tems (Lord y Novick, 1968). Una
vez extrada la matriz factorial sin rotar, se estudia el porcentaje de
varianza explicado por el primer factor. Algunos autores (Reckase,
1979) plantean que se cumplen los mnimos de unidimensionalidad
cuando este primer factor explica ms del 20% de la varianza total.
Conviene considerar que siempre puede ganarse en
unidimensionalidad si despus del primer anlisis se eliminan los
tems con cargas factoriales bajas en el primer factor sin rotar
(Lumsden, 1976). Otro aspecto importante es el tipo de correlacin
ms adecuada para el tipo de datos que pretendemos estudiar
(variables dicotmicas). Cuando se utiliza la correlacin de Pearson,
el primer factor sin rotar correlaciona significativamente con la
proporcin de aciertos en los tems, lo cul se interpreta como un
factor espurio de dificultad. Aunque tampoco est exento de
problemas, parece ms adecuado un procedimiento (Lord, 1980) que
consiste en aplicar el anlisis factorial sobre la matriz de
correlaciones tetracricas, propuestas para el anlisis de variables
dicotomizadas bajo el supuesto de distribucin normal en las
CAPTULO 2. CONCEPTOS BSICOS DE LA TRI
21
variables continuas subyacentes. McDonald (1999) justifica y
recomienda el uso de modelos no lineales de anlisis factorial.
Existen muchos otros mtodos para comprobar el grado de
unidimensionalidad de las respuestas de una muestra a un test, varios
de los cuales se exponen en Cuesta (1996).
2.4.- Estimacin del nivel de rasgo
La primera vez que se aplica un test a una muestra debemos
estimar los parmetros de los tems, proceso que se denomina
calibracin, y tambin los parmetros de los sujetos. Una vez que el
test est calibrado, el problema estadstico se reduce a estimar los
niveles de rasgo de los sujetos. Por motivos didcticos, vamos a
suponer en principio que estamos ante esta segunda situacin. Vamos
a suponer adems que un test est formado por 2 nicos tems (los
que hemos utilizado en la figura 1 para explicar el modelo 1P) con
parmetros b
1
=0 y b
2
=-2. Supongamos que una persona acierta el
primero y falla el segundo. Cul es el nivel que ms
probablemente le correspondera a esta persona? Para responder a
esta pregunta podemos obtener lo verosmil que resulta el patrn de
respuestas dado para cada nivel posible (tomando en principio 17
valores distintos en un rango desde 4 a +4). Como ha acertado el
primer tem y ha fallado el segundo, para cada obtenemos el valor
L=P
1
(1-P
2
), siendo P
1
y P
2
las correspondientes probabilidades de
acierto obtenidas mediante el modelo 1P. Grficamente, los
resultados L para cada valor seran los que se representan en la
figura 4.
Podemos observar en la grfica que el nivel de rasgo que hace
ms probable el patrn de respuestas observado es = -1, ya que el
valor mximo de L corresponde a dicho nivel de rasgo.
TESTS ADAPTATIVOS INFORMATIZADOS
22
Figura 4. Estimacin de L para cada nivel de rasgo
El procedimiento que hemos seguido se denomina estimacin de
mxima verosimilitud condicionada, dado que consiste en buscar el
valor asociado al mximo valor de la funcin de verosimilitud,
tomados los parmetros de los tems como conocidos. Obsrvese que
se asume que, dado un nivel de rasgo concreto, la probabilidad de
emitir un patrn de respuestas determinado es igual al producto de las
probabilidades de emitir cada respuesta individualmente, lo que se
conoce como supuesto de independencia local, muy relacionado con
el de unidimensionalidad. Para Santisteban y Alvarado (2001) ambos
supuestos resultan equivalentes para datos estrictamente
unifactoriales.
En general, la funcin de verosimilitud se obtiene a partir de la
expresin:
4,00
3,50
3,00
2,50
2,00
1,50
1,00
,50
,00
-,50
-1,00
-1,50
-2,00
-2,50
-3,00
-3,50
-4,00
L
,08
,06
,04
,02
0,00
j j
u
j
u
j
n
j
Q P u L
1
1
) | (
CAPTULO 2. CONCEPTOS BSICOS DE LA TRI
23
donde u es el vector de respuestas (aciertos, 1, y fallos, 0) a los tems,
P
j
es la probabilidad de acertar el tem j (u
j
=1) dado un nivel de rasgo
, y Q
j
es la probabilidad de fallarlo. Lo que significa que, dado un
determinado patrn de respuestas a los tems que forman el test, el
valor L asociado a un nivel de rasgo se obtiene multiplicando las
correspondientes probabilidades de acierto y error obtenidas mediante
el modelo de TRI en uso.
Veamos otro ejemplo. Supongamos que una persona responde a
un test de 5 tems, con los siguientes parmetros de dificultad: b
1
=-2,
b
2
=-1, b
3
=0, b
4
=1 b
5
=2. Supongamos que la persona acierta los tres
primeros tems y falla los dos ltimos. Cul ser el nivel para el
que la funcin L alcanza el mximo valor? Fijando 17 valores
posibles y aplicando el modelo de Rasch, obtenemos los datos
sealados en la tabla 1.
Tabla 1. Ejemplo de clculo de L para cada nivel de rasgo
P
1
P
2
P
3
P
4
P
5
L=P
1
P
2
P
3
Q
4
Q
5
-4,00 0,12 0,05 0,02 0,01 0,00 0,00
-3,50 0,18 0,08 0,03 0,01 0,00 0,00
-3,00 0,27 0,12 0,05 0,02 0,01 0,00
-2,50 0,38 0,18 0,08 0,03 0,01 0,01
-2,00 0,50 0,27 0,12 0,05 0,02 0,01
-1,50 0,62 0,38 0,18 0,08 0,03 0,04
-1,00 0,73 0,50 0,27 0,12 0,05 0,08
-0,50 0,82 0,62 0,38 0,18 0,08 0,15
0,00 0,88 0,73 0,50 0,27 0,12 0,21
0,50 0,92 0,82 0,62 0,38 0,18 0,24
1,00 0,95 0,88 0,73 0,50 0,27 0,22
1,50 0,97 0,92 0,82 0,62 0,38 0,17
2,00 0,98 0,95 0,88 0,73 0,50 0,11
2,50 0,99 0,97 0,92 0,82 0,62 0,06
3,00 0,99 0,98 0,95 0,88 0,73 0,03
3,50 1,00 0,99 0,97 0,92 0,82 0,01
4,00 1,00 0,99 0,98 0,95 0,88 0,01
TESTS ADAPTATIVOS INFORMATIZADOS
24
Por tanto, de los 17 niveles de rasgo considerados, la estimacin
mximo verosmil coincide con el valor =0.5. En la ltima columna
de la tabla 1 podemos observar que tambin existen otros niveles de
rasgo adyacentes que resultan bastante probables, pero esto es otra
cuestin que trataremos posteriormente al hablar de la precisin
asociada a una estimacin concreta.
El problema de estimacin es mucho ms complejo en
situaciones reales. En primer lugar, es necesario trabajar con
tamaos muestrales N muy altos (normalmente por encima de 500
sujetos), y no slo con un sujeto como en los ejemplos anteriores. En
segundo lugar, la primera vez que se aplica el test necesitamos
estimar los parmetros de los sujetos y los parmetros de los n tems
que forman el test, es decir, tenemos que realizar una estimacin
conjunta. En tercer lugar, el problema de la estimacin y los
requerimientos muestrales son mayores cuantos ms parmetros
tenemos que estimar para los tems. En cuarto lugar, los niveles de
rasgo considerados deben ser, desde luego, ms de los 17 establecidos
en nuestro ejemplo. A la vista de lo anterior, se comprende que la
estimacin mximo verosmil requiere la obtencin de los valores de
los parmetros de las personas () y de los tems (a, b, y c, si
aplicamos el modelo 3P) que hacen mxima la funcin de
verosimilitud L. La solucin a este problema est bien resuelto:
consiste en encontrar las soluciones del sistema de ecuaciones que se
obtiene al igualar a cero la derivada de L respecto a cada parmetro.
El sistema no tiene solucin analtica y se recurre a procedimientos
numricos para encontrar sus soluciones (ver Baker, 1992;
Hambleton y Swaminathan, 1985;). Por razones de simplicidad
matemtica, se suele maximizar LnL en vez de L, pues es ms fcil
de operar con LnL y se encuentran las mismas soluciones en uno y
otro caso. Por lo tanto, si tenemos N personas y n tems, la expresin
a maximizar sera la siguiente:
[ ]
+
N
i
n
j
ij ij ij ij
Q u P u L
1 1
ln ) 1 ( ln ln
CAPTULO 2. CONCEPTOS BSICOS DE LA TRI
25
Una explicacin detallada y en castellano del procedimiento
aproximacin numrica (de Newton-Raphson) se encuentra en Lpez
Pina (1995, apartado 5.2.3) y en Santisteban y Alvarado (2001,
apartado 2.3 del captulo de estimacin).
El mtodo de estimacin de mxima verosimilitud tiene una
caracterstica que dificulta su uso para estimar progresivamente el
nivel de rasgo de una persona a la que se aplica un TAI: no permite
obtener estimaciones finitas de mientras un sujeto tiene un patrn
constante de respuestas (todo aciertos o todo errores). En el modelo
1P, si una persona responde a n tems, cuyos parmetros suponemos
conocidos, el estimador mximo verosmil de su nivel de rasgo es el
valor de obtenido al igualar a cero la expresin:
Se puede comprobar que a) si slo ha habido aciertos (es decir u
ij
= 1, i: 1, 2, .. n), cuanto mayor es , ms se acerca P al valor de 1 y
por lo tanto ms cerca estamos de la solucin de la ecuacin. b) Si
slo ha habido errores, ocurre lo mismo cuanto ms pequeo sea .
Dicho de otro modo, cuando una persona obtiene un patrn constante
de respuestas no puede obtenerse un mximo en la funcin de
verosimilitud.
Una manera de resolver este problema es utilizar un
procedimiento de estimacin bayesiano, que permitir obtener
estimaciones finitas an con patrones constantes de respuesta. La idea
fundamental es incorporar a la funcin de verosimilitud informacin
sobre la distribucin a priori del rasgo en la poblacin. As, este tipo
de procedimientos establecen que el estimador de ser la moda
(estimacin bayesiana MAP) o la media (estimacin bayesiana EAP)
de la distribucin de probabilidad posterior de , P(|u), cuya
expresin es:
) ( / ) ( ln
1
ij ij
n
i
j
P u D u L
ij ij
n
i
P u D
CAPTULO 2. CONCEPTOS BSICOS DE LA TRI
27
2.5.- Precisin de las estimaciones
Una de las propiedades de la estimacin de mxima
verosimilitud es que, asintticamente (es decir, con un nmero
razonablemente grande de tems), la distribucin del estimador de
es normal, con media y varianza igual a:
donde Pes la derivada del correspondiente modelo. La raz cuadrada
de la expresin anterior ser el error tpico de medida (Se). El
denominador de la expresin se denomina informacin del test o
informacin de Fisher, y suele simbolizarse como I(). Dicho de otro
modo, la informacin de un test para un valor de rasgo concreto es el
inverso de la varianza del estimador para ese nivel. Puede observarse
que la informacin del test es el resultado de sumar las informaciones
de los n tems que lo integran. De la misma forma, la relacin entre el
error tpico de medida y la informacin puede expresarse como:
El valor de I() para cada uno de los modelos logsticos se
obtiene de la siguiente forma:
1) Para el modelo 1P:
n
i
i i
i
Q P
P
1
2
2
) |
(
1
) (
1
I
S
e
i i
Q P D I
2
) (
TESTS ADAPTATIVOS INFORMATIZADOS
28
2) Para el Modelo 2P:
3) Para el modelo 3P:
A partir de las expresiones anteriores puede verse que la
informacin de un test, y por tanto el error tpico de medida, para un
determinado nivel de rasgo, depende fundamentalmente: a) de los
parmetros de discriminacin de los tems (cuanto mayores sean los
parmetros a, mayor ser el valor de la informacin), b) de los
parmetros de pseudoazar (cuanto ms bajos sean los valores de c,
mayor ser la informacin), c) del nmero de tems que tenga
(suponiendo que los tems tienen las propiedades psicomtricas
usuales, a mayor longitud, mayor informacin), y d) de la
convergencia entre el nivel de rasgo y los parmetros de dificultad b
de los tems (cuanto ms prximos sean, mayor ser el producto PQ,
y por tanto ms elevada ser la informacin). Esto tiene una capital
importancia para conseguir los objetivos que se pretenden con la
aplicacin de los TAIs: a pesar de aplicar pocos tems, particularidad
que en principio dificultara la obtencin de una adecuada precisin
en la medida, conseguiremos buenos niveles de precisin si
presentamos a una persona los tems ms apropiados para su nivel de
rasgo, es decir, aquellos tems discriminativos y de dificultad
apropiada para su nivel.
En la figura 5 se representan las funciones de informacin de los
5 tems y del test completo que sirvieron como ejemplo (tabla 1,
apartado 2.3) para describir el clculo de la funcin de verosimilitud,
siguiendo el modelo 1P.
i i
Q P a D I
2 2
) (
2
2 2
2
) 1 (
) (
) (
c P
c P Q a
D I
i
i i
CAPTULO 2. CONCEPTOS BSICOS DE LA TRI
29
Figura 5. Funciones de Informacin de los tem y del test
A partir de la grfica concluimos que el test resulta ms
informativo para valores centrales de rasgo que para niveles
extremos. Resulta curioso que, a pesar de que el test dispone de 5
tems heterogneos en dificultad (lo cul podra hacernos pensar que
resultara igualmente informativo para los diferentes niveles de
rasgo), los niveles ms elevados de precisin se obtienen para un
rango de valores centrales de rasgo, lo cul resulta bastante habitual
en la mayora de los tests o bancos de tems de rendimiento ptimo.
Adems, dado que se aplica el modelo 1P, podemos comprobar que el
mayor nivel de informacin de un tem coincide con los valores que
se aproximan a su dificultad.
En el caso de la estimacin bayesiana MAP, la varianza del
estimador es de nuevo asintticamente el inverso de la funcin de
informacin (Mislevy y Bock, 1990), que en este caso queda como :
4,00
3,50
3,00
2,50
2,00
1,50
1,00
,50
,00
-,50
-1,00
-1,50
-2,00
-2,50
-3,00
-3,50
-4,00
I()
1,0
,8
,6
,4
,2
0,0
ITEST
I1
I2
I3
I4
I5
TESTS ADAPTATIVOS INFORMATIZADOS
30
con lo que puede observarse que la informacin para un mismo nivel
de rasgo es mayor en este mtodo bayesiano que en el mtodo de
mxima verosimilitud (tanto mayor cuanto menor sea la dispersin de
la distribucin a priori de ).
) (
1
) (
2
I J +
Captulo 3
Diseo del banco de tems
3.1.- Componentes de un banco de tems
Un banco de tems se puede considerar como una base de datos
sobre los tems que est formada por una parte sustantiva (enunciado,
opcin correcta, opciones incorrectas), cierta informacin
psicomtrica (parmetros estimados de los tems desde los desarrollos
de la TCT o de la TRI) y cualquier otra que pueda ser relevante (v.g.
contenido que mide cada tem, tasas de exposicin en aplicaciones
precedentes, distribucin de respuestas en los distractores, etc.).
Ningn algoritmo adaptativo resolver los problemas de
representacin, tamao o calidad psicomtrica que pueda tener un
banco de tems. Por tanto, todas las orientaciones que se establecen
para elaborar un buen banco (ver, por ejemplo, Barbero, 1999) son de
general aplicacin al caso en que el banco de tems sea la base
sustantiva fundamental de un TAI.
3.2.-Elaboracin de tems
a) Formato, n de opciones y especificaciones de contenido.
Como en cualquier test, los tems del banco pueden incluir
informacin verbal o grfica, que puede ser presentada de forma
TESTS ADAPTATIVOS INFORMATIZADOS
32
esttica o dinmica mediante medios tcnicos diversos (la propia
pantalla, sistemas audio o vdeo, etc.).
Cuando se pretende medir el rendimiento mximo (v.g.
conocimientos o rasgos intelectuales), lo ms usual es utilizar un
formato de respuesta de eleccin mltiple, aunque se estn probando
sistemas adaptativos para tems de respuesta construida, como pueden
ser los que se desarrollan para evaluar el nivel de conocimientos en
matemticas o en programacin informtica. Algunos trabajos que
estudian el nmero ptimo de opciones que deben tener los tems
(Abad, Olea y Ponsoda, 2001) concluyen que tanto los indicadores
psicomtricos clsicos como los derivados de la TRI se mantienen en
niveles aceptables cuando se elaboran 3 buenas opciones de
respuesta. Cuando el objetivo es la medicin del rendimiento tpico
(v.g. rasgos de personalidad o actitudes) se establece un formato de
respuesta de categoras ordenadas.
De cualquier forma, en uno u otro formato, todas las
consideraciones tcnicas sobre la construccin de tems deben tenerse
en consideracin en la elaboracin del banco (ver, por ejemplo,
Prieto y Delgado, 1996). Entre otras muchas cosas, y
fundamentalmente cuando se quiere realizar una determinada
clasificacin de los sujetos a partir de sus puntuaciones en el TAI
(aprobado-suspenso, apto-no apto, admitido-excluido, etc.), resulta
importante el asesoramiento por parte de los especialistas en el
contenido que pretende medir la prueba. Por ejemplo, en pases donde
se aplican TAIs de conocimientos para objetivos de licenciatura, de
acceso a determinado tipo de estudios o de certificacin, suele
formarse un comit tcnico, formado por miembros de la asociacin
profesional, especialistas en el campo de inters y expertos en
Psicometra, que se encargan de establecer los objetivos del test, los
criterios de rendimiento mnimo que definen el punto de corte, as
como de realizar la construccin inicial y la revisin tcnica del
banco de tems. Estos especialistas son tambin los que indican a los
psicmetras qu mnimos de contenidos (v.g. cierto nmero de tems
para cada una de las categoras diferentes especificadas) deben estar
incluidos en todas las aplicaciones del TAI, de cara a preservar la
validez de contenido de las estimaciones que se realicen.
CAPTULO 3. DISEO DEL BANCO DE TEMS
33
Para preservar el supuesto de independencia local, conviene que
se cuide especialmente la redaccin de tems, de modo que un tem no
proporcione pistas para responder correctamente otro tem. En el caso
de que varios tems tengan evidentes relaciones sustantivas entre s,
conviene establecer ciertas restricciones en el algoritmo de seleccin
para que no se presenten simultneamente a un mismo sujeto.
b) Tamao del banco
El nmero de tems que deben elaborarse tiene mucho que ver
con otras consideraciones prcticas como, por ejemplo, con la
cantidad de restricciones que se establecen en el algoritmo de
seleccin de tems, con el nmero previsible de aplicaciones del TAI
en un futuro inmediato o con el propsito de disear bancos de tems
diferentes que se vayan rotando en las sucesivas aplicaciones.
Renom (1993) revisa varios trabajos donde se plantea el nmero
de tems que debe tener un banco que se va a emplear en un TAI.
Algunos autores recomiendan un mnimo de 100 tems, aunque lo
normal es que tenga ms de 500. Otros aconsejan que el banco tenga
10 veces ms tems que los que se van a emplear como promedio en
la aplicacin del TAI. Muchos de los TAIs operativos disponen de
bancos con ms de 1000 tems (Wise y Kingsbury, 2000). El CAT-
ASVAB, quizs el buque insignia de los TAIs, comenz con la
redaccin de unos 4000 tems (450 para cada una de las 9 reas de
contenido que incluye). El sistema CARAT (Computerized Adaptive
Reporting and Testing), empleado en Portland para evaluar 5 reas
diferentes de conocimientos en educacin primaria y secundaria,
dispone de un banco total de conocimientos matemticos de 6.500
tems calibrados, de los que se van construyendo bancos parciales
para diferentes niveles educativos (varios para cada nivel) que se van
usando de forma rotatoria por razones de seguridad.
Cuando se establecen diferentes categoras de contenido,
conviene que en cada una haya un nmero parecido de tems (o en su
caso un nmero proporcional a las restricciones establecidas en el
algoritmo de seleccin) ya que, de lo contrario, los tems que
pertenecen a las categoras menos numerosas pueden sobrexponerse
en las sucesivas aplicaciones del TAI. Adicionalmente al tamao
TESTS ADAPTATIVOS INFORMATIZADOS
34
requerido, algunos autores (Bergstrom y Lunz, 1999) aconsejan que
la distribucin de la dificultad de los tems sea similar a la del rasgo
de la poblacin de examinados.
3.3.- Calibracin
Uno de los requerimientos que resultan ms costosos en un TAI
tiene que ver con la necesaria calibracin del banco de tems a partir
de los desarrollos de un modelo concreto de la TRI. Algunos estudios
empricos (Hetter, Segall y Bloxon, 1994) concluyen que la
calibracin realizada a partir de la aplicacin en lpiz y papel
proporciona resultados comparables a la que se obtiene en
aplicaciones informatizadas de los mismos tems. Desde un punto de
vista operativo, este dato resulta importante dado que la aplicacin
informatizada siempre resulta ms costosa a todos los niveles.
Para el proceso de calibracin debe decidirse el tamao mnimo
muestral recomendable, el modelo TRI ms apropiado y si se va a
establecer un determinado diseo de anclaje y equiparacin. Como en
cualquier otro test, deben comprobarse tambin el grado de ajuste de
los tems al modelo TRI seleccionado y otras propiedades
psicomtricas adicionales.
a) Tamao muestral
El tamao de la muestra que se requiere para la calibracin tiene
que ver fundamentalmente con el nmero de tems que tiene el banco
(o cada uno de lo bloques de tems que se establezcan) y con el
modelo de TRI que se va a aplicar (los modelos con ms parmetros
requieren tamaos muestrales mayores). Una de las ventajas del
modelo de Rasch es que exige un tamao muestral sensiblemente
inferior a otros modelos (con 200 sujetos puede ser suficiente).
Renom y Doval (1999) comentan que suele aceptarse como mnimo
un tamao muestral de 500 personas por cada bloque de tems en que
se divida el banco en el diseo de anclaje (vase el subapartado
siguiente). Un tamao insuficiente puede dar lugar a estimaciones de
los parmetros de los tems con alto nivel de imprecisin. En el caso
CAPTULO 3. DISEO DEL BANCO DE TEMS
35
de los TAIs, por ejemplo, la sobrestimacin de los parmetros de
discriminacin de ciertos tems puede dar lugar a medidas
sobrestimadas de precisin. De todas formas, siempre pueden
plantearse estudios de simulacin para determinar los niveles de error
y sesgo en la estimacin de los parmetros que se obtienen con un
banco concreto y ciertas condiciones muestrales particulares (tamao,
distribucin del nivel de rasgo, etc.).
A veces, las condiciones reales llevan, por ejemplo, a calibrar
mediante el modelo 3P un banco de 164 tems de razonamiento
matemtico en una muestra de 200 sujetos (Zickar, Overton, Taylor y
Harms, 1999), ya que el TAI correspondiente se aplicaba con
objetivos de seleccin de programadores informticos en una empresa
de servicios financieros. Dada la escasez del tamao muestral, estos
autores procedieron mediante simulacin a calibrar el banco bajo dos
condiciones muestrales distintas (200 y 1000 sujetos simulados),
comprobando que bajo ambas condiciones los niveles de precisin y
sesgo que proporcionaba el TAI resultaban comparables.
Por poner otro ejemplo, los estudios de calibracin del banco de
tems del CAT-ASVAB, aplicando los desarrollos del modelo 3P, se
realizaron a partir de las respuestas de 1500 sujetos por tem.
b) Diseo de anclaje y equiparacin de parmetros
El elevado nmero de tems que contienen los bancos hace
muchas veces inviable su aplicacin completa a los mismos sujetos
para realizar la calibracin. Una solucin posible a este problema
sera aplicar subconjuntos diferentes de tems a muestras distintas de
sujetos, y proceder por separado a la calibracin de esos tests. Ahora
bien, si no se ha fijado la escala de medida para los niveles de rasgo
(su origen y su unidad de medida) los parmetros que se estimen para
los tems no estarn expresados en la misma escala de medida. Para
resolver este inconveniente, suele establecerse un diseo de anclaje
cuya versin ms comn consiste en dividir el banco en diversos
tests diferentes que tienen un conjunto de tems en comn
(denominado como test de anclaje). Los diferentes tests sern
aplicados a muestras diferentes de sujetos. Por ejemplo, si el banco
est formado por 100 tems pueden elaborarse 2 tests (X, aplicado en
TESTS ADAPTATIVOS INFORMATIZADOS
36
la muestra 1, e Y, aplicado en la muestra 2) de 60 tems, cada uno
con 40 tems diferentes y 20 que son comunes a ambos (test de
anclaje -V-). Se trata de que el test de anclaje sea representativo del
banco completo (v.g. en cuanto a dificultad prevista o en relacin a
los subdominios que representan) y que suponga alrededor del 20%
del nmero de tems que tienen los diferentes tests a equiparar (vase
Navas, 1996).
Dado que los tems que componen el test de anclaje V se han
aplicado a muestras diferentes, el proceso de equiparacin de
parmetros de los tems ms extendido consiste en seguir el
procedimiento siguiente:
a) Por tratarse de los mismos tems, las estimaciones de
dificultad de los tems de V habrn de estar relacionadas
linealmente. Por tanto, podremos expresar la dificultad de un
tem en un grupo en funcin de la dificultad que ha
correspondido a ese mismo tem en el otro grupo, mediante la
ecuacin:
1 2
kb d b +
donde b
1
y b
2
son las estimaciones de los parmetros de
dificultad de los tems que forman el test de anclaje V
obtenidas en el grupo 1 y 2, respectivamente.
A partir de las dificultades de los tems de V en los dos
grupos se obtienen las constantes k y d. Una posibilidad es
tomar como valores de k y d los coeficientes de la ecuacin
de regresin lineal que mejor predice las dificultades en el
grupo 2 partir de las del grupo 1. Otra posibilidad (Muiz,
1997, pag. 154 y ss) es aplicar las siguientes expresiones:
) 1 (
) 2 (
b
b
S
S
k
siendo el numerador la desviacin tpica de los parmetros de
dificultad de los tems que forman V en el test Y (aplicado al
grupo 2), y el denominador la correspondiente en el test X
(aplicado al grupo 1).
2 1
b b k d +
CAPTULO 3. DISEO DEL BANCO DE TEMS
37
donde b
1
y b
2
son, respectivamente, las medias de los
parmetros de dificultad de los tems de anclaje obtenidas en
los tests X e Y.
b) Una vez transformadas las estimaciones de dificultad de los
tems de anclaje del grupo 1 a la mtrica del grupo 2,
mediante la misma ecuacin pueden transformarse las
estimaciones de dificultad del resto de tems (en nuestro
ejemplo, 40) aplicados al grupo 1, a la mtrica establecida
como definitiva.
c) Si se han aplicado el modelo 2P o el modelo 3P, la
transformacin para las estimaciones de los parmetros de
discriminacin es:
k
a
a
1
2
Los parmetros de pseudoazar no necesitan transformacin.
Aunque nuestro ejemplo se limita a establecer nicamente dos
bloques de tems, en situaciones operativas con bancos muy grandes
(por ejemplo en el caso del banco inicial que soporta el CAT-
ASVAB) se establecen hasta ms de 40 bloques distintos de tems
con tests de anclaje encadenados. El banco de matemticas del
sistema CARAT se dividi en 134 bloques.
Por otra parte, cuando un TAI tiene versiones iniciales en lpiz y
papel, suelen establecerse diseos de anclaje para equiparar sus
estimaciones de rasgo; es decir, para expresar las estimaciones del
TAI en la misma escala en que se expresaban las estimaciones en el
test convencional. En el caso del CAT-ASVAB, por ejemplo, se us
el mtodo de equipercentiles basado en las puntuaciones directas, que
era la escala del test de lpiz y papel de partida.
TESTS ADAPTATIVOS INFORMATIZADOS
38
c) Modelo de TRI
Aparentemente, el modelo 3P siempre sera preferible, en la
medida que es el que permite mayor flexibilidad para dar cuenta de
los datos empricos. Sin embargo, esto no siempre resulta as de claro
porque, entre otras cosas, la cantidad de parmetros que se tienen que
estimar en este modelo (3*N de tems) requiere tamaos muestrales
mucho ms grandes que, por ejemplo, el modelo 1P. De hecho,
bastantes de los TAIs operativos que ms se usan (v.g. el CAT-GRE
o pruebas adaptativas para la certificacin de la profesin de
especialistas mdicos) se fundamentan en bancos de tems calibrados
mediante el modelo de Rasch. El sistema MATHCAT emplea el
modelo logstico de dos parmetros, ya que dispone de un
procedimiento de respuesta construida (teclear una solucin
numrica) donde es mnima la probabilidad de acierto aleatorio.
Una vez aplicado el banco, algunos estudios preliminares
pueden ayudarnos a decidir sobre el modelo de TRI ms apropiado.
Por ejemplo, obteniendo las tasas de acierto de los sujetos con bajo
nivel de rasgo en los tems ms difciles podemos tener informacin
sobre el grado en que se han producido aciertos por azar (lo cul
podra aconsejar la aplicacin del modelo 3P). Estudiando la
variabilidad de los ndices clsicos de discriminacin de los tems,
relacionados con sus parmetros a
j
, podemos obtener una
informacin inicial sobre la viabilidad del modelo 1P. Suele ser
frecuente en estas fases iniciales de anlisis de tems obtener los
indicadores psicomtricos clsicos y, por ejemplo, eliminar los que
obtienen correlaciones biseriales bajas con las puntuaciones directas
en el total de la prueba. De cualquier forma, existen indicadores
estadsticos de bondad de ajuste que pueden aplicarse para tomar la
decisin sobre los tems a eliminar y sobre el modelo a elegir.
d) Ajuste al modelo
Como ya dijimos, una de las principales ventajas de la TRI en
relacin a la TCT es que puede contrastarse el grado de ajuste de los
modelos a los datos empricos. En este sentido, las principales
comprobaciones que deben hacerse con el banco de tems elaborado
CAPTULO 3. DISEO DEL BANCO DE TEMS
39
inicialmente tienen que ver con: a) el grado de cumplimiento del
supuesto de unidimensionalidad, b) el grado de invarianza de los
parmetros (de los sujetos y de los tems) estimados, y c) el grado en
que el modelo predice los resultados empricos observados.
Respecto al tema de la unidimensionalidad, Wise y Kingsbury
(2000) recuerdan muy apropiadamente que un banco no tiene una
dimensionalidad determinada, sino que esta es una cualidad de las
respuestas emitidas por las muestras de sujetos que lo responden, y
por tanto puede variar de una muestra a otra. Por tanto, el grado de
unidimensionalidad de un banco debe analizarse cuando se disea por
primera vez, cuando se aplica a muestras diferentes de la inicial y,
desde luego, cuando se aaden nuevos tems. En el apartado 2.2
hemos visto algunos de los procedimientos ms utilizados para
evaluar el grado de unidimensionalidad.
En cuanto a la invarianza de los parmetros, pueden realizarse
dos comprobaciones distintas:
a) En relacin a la invarianza de las estimaciones de , podemos
obtener la correlacin entre los niveles de rasgo que se
estiman para toda la muestra de sujetos con dos submuestras
distintas de tems (v.g. los fciles en el primer subtest y los
difciles en el segundo). La correlacin entre ambas
estimaciones debera ser prxima a 1.
b) En cuanto a la invarianza de las estimaciones de los
parmetros de los tems, puede procederse a la calibracin
del banco en dos submuestras distintas (v.g. una formada por
los sujetos de menos nivel y la otra por los sujetos con ms
elevadas estimaciones de rasgo). Si aplicamos el modelo 1P,
la correlacin entre los valores bj estimados en ambas
submuestras debera ser prxima a 1.
En realidad, la invarianza de los parmetros es una propiedad
derivada de un buen ajuste del modelo. Se han propuesto indicadores
estadsticos de bondad de ajuste para comprobar el grado en que cada
tem individualmente o el banco de tems al completo se ajustan a un
modelo determinado. Uno de los procedimientos ms comunes
(Bock, 1972; descrito en Muiz, 1997, pp. 73 y ss) consiste en
TESTS ADAPTATIVOS INFORMATIZADOS
40
comparar las CCI empricas y tericas, siguiendo el siguiente
procedimiento:
a) Dividir el continuo de rasgo en k intervalos o categoras
diferentes.
b) Obtener la probabilidad terica P(
j
) asociada al punto medio
del intervalo que predice el modelo correspondiente.
c) Obtener la proporcin emprica de aciertos - P
e
(
j
)- de cada
una de las categoras.
d) A partir de los datos anteriores, calcular el valor que asume el
estadstico:
con distribucin Chi-cuadrado con k-s grados de libertad,
siendo s el nmero de parmetros del tem segn el
correspondiente modelo TRI. Los valores de Q superiores a
los valores crticos tabulares correspondientes indicarn un
desajuste estadstico entre el modelo y los datos empricos en
el tem. Si sumamos los n valores Q de un banco de tems,
obtendramos un indicador global de ajuste con distribucin
Chi-cuadrado con[(n-1)(k-s)] grados de libertad.
e) Software
Quizs el programa para la estimacin de parmetros ms
empleado en la actualidad sea la versin para Windows de BILOG
(Mislevy y Bock, 1990) que emplea el mtodo de mxima
verosimilitud marginal y los mtodos bayesianos EAP y MAP para
estimar los parmetros de los 3 modelos logsticos. ASCAL y
RASCAL (Assesment Systems Corporation, 1994) permiten realizar,
respectivamente, una estimacin pseudobayesiana segn los modelos
2P y 3P (ASCAL) y 1P (RASCAL), de tal forma que combina una
estimacin de mxima verosimilitud conjunta con el procedimiento
[ ]
[ ]
2
1
) ( 1 ) (
) ( ) (
k
j
j j
j e j j
P P
P P n
Q
CAPTULO 3. DISEO DEL BANCO DE TEMS
41
bayesiano MAP para la estimacin de los niveles de rasgo, asumiendo
su distribucin normal en la poblacin. MULTILOG (Thissen, 1991)
y PARSCALE (Muraki y Bock, 1996) realizan las estimaciones de
los tres modelos logsticos y las de la mayora de los modelos
politmicos; el primero permite la aplicacin de modelos politmicos
nominales y ordinales, y realiza una estimacin mximo verosmil
marginal para los parmetros de los tems y permite la estimacin
bayesiana para los parmetros de rasgo; el segundo realiza una
estimacin de mxima verosimilitud marginal para los parmetros de
los tems con formato de respuesta ordenada. Existen programas
especficos de estimacin para el modelo de Rasch (v.g. WINSTEPS,
FACETS,...) que proporcionan informacin ms detallada sobre las
propiedades de los parmetros estimados.
3.4.- Propiedades psicomtricas
Hemos indicado que, en principio, cuanto mayor sea el nmero
de tems que incluye el banco mayor eficiencia tendremos en la
aplicacin del TAI. Si el rango de los niveles de rasgo de la muestra
es amplio, conviene disponer de un banco cuyos tems sean
heterogneos en sus parmetros de dificultad (idealmente, la
distribucin del nmero de tems para cada valor de dificultad debera
ser uniforme) y tengan parmetros de discriminacin elevados (con
un nmero muy elevado de tems para discriminaciones superiores a
1). Por el contrario, si los objetivos de la aplicacin son selectivos,
conviene que existan muchos tems de dificultad apropiada para el
nivel de rasgo donde se situar el punto de corte (no puede ocurrir,
por ejemplo, que existan pocos tems difciles si se va a admitir
aproximadamente al 2% de los candidatos que se presentan a un
proceso de seleccin). La representacin grfica de la funcin de
informacin ser ilustrativa de la precisin que tendr el banco para
diferentes niveles de rasgo. Si, como suele ocurrir, la distribucin de
los parmetros de dificultad no es uniforme (dado que se dispone de
pocos tems adecuados para los niveles extremos de rasgo), es muy
probable que las estimaciones de dichos niveles extremos se realicen
con ms imprecisin que la asociada a los niveles centrales.
TESTS ADAPTATIVOS INFORMATIZADOS
42
Una parte importante de la investigacin que hemos desarrollados
sobre tests adaptativos y autoadaptados ha tenido su base sustantiva en
un banco de tems de vocabulario ingls, cuyas propiedades se
describen en Olea, Ponsoda, Revuelta y Belch (1996). El banco inicial
estaba formado por 250 tems, cada uno de los cuales consta de la
correspondiente palabra inglesa junto a 5 alternativas de respuesta,
entre las que se encuentra su traduccin correcta al castellano. Se
intent incluir palabras inglesas usualmente conocidas para diversos
niveles de dominio del idioma y de categoras gramaticales variadas.
El banco se aplic inicialmente, mediante soporte informtico y de
forma aleatoria, a una muestra de 425 personas
1
de diferentes niveles
educativos (desde estudiantes de educacin secundaria hasta doctores).
Cada persona debe seleccionar mediante el teclado la alternativa que
considera como correcta y confirmar su respuesta mediante la barra
espaciadora. A partir de las respuestas de esta muestra se obtuvo para
cada tem, mediante los programas ITEMAN y ASCAL (Assessment
Systems Corporation, 1994): a) su ndice de discriminacin (correlacin
biserial tem-test), b) sus parmetros de discriminacin (a), dificultad
(b) y pseuodoazar (c) segn el modelo 3P, y c) el grado de ajuste
(medida Chi-cuadrado) de los datos empricos al modelo. La
variabilidad de los ndices de discriminacin y la evidente posibilidad
de acierto aleatorio nos hizo elegir este modelo. Se eliminaron 29 tems
por no manifestar buenos indicadores (ndices de discriminacin bajos o
valores Chi-cuadrado muy elevados), con lo que el banco definitivo
qued constituido por 221 tems, cuyas propiedades psicomtricas
fundamentales se detallan en las figuras 6, 7 y 8:
1
Reconocemos la posibilidad de cierto grado de inestabilidad de los parmetros
estimados, debida a la ratio tan exigua entre sujetos e tems y al nmero elevado de
opciones de respuesta que stos tienen. El tamao muestral empleado en este trabajo no
debe ser tomado como ejemplo de las necesidades muestrales que exige el modelo 3P.
CAPTULO 3. DISEO DEL BANCO DE TEMS
43
Figura 6. Distribucin de parmetros de discriminacin
Figura 7. Distribucin de parmetros de dificultad
Figura 8. Informacin segn nivel de rasgo
Como puede observarse en la figura 6, la mayora de los tems
tienen parmetros de discriminacin aceptables (entre 0.8 y 1.5).
parmetro de discriminacin (a)
2.3 2 1.7 1.4 1.1 0.8 0.5 0.25
N
40
30
20
10
0
parmetro de dif icultad (b)
3.2 2.4 1.6 0.8 0 -0.8 -1.6 -2.4 -3.2
N
30
20
10
0
TESTS ADAPTATIVOS INFORMATIZADOS
44
Figura 8. Informacin segn nivel de rasgo
Respecto a los parmetros de dificultad (ver figura 7), la
distribucin de frecuencias resulta bastante uniforme, excepto para
los niveles de rasgo extremadamente altos. En la Figura 8 podemos
ver que la funcin de informacin no es simtrica respecto al nivel de
rasgo cero, con lo que el banco resulta ms informativo para los
niveles medios-altos que para los medios-bajos; podemos constatar
adems que resulta muy informativo para los niveles centrales de
rasgo (aproximadamente entre 2 y 2). En relacin al parmetro de
pseudoazar, la inmensa mayora de los tems obtuvieron un parmetro
estimado entre 0.18 y 0.25, lo cul resulta bastante coherente si
recordamos que el nmero de opciones de respuesta de cada tem era
5.
Para comprobar el grado de unidimensionalidad del banco, se
obtuvo la matriz de correlaciones tetracricas entre los 221 tems, con el
programa PRELIS de la versin para Windows de SPSS. El primer
autovalor de esta matriz represent el 25.0% de la varianza total, lo que
result sustancialmente ms elevado que la varianza explicada por el
segundo autovalor (5.7%).
En relacin a su validez como una medida del dominio del idioma
ingls, se realizaron algunas comprobaciones adicionales. En primer
niveles de rasgo
3.5 2.5 1.5 0.5 -0.5 -1.5 -2.5 -3.5
i
n
f
o
r
m
a
c
i
n
60
50
40
30
20
10
0
CAPTULO 3. DISEO DEL BANCO DE TEMS
45
lugar, en una muestra de 62 personas, las estimaciones de su nivel de
vocabulario realizadas mediante el modelo 3P se correlacionaron con 3
puntuaciones del Oxford Placement Test (Allan, 1992): con el subtest
de gramtica (r=0.69), con el de listening (0.55) y con la puntuacin
total (0.76). En segundo lugar, a partir de las respuestas de la muestra de
calibracin, se aplic un anlisis de varianza de un factor, donde la
variable independiente era el nivel educativo (1 , 2 , 3 y 4 de
secundaria, estudiantes universitarios y doctores) y la dependiente, las
estimaciones del nivel de vocabulario. Prcticamente todas las
comparaciones de medias resultaron significativas, lo que indica la
capacidad del banco para discriminar los niveles de vocabulario
obtenidos en los diferentes niveles acadmicos.
3.5.- Mantenimiento y renovacin del banco de
tems
Respecto al mantenimiento, los estudios sucesivos del banco
pueden llevarnos a eliminar tems con propiedades psicomtricas
inadecuadas (por ejemplo, tems desajustados al modelo de TRI
empleado, otros defectuosos en su redaccin o algunos escasamente
discriminativos). El estudio de las tasas de exposicin de los tems
(nmero de veces que se han presentado a diversos evaluandos)
puede hacer que los responsables de la aplicacin decidan posponer la
presentacin de tems que aparecen en un porcentaje elevado de las
aplicaciones del TAI.
De cara a la renovacin y ampliacin del banco, en los TAIs
operativos suelen incorporarse progresivamente nuevos tems, que no
se usan para estimar el nivel de rasgo de los evaluandos. La
estimacin de los parmetros de estos tems nuevos se realiza
mediante un procedimiento denominado como calibracin online,
considerando como parmetros de los sujetos las estimaciones
realizadas en el TAI con los tems antiguos y reduciendo as el
problema estadstico a la estimacin de los parmetros de los nuevos
tems. En el caso del CAT-ASVAB, los tems experimentales que se
incluyen en los TAIs operativos (uno slo en cada aplicacin) se
incorporan al inicio del test, cuando para un sujeto se aplican tems de
TESTS ADAPTATIVOS INFORMATIZADOS
46
diferente dificultad debido a que las estimaciones de rasgo no son
precisas en las primeras fases de la aplicacin, es decir, cuando se
realizan con pocos tems. Tambin mediante este procedimiento
pueden re-calibrarse los tems originales a medida que se dispone de
ms respuestas a los mismos; Glas (2000) propone varios
procedimientos para estudiar si los datos iniciales y los nuevos
pueden ser descritos mediante el mismo modelo de TRI, es decir, si
en ambos conjuntos de datos se mantienen los valores de los
parmetros estimados.
En el caso de TAIs que se aplican un nmero de veces muy
elevado, y por tanto con elevado riesgo de transmisin del contenido
de los tems de una aplicacin a otra, es posible establecer mltiples
bancos de tems que se van usando de forma rotatoria. As se hace,
por ejemplo, en el caso del CAT-GRE, que dispone de ms de 70
bancos diferentes de tems que se emplean de forma rotatoria en las
sucesivas aplicaciones.
Captulo 4
Algoritmos adaptativos
4.1.- Proceso de aplicacin de un TAI
En la actualidad la mayora de los TAIs siguen estrategias de
seleccin de tems denominadas como estrategias de ramificacin
variable, lo que significa que se realiza una estimacin del nivel de
rasgo tras la respuesta a cada uno de los tems, a partir de la cual se
seleccionar el siguiente tem a presentar.
Calibrado el banco de tems, la aplicacin de un TAI requiere un
algoritmo que incluya: a) un procedimiento para determinar el primer
tem a presentar, b) un mtodo estadstico para estimar despus de
cada respuesta un nivel de rasgo provisional y la precisin asociada a
dicha estimacin, c) un algoritmo para la seleccin sucesiva de tems,
y d) un criterio para finalizar la presentacin de tems. El ncleo
fundamental de un algoritmo adaptativo consiste en establecer la
estrategia de seleccin progresiva de tems que facilite una estimacin
precisa del nivel de rasgo con la presentacin de un nmero reducido de
tems para cada evaluando. El proceso de aplicacin de un TAI a un
evaluando puede resumirse en el diagrama de flujo que muestra la
figura 9.
La sesin se inicia con una determinada estrategia de arranque, que
consiste en establecer de alguna forma el nivel de rasgo inicial que se
asigna al evaluando y que determina, por tanto, cual ser el primer tem
a presentar. Despus de que el evaluando responde al primer tem, se
realiza, mediante procedimientos estadsticos bayesianos o mximo-
TESTS ADAPTATIVOS INFORMATIZADOS
48
verosmiles, una primera estimacin (por supuesto, muy imprecisa) de
su nivel de rasgo. Tambin se emplean procedimientos derivados de la
TRI para seleccionar el segundo tem a presentar al evaluando,
considerando que sea apropiado para el primer nivel de rasgo
provisional estimado. As pues, en cada paso del proceso, se procede a
la seleccin y presentacin sucesiva de tems, considerando el patrn de
respuestas (aciertos/fallos) que se dan a los tems precedentes para la
estimacin del nivel de rasgo provisional (y la precisin asociada a esta
estimacin) en ese momento de la aplicacin del TAI. Se requiere
adems algn criterio para dar por terminada la secuencia de
presentacin de tems, que normalmente tiene que ver con la
consecucin de cierto nivel de precisin o con el establecimiento de una
determinada longitud del TAI. Veamos con cierto detalle algunas de las
posibilidades a considerar para cada uno de estos componentes o
requerimientos.
4.2.- Procedimientos de arranque
Existen diversas formas de decidir cul ser el primer tem que
se presentar a un evaluando. La eleccin entre una u otra depender
fundamentalmente de si se dispone o no de informacin previa de los
evaluandos en aplicaciones previas de la prueba o en otro tipo de
variables relacionadas con el rasgo que mide el TAI (v.g. curso, edad
o nivel manifestado en otros tests). En el caso de que se disponga de
informacin previa en determinadas variables, pueden considerarse
como predictoras del nivel de rasgo que interesa y realizarse
estimaciones mediante regresin para decidir el primer nivel que
asignaremos a cada evaluando. Por ejemplo, Schoonman (1989)
utiliza la estimacin en el subtest Names de una batera adaptativa
de aptitudes intelectuales (GATB) para estimar el nivel inicial en los
otros tres subtests que componen la prueba (Computation, Words y
Arithmetic). En el sistema CARAT (Kingsbury y Houser, 1999), si no
se sabe nada del rendimiento previo del alumno, se eligen al azar los
primeros tems (entre los que tienen dificultad media para ese nivel
educativo) para evitar que se repita la secuencia inicial en diferentes
estudiantes; cuando se dispone de evaluacin previa de los alumnos
CAPTULO 4. ALGORITMOS ADAPTATIVOS
49
en otros tests aplicados previamente, se realiza una estimacin
mediante regresin y el TAI comienza con un tem ajustado en
dificultad al nivel de rasgo estimado en la regresin; otras veces se
utiliza como informacin previa sus calificaciones en las asignaturas
que se relacionan con los diversos tests o el rendimiento medio del
nivel educativo actual del evaluando.
Figura 9. Diagrama de flujo de la aplicacin de un TAI
TESTS ADAPTATIVOS INFORMATIZADOS
50
Cuando en el proceso de evaluacin, como ocurre en muchos
contextos reales, los responsables de la aplicacin no tienen
informacin relevante sobre el rendimiento previsible de los
evaluandos, la estrategia de arranque puede establecerse:
a) Asignando un nivel de rasgo aleatorio entre un rango de
valores cercano a la media (por ejemplo, un valor
seleccionado al azar entre niveles de rasgo superiores a 0.4 e
inferiores a 0.4).
b) Aplicando un test corto inicial, heterogneo en dificultad y
comn a todos los sujetos, para estimar el nivel de rasgo
inicial a partir de datos empricos.
c) Permitiendo al evaluando que elija el nivel inicial de
dificultad del tem (estrategia tpica de los tests
autoadaptados, que se comentarn ms tarde).
d) Cuando se usan mtodos bayesianos de estimacin de los
niveles de rasgo, puede establecerse como nivel inicial la
media de la distribucin a priori.
e) En algunos tests de certificacin se inicia el TAI con un tem
cuya dificultad se encuentra prxima al nivel que delimita
el punto de corte (Bergstrom y Lunz, 1999). Se establece
tambin una restriccin que consiste en presentar los
siguientes 9 tems con una dificultad que no se separe en ms
de 0.10 logits del punto de corte establecido.
f) La versin adaptativa del GRE comienza con tems fciles,
dado que sus responsables quieren que los estudiantes
acierten los primeros tems para incrementar su motivacin
en la ejecucin del resto de tems.
g) En la aplicacin simulada de ciertos TAIs se elige al azar el
primer tem entre los 10 ms informativos para = -1 (Yi,
2002).
Algunos de estos mtodos pueden tener incidencia en la
estimacin final del nivel de rasgo, fundamentalmente si el nivel
inicial asignado est lejos del nivel verdadero del evaluando. En estos
casos, con una persona en concreto, pueden producirse secuencias
iniciales de errores (o aciertos) que inciden en los niveles de rasgo
CAPTULO 4. ALGORITMOS ADAPTATIVOS
51
provisionales estimados tras responder a los primeros tems de la
prueba. Esto tendra incidencia en el nivel de rasgo definitivo
estimado si se aplican pocos tems (alrededor de 10 como criterio de
parada), mientras que se consigue recuperar el nivel de estimacin al
nivel paramtrico si el TAI finaliza despus de aplicar unos 20 tems
(van der Linden y Pashley, 2000).
4.3.- Mtodos de estimacin del nivel de rasgo
Una vez que el evaluando responde al primer tem, se requiere
aplicar un mtodo estadstico para estimar un primer nivel provisional
de rasgo. En tests convencionales, existen programas de ordenador
para estimar el nivel de rasgo, que se aplican despus de obtener el
patrn de respuesta a los tems de cada evaluando. En el caso de un
TAI se requiere la programacin especfica del mtodo estadstico de
estimacin de los niveles de rasgo, ya que dicha estimacin hay que
realizarla tras la respuesta a cada tem, y determina tambin el
siguiente tem a seleccionar. En la aplicacin de un TAI debemos
estimar progresivamente niveles de rasgo, dando por conocidos los
parmetros de los tems, lo cual tiene tambin algunos problemas que
pasamos a comentar, junto a algunas de las soluciones propuestas.
El mtodo de mxima verosimilitud, como se dijo, no
proporciona estimaciones finitas mientras un evaluando tiene un
patrn constante de respuestas (todo aciertos o todo fallos), lo que
puede producirse en los primeros tems que se le presentan. A este
problema se han dado varias soluciones:
a) Herrando (1989) propone que se considere, previamente a la
estimacin del nivel de rasgo tras la respuesta al primer tem,
que el evaluando ha acertado un tem muy fcil (b=-4) y que
ha fallado otro muy difcil (b=4). De esta forma,
incorporando estas respuestas a dos tems ficticios,
conseguiremos tener variabilidad en las respuestas desde el
inicio de la prueba.
TESTS ADAPTATIVOS INFORMATIZADOS
52
b) Dodd (1990) propone obtener las sucesivas estimaciones del
nivel de rasgo mediante las frmulas que siguen a
continuacin, hasta que sea posible estimar mediante el
procedimiento de mximo verosimilitud. Se parte de una
estimacin de nivel de rasgo inicial. El primer tem ser el
ms apropiado para dicha estimacin inicial. Si el tem es
acertado, se actualiza el nivel de rasgo mediante la expresin:
Si el primer tem es fallado, la expresin a aplicar es:
donde b
M
y b
m
son, respectivamente, los parmetros de
dificultad mayores y menores de los tems que componen el
banco. Las expresiones se siguen aplicando hasta que se
obtiene un vector de respuestas que contenga tanto aciertos
como errores.
c) Revuelta y Ponsoda (1997) modifican el procedimiento de
Dodd (1990) y proponen que el valor de rasgo actualizado no
sea el punto medio entre el ltimo valor de rasgo y el
parmetro de dificultad, sino la media o la mediana de una
distribucin normal truncada en esos dos valores. De esta
forma se tiene en cuenta la distribucin probable de los
niveles de rasgo en la poblacin.
d) Yi (2002) aplica una estimacin bayesiana EAP hasta que el
vector de respuestas tiene aciertos y errores; a partir de ese
momento aplica un mtodo de mxima verosimilitud.
El problema que tiene el mtodo de mxima verosimilitud con
los patrones constantes de respuesta podra resolverse tambin
2
1
i M
i i
b
+
+
2
1
i m
i i
b
+
+
CAPTULO 4. ALGORITMOS ADAPTATIVOS
53
mediante la aplicacin de mtodos bayesianos. Ahora bien, tampoco
estos carecen de problemas:
a) Uno importante es que la estimacin del nivel de rasgo no
depende nicamente del rendimiento de la persona, sino de
los valores de media y varianza que se asignan a la
distribucin a priori del rasgo en la poblacin. Desde un
punto de vista aplicado, este hecho ha dado lugar a demandas
legales en Estados Unidos (Wise y Kingsbury, 2000).
b) Desde un punto de vista terico, dependiendo de la
distribucin a priori establecida puede darse una distribucin
posterior multimodal, con lo que la estimacin bayesiana
MAP puede referirse a un mximo local.
c) Por otra parte, tenemos el problema del sesgo de las
estimaciones que, aunque lo trataremos con ms extensin en
los apartados finales de este texto, avanzamos someramente
en este momento. Normalmente, el sesgo en las estimaciones
es tanto mayor cuanto menor es la longitud del test, con lo
cul podra representar un problema importante si, como es el
caso en los TAIs, se aplica un nmero reducido de tems. Por
otra parte, en TAIs operativos, que establecen un tiempo
lmite global para realizar la prueba, ocurre un problema con
los sujetos que se dejan tems sin responder. En estos casos,
los procedimientos bayesianos sesgan hacia adentro la
estimacin, es decir, proporcionan una estimacin con cierta
regresin hacia la media de la distribucin a priori del rasgo
(lo cul puede favorecer a los sujetos de bajo nivel y
perjudicar a los de alto nivel). De este problema no escapan
los procedimientos de mxima verosimilitud, si bien la
direccin del sesgo es la contraria.
TESTS ADAPTATIVOS INFORMATIZADOS
54
4.4.- Algoritmos para la seleccin de tems
Ya desde que se decide arrancar el TAI mediante un
procedimiento concreto, entra en funcionamiento uno de los
componentes fundamentales del algoritmo, que consiste en establecer
la forma de elegir el siguiente tem a presentar despus de estimar el
nivel de rasgo provisional de un evaluando. Mientras ste lee un tem
y piensa sobre su respuesta, el algoritmo realiza los clculos
oportunos para determinar cul ser el siguiente tem a administrar si
se acierta o falla el tem actual. De esta forma, el tiempo transcurrido
entre la emisin de una respuesta y la presentacin del siguiente tem
resulta imperceptible para el sujeto.
Los procedimientos de seleccin de los tems han
experimentado importantes mejoras con el transcurso de los aos. Los
primeros TAIs establecan procedimientos de seleccin de tems
bastante rgidos (ver el apartado 1.2). Prcticamente cualquier
procedimiento actual de seleccin de tems sigue una estrategia de
nivel mltiple con ramificacin variable, que permite actualizar el
nivel de rasgo estimado para una persona despus de responder
progresivamente a los tems que se le presentan. Para un nivel de
rasgo estimado provisionalmente se selecciona el siguiente tem
mediante alguno de estos dos criterios:
a) El criterio de mxima informacin consiste en seleccionar,
del banco de tems disponible en un momento dado de la
aplicacin, el tem con mayor nivel de informacin (ver
apartado 2.4) para el nivel de rasgo actual estimado. En el
caso de estimar el nivel de rasgo por el mtodo de mxima-
verosimilitud, la informacin que suministran los tems tiene
una estrecha relacin con la precisin con la que medimos el
nivel de rasgo. Supongamos que el TAI ha administrado
cinco tems; habr entonces 32 = 2
5
posibles patrones de
respuesta (u
1
, u
2
, .. u
5
). En 30 patrones se podr obtener el
estimador mximo-verosmil. No se podr obtener en los
patrones que slo contengan aciertos o errores. Si
conocisemos el verdadero nivel de rasgo de la persona
CAPTULO 4. ALGORITMOS ADAPTATIVOS
55
podramos calcular la varianza del estimador
del siguiente
modo:
, )
)( ,.. , (
30
1
2
5 2 1
i
u u u P V
donde es la media de los estimadores, es decir:
30
1
5 2 1
) ,.. , (
i
u u u P
El TAI, tras el quinto tem, ofrecer como varianza del
estimador el inverso de la informacin que suministran los
cinco tems para el ltimo nivel de rasgo estimado; este valor
es una aproximacin a la varianza real, V. De haber
administrado 50 tems, cabra un razonamiento similar. El
nmero de posibles vectores de respuesta sera mucho mayor
2
50
, solamente en (2
50
2) de los cuales podr obtenerse el
estimador mximo verosmil. La varianza del estimador sera
la varianza de estos posibles valores. Aplicado el test a una
persona, dar lugar a un vector de respuestas. El recproco de
la informacin suministrada por los 50 tems para la ltima
estimacin del nivel de rasgo ser la estimacin de la
varianza del estimador
2
)
( ). Mediante estudios de
simulacin pueden obtenerse las diferencias medias entre los
niveles de rasgo estimados para los sujetos simulados y sus
correspondientes parmetros. En general, cuando los TAIs
son cortos, los procedimientos mximo verosmiles producen
un sesgo hacia fuera (infraestimando los niveles de rasgo
bajos y sobrestimando los altos) mientras que los
procedimientos bayesianos obtienen un sesgo hacia adentro
(sobrestimando los niveles bajos e infraestimando los altos).
d) Eficiencia. Tambin mediante estudios empricos o de
simulacin, y fundamentalmente cuando el criterio de parada
es de longitud variable, puede estudiarse la cantidad media de
tems que se requiere para alcanzar el error tpico prefijado.
e) Correlacin con las estimaciones obtenidas a partir del
banco. Mediante cualquiera de las dos metodologas pueden
correlacionarse las estimaciones obtenidas en el TAI con las
que se obtienen a partir de las respuestas (reales o simuladas)
al banco completo de tems.
f) Procedimientos derivados de la TCT. Resulta factible aplicar
indicadores clsicos de fiabilidad, como por ejemplo el
coeficiente de fiabilidad test-retest o el coeficiente de
fiabilidad de formas equivalentes (cuando se dispone de dos
bancos diferentes).
CAPTULO 5. PROPIEDADES PSICOMTRICAS DEL TAI
69
5.2.- Validez
Un TAI, como cualquier otro test, debe someterse a las
oportunas comprobaciones empricas de validez para estudiar el
grado en que se cumplen determinadas inferencias realizadas a partir
de las puntuaciones que proporciona. En este sentido, los algoritmos
adaptativos no garantizan en principio mayor o mejor prueba de
validez, aunque hay algunas consideraciones particulares que
debemos tener en cuenta.
a) En relacin a la validez de contenido, las restricciones que se
impongan al algoritmo de seleccin de tems pueden ayudar a
que la muestra de tems que se presenta sea representativa de
todos los diferentes ncleos de contenido establecidos por los
especialistas en la fase de elaboracin del banco de tems.
b) En cuanto a la validez predictiva, suele ser comn, dado los
contextos donde se aplican los TAIs, correlacionar sus
resultados con medidas externas que se quieren predecir. As,
por ejemplo, un TAI de razonamiento matemtico para
seleccionar programadores informticos se correlacion con
las valoraciones de los supervisores en rendimiento laboral de
programadores con mucha experiencia (Zickar et al., 1999).
Las estimaciones del CAT-ASVAB suelen correlacionarse
con las calificaciones que obtienen los reclutas en cursos
posteriores de adiestramiento militar.
c) Respecto a la validez de constructo, podramos considerar
que ya las comprobaciones iniciales sobre la
unidimensionalidad del banco representa un primer estudio de
validez de constructo. Por otra parte, cuando los TAIs tienen
sus ancestros de lpiz y papel, suelen plantearse estudios para
comprobar la equivalencia entre ambas versiones. Se han
contrastado, por ejemplo, las capacidades predictivas del
CAT-ASVAB y del P&P-ASVAB (ancestro en lpiz y papel)
respecto al xito obtenido posteriormente por los evaluandos
en cursos de adiestramiento. Tambin puede estudiarse la
TESTS ADAPTATIVOS INFORMATIZADOS
70
equivalencia de la estructura factorial y de las cargas
factoriales de ambas versiones.
Para concretar con un caso la aplicacin de algunos de estos
procedimientos para estudiar la precisin y validez, resumimos ahora
algunos de los estudios realizados sobre un TAI para evaluar el nivel
de vocabulario ingls. A partir del banco de tems calibrado de
vocabulario ingls se elabor un programa de ordenador (el programa
ADTEST) que convierte un banco calibrado en un TAI, con las
siguientes caractersticas: a) procedimiento de arranque aleatorio entre
niveles de rasgo medios, b) estimacin de mxima verosimilitud, c)
seleccin de tems segn el principio de mxima informacin. Para
comprobar las cualidades psicomtricas del TAI de vocabulario ingls
se dise un estudio de simulacin (Ponsoda et al., 1994) en el que se
establecieron 15 niveles de parmetros (-3.5, -3,....3, 3.5) y se
realizaron 3.750 simulaciones (es decir, 250 sujetos simulados para cada
nivel). Siguiendo el procedimiento adaptativo, y definiendo un criterio
de parada mixto (finalizar la aplicacin si S
e
< 0.30 o si se presentan 34
tems), se obtuvieron los correspondientes niveles definitivos de rasgo
estimados (
I
ML SESGO MAP SESGO
)) ( ( )) ( (
CAPTULO 6. INVESTIGACIN ACTUAL EN TAIS
77
En los ltimos aos se han propuesto varios mtodos para
reducir el sesgo. Los mtodos correctivos son fundamentalmente
analticos y actan despus de obtener una estimacin, restando el
sesgo terico correspondiente a partir de las frmulas que hemos
visto. Los mtodos preventivos modifican la funcin a maximizar,
con lo que intervienen antes de realizar la estimacin. En Hontangas
et al. (2000) se citan algunos mtodos preventivos mximo-
verosmiles y bayesianos.
Veamos como ejemplo un trabajo donde se estudia el sesgo que
pueden tener las estimaciones que se realizan con dos tests diferentes.
En un estudio emprico (Olea, Revuelta, Ximnez y Abad, 2000), en
el que se plante un diseo inter-sujeto, se asignaron los sujetos
aleatoriamente a dos tipos de tests:
a) Un TAI que seleccionaba los tems segn el procedimiento de
mxima informacin, estimaba los niveles de rasgo mediante
el procedimiento de mxima verosimilitud y utilizaba un
criterio de parada de longitud fija (20 tems).
b) Un test ptimo (TO) fijo de 20 tems ordenados en dificultad,
seleccionado del banco para que resultaran ptimos para la
distribucin de rasgo de la poblacin [N(0.57; 0.92)]. Se
eligieron al azar 20 valores de la distribucin anterior y se
eligieron los tems que resultaban ms informativos para esos
niveles de rasgo. Las estimaciones del nivel de rasgo en este
test se realizaron con el mismo procedimiento estadstico.
Ambos tests se fundamentaban en el banco de vocabulario ingls
(vase el apartado 3.3). De forma imprevista, el nivel de rasgo medio
estimado en el TO (0.92) fue significativamente ms alto que el
correspondiente a la condicin TAI (0.58), lo que en principio parece
contradecir la propiedad de invarianza de la TRI. En principio, este
resultado podra deberse al menos a dos razones: a) que el nivel de
rasgo de los sujetos en el TO fuese ms elevado, o bien b) que se
cometiera cierto sesgo en las estimaciones mximo-verosmiles
realizadas en alguno o en ambos tests.
TESTS ADAPTATIVOS INFORMATIZADOS
78
Con objeto de aclarar las causas de las diferencias en nivel de
rasgo estimado, se plantearon dos estudios diferentes (Abad, Olea,
Real y Ponsoda , 2002):
a) Un estudio emprico, con un diseo intrasujeto en el que cada
participante recibi de forma consecutiva los dos tests (de tal
forma que se asegurase que el nivel de rasgo medio verdadero
es el mismo en las condiciones TAI y TO). En el TAI se
estimaron los niveles de rasgo segn el procedimiento ML,
mientras que en el TO se aplicaron tanto el procedimiento
ML, como los bayesianos MAP y EAP, con dos
distribuciones a priori distintas: N(0, 1) y N(0.57, 0.92). A
partir de las frmulas correspondientes se obtuvieron las
funciones de sesgo y error tpico asociadas a cada uno de los
procedimientos de estimacin.
b) Un estudio de simulacin, donde se replicaron 100 muestras
partiendo de los parmetros , a, b y c estimados
empricamente. A partir de los resultados de la simulacin se
obtuvo el promedio en las 100 rplicas (para cada nivel de
rasgo) de: 1) los niveles de rasgo estimados, 2) el valor
RSME (raz cuadrada de la media de los errores cuadrticos),
3) el sesgo, y 4) el error tpico de medida.
Algunos de los principales resultados obtenidos en estos estudios
fueron los siguientes:
El sesgo terico (obtenido mediante la frmula de Lord), para
los distintos valores de , de las estimaciones ML en el TAI
oscil entre 0.08 y 0.05, con una media de 0.0097. El
correspondiente a las estimaciones TO-ML oscil entre 0.13
y 0.14 (media 0.01), mientras que para TO-MAP se
encontr un sesgo negativo para los niveles altos de rasgo,
hasta un mximo de 0.40 (media 0.06).
Los errores tpicos medios obtenidos fueron 0.28 (TAI), 0.31
(TO-ML), 0.32 (TO-EAP) y 0.29 (TO-MAP).
Las correlaciones entre las estimaciones proporcionadas por
el TAI y las realizadas a partir del TO estuvieron en torno a
CAPTULO 6. INVESTIGACIN ACTUAL EN TAIS
79
0.80, mientras que las diferentes estimaciones en el TO
correlacionaron por encima de 0.99.
El nivel de rasgo medio estimado en la condicin TAI (0.71)
fue significativamente inferior a la media de las estimaciones
en la condicin TO-ML (0.85). No se obtuvieron diferencias
significativas respecto a las estimaciones TO bayesianas.
Respecto al estudio de simulacin, puede decirse que en
general se obtienen los resultados derivados del estudio del
sesgo terico.
Con este segundo trabajo, y dado el diseo de investigacin
establecido, se asegura que las diferencias en nivel de rasgo estimado
encontradas en el primer trabajo no se deben a las diferencias en nivel
de rasgo que pudieran tener el grupo TAI del grupo TO. An as,
vuelve a aparecer una diferencia significativa entre la estimacin ML
en el TAI y en el TO, que no pueden atribuirse a problemas de sesgo.
En el trabajo citado se abren vas alternativas de explicacin.
6.3.- Alternativas a la informacin de Fisher
Los procedimientos de estimacin de ms usuales (mxima
verosimilitud y bayesianos) producen estimaciones sesgadas cuando
se presentan pocos tems. La existencia de sesgo y el gran error tpico
de las estimaciones cuando el test es corto repercuten en la precisin
total de un TAI. Los tems seleccionados son los ms informativos
para la ltima estimacin obtenida. Si sta se aleja apreciablemente
de la estimacin final, los tems que resulten muy informativos para
estas estimaciones provisionales lo sern muy poco para la estimacin
final. En consecuencia, algunos tems habrn resultado escasamente
tiles en el test, de ah el inters de explorar reglas alternativas de
medir la informacin de los tems. Chen, Ankenmann y Chang (2000)
han comparado cinco reglas de seleccin de tems diferentes y
comprobado su impacto en el sesgo, RSME y error tpico del nivel de
rasgo estimado en las fases iniciales de un TAI. Las cinco funciones
de informacin aplicadas fueron las siguientes:
TESTS ADAPTATIVOS INFORMATIZADOS
80
a) La funcin de informacin de Fisher, I
j
(). Como vimos
(apartado 1.4), para un tem j, siendo P
j
() la probabilidad
de acierto, su informacin para un valor viene dado por
b) La funcin de informacin de Fisher en un intervalo
propuesta por Veerkamp y Berger (1997), FII
j
(), viene dada
por la siguiente expresin
I
j
() es la funcin de informacin de Fisher y W() es la
funcin de ponderacin, con valor 1 cuando (
l
,
u
), que
es el intervalo de confianza de la estimada, y con valor 0
para valores no comprendidos en el intervalo.
c) La funcin de Fisher con distribucin posterior, FIP
j
(). Al
principio del test, el intervalo de confianza puede no contener
la final del sujeto, por lo que el tem elegido no sera
apropiado. En esta regla de seleccin de tems se toma como
funcin de ponderacin la distribucin posterior de . Por lo
tanto,
d) La funcin de informacin de Kullback-Leibler, KL
j
(
). La
funcin de informacin global de Kullback-Leibler permite
saber la capacidad de un tem para discriminar entre los
niveles y
0
:
( )
) ( ) (
) (
) (
2
'
j j
j
j
Q P
P
I
u
l
d I d I W FII
j j j
) ( ) ( ) ( ) (
d I p FIP
j n j
) ( ) X | ( ) (
CAPTULO 6. INVESTIGACIN ACTUAL EN TAIS
81
Tomando como
0
el ltimo valor estimado
y siendo (
l ,
u
) su intervalo de confianza, el tem a elegir sera el que
tuviese el mayor valor de KL
j
(
).
e) Kullback-Leibler con distribucin posterior, KLP
j
(
). En
este caso, en vez de ponderar por 1 la informacin de
Kullback-Leibler para las incluidas en el intervalo (
l ,
u
), y
por cero las excludas, se va a ponderar por la distribucin
posterior de .
La comparacin entre las cinco reglas de seleccin de tems
proporcion los siguientes resultados: No hubo diferencias en
tests de ms de 10 tems. El nmero de tems 10 resulta
mgico en este contexto. Cheng y Liou (2000) comprobaron
mediante simulacin el sesgo y error tpico de 4 algoritmos
diferentes, resultado de combinar dos mtodos de estimacin
(mximo-verosmil y mximo-verosmil ponderado de Warm
(1989)) y dos mtodos de seleccin de tems: la informacin
de Fisher y Kullback-Leibler. Tambin obtuvieron que en
tests de ms de 10 tems no hay diferencias entre las cuatro
condiciones estudiadas.
Van der Linden (1998) y van der Linden y Pashley (2000)
exponen varios criterios de seleccin de tem bayesianos, que
complementan el de mxima precisin esperada (definido en el
apartado 4.3). De los 3 que vamos a ver, los 2 primeros enfatizan el
modo de establecer la distribucin a priori de , mientras que el
( )
,
_
,
_
) ( 1
) ( 1
log ) ( 1
) (
) (
log ) ( ) || (
0
0
0
0 0
j
j
j
j
j
j j
P
P
P
P
P
P KL
u
l
d KL KL
j j
|| ( )
(
d KL p KLP
j n j
)
|| ( ) X | ( )
J
j
j j
x I
1
0
) (
CAPTULO 6. INVESTIGACIN ACTUAL EN TAIS
85
restricciones sobre el tiempo necesario para responder a los tems en
relacin al tiempo disponible para finalizar el TAI, para incorporar
procedimientos de control de la exposicin de los tems y para
obtener puntuaciones en el TAI equiparadas con las de un test fijo.
6.5.- Control de la exposicin
En el apartado 4.3 expusimos los procedimientos ms utilizados
para el control de la exposicin de los tems y los problemas que se
intentaban resolver con ellos, que son fundamentalmente dos: evitar
una exposicin excesiva de los que se aplican con mayor frecuencia
y, de forma secundaria, incrementar la exposicin de los tems
infrautilizados. Lejos de representar una lnea de investigacin
cerrada, en los ltimos aos se han propuesto nuevos procedimientos
y se ha comparado su eficacia con los ms tradicionales. Por ejemplo,
Revuelta y Ponsoda (1998a) proponen dos nuevos procedimientos:
a) El mtodo restringido consiste en fijar para cada tem una
tasa mxima de exposicin que, cuando se alcanza, hace que
el tem no pueda presentarse. Por ejemplo, si la tasa de
exposicin mxima se fija en un 30%, un tem que se
presenta a un primer evaluando dejar de estar operativo en
las siguientes tres administraciones, pero podr ser elegido y
administrado a un quinto evaluando: despus de que se
presenta al primero, la tasa de exposicin del tem es del
100%, pero despus del cuarto evaluando, la tasa ser 25%
(inferior a la mxima establecida) y podr ser seleccionado
para la quinta aplicacin.
b) El Mtodo progresivo consiste en obtener un peso w=(1-
s)R+sI para cada tem y seleccionar como siguiente tem el de
mayor peso. En la expresin anterior, I es la informacin del
tem para el ltimo nivel de rasgo estimado, R es un nmero
aleatorio extrado entre 0 y el mximo de los valores I, y s es
la proporcin de tems ya administrados en relacin a la
longitud del TAI. Por tanto, el peso de un tem resulta de la
TESTS ADAPTATIVOS INFORMATIZADOS
86
suma ponderada de un valor aleatorio y de la informacin del
tem para el ltimo nivel de rasgo estimado. La informacin
se pondera por el nmero de tems administrados en ese TAI
en particular, mientras que el valor aleatorio se pondera por el
nmero de tems que quedan por administrar en ese test. De
esta forma, al principio del TAI importa ms el componente
aleatorio, y por tanto no se eligen en este momento los tems
muy informativos, mientras que la informacin adquiere
mayor ponderacin a medida que avanza la aplicacin
(cuando el nivel de rasgo estimado est ms cerca del
parmetro del evaluando).
En el mismo trabajo, estos autores comparan mediante
simulacin la eficiencia de estos dos nuevos mtodos con otros ms
tradicionales (entre otros, los mtodos 5-4-3-2-1, Randomesque y
Sympson-Hetter, descritos en el apartado 4.3) y con el mtodo de
mxima informacin sin ningn tipo de restriccin. Para los mtodos
restringido y Sympson-Hetter se estableci una tasa mxima de
exposicin de 0.4. Todos los mtodos se probaron en dos condiciones
diferentes de parada del TAI: un criterio de longitud fija (35 tems) y
otro mixto (error tpico inferior a 0.22 aplicar 50 tems). Se
simularon las respuestas de 2.000 sujetos, cuyos parmetros de rasgo
se distribuyeron N(0, 1), al test de vocabulario ingls. En un segundo
estudio se ampliaron las condiciones de simulacin a otro tipo de
bancos, criterios de parada, tasas de exposicin mximas y
distribuciones de los parmetros de los tems. Como variables
dependientes establecieron el error tpico de medida, el sesgo, el
nmero de tems administrados, el porcentaje de tems que no se
administran nunca y la tasa de exposicin o porcentaje de veces que
se eligen los tems (as como el coeficiente de variacin, el mnimo y
el mximo de esta tasa de exposicin). Algunos resultados
interesantes fueron: a) ninguno de los mtodos resulta completamente
satisfactorio, b) los mtodos 5-4-3-2-1 y Randomesque son los
preferibles cuando se desea que los evaluandos no reciban tems
similares al comienzo del test, c) los mtodos que consiguen reducir
en mayor grado la sobrexposicin de algunos tems son los de
Sympson-Hetter y restringido, d) el mtodo progresivo es el que, sin
CAPTULO 6. INVESTIGACIN ACTUAL EN TAIS
87
una perdida considerable en precisin, incrementa en mayor grado las
tasas de exposicin de los tems infrautilizados, e) un mtodo que
combina los mtodos progresivo y restringido consigue los resultados
globales ms positivos en cuanto a precisin, reduccin de las tasas
mximas de exposicin y del nmero de tems no seleccionados.
Existen otros problemas relacionados con las tasas de
exposicin de los tems, y por tanto con el establecimiento de
mtodos para su control. El primero es que, aunque los mtodos sean
eficaces para controlar la tasa mxima de exposicin, puede ocurrir
que ciertos tems siempre se presenten a evaluandos con un
determinado nivel de rasgo. Un segundo problema tienen que ver con
el grado de solapamiento entre cualquier par de tems, es decir, con
su tasa de ocurrencia simultanea. La solucin a estos problemas es la
elaboracin de mtodos de control de la exposicin condicionados.
En Hontangas et al. (2000) y Stocking y Lewis (2000) se describen
algunos de estos mtodos.
6.6.- Generacin automtica de tems
La generacin automtica de tems es un mtodo de construccin
de bancos de tems mediante algoritmos. Se encuentra todava en fase
de investigacin por lo que no existen ejemplos en los que se haya
logrado su aplicacin completa. Sin embargo, es un tema activo de
trabajo en distintos centros de elaboracin de tests y se espera su
aplicacin en contextos reales en un futuro inmediato (Bejar, 1993;
Irvine, Dann y Anderson, 1990; Irvine y Kyllonen, 2002; Revuelta y
Ponsoda, 1999).
Mediante la generacin automtica de tems lo que se construye
es un conjunto de reglas explcitas, susceptibles de programarse en un
ordenador, que determinan cmo deben construirse los tems. De este
modo se obtienen todos los tems posibles para un test determinado
(Hornke y Habon, 1986). Adems, los tems deben generarse con
unas propiedades psicomtricas predichas de antemano. En lugar de
estimar la dificultad y otras propiedades mediante su aplicacin a una
muestra, se intenta elaborar un modelo acerca del modo en que las
TESTS ADAPTATIVOS INFORMATIZADOS
88
personas resuelven una determinada tarea. Este modelo permitira
predecir las propiedades de los tems generados.
La generacin de tems puede aplicarse con independencia de
que el banco obtenido se utilice posteriormente para un TAI o para
otros tipos de tests. Sin embargo, en el contexto de los TAIs, resulta
especialmente ventajosa por dos razones principales:
a) Permite mejorar la adaptacin del TAI a cada sujeto. Con la
generacin no existe un banco prefijado. Simplemente se
intenta construir para cada evaluando aquel tem que resulta
mximamente informativo para su nivel de rasgo entre todos
los posibles tems que resultan admisibles para el test.
b) Constituye una solucin al problema del control de la tasa de
exposicin, dado que se contar con un banco de tems del
tamao ms grande posible, lo que aumenta las posibilidades
de construccin de tests diferentes.
Los dos grandes retos de la generacin de tems son elaborar un
programa para crear los tems y obtener un mtodo de estimacin de
su dificultad. La elaboracin de tems resulta ms o menos
complicada dependiendo del formato de los mismos. En tests con un
bajo contenido verbal puede resultar sencillo elaborar un algoritmo
que genere los tems. Sin embargo, si el contenido verbal es elevado
la tarea se complica enormemente y no parece que puedan obtenerse
resultados a corto plazo. Bejar (1990) presenta un ejemplo en un test
de capacidad espacial, Bejar y Yocom (1991) en un test de figuras
enmascaradas y Embretson (1994) en un test de figuras
tridimensionales.
El problema de estimar la dificultad depende de la calidad del
modelo psicolgico disponible acerca de la tarea. Un modelo
psicomtrico utilizado con frecuencia para relacionar la dificultad con
el contenido es el denominado LLTM (Fischer, 1973; Fischer y
Pendl, 1980). Una descripcin detallada puede encontrarse en
Santisteban y Alvarado (2001, apartado 4.4.3). Supongamos que para
resolver un tem el sujeto tiene que realizar p operaciones. Las
variables C
i1
, C
i2
, ..., C
ip
se utilizan para describir la frecuencia con
que es necesario aplicar cada operacin en el tem i. Entonces el
CAPTULO 6. INVESTIGACIN ACTUAL EN TAIS
89
parmetro de dificultad b
i
del tem se descompone de forma lineal en
la dificultad de las operaciones implicadas en su resolucin:
+
p
k
ik k i
C b
1
0
Siendo
1
, ...,
p
los parmetros de dificultad de cada operacin
y
0
una constante. A partir de esta dificultad predicha se obtiene la
probabilidad de acierto segn el modelo de Rasch. Es importante
advertir que este modelo nicamente incorpora p+1 parmetros de
dificultad, independientemente de cuantos tems se elaboren. De esta
forma es posible predecir la dificultad de los nuevos tems conocida
la dificultad de las operaciones necesarias para su resolucin.
Tambin se han propuesto extensiones del LLTM para el caso de que
se utilice una respuesta politmica (Fischer y Parzer, 1991) o tems
con diferentes discriminacin (Embretson, 1999).
Revuelta y Ponsoda (1998b) muestran un ejemplo de aplicacin
en un test de anlisis lgico y cmo la generacin de tems permitira
maximizar la informacin obtenida acerca de los examinados. En
concreto, su punto de partida es una versin de lpiz y papel del test
DA5 (SHL, 1996) e intentar desarrollar una versin adaptativa del
mismo test basada en la generacin de tems. El test de lpiz y papel
consta de 50 tems que miden anlisis lgico con un aspecto similar al
de la figura 10.
Figura 10. Item similar a los del test DA5
Para resolver el tem es necesario realizar mentalmente dos
transformaciones distintas sobre las figuras que aparecen en la
TESTS ADAPTATIVOS INFORMATIZADOS
90
columna izquierda y escoger una respuesta entre las cinco alternativas
presentadas, marcadas con las letras A hasta E. Las transformaciones
a realizar se indican mediante las instrucciones codificadas que
aparecen dentro de un crculo en la parte izquierda del tem.
En el estudio realizado por Revuelta y Ponsoda (1998b):
a) Los tems pueden incluir 10 instrucciones u operaciones
diferentes con diferentes sentidos: por ejemplo rotar la figura
adyacente de distintas maneras, intercambiar una figura con
la que aparece en la fila superior, omitir una figura o ignorar
alguna otra instruccin. Utilizando el modelo LLTM es
posible predecir el 47% de la varianza en dificultad de los
tems a partir de la frecuencia de aparicin de las
instrucciones en el tem. Adems se encontr que la dificultad
de cada instruccin es tanto ms elevada cuanto mayor sea la
carga en memoria de trabajo que produzca en el sujeto,
midindose esta carga por el nmero de figuras que es
necesario manipular mentalmente de forma simultnea.
b) A continuacin se desarroll un mtodo para generar todos
los posibles tems para este test, estableciendo las
combinaciones vlidas de instrucciones. De esta manera es
posible obtener un banco compuesto por 4242 tems.
c) Finalmente, se compar la funcin de informacin de un TAI
aplicado a partir del banco generado con la del test original.
El resultado indica que el TAI basado en el banco generado
funciona razonablemente bien, pero no para los niveles bajos.
Esto se debe a que el modelo LLTM result especialmente
impreciso para predecir la dificultad de los tems ms fciles.
En la mayora de los casos no se dispone de un modelo
suficientemente exacto de la dificultad del tem. An as es posible
aplicar la generacin automtica utilizando la metodologa de tems
isomorfos. Supongamos que se dispone de un banco elaborado y
calibrado por el mtodo tradicional. Cada tem de este banco puede
CAPTULO 6. INVESTIGACIN ACTUAL EN TAIS
91
tomarse como modelo para elaborar isomorfos, que son tems
superficialmente diferentes al original pero con una lgica similar de
resolucin. Por esta razn cabe esperar que los parmetros de los
isomorfos sean similares, aunque no necesariamente iguales, a los del
modelo. Por ejemplo, se dispone del siguiente tem cuya dificultad es
b = 1.3:
Pueden generarse varios isomorfos cuya regla de resolucin sea
la misma (MNOSTUP_ , GHIMNOJ_, etc.). Las dificultades de los
isomorfos deben ser parecidas dado que se resuelven del mismo
modo. Sea b
i
el parmetro de dificultad estimado del tem (modelo) i.
Los parmetros de los isomorfos obtenidos de un modelo siguen una
distribucin f (b) con media b
i
y varianza
i
2
. Por tanto, cuanto menor
sea la varianza
i
2
ms parecida ser la dificultad de los isomorfos a
la del modelo, es decir, el proceso de creacin de isomorfos ser mas
preciso. Cuando se genera un isomorfo se desconoce su verdadera
dificultad, nicamente se sabe que la distribucin de esa dificultad es
f (b). Por esto se utiliza la funcin de distribucin conjunta de la
respuesta del sujeto, indicada por u, y la dificultad del isomorfo:
siendo ) , | ( b u p la funcin de probabilidad de la respuesta
observada correspondiente al modelo de un parmetro. Por tanto, la
distribucin marginal de u, conocida tambin como funcin esperada
de respuesta es (Mislevy, Sheehan y Wingersky, 1993):
Indique la letra que contine la serie:
ABCGHID_
) ( ) , | ( ) | , ( b f b u p b u f
db b f b u p u f ) ( ) , | ( ) | (
TESTS ADAPTATIVOS INFORMATIZADOS
92
La funcin f (u|) se utiliza como modelo psicomtrico para puntuar
a los sujetos en lugar de utilizar ) , | ( b u p , como es tradicional. La
ventaja de f (u|) sobre ) , | ( b u p es que tiene en cuenta la
imprecisin con que se conocen los parmetros de los tems, mientras
que al utilizar ) , | ( b u p para puntuar a los sujetos se est
asumiendo que el nivel de dificultad es conocido con absoluta
certeza.
Es importante estudiar qu efecto tiene la imprecisin con que se
conocen los parmetros de los isomorfos, la varianza
i
2
, en la
precisin con que se estima (Meisner, Luecht y Reckase, 1993). A
mayor varianza, mayor diferencia entre los parmetros del modelo y
los del isomorfo. Esta imprecisin debe aumentar la varianza error del
estimador de . En ocasiones se utiliza el modelo logstico de tres
parmetros, por lo que la funcin esperada de respuesta es:
La funcin f (a, b, c) que indica la imprecisin es una normal
multivariante. Cuanto mayor sea la magnitud de las varianzas y
covarianzas de esta distribucin, menor ser la precisin. Al igual que
) , , , | ( c b a u p , la funcin f (u|) puede representarse para distintos
valores de . Cuanto mayor sea la imprecisin de los isomorfos, se
encuentra que la funcin f(u|) es ms plana en comparacin
con ) , , , | ( c b a u p . Esto significa que cuanto mayor sea la
incertidumbre en los parmetros del tem, menos informacin
proporciona acerca de . Por ejemplo, la figura 11 muestra el valor de
) , , , | ( c b a u p para un tem con parmetros (a=1.4, b=0.4 y c=0.1),
junto con la funcin esperada de respuesta para un determinado nivel
de imprecisin.
dc db da c b a f c b a u p u f ) , , ( ) , , , | ( ) | (
CAPTULO 6. INVESTIGACIN ACTUAL EN TAIS
93
Figura 11. Funciones ) , , , | ( c b a u p y f(u|)
Revuelta (2000) estudi el efecto de la imprecisin con que se
generan los isomorfos en la fiabilidad de las puntuaciones de los
sujetos en un TAI. Para ello, se toma como punto de partida un banco
calibrado segn el modelo de tres parmetros y se analiza la precisin
del TAI si la precisin de los isomorfos tomara diferentes valores
arbitrarios. Las dos variables independientes son la magnitud de las
varianzas y covarianzas de la distribucin f (a, b, c) y el porcentaje
de isomorfos que se utilizan en el test. Tambin se incluy un grupo
control en el que no se incluyen isomorfos. En cada condicin se
aplic un TAI a varios miles de sujetos simulados y se cuantific la
imprecisin con que se estima la del sujeto. Los resultados
principales del estudio fueron:
a) No se produjo sesgo en la estimacin del rasgo en ninguna de
las condiciones puestas a prueba.
b) El aumento en el porcentaje de isomorfos en el test y la
mayor imprecisin en sus parmetros producen un aumento
en el error de estimacin del rasgo. Adems, se encontr un
P (u |, a, b, c)
f (u| )
TESTS ADAPTATIVOS INFORMATIZADOS
94
efecto de interaccin. A mayor porcentaje de isomorfos ms
acusada es la prdida de informacin acerca de debida al
aumento de la imprecisin en los parmetros de los
isomorfos.
c) En condiciones realistas, la informacin acerca de
proporcionada por un TAI basado en isomorfos est
aproximadamente entre un 50% y un 80% de la que se
obtendra en un TAI sin isomorfos.
6.7.- Nuevos modelos
La mayora de los TAIs han sido elaborados para medir rasgos
intelectuales o conocimientos, y su fundamentacin psicomtrica es la
de los modelos dicotmicos unidimensionales de la TRI. Sin
embargo, se estn ensayando TAIs sustentados en modelos
multidimensionales para evaluar el rendimiento que depende del nivel
en mltiples rasgos. Algunos trabajos (v.g. Abad., Ponsoda y
Hontangas, 1998) ponen en duda la robustez de los modelos
unidimensionales en el tratamiento de las respuestas a tems cuya
resolucin requiere un cierto nivel en varios rasgos. La opcin actual
es un claro intento por aplicar modelos de TRI multidimensionales
tanto en la seleccin de tems como en las estimaciones de rasgo.
Adems, el tipo de constructos psicolgicos a evaluar mediante TAIs
se ha incrementado mediante el estudio de la eficiencia de pruebas
adaptativas para tems de respuesta graduada, basadas en los modelos
politmicos de la TRI, la mayora pensados para la medicin de
actitudes y rasgos de personalidad.
6.7.1. Modelos multidimensionales
TAI s multi-unidimensionales: Mini-TAI s
Respecto a cmo afrontar desde una perspectiva adaptativa el
tema de la multidimensionalidad, se ha propuesto (Schnipke y Green,
1995) la construccin de los denominados como mini-TAIs, que
consisten en dividir un banco de tems en tantos bancos
CAPTULO 6. INVESTIGACIN ACTUAL EN TAIS
95
unidimensionales como puedan establecerse, de modo que cada TAI
selecciona tems en uno de ellos. Para llegar a la puntuacin final de
un evaluando se agregan las diferentes estimaciones realizadas (por
ejemplo, obteniendo las medias de las estimaciones realizadas en los
mini-TAIs). El diseo de mini-TAIs no parece ser la mejor estrategia
para afrontar el tema de la multidimensionalidad ya que, entre otras
cosas, el trabajo con bancos pequeos incrementa los problemas
relacionados con la sobre-exposicin de los tems.
Testlets:
Un testlet es un conjunto de tems sobre un estmulo comn. En
un test de compresin lectora, por ejemplo, el estmulo podra ser un
prrafo de varias lneas de texto y los tems varias preguntas de
opcin mltiple sobre el prrafo. Este tipo de tests surgieron (Wainer
y Kiely, 1987) como respuesta a una crtica comn a los tems de
opcin mltiple: su falta de contexto.
Con los tems de un testlet no es fcil cumplir el principio de
independencia local. Las respuestas a dos tems suelen mantener una
correlacin positiva, ya que la probabilidad de acertar (fallar) ambos
tems a la vez es mayor (menor) que la esperada si hubiese
independencia local. Entre las razones que se dan para explicar esta
correlacin positiva estn las siguientes: incorrecta comprensin del
estmulo, descuido en su lectura, o una frustracin general con el
estmulo en cuestin.
Tres han sido los principales tratamientos psicomtricos dados a
los testlests (Wainer, Bradlow y Du, 2000):
a) Tratar los tems como si fuesen tems ordinarios tomados de
un banco, sin considerar que algunos se basan en el mismo
estmulo. En este caso, no se tiene en cuenta el
incumplimiento de la independencia local y las consecuencias
son dos: a) una sobrestimacin de la precisin en la
estimacin de los niveles de rasgo, y b) un mayor sesgo en la
estimacin de los parmetos de dificultad y discriminacin.
La dependencia y estos efectos son tanto ms importantes
cuanto mayor es el nmero de tems de cada testlet. Parece
TESTS ADAPTATIVOS INFORMATIZADOS
96
que cuando el nmero es 4-6 por testlet, estos efectos no son
importantes (Wainer et al., 2000, p. 247).
b) Una segunda posibilidad es aplicar modelos politmicos de la
TRI. En este caso, un testlet se considera un tem en el que las
posibles respuestas son el total de posibles aciertos. Un testlet
con cuatro tems podr considerarse un tem politmico con
respuestas: 0, 1, 2, 3 y 4. Un inconveniente de este modo de
proceder es que se pierde la informacin sobre las respuestas
a los tems particulares. Otra alternativa sera considerar
como cantidad de respuestas el nmero total de posibles
resultados (2
k
, en el caso de k tems). La dificultad ahora es
la gran cantidad de respuestas disponibles cuando k pasa de 3.
c) La tercera alternativa consiste en plantear un nuevo modelo
TRI que aade un parmetro adicional para tems anidados en
el mismo testlest. La probabilidad de acierto en un tem viene
dada por la siguiente expresin:
donde los parmetros , a
i
, b
i
y c
i
tienen el mismo significado
que en el modelo de 3 parmetros. La nica diferencia con
este modelo es el termino aadido
t(i)
. Este trmino se
refiere a un rasgo secundario de los sujetos, distinto de , que
les facilita o dificulta el rendimiento en el testlet t. Esa
habilidad lleva el subndice t porque afecta al rendimiento del
sujeto en todos los tems del testlet t. Cada sujeto tiene tantos
parmetros
t
como testlets haya en la prueba, puesto que el
rasgo secundario no tiene por qu ser el mismo de un testlet a
otro. El modelo considera fija (e igual a 0) la media de las
t(i)
referidas a un mismo testlet. La varianza de
t
es proporcional
a la importancia del rasgo secundario. En la fgura 12 se
representa la probabilidad de acierto a un tem con c
i
= 0, a
i
=
1 y b
i
=0 como una funcin (multidimensional) de y
t(i)
.
)) ( exp(
) (
) ( i i t i
i
i i
b Da
c
c P
+
1
1
CAPTULO 6. INVESTIGACIN ACTUAL EN TAIS
97
Para fijamos la desviacin tpica a 1; para
t(i)
fijamos la
desviacin tpica a 1 (figura 12.a), 0.50 (figura 12.b) y 0.01
(figura 12.c). Una forma de representar el efecto de la
desviacin tpica en la probabilidad de acierto es representar
slo los valores plausibles para y
t(i)
segn esa
variabilidad. En las figuras se observa cmo a medida que
disminuimos la varianza de
t(i)
la probabilidad depende ms
exclusivamente de . Obsrvese que, siendo la misma
funcin, slo hemos variado los valores de
t(i)
representados.
Figura 12. Probabilidad de respuesta desde un modelo Testlet.
a) Alta dependencia local b) Baja dependencia local c) Ausencia de dependencia local.
Como veremos inmediatamente, este modelo es equivalente a
otros multidimensionales que en vez de manipular la varianza de la
dimensin secundaria incluyen un parmetro de discriminacin para
esa dimensin adicional. Wainer y Wang (2000) aplican este modelo
a los testlets del TOEFL (Comprensin Lectora y Comprensin Oral)
y muestran el sesgo de estimacin en los parmetros al usar los
programas convencionales (v.gr., BILOG). Al final de ese trabajo se
plantean algunas de las preguntas que la investigacin sobre testlets
debe resolver. Por un lado, debe investigarse cules son las causas
concretas que hacen que en unos testlets aparezca mayor dependencia
local que en otros. Por otro lado, debe explicarse cmo el sesgo de
TESTS ADAPTATIVOS INFORMATIZADOS
98
estimacin en a puede ir en cualquier sentido (infra o sobre-
estimacin). Finalmente, aunque en ambos trabajos se destaca como
ventaja la posibilidad de construir TAIs sin establecer a priori la
constitucin interna del testlet, la estabilidad y ajuste de los
parmetros en esa situacin estn por comprobar.
Glas, Wainer y Bradlow (2000) obtienen los estimadores de
mxima verosimilitud marginal del modelo anterior. En un TAI con
testlets, cabran dos opciones: a) la seleccin de los tems sin tener en
cuenta su pertenencia a testlets (es decir, no considerando el posible
incumplimiento de la independencia local), o b) considerando su
pertenencia al testlet. En este caso, el TAI elegira el testlet ms
informativo y a continuacin el tem ms informativo, dentro del
testlet elegido, para el ltimo nivel de rasgo estimado. Glas et al.
(2000) comprobaron que las estimaciones del nivel de rasgo son ms
precisas si se tiene en cuenta el testlet al que pertenece cada tem.
TAI S multidimensionales:
Los modelos multidimensionales de la TRI sirven para estimar el
rendimiento cuando depende del nivel en varios rasgos diferentes,
que pueden o no estar relacionados entre s. Existen dos tipos de
modelos: los no compensatorios y los compensatorios. Los modelos
no compensatorios, como el MLTM (Multicomponent Latent Trait
Model) se han utilizado generalmente en el anlisis de los procesos
que intervienen en la resolucin de los tems. En estos modelos la
probabilidad de acierto requiere la resolucin completa de un
conjunto de procesos; por completa se indica que el tem se fallar en
el momento en el que un proceso no se ejecute correctamente; el
modelo se expresa como un producto de probabilidades:
donde es un vector de p componentes de procesamiento que
intervienen en la resolucin del tem i; b
im
es el parmetro de
+
p
m
b
b p
m
m im i
im m
im m
e
e
P P
1
) (
) (
1
1
) ( ) (
CAPTULO 6. INVESTIGACIN ACTUAL EN TAIS
99
dificultad asociado a la resolucin del proceso m; P
im
(
m
) es la
probabilidad de ejecutar el proceso m correctamente. En la figura 13
se representa la probabilidad de respuesta como funcin de 2
procesos (b
im
= 0 para todo m). Slo aquellas personas que obtienen
un nivel de ejecucin alto en ambos procesos obtienen una
probabilidad de respuesta prxima a 1.
Figura 13. Probabilidad de Respuesta Modelo No Compensatorio
Sin embargo, los modelos que por ahora centran el inters
investigador son los modelos compensatorios, ms cercanos al terreno
ms familiar del Anlisis Factorial (McDonald, 2000). En estos
modelos la probabilidad de respuesta es funcin de una combinacin
lineal de dimensiones. As, por ejemplo, el modelo logstico
multidimensional de 3 parmetros se formula como:
donde es un vector de p rasgos que intervienen en la resolucin del
tem i; b
i
es el parmetro de dificultad; c
i
el parmetro de pseudoazar;
+
p
m
i m im
b Da
i
i i
e
c
c P
1
1
1
) (
p
m
m m
z
1
) en la que el
tamao de cada peso
m
represente el inters en reducir el error de
medida de la habilidad m. El siguiente tem a administrar ser el que
produzca un menor valor de Var(z).
Si todas las dimensiones son importantes, entonces
m
= 1 para
todo m. Si slo la dimensin m es importante, entonces
m
= 1 y el
resto de las = 0; en este ltimo caso, ) (
m
Var es el valor utilizado
para la seleccin.
Adems de las ventajas asociadas a los modelos
multidimensionales (permiten evaluar el rendimiento en tareas
complejas, incluir contenidos diferentes y estimar simultneamente el
nivel en los distintos rasgos), los TAIs multidimensionales parecen
ser ms eficientes que los unidimensionales (reducen hasta en un
tercio la longitud del test) y proporcionan estimaciones con mejores
propiedades (mayores correlaciones con los parmetros y menor
sesgo). Respecto a sus inconvenientes, Hontangas et al. (2000)
sealan la necesidad de muestras grandes para la estimacin de
+
p
m
p
m
p
n
n m n m m m
Cov Var z Var
1 1 1
2
) , ( ) ( ) (
TESTS ADAPTATIVOS INFORMATIZADOS
102
parmetros y todas las especificaciones que requieren: nmero y
relacin entre las dimensiones, relaciones intra e inter-tems, etc.
En un trabajo reciente, Segall (2001) muestra cmo utilizar los
modelos multidimensionales para medir una nica dimensin. Segn
el autor, una de las dimensiones evaluadas y tiles en la medida de la
inteligencia es la habilidad cognitiva general. Sin embargo, los
procedimientos tradicionales, incluidos los de TRI unidimensional, no
se han traducido en mejoras en la evaluacin del factor general. Esto
se debe a que estos procedimientos son ptimos para aplicarse a tests
unidimensionales recogiendo su varianza especfica pero no su
varianza comn. Segall (2001) utiliza el Anlisis Factorial Jerrquico
para obtener los parmetros de los tems del ASVAB en dimensiones
ortogonalizadas; cada uno de los 420 tems del ASVAB tiene
saturaciones en 3 dimensiones: una dimensin general (Inteligencia
General o
g
), una dimensin especfica independiente de la general
(por ejemplo Verbal) y una dimensin an ms especfica y tambin
independiente de las anteriores (por ejemplo Conocimiento de
Palabras). El algoritmo de seleccin bayesiano utilizado minimiza la
varianza posterior de la dimensin general. En este trabajo se
comparan varias condiciones:
a) Test fijo y puntuacin directa: la suma de las puntuaciones en
un test fijo de 105 tems.
b) TAI unidimensional: con un banco de 420 tems, se aplica un
TAI de longitud fija (60 tems). Se obtiene una estimacin
nica de .
c) TAI multi-unidimensional: se aplican 4 TAIs de longitud fija
(15 tems) a cada sujeto, uno para cada rea de contenido.
es la suma de los niveles de rasgo estimados en cada TAI.
d) Test fijo y estimacin multidimensional: tras aplicar un test
fijo de 105 tems se utiliza un algoritmo multidimensional
para la estimacin de .
e) TAI multidimensional: seleccin y puntuacin
multidimensional en un TAI de longitud fija (60 tems).
En el estudio de simulacin se muestra que mediante la
aplicacin del modelo multidimensional, y gracias al algoritmo de
CAPTULO 6. INVESTIGACIN ACTUAL EN TAIS
103
seleccin, se puede conseguir una medida casi perfecta de la
habilidad general. Mediante el algoritmo de puntuacin
multidimensional se obtienen tambin algunas mejoras. El peor
rendimiento se obtiene en el test fijo, a pesar de que la longitud del
test es casi el doble que en la condicin TAI. Otras aplicaciones del
modelo para la estimacin simultnea de varas dimensiones pueden
obtenerse en el trabajo de Segall (1996) aunque las conclusiones
(ventajosas para los modelos multidimensionales) son muy similares
a las aqu descritas.
6.7.2. Modelos politmicos
Se ha probado tambin la viabilidad de los denominados como
TAIs politmicos, sustentados en modelos TRI politmicos. En estos
modelos la probabilidad de seleccionar una determinada categora de
respuesta es funcin del nivel de rasgo del sujeto y de los parmetros
del tem. La ventaja de estos formatos es que proporcionan ms
informacin que los dicotmicos para estimar el nivel de rasgo. As,
por ejemplo, el modelo de respuesta graduada de Samejima, aplicable
a los formatos de respuesta de categoras ordenadas tpicos de las
escalas de actitudes o los tests de personalidad, se formula de la
siguiente forma:
Esta expresin, que corresponde al modelo logstico 2P (vase
2.1), pone en relacin la probabilidad de que un sujeto (con un nivel
de rasgo ) seleccione una categora de respuesta k o superior en el
tem j, siendo a el parmetro de discriminacin del tem (nico para
dicho elemento) y b el parmetro de localizacin (tambin
denominado como parmetro de dificultad) de la categora k (habr k-
1 parmetros de localizacin). El parmetro de discriminacin estar
relacionado con la pendiente en =b, en la expresin anterior. Los
parmetros de localizacin determinarn la separacin entre las
) (
) (
*
1
) (
jk j
jk j
b Da
b Da
jk
e
e
P
+ ,
e
S z
2 / 1
+ ), donde S
e
es el error tpico de medida
y z
es el valor de la distribucin normal, N(0, 1), tal que P(Z < z
) =
.
Una segunda estrategia, que da lugar a los denominados tests de
maestra secuenciales, consiste en aplicar un procedimiento de
parada fundamentado en el cociente de verosimilitudes (Spray y
Reckase, 1996). Proporciona una mayor precisin en las
clasificaciones que la obtenida con los tests de maestra adaptativos:
a) Se plantea en primer lugar una regin de indiferencia en torno
al punto de corte ( t
0
).
b) Se formulan las siguientes hiptesis estadsticas:
c) Se fijan las probabilidades de error (rechazar la hiptesis
nula cuando es verdadera) y (mantener la hiptesis nula
cuando es verdadera la alternativa).
d) Usando el test de razn de verosimilitud de Wald se obtiene
la razn entre las verosimilitudes, LR, definido como :
) ( / ) (
d e
L L LR .
e) Si ) 1 /( LR se mantiene
0
H , si / ) 1 ( LR se
rechaza, y si se encuentra entre los dos valores anteriores
contina la presentacin de tems.
Se han ensayado adems tests de maestra secuenciales con dos
puntos de corte (Eggen, 1999) y otros donde se aplican los desarrollos
de la teora bayesiana secuencial de la decisin (v.gr. Vos, 2000), que
permiten la seleccin de tems considerando criterios adicionales a los
psicomtricos (v.gr. costes econmicos o errores en la clasificacin) y
utilizar modelos de medida alternativos a la TRI. Vos y Glas (2000)
proponen un procedimiento para aplicar tests de maestra adaptativos
a testlets.
+
0 1 0 0
: :
d e
H H
TESTS ADAPTATIVOS INFORMATIZADOS
116
Tambin en contextos de evaluacin educativa resulta algo
prioritario obtener informacin diagnstica sobre los dficits de
conocimiento o procesamiento de los alumnos, para tenerla en cuenta
en lo que idealmente sera un proceso de enseanza adaptado a las
necesidades individuales. En este sentido, Hontangas et al. (2000)
reflejan las limitaciones que tienen los TAIs convencionales para
cubrir los requerimientos de una buena evaluacin educativa y
describen algunos nuevos enfoques adaptativos (unos fundamentados
en la TRI y otros propuestos en el marco de los Sistemas Tutores
Inteligentes) que pretenden acercar la evaluacin y el adiestramiento.
Entre estos nuevos enfoques, destacamos algunos procedimientos de
TRI para clasificar a los alumnos en determinados estados de
conocimiento segn sus dficits de procesamiento (Tatsuoka y
Tatsuoka, 1997), otros que se fundamentan en las relaciones de
dependencia entre los tems para conseguir objetivos anlogos (por
ejemplo, los que se fundamentan en la Teora del Espacio de
Conocimiento -Dowling, Hockemeyer y Ludwing, 1996-) y,
finalmente, los que pretenden aplicar los desarrollos sobre Redes
Bayesianas para evaluar destrezas complejas (v.gr., Almond y
Mislevy, 1999). Tambin se ha probado la eficacia de TAIs
fundamentados en bancos de tems con formato de respuesta
construda (v. gr., Bennett, Steffen, Singley, Morley y Jacquemin,
1997).
Describiremos brevemente, como ilustracin de este ltimo
grupo de aportaciones, la estrategia de evaluacin diagnstica
adaptativa propuesta por Tatsuoka y Tatsuoka (1997). Esta estrategia
se apoya en la metodologa del espacio-regla (Tatsuoka, 1983, 1985;
Tatsuoka y Tatsuoka, 1987), que tiene por objeto determinar los
estados de conocimiento o los errores cognitivos en que incurren los
alumnos en algn dominio de contenidos. Hay bastantes estudios que
utilizan esta metodologa para analizar temas como la resolucin de
problemas sobre suma de nmeros con signo (Tatsuoka, 1985),
ecuaciones lineales (Birenbaum, Kelly y Tatsuoka, 1993),
multiplicacin y divisin con exponentes (Birenbaum y Tatsuoka,
1993), fracciones (Tatsuoka y Tatsuoka, 1997), compresin lectora
(Buck, Tatsuoka y Kostin, 1997) y tambin dominios ms complejos,
CAPTULO 6. INVESTIGACIN ACTUAL EN TAIS
117
como la arquitectura (Katz, Martnez, Sheehan y Tatsuoka, 1998). La
mayora de estos estudios emplean esta metodologa con tests fijos
convencionales, habiendo sido utilizada de manera adaptativa
nicamente en el trabajo de Tatsuoka y Tatsuoka (1997). En lneas
generales, el mtodo del espacio-regla consiste en lo siguiente:
a) Identificar las destrezas y conocimientos elementales,
denominadas atributos A
k
, que intervienen en la ejecucin de
las tareas que constituyen el dominio objeto de evaluacin.
Los atributos se obtienen mediante un anlisis de los
requisitos cognitivos de una muestra representativa de estas
tareas. Por ejemplo, si el objeto de evaluacin es la suma de
fracciones, cada atributo puede ser un elemento o una etapa
del proceso para realizar la operacin:
A
1
= separar la parte entera de la parte fraccionaria
A
2
= obtener un denominador comn
A
3
= sumar los numeradores
etc.
b) Elaborar un matriz de incidencia, Q, con la que describir los
tems del banco (i=1,...,n) a partir de los atributos (k=1,...,K)
necesarios para resolverlos correctamente. Si la destreza k es
requerida por el tem i, el elemento q
ik
de la matriz Q ser 1, y
si la destreza no es requerida, q
ik
valdr 0, Por ejemplo, en
bancos de tres tems explicados por dos atributos, la matriz de
incidencia podra ser:
Banco 1 Banco 2
I
1
I
2
I
3
I
1
I
2
I
3
Atributos A
1
1 0 1 1 1 1
A
2
0 1 0 0 1 0
c) Identificar los estados de conocimiento (o uso de reglas
errneas, conceptos mal comprendidos, etc.), EC
h
, que se
pretende diagnosticar. Los EC
h
se definen como una
combinacin de atributos bsicos que se poseen y carecen, o
TESTS ADAPTATIVOS INFORMATIZADOS
118
que son dominados y no dominados. En el caso de intervenir
K destrezas puede haber hasta 2
K
estados de conocimiento, es
decir, los resultantes de formar todas las combinaciones
posibles de atributos presentes, A
k
=1, o ausentes, A
k
=0,
simultneamente. En el ejemplo, tenemos cuatro estados: no
poseer ninguna destreza (EC
1
), poseer slo una (EC
2
y EC
3
) y
poseer las dos (EC
4
). A cada EC
h
le corresponde un patrn
ideal de respuestas, u
h
, que indica los tems que deberan ser
acertados, u
hi
=1, y fallados, u
hi
=0.
Patrones ideales de respuesta
Atributos Banco 1 Banco 2
A
1
A
2
I
1
I
2
I
3
I
1
I
2
I
3
EC
1
0 0 0 0 0 0 0 0
EC
2
1 0 1 0 1 1 0 1
EC
3
0 1 0 1 0 0 0 0
Estados de
Conocimiento
EC
4
1 1 1 1 1 1 1 1
En la prctica, el nmero de estados de conocimiento suele
ser menor que 2
K
, ya que algunos de ellos no son
identificables a partir el banco de tems disponible. Por
ejemplo, en el banco 2, segn lo visto en b), para acertar los
tems 1 y 3 se ha de tener la destreza A
1
y para acertar el tem
2 ambas destrezas. Por lo tanto, en el estado EC
1
(ninguna
destreza) habr que esperar que se fallen los tres tems. En el
estado EC
4
(ambas destrezas), habr que esperar tres aciertos.
En el estado EC
2
(slo destreza A
1
), habr que esperar acierto
en los tems 1 y 3 y fallo en el 2. En el estado EC
3
(slo
destreza A
2
), habr que esperar fallo en los tres tems. En
consecuencia, a partir del banco 2, no son identificables los
estados EC
1
y EC
3
, pues ambos producen el mismo patrn
ideal. Un anlisis lgico de la matriz Q permitir detectar las
combinaciones de atributos que son incompatibles en el
banco de tems. Por ejemplo, el programa BUGLIB (Varadi y
Tatsuoka,1989) permite identificar todos los estados de
conocimiento admisibles en un matriz de incidencia
utilizando reglas de lgebra booleana.
CAPTULO 6. INVESTIGACIN ACTUAL EN TAIS
119
Tambin hay que tener en cuenta que en el conjunto de
patrones de respuesta posibles, u
j
, hay muchos que no
corresponden directamente a ningn estado de conocimiento.
En el ejemplo (banco 1) habra cuatro: 110, 100, 110 y 011.
Estos patrones no ideales, u
e
, se consideran desviaciones de
los patrones ideales, u
h
, de los estados de conocimiento, EC
h
.
Las desviaciones pueden deberse a que los estados de
conocimientos o la aplicacin de reglas que implican estn
sujetas a errores aleatorios. Es decir, personas con el mismo
nivel de rasgo o el mismo estado de conocimiento (v.gr., en el
caso de 8 tems ordenados por dificultad creciente,
u
h
=11110000), pueden mostrar empricamente diferentes
patrones por la influencia de factores como la adivinacin
(v.gr., u
e
=11110001) o el descuido (v.gr., u
e
=01110000);
mientras que sujetos con distinto nivel pueden obtener el
mismo patrn de respuesta u
h
por motivos similares. En
sntesis, el problema es cmo asignar los patrones u
e
a un EC
h
en base a su semejanza con los patrones u
h
. La solucin es
proponer un criterio comn para compararlos (apartado d) y
utilizar tcnicas de reconocimiento y clasificacin de patrones
estadsticos para tomar las decisiones (apartado e).
d) Definir el espacio de clasificacin, denominado espacio-
regla, en el que situar los patrones de respuesta, u
j
, y
establecer su correspondencia con los estados de
conocimiento, EC
h
. Se trata de un espacio cartesiano de dos
dimensiones: 1) el nivel, , y 2) el grado de adecuacin de los
patrones de respuesta, , al comportamiento esperado por
algn modelo de la TRI. La primera indica el nivel global,
j
,
ms compatible con el patrn de respuestas, u
j
, mostrado por
el sujeto. El nivel de rasgo es estimado por cualquiera de los
mtodos descritos en el apartado 2.3, a partir de u
j
y los
parmetros de sus tems. La segunda corresponde al ndice
ECI
4
de Tatsouka (1985) para analizar patrones de respuesta
aberrantes o atpicos:
TESTS ADAPTATIVOS INFORMATIZADOS
120
siendo,
p
i
(
j
), la probabilidad de acertar el tem i con habilidad
estimada
j
T(
j
), la media de las p
i
(
j
) de los n tems aplicados
Todos los patrones de respuesta, u
j
, son situados en este
espacio como puntos x
j
=(
j
,
j
). En el caso de los estados de
conocimiento, EC
h
, dado que su aplicacin est sujeta a la
aparicin de errores aleatorios, hay cierta variabilidad en
torno a los puntos x
h
que idealmente les corresponden y, por
ello, se representan como elipsoides en lugar de puntos (ver la
figura 17). Segn Tatsuoka y Tatsuoka (1987), cada EC
h
tiene
un elipsoide definido por una distribucin normal bivariada,
con centroide en x
h
=(
h
,
h
) y matriz de covarianzas
h
, que
por tratarse de dimensiones independientes es:
] ) ( [
) (
j
j
j
f Var
f
u
u
n
i
j j i i j i j
T p u p f
1
] ) ( ) ( ][ ) ( [ ) ( u
n
i
j j i j i j i j
T p p p f
1
2
] ) ( ) ( ][ ) ( 1 [ ) ( ] ) ( var[ u
1
]
1
1 0
0 ) (
1
h
h
I
CAPTULO 6. INVESTIGACIN ACTUAL EN TAIS
121
Figura 17. Representacin del espacio-regla
(+, patrones u
j
; elipses, EC
h
).
e) Clasificar los patrones de respuesta, u
j
, en uno de los estados
de conocimiento, EC
h
. Se utilizan tcnicas similares a las
empleados para el reconocimiento y clasificacin de patrones
estadsticos. El procedimiento consiste en calcular la
distancia del punto x
j
=(
j
,
j
) del patrn de respuesta u
j
a los
centroides de los estados de conocimiento x
h
=(
h
,
h
). La
mtrica utilizada es la distancia de Mahalanobis,
2
jh
D
, cuya
expresin es:
( ) ( )
-1
h
'
2
h j h j jh
D x x x x
A partir de las distancias, se seleccionan los dos estados de
conocimientos ms prximos EC
r
y EC
s
, es decir, aqullos
con los valores D
2
ms pequeos, y se aplican reglas
bayesianas para tomar la decisin de cul de ellos es ms
TESTS ADAPTATIVOS INFORMATIZADOS
122
probable que haya generado el patrn u
j
. A partir de las
probabilidades de error de clasificacin obtenidas,
r
y
s
, se
asigna al sujeto el estado de conocimiento cuya probabilidad
sea ms baja. Las frmulas para efectuar estos clculos
pueden encontrarse en Tatsuoka y Tatsuoka (1987).
Una vez descrita la metodologa del espacio-regla, el proceso de
evaluacin adaptativa consistir en seleccionar los tems ms
apropiados para encontrar el estado de conocimiento del sujeto de la
manera ms eficiente posible. En cuanto a las partes del algoritmo
adaptativo, se procedera del siguiente modo:
a) El tem inicial ser seleccionado a partir de cualquiera de los
criterios generales de arranque ya comentados (en el apartado
4.1).
b) Despus de la administracin de un tem, se estima el nivel de
rasgo del sujeto y se calcula el ndice de ajuste del patrn de
respuestas resultante, con lo que se obtiene un punto en el
espacio-regla.
c) El tem siguiente es seleccionado utilizando la forma de
operar de las tcnicas de aceleracin usadas en los mtodos
de optimizacin. El prximo tem ser el que maximice la
distancia al punto estimado previamente. Es decir, para cada
tem del banco no presentado, se calculan los puntos que le
corresponderan en caso ser acertado y fallado. Se calculan
las distancias entre estos puntos y el anterior, y se selecciona
el tem cuya distancia sea mayor.
d) El test termina cuando el punto estimado se estabiliza en
alguna zona del espacio-regla, o sea, cuando la distancia entre
el punto obtenido en el tem n y el n+1 sea inferior a un
criterio de convergencia. Tambin se puede combinar con
otros criterios adicionales, como haber aplicado un nmero
mnimo de tems, etc.
Una vez terminada la aplicacin del TAI se clasifica al sujeto en
el estado de conocimiento que le corresponda, tal como hemos
descrito en el apartado e sobre el mtodo del espacio-regla. El
CAPTULO 6. INVESTIGACIN ACTUAL EN TAIS
123
resultado es una estimacin global de la habilidad y un diagnstico
cognitivo a partir del patrn de atributos del estado de conocimiento
asignado.
Adicionalmente, la informacin obtenida sirve para disear
programas de enseanza especficos adaptados a las necesidades de
cada alumno, los cuales consisten en disponer las actividades de
entrenamiento en una secuencia apropiada segn indican las
distancias existentes entre estados de conocimiento. Es decir, una vez
el alumno ha sido clasificado en un estado de conocimiento y se han
detectado las destrezas que le faltan o la naturaleza de los errores que
comete, se le ofrece, primero, instruccin especfica en las destrezas
que corresponden al estado
ms prximo (menor distancia de
Mahalanobis), despus en el siguiente mas cercano a ste, y as
sucesivamente hasta alcanzar la competencia plena. De este modo, la
evaluacin y la enseanza pueden quedar integradas en un mismo
sistema.
Referencias bibliogrficas
Abad, F., Olea, J. y Ponsoda, V. (2001). Analysis of the optimum
number alternatives from the Item Response Theory. Psicothema
13, 1, 152-158.
Abad, F., Olea, J., Real, E. y Ponsoda, V. (2002). Estimacin de
habilidad y precisin en tests adaptativos informatizados y tests
ptimos. Un caso prctico. Revista Electrnica de Metodologa
Aplicada, 7, 1, 1-20.
Abad, F.J., Ponsoda, V. y Hontangas, P. (1998): El efecto de la
multidimensionalidad en las estimaciones de un modelo
unidimensional de la TRI. Psicolgica, 19, 41-51.
Abernathy, L.J. (1986). Computerized placement tests: A revolution
in testing instruments. New York: College Board.
Aguado, D. (2000). Garantas cientficas de un banco de tems para
la evaluacin del ajuste emocional. Caractersticas
psicomtricas de su administracin en formato de test
adaptativo informatizado. Tesis doctoral. Facultad de Psicologa
de la Universidad Autnoma de Madrid.
Allan, D. (1992). Oxford Placement Test 1. Oxford: Oxford
University Press
Almond, R.G. y Mislevy, R.J. (1999). Graphical models and
computerized adaptive testing. Applied Psychological
Measurement, 23, 223-237.
Andrich, D. (1995). Review of the book Computerized Adaptive
Testing: A Primer. Psychometrika, 4, 615-648.
Assessment Systems Corporation (1994). MicroCAT Testing System.
St. Paul. MN: Author.
Baker, F.B. (1992). Item Response Theory. Parameter estimation
techniques. New York: Marcel Dekker.
TESTS ADAPTATIVOS INFORMATIZADOS
126
Barbero, M.I. M. (1999). Gestin informatizada de bancos de tems. En
J.Olea, V. Ponsoda y G. Prieto (Eds). Tests informatizados.
Fundamentos y aplicaciones.(pp. 63-83). Madrid: Pirmide.
Bejar, I. I. (1990). A generative analysis of a three dimensional
spatial task. Applied Psychological Measurement, 14 (3) 237-
245.
Bejar, I. I. (1993). A generative approach to psychological and
educational measurement. En N. Frederiksen, R. J. Mislevy e I.
I. Bejar (Eds.). Test theory for a new generation of tests. (pp.
323-358). Hillsdale, NJ: LEA.
Bejar, I. I. y Yocom, P. (1991). A generative approach to the
modeling of isomorphic hidden figure items. Applied
Psychological Measurement, 15 (2) 129-137.
Bennet, R.E., Steffen, M. Singley, M.K., Morley, M. y Jacquemin, D.
(1997). Evaluating an automatically scorable open-ended response
type for measuring mathematical reasoning in computerized
adaptive testing. Journal of Educational Measurement, 34, 162-
176.
Bergstrom, B. y Lunz, M. (1999). CAT for certification and licensure.
En F. Drasgow y J. B. Olson-Buchanan (Eds.). Innovations in
computerized assessment.(pp. 67-92).Mahwah, NJ: LEA.
Binet, A. y Simon, Th.A. (1905). Mthodes nouvelles pour le
diagnostic du niveau intellectual des anormaux. LAnne
Psychologie, 11, 191-336.
Birenbaum, M. y Tatsuoka, K.K. (1993). Applying an IRT-based
cognitive diagnostic model to diagnose studentsknowledge
states in multiplication and division with exponents. Applied
Measurement in Education, 6, 255-268.
Birenbaum, M., Kelly, A., y Tatsuoka, K.K. (1993). Diagnosing
knowledge states in algebra using the rule space model. Journal
for Research in Mathematics Education, 24, 442-459.
Bock, R.D. (1972). Estimating item parameters and latent ability
when responses are scored in two or more nominal categories.
Psychometrika, 37, 29-51.
Bradlow, E.T., Wainer, H. y Wang, X. (1999). A bayesian random
effects model for testlets. Psychometrika, 64, 153-168.
REFERENCIAS BIBLIOGRFICAS
127
Buck, G., Tatsuoka, K.K., y Kostin, I. (1997). The subskills of
reading: rule-space analysis of a multiple-choice test of second
language reading comprehension. Language Learning, 47, 423-
466.
Chen, S.-Y., Ankenmann, R.D. y Chang, H.H. (2000). A comparison
of item selection rules at the early stages of computerized
adaptive testing. Applied Psychological Measurement, 24, 241-
255.
Cheng, P. E. y Liou, M. (2000). Estimation of trait level in
computerized adaptive testing. Applied Psychological
Measurement, 24, 257-265
Computer Adaptive Technologies (1994). CAT software System.
Chicago, IL: Author.
Cuesta, M. (1996). Unidimensionalidad. En J. Muiz (Coord.)
Psicometra.(pp. 239-292). Madrid: Universitas.
Cusick, G.M. (1989). Computer-assisted vocational assessment.
Vocational Evaluation and Work Adjustment Bulletin, 22, 1, 19-
23.
Dodd, B.G. (1990). The effect of item selection procedures and
stepsize on computerized adaptive attitude measurement using
the rating scale model. Applied Psychological Measurement, 14,
355-366.
Dodd, B.G., de Ayala, R.J. y Koch, W.R. (1995). Computerized
adaptive testing with polytomous items. Applied Psychological
Measurement, 19, 5-22.
Dowling, C.E., Hockemeyer, C. y Ludwig, A.H. (1996). Adaptive
assessment and training using the neighbourhood of knowledge
states. En C. Frasson, G. Gauthier, y A. Lesgold (Eds.).
Intelligent Tutoring Systems. Heidelberg: Springer-Verlag.
Drasgow, F. y Olson-Buchanan, J.B. (1999). Innovations in
computerized assessment. Mahwah, NJ: Erlbaum.
Eggen, T.J.H.M. (1999). Item selection in adaptive testing with the
sequential probability ratio test. Applied Psychological
Measurement, 23, 249-261
TESTS ADAPTATIVOS INFORMATIZADOS
128
Embretson, S. E. (1994). Application of cognitive design systems to
test development. En C. R. Reynolds (Ed.). Advances in
cognitive assessment. An interidisciplinary perspective. (pp. 107-
135). New York: Plenum Press.
Embretson, S. E. (1999). Generating items during testing.
Psychometric issues and models. Psychometrika, 64 (4) 407-433.
Fischer, G. H. (1973). The linear logistic test model as an instrument
in educational research. Acta Psychologica, 37, 359-374.
Fischer, G. H. y Parzer, P. (1991). An extension of the rating scale
model with an application to the measurement of change.
Psychometrika, 56 (4) 637-651.
Fischer, G. H. y Pendl, P. (1980). Individualized testing on the basis
of the dichotomous Rash model. En L. J. T. van der Kamp, W. F.
Langerak y D. N. M. de Gruijter (Eds.) Psychometrics for
educational debates. New York: John Wiley & Sons.
Carca, C. (2002). Proyecto docente de Psicometra. Madrid:
Universidad Autnoma.
Glas, C.A.W., Wainer, H. y Bradlow, E.T. (2000). MML and EAP
estimation in testlet-based adaptive testing. En W.J. van der
Linden y C.A.W. Glas (Eds.). Computerized adaptive testing.
Theory and practice. (pp 271-287).Dordrecht: Kluwer Academic
Publishers.
Hambleton, R. y Swaminathan, H. (1985). Item response theory.
Principles and applications. Boston: Kluver Nijhoff.
Hambleton, R., Zaal, J.N., Pieters, J.P.M. (1991). Computerized
adaptive testing: Theory, applications, and standards. En R.K.
Hambleton y J.N. Zaal (Eds.) Advances in Educational and
psychological testing. (pp. 341-366). Boston: Kluwer.
Herrando, S. (1989). Tests adaptativos computerizados: una sencilla
solucin al problema de la estimacin con puntuaciones
perfecta y cero. II Conferencia Espaola de Biometra.
Biometric Society. Segovia.
Hetter, R.D., Segall, D.O. y Bloxon, B.M. (1994). A comparison of
item calibration media in computerized adaptive testing. Applied
Psychological Measurement, 18(3), 197-204.
Hontangas, P. (1999). Software para la construccin y administracin
de tests informatizados. En J. Olea, V. Ponsoda, y G. Prieto
REFERENCIAS BIBLIOGRFICAS
129
(Eds.). Tests informatizados: Fundamentos y aplicaciones.(pp.
251-286).Madrid: Pirmide.
Hontangas, P., Ponsoda, V., Olea, J. y Abad, F. (2000). Los tests
adaptativos informatizados en la frontera del siglo XXI: Una
revisin. Metodologa de las Ciencias del Comportamiento, 2
(2), 183-216.
Hontangas, P., Ponsoda, V., Olea, J. y Wise, S.L. (2000). The choice
of item difficulty in self-adapted testing. European Journal of
Psychological Assessment 16, 1, 3-12.
Hornke, L.F. (2000). Item response times in computerized adaptive
testing. Psicolgica, 21 (1-2), 175-189.
Hornke, L. F. y Habon, M. W. (1986). Rule based item bank
construction and evaluation within the linear logistic framework.
Applied Psychological Measurement, 10 (4) 369-380.
Irvine, S. H., Dann, P. L. y Anderson, J. D. (1990). Towards a theory
of algorithm determined cognitive test construction. British
Journal of Psychology, 81, 173-195.
Irvine, S. H. y Kyllonen, P. (Eds.) (2002). Item generation for test
development. Mahwah, NJ: Erlbaum Publishers.
Katz, I.R., Martnez, M.E., Sheehan, K, M., y Tatsuoka, K.K. (1998).
Extending the rule space methodology to a semantically-rich
domain: Diagnostic assessment in Architecture. Journal of
Educational and Behavioral Statistics, 24, 254-278.
Kim, J.K. y Nicewander W.A. (1993). Ability estimation for
conventional tests. Psychometrika, 58, 4, 587-599.
Kingsbury, G.G. (1990). Adapting adaptive testing: Using the
MicroCAT Testing System in a local School District.
Educational Measurement: Issues and Practice, 9, 2, 3-6.
Kingsbury, G.G. (1996). Item review and adaptive testing. Paper
presented an the annual meeting of the NCME, New York.
Kingsbury, G.G. y Houser, R. (1993). Assessing the utility of item
response models in computerized adaptive testing. Educational
Measurement: Issues and Practice, 12 (1), 21-27.
Kingsbury, G.G. y Houser, R. (1999). Developing computerized
adaptive tests for school children. En F. Drasgow y J. B. Olson-
Buchanan (Eds.), Innovations in computerized assessment. (pp.
93-116).Mahwah, NJ: LEA.
TESTS ADAPTATIVOS INFORMATIZADOS
130
Kingsbury, G.G. y Zara, A.R. (1989). Procedures for selecting items
for computerized adaptive tests. Applied Measurement in
Education, 2, 359-375.
Lpez Pina, J.A. (1995). Teora de respuesta a los tems:
Fundamentos. Murcia: DM-PPU.
Lord, F.M. (1970). Some test theory for tailored testing. En W. H.
Holtzman (Ed.) Computer assisted instruction, testing and
guidance. (pp. 139-183). New York: Harper and Row.
Lord, F.M. (1971a). The theoretical study of the measurement
effectiveness of flexilevel tests. Educational and Psychological
Measurement, 31, 805-813.
Lord, F.M. (1971b). The self-scoring flexilevel test. Journal of
Educational Measurement, 8, 147-151.
Lord, F.M. (1971c). Tailored testing, an application of stochastic
approximation. Journal of de American Statistical Association,
66, 707-711.
Lord, F.M. (1977). A broad-range test of verbal ability. Applied
Psychological Measurement, 1, 95-100.
Lord, F.M. (1980). Applications of Item Response Theory to practical
testing problems. Hillsdale, NJ: LEA.
Lord, F.M. (1983). Unbiased estimators of ability parameters, of their
variance, and of their parallel-forms reliability. Psychometrika,
48, 233-245.
Lord, F.M. (1986). Maximum likelihood and Bayesian parameter
estimation in item response theory. Journal of Educational
Measurement, 23, 157-162.
Lord, F.M. y Novick, M.R. (1968). Statistical theories of mental test
scores. Reading, MA: Addison-Wesley.
Luecht, R.M. y Nungester, R.J. (2000). Computerized-adaptive
sequential testing. En W.J. van der Linden y C.A.W. Glas (Eds.).
Computerized adaptive testing. Theory and practice. (pp 117-
128).Dordrecht: Kluwer Academic Publishers.
Lumsden, J. (1976). Test Theory. Annual Review of Psychology, 27,
251-280.
Lunz, M.A. y Bergstrom, B.A. (1994). An empirical study of
computerized adaptive test administration conditions. Journal of
Educational Measurement, 31, 251-263.
REFERENCIAS BIBLIOGRFICAS
131
Martnez Arias, R. (1995). Psicometra: Teora de los tests
psicolgicos y educativos. Madrid: Sntesis.
McBride, J.R. (1988). A computerized adaptive version of the
Psychological Corporations Differential Aptitude Battery.
Paper presented at the annual meeting of APA, Atlanta, GA.
McBride, J.R. y Martin, J.T. (1983). Reliability and validity of
adaptive ability tests in a military setting. En D. J. Weiss (Ed.).
New Horizons in testing: Latent trait test theory and
computerized adaptive testing (pp 223-236). New York:
Academic Press.
McDonald, R.P. (1999). Test Theory: A unified treatment. New
Jersey: LEA.
McDonald, R.P. (2000). A basis for Multidimensional Item Response
Theory. Applied Psychological Measurement, 24, 99-114.
Meisner, R., Luecht, R. y Reckase, M. (1993). The comparability of
the statistical characteristics of test items generated by computer
algorithms. American College Testing Research Report Series,
93-3.
Mills, C.N., Potenza, M.T., Fremer, J.J. y Ward, W.C. (Eds.) (2002).
Computer-based testing: Building the foundation for future
assessment. Mahwah, NJ: LEA.
Mills, C.N. y Steffen, M. (2000). The GRE computer adaptive test:
Operational issues. En W.J. van der Linden y C.A.W. Glas
(Eds.). Computerized adaptive testing. Theory and practice. (pp
75-100). Dordrecht: Kluwer Academic Publishers.
Mislevy R.J. y Bock R.D. (1990). Bilog 3. Scientific Software, Inc.
Mooresville, Indiana.
Mislevy, R. J., Sheehan, K. M. y Wingersky, M. (1993). How to
equate tests with little or no data. Journal of Educational
Measurement, 30 (1) 55-78.
Mislevy, R.J. y Almond, R.G. (1996). Graphical models and
computerized adaptive testing. CSE Technical Report 434.
University of California.
Muiz, J. (Coord.) (1996). Psicometra. Madrid: Universitas.
Muiz, J. (1997). Introduccin a la teora de respuesta a los tems.
Madrid: Pirmide.
TESTS ADAPTATIVOS INFORMATIZADOS
132
Muiz, J. y Hambleton, R. (1999). Evaluacin psicomtrica de los
tests informatizados. En J. Olea, V. Ponsoda, y G. Prieto (Eds.).
Tests informatizados: Fundamentos y aplicaciones. (pp. 23-
52).Madrid: Pirmide.
Muraki, E. y Bock, R.D. (1996). Parscale. IRT based test scoring and
item analysis for graded-open exercises and performance tests.
Chicago, Il.: Scientific Software International.
Navas, M.J. (1996) . Equiparacin de puntuaciones. En J. Muiz
(Coord.). Psicometra. (pp. 293-369).Madrid: Universitas.
Olea, J. y Hontangas, P. (1999). Tests informatizados de primera
generacin. En J. Olea, V. Ponsoda, y G. Prieto (Eds.). Tests
informatizados: Fundamentos y aplicaciones. (pp. 111-
125).Madrid: Pirmide.
Olea, J. y Ponsoda, V. (1996). Tests adaptativos informatizados. En J.
Muiz (Coord..) Psicometra. (pp. 730-783).Madrid: Universitas.
Olea, J., Ponsoda, V. y Prieto, G. (1999) (Eds.). Tests informatizados:
Fundamentos y aplicaciones. Madrid: Pirmide.
Olea, J., Ponsoda, V., Revuelta, J. y Belch, J. (1996). Propiedades
psicomtricas de un test adaptativo informatizado de vocabulario
ingls. Estudios de Psicologa, 55, 61-73.
Olea, J., Ponsoda, V., Revuelta, J., Hontangas, P., y Abad, F.J. (2001).
Requerimientos, aplicaciones e investigacin en tests adaptativos
informatizados. Apuntes de Psicologa, 19, 1, 11-28.
Olea, J., Ponsoda, V., Revuelta, J., Hontangas, P. y Suero, M. (1999).
Investigacin en tests adaptativos informatizados. En J. Olea, V.
Ponsoda y G. Prieto (Eds). Tests informatizados. Fundamentos y
Aplicaciones. (pp. 163-185).Madrid: Pirmide.
Olea, J., Ponsoda, V. y Wise, S. (1995). Tests adaptativos y
autoadaptados informatizados: Efectos en la ansiedad y en la
precisin de las estimaciones. Ponencia presentada en el IV
Simposium de Metodologa de las Ciencias del Comportamiento.
Murcia.
Olea, J., Revuelta, J., Ximnez, C. y Abad, F.J. (2000). Psychometric
and psychological effects of review on computerized fixed and
adaptive tests. Psicolgica, 21, 157-173.
REFERENCIAS BIBLIOGRFICAS
133
Owen, R.J. (1975). A bayesian sequential procedure for quantal
response in the context of adaptive mental testing. Journal of the
American Statistical Association, 70, 351-356.
Pardo, A. y San Martn, (1998). Anlisis de datos II. Madrid:
Pirmide.
Parshall, C.G., Davey, T. y Pashley, P.J. (2000). Innovative item
types for computerized testing. En W.J. van der Linden y
C.A.W. Glas (Eds.). Computerized adaptive testing: Theory and
practice (pp. 129-148). Dordrecht: Kluwer Academic Publishers.
Parshall, C.G., Spray, J.A., Kalohn, J.C. y Davey, T. (2001).
Practical considerations in computer-based testing. New York:
Springer.
Ponsoda, V. (2000). Overview of computerized adaptive testing
special section. Psicolgica, 21(1 y 2), 115-120
Ponsoda, V., Olea, J. y Revuelta, J. (1994). ADTEST: A computer
adaptive test based on the maximum information principle.
Educational and Psychological Measurement, 54 (3), 680-686.
Ponsoda, V., Olea, J., Rodriguez, M.S. y Revuelta, J. (1999). The
effects of test difficulty manipulation in computerized adaptive
testing and self-adapted testing. Applied Measurement in
Education, 12, 167-184.
Ponsoda, V., Wise, S.L., Olea, J. y Revuelta, J. (1997). An Investigation
of Self-Adapted Testing in a Spanish High School Population.
Educational and Psychological Measurement 57(2), 210-221.
Prieto, G. y Delgado, A. (1996). Construccin de tems. En J. Muiz
(Coord.). Psicometra. (pp. 105-138). Madrid: Universitas.
Reckase, M.D. (1979). Unifactor latent trait models applied to multi-
factor tests: Results and implications. Journal of Educational
Statistics, 4, 207-230.
Reese, L.M., Schnipke, D.L. y Luebke, S.W. (1997). Incorporating
content constrains into a multi-stage adaptive testlet design.
Paper presented at the annual meeting of the AERA, Chicago.
Renom, J. (1993). Tests adaptativos computerizados: Fundamentos y
aplicaciones. Barcelona: PPU.
Renom, J. y Doval, E. (1999). Tests adaptativos informatizados:
Estructura y desarrollo. En J. Olea, V. Ponsoda y G. Prieto
TESTS ADAPTATIVOS INFORMATIZADOS
134
(Eds.). Tests informatizados: Fundamentos y aplicaciones. (pp.
127-162).Madrid: Pirmide.
Revuelta, J. (2000). Estimacin de habilidad mediante tems
isomorfos. Efectos en la fiabilidad de las puntuaciones.
Psicothema, 12, 2, 303-307.
Revuelta, J. y Ponsoda, V. (1997). Una solucin a la estimacin
inicial en los tests adaptativos informatizados. Revista
Electrnica de Metodologa Aplicada 2, 2, 1-6.
Revuelta, J. y Ponsoda, V. (1998a). A comparison of item exposure
control methods in computerized adaptive testing. Journal of
Educational Measurement 35, 4, 311-327.
Revuelta, J. y Ponsoda, V. (1998b). Un test adaptativo informatizado
de anlisis lgico basado en la generacin automtica de tems.
Psicothema, 10, 3, 753-760.
Revuelta, J. y Ponsoda, V. (1999). Generacin automtica de tems.
En J. Olea, V. Ponsoda y G. Prieto (Eds.). Tests informatizados.
Fundamentos y aplicaciones. (pp. 227-250).Madrid: Pirmide.
Revuelta, J. y Ponsoda, V. (2001). Fundamentos de Estadstica.
Madrid: UNED.
Revuelta, J., Ximnez, C. y Olea, J. (en prensa). Psychometric and
psychological effects of item selection and review on
computerized testing. Educational and Psychological
Measurement.
Rocklin, T.R. (1994). Self-adapted testing. Applied Psychological
Measurement 7, 3-14.
Rocklin, T.R. y ODonnell, A.M. (1987). Self-Adapted testing: A
performance improving variant of computerized adaptive testing.
Journal of Educational Psychology, 79, 315-319.
Sands, W.A., Waters, B.K. y McBride, J.R. (Eds.) (1997).
Computerized adaptive testing. From inquiry to operation.
Washington: American Psychological Association.
Santisteban, C. (1990). Psicometra: Teora y prctica en la
construccin de tests. Madrid: Norma.
Santisteban, C. y Alvarado, J. (2001). Modelos psicomtricos. Madrid:
UNED
REFERENCIAS BIBLIOGRFICAS
135
Schnipke, D.L. y Green, B.F. (1995). A comparison of item selection
routines in linear and adaptive tests. Journal of Educational
Measurement, 3, 227-242.
Schoonman, W. (1989). An applied study on computerized adaptive
testing. Amsterdam: Swets & Zeitlinger.
Segall, D.O. (1996). Multidimensional Adaptive Testing.
Psychometrika, 61, 331-354.
Segall, D.O. (2001). General Ability Measurement: An application of
multidimensional Item Response Theory. Psychometrika, 66 (1),
79-97.
Segall, D.O. y Moreno H.E. (1999). Development of the
computerized adaptive testing version of the Armed Services
Vocational Aptitude Battery. En F. Drasgow, y J.B. Olson-
Buchanan (Eds.). Innovations in computerized assessment. (pp.
35-66). Mahwah, NJ: LEA
SHL (1996). DA5: Diagramas codificados. SHL, Madrid: Psicologos
Organizacionales.
Spilberger, C.D., Gorsuch, R.L. y Luschene, R.E. (1970). Manual for
the state-trait anxiety inventory. Palo Alto, CA: Consulting
Psychologists Press.
Spray, J.A. y Reckase, M.D. (1996). Comparison of SPRT and
sequential Bayes procedures for classifying examinees into two
categories using a computerized test. Journal of Educational and
Behavioral Statistics, 21, 405-414.
Stocking, M.L. (1997). Revising item responses in computerized
adaptive tests: A comparison of three models. Applied
Psychological Measurement, 21, 129-142.
Stocking, M. L. y Lewis, Ch. (2000). Methods of controlling the
exposure of items in CAT. En W.J. van der Linden y C.A.W.
Glas (Eds.). Computerized adaptive testing. Theory and practice.
(pp. 163-182). Dordrecht: Kluwer Academic Publishers.
Stocking, M.L. y Swanson, L. (1993). A method for severely
constrained item selection in adaptive testing. Applied
Psychological Measurement, 17, 277-292.
Stocking, M.L. y Swanson, L. (1998). Optimal design of item banks
for computerized adaptive tests. Applied Psychological
Measurement, 22, 271-279.
TESTS ADAPTATIVOS INFORMATIZADOS
136
Sympson J.B. y Hetter R.D. (1985) Controlling item exposure rates
in computerized adaptive testing. 27
th
Annual Meeting of the
Military Testing Association. San Diego. CA.
Tatsuoka, K.K. (1983). Rule space: An approach for dealing with
misconceptions based on item response theory. Journal of
Educational Measurement, 20, 345-354.
Tatsuoka, K.K. (1985). A probabilistic model for diagnosing
misconceptions by the pattern classification approach. Journal of
Educational Statistics, 10, 55-73.
Tatsuoka, K.K., y Tatsuoka, M.M. (1987). Bug distribution an
statistical pattern classification. Psychometrika, 52-193-206.
Tatsuoka, K.K. y Tatsuoka, M.M. (1997). Computerized cognitive
diagnostic adaptive testing: effect on remedial instruction as
empirical validation. Journal of Educational Measurement, 34,
3-20.
Thissen, D. (1991) MULTILOG users guide. Chicago. Ill.: Scientific
Software International.
Thompson, T.D. y Davey, T. (1999). CAT procedures for passage-
based tests. Paper presented at the annual meeting of the
NCME, Montreal, Canada.
Urry, V.W. (1977). Tailored testing: A successful application of item
response theory. Journal of Educational Measurement, 14, 181-
196.
van der Linden, W.J. (1998). Bayesian item-selection criteria for
adaptive testing. Psychometrika, 62, 201-216.
van der Linden, W.J. (1998). Optimal assembly of psychological and
educational tests. Applied Psychological Measurement 22, 195-
211.
van der Linden, W.J. (1999). Multidimensional adaptive testing with
a minimum error-variance criterion. Journal of Educational and
Behavioral Statistics, 24, 398-412.
van der Linden, W.J. (2000). Constrained adaptive testing with
shadow tests. En W.J. van der Linden y C.A.W. Glas (Eds.).
Computerized adaptive testing. Theory and practice. (pp. 27-
52).Dordrecht: Kluwer Academic Publishers.
REFERENCIAS BIBLIOGRFICAS
137
van der Linden, W.J. y Glas, C.A.W. (Eds.) (2000). Computerized
adaptive testing. Theory and practice.Dordrecht: Kluwer
Academic Publishers.
van der Linden, W.J. y Pashley, P.J. (2000). Item selection and
ability estimation in adaptive testing. En W.J. van der Linden y
C.A.W. Glas (Eds.). Computerized adaptive testing. Theory and
practice. (pp 1-25).Dordrecht: Kluwer Academic Publishers.
van der Linden, W.J. y Reese, L.M. (1998). A model for optimal
constrained adaptive testing. Applied Psychological
Measurement, 22, 195-211.
Varadi, F. y Tatsuoka, K.K. (1989). BUGLIB. Programa de
ordenador no publicado.
Veerkamp, W.J.J. y Berger, M.P.F. (1997). Some new item selection
criteria for adaptive testing. Journal of Educational and
Behavioral Statistics, 22, 203-226
Vispoel, W.P. y Coffman, D.D. (1994). Computer-adaptive and self-
adaptive music listening tests: Psychometric features and
motivational benefits. Applied Measurement in Education, 7, 25-
52.
Vos, H.J. (2000). A Bayesian procedure in the context of sequential
mastery testing. Psicolgica, 21 (1 y 2), 191-211.
Vos, H.J. y Glas, C.A.W. (2000). Testlet-based adaptive mastery
testing. En W.J. van der Linden y C.A.W. Glas (Eds.).
Computerized adaptive testing. Theory and practice. (pp. 289-
310).Dordrecht: Kluwer Academic Publishers.
Wainer, H. (2000a). Computerized adaptive testing: A primer. 2
edicin. Hillsdale, New Jersey: LEA. (1 edicin: 1990).
Wainer, H. (2000b). CATs: Whither and whence. Psicologica, 21, 121-
133.
Wainer, H., Bradlow, E.T. y Du, Z. (2000). Testlet response theory: An
analog for the 3PL model useful in testlet-based adaptive testing.
En W.J. van der Linden y C.A.W. Glas (Eds.). Computerized
adaptive testing. Theory and practice. (pp. 245-270).Dordrecht:
Kluwer Academic Publishers.
Wainer, H. y Eignor, D. (2000). Caveats, pitfalls, and unexpected
consequences of implementing large-scale computerized testing.
TESTS ADAPTATIVOS INFORMATIZADOS
138
En H. Wainer (Ed.). Computerized adaptive testing: A primer.(pp.
271-300). 2 edicin. Hillsdale, New Jersey: LEA.
Wainer, H. y Kiely, G. (1987). Item clusters in computerized adaptive
testing: A case for testlets, Journal of Educational Measurement
24, 185-202.
Wainer, H. y Wang, X. (2000). Using a new statistical model for
testlets to score TOEFL. Journal of Educational Measurement,
37, 3, 203-220.
Wainer, H., Lewis, C., Kaplan, B. y Braswell, J.(1991). Building
Algebra Testlets: a comparison of hierarchical and linear
structures. Journal of Educational Measurement,28, 311-323.
Wang, T. y Vispoel, W.P. (1998). Properties of ability estimation
methods in computerized adaptive testing. Journal of
Educational Measurement, 35, 109-135.
Warm, T. A. (1989). Weighted likelihood estimation of ability in item
response theory. Psychometrika, 54, 3, 427-450.
Way, W.D. (1998). Protecting the integrity of computerized testing item
pools. Educational Measurement: Issues and Practice, 17, 17-26.
Weiss, D.J. (1974). Strategies of adaptive ability measurement.
Research Report 74-5. Dep. of Psychology, U. of Minnesota.
Weiss, D.J. (1983). New horizons in testting: Latent trait test theory and
computerized adaptive testing. New York: Academic Press.
Wise, S.L. (1994) . Understanding self-adapted testing: The perceived
control hypothesis. Applied Measurement in Education, 7, 15-24.
Wise, S.L. (1999). Tests autoadaptados informatizados:
Fundamentos, resultados de investigacin e implicaciones para
la prctica. En J. Olea, V. Ponsoda y G. Prieto (Eds.). Tests
informatizados: Fundamentos y aplicaciones. (pp. 189-206).
Madrid: Pirmide.
Wise, S.L. y Kingsbury, G. (2000). Practical issues in developing and
maintaining a computerized adaptive testing program. Psicolgica,
21, 135-155.
Wise, S.L., Ponsoda, V. y Olea, J. (2002). Self-adapted testing: An
overview. Int. J. Cont. Engineering Eduction and Lifelong
Learning, 12 (1-4), 107-122.
REFERENCIAS BIBLIOGRFICAS
139
Yi, Q. (2002). Incorporating the Sympson-Hetter exposure control
method into the a-stratified method with content blocking. Paper
presented at the annual meeting of AERA, New Orleans, LA.
Zickar, M.J., Overton, R.C., Taylor, R.y Harms, H.J. (1999). The
development of a computerized selection system for computer
programmers in a financial services company. En F. Drasgow y
J.B. Olson-Buchanan (Eds.). Innovations in computerized
assessment. (pp. 7-34).Mahwah, NJ: LEA