Modelo

TEST ADAPTATIVOS
INFORMATIZADOS

Julio Olea
Vicente Ponsoda

Presentacin

Cuando elaboramos la presente monografa lo hacemos con el
objetivo bsico de que nuestros alumnos (los presenciales y,
fundamentalmente, los no presenciales) del curso Tests Adaptativos
Informatizados, del programa de doctorado interuniversitario de
Metodologa de las Ciencias del Comportamiento, dispongan de
forma ordenada de los contenidos bsicos para un buen
aprovechamiento del mismo. Dada la gran variedad de formacin en
Psicometra que tienen nuestros alumnos, hemos optado por incluir
una breve introduccin a la TRI para quienes no hayan tenido la
oportunidad de estudiarla en su licenciatura. Pueden ampliarse los
conocimientos sobre estos modelos TRI en los textos en castellano de
Lpez Pina (1995), Martnez Arias (1995, caps. 10 y 11), Muiz
(1997), Santisteban (1990, caps. 10 a 14) y, en esta misma coleccin
de monografas, en Santisteban y Alvarado (2001, caps. 4 y 5). En
cuanto a los objetivos que nos marcamos, no vamos a limitarnos a

mostrar el funcionamiento bsico de este tipo de pruebas, sino que
pretendemos entrar en la descripcin de los principales desafos con
que se enfrenta en la actualidad la investigacin terica y aplicada
sobre el tema. Es nuestro inters acercar al estudiante los diferentes
mtodos de investigacin que se aplican para resolver los problemas,
para lo cual describiremos determinados trabajos de investigacin,
entre los cuales se encuentran algunos de los desarrollados por un
equipo al que pertenecen de forma estable Pedro Hontangas, de la
universidad de Valencia, Steve Wise, de la James Madison university
(USA) y Paco Abad, Javier Revuelta, Carmen Ximnez y nosotros
mismos, en la universidad Autnoma de Madrid.

Resulta un tanto paradjico transmitir en papel la complejidad de
procedimientos implicados en estas pruebas, que por definicin se
aplican en soporte informtico. Los alumnos tendrn la oportunidad
durante el curso de comprobar cmo se responde a este tipo de tests
en un ordenador, la informacin que proporcionan, diversas variantes
en los algoritmos y algunas de sus ventajas e inconvenientes.

Madrid, Noviembre de 2002
Los autores

ndice

1. INTRODUCCIN CONCEPTUAL E HISTRICA

1.1. Elementos bsicos y beneficios previsibles..................... 5
1.2. Orgenes, desarrollo y aplicaciones.................................. 9

2. CONCEPTOS BSICOS DE LA TEORA DE LA
RESPUESTA AL TEM

2.1. Ventajas de la teora de la respuesta al tem.................... 13
2.2. Algunos modelos de la teora de la respuesta al tem...... 15
2.3. El supuesto de unidimensionalidad.................................. 19
2.4. Estimacin del nivel de rasgo.......................................... 21
2.5. Precisin de las estimaciones........................................... 26

3. DISEO DEL BANCO DE TEMS

3.1. Componentes de un banco de tems................................. 31
3.2. Elaboracin de tems........................................................ 31
3.3. Calibracin....................................................................... 34
3.4. Propiedades psicomtricas............................................... 41
3.5. Mantenimiento y renovacin del banco de tems............. 45

4. ALGORITMOS ADAPTATIVOS

4.1. Proceso de aplicacin de un TAI.................................... 47
4.2. Procedimientos de arranque............................................ 48
4.3. Mtodos de estimacin del nivel de rasgo...................... 51
TESTS ADAPTATIVOS INFORMATIZADOS

4
4.4. Algoritmos para la seleccin de tems............................. 54
4.5. Procedimientos de parada................................................ 61
4.6. Requerimientos informticos........................................... 63

5. PROPIEDADES PSICOMTRICAS DEL TAI
5.1. Precisin........................................................................... 67
5.2. Validez............................................................................. 69

6. INVESTIGACIN ACTUAL EN TESTS ADAPTATIVOS
INFORMATIZADOS
(en colaboracin con P. Hontangas, F. J. Abad y J. Revuelta)

6.1. Presentacin..................................................................... 73
6.2. Precisin y sesgo de las estimaciones.............................. 75
6.3. Alternativas a la informacin de Fisher........................... 79
6.4. Restricciones en la seleccin de tems............................. 82
6.5. Control de la exposicin................................................... 85
6.6. Generacin automtica de tems...................................... 87
6.7. Nuevos modelos............................................................... 94
6.8. Condiciones de aplicacin............................................... 107
6.9. Otros objetivos de investigacin...................................... 114

7. REFERENCIAS BIBLIOGRFICAS.................................... 125

Captulo 1

Introduccin conceptual e histrica

1.1.- Elementos bsicos y beneficios previsibles

Un Test Adaptativo Informatizado (TAI) es una prueba,
construida para fines de evaluacin psicolgica o educativa, cuyos
tems se presentan y responden mediante un ordenador, siendo su
caracterstica fundamental que se va adaptando al nivel de
competencia progresivo que va manifestando la persona. Tal
denominacin, hoy generalmente empleada en los trabajos publicados
en castellano y propuesta por primera vez en Olea y Ponsoda (1996),
es la traduccin de la expresin inglesa Computerized Adaptive
Test (CAT).
Los elementos bsicos de un TAI son: a) un banco de tems con
propiedades psicomtricas conocidas, es decir, con parmetros
estimados desde un modelo de la Teora de la Respuesta al tem
(TRI) determinado, b) un procedimiento que establezca la manera de
comenzar y finalizar la prueba, as como la forma de seleccionar
progresivamente los mejores tems, y c) un mtodo estadstico de
estimacin de los niveles de rasgo. Aunque ya desde Binet se han
intentando procedimientos de evaluacin adaptativos mediante tests
psicolgicos (sus tests de inteligencia tenan formas diferentes segn
el nivel educativo de los nios), en las ltimas dcadas, y dada la
confluencia entre los avances psicomtricos realizados desde la TRI y
los avances tcnicos en el campo de la informtica, se han
desarrollado instrumentos informatizados para presentar nicamente

6
los tems que resultan altamente informativos para estimar el nivel de
cada sujeto en un determinado rasgo. Entre otros factores, el nivel de
informacin depende de que los tems seleccionados para un
evaluando tengan una dificultad apropiada para su nivel de rasgo. En
este sentido, en un test convencional de longitud fija se presentan
todos los tems que lo integran (y en la misma secuencia) a todos los
individuos. Para una persona en concreto, los tems que le resulten
muy fciles o muy difciles pueden contribuir poco a determinar de
forma precisa su nivel; de hecho, los tests fijos requieren tems de
dificultad heterognea y tienen algunas caractersticas mejorables:
requieren mayor tiempo para la aplicacin y pueden incrementar en
los evaluandos su sensacin de aburrimiento (si se le presentan
muchos tems que le resultan fciles) o de fracaso (cuando un nmero
elevado de tems resultan excesivamente difciles para su nivel). Sin
embargo, desde la conocida propiedad de invarianza de la TRI, en un
TAI ser posible estimar los niveles de rasgo de personas diferentes
en la misma escala aunque hayan respondido a tems diferentes
(fciles, los evaluandos de bajo nivel; difciles, los de alto nivel de
rasgo).
En principio, cualquier test informatizado tiene ya determinadas
ventajas de indudable valor aplicado (Olea y Hontangas, 1999):
permiten homogeneizar las condiciones de aplicacin, establecer
controles para preservar la seguridad de la prueba, registrar
informacin que puede ser til para la evaluacin (por ejemplo, los
tiempos de respuesta a los tems), conseguir un rpido procesamiento
de los datos, minimizar errores de correccin, proporcionar feedback
inmediato a los evaluandos, evaluar procesos psicolgicos bsicos u
otro tipo de destrezas o competencias que exigen la presentacin de la
informacin de forma dinmica, etc.
Parshall, Davey y Pashley (2000) han denominado como tipos
innovadores de tems a los que se benefician del soporte informtico
en varios aspectos relacionados con su construccin (uso de sonido,
grficos, animacin o vdeo) o con el procedimiento de respuesta (por
ejemplo, marcar en figuras o grficos, seleccionar partes de un texto,
mover objetos, reordenar estmulos, escribir el resultado de un
problema, responder mediante micrfono...). Los TAIs, dada su
CAPTULO 1. INTRODUCCIN CONCEPTUAL E HISTRICA

7
condicin adaptativa, tienen al menos tres importantes ventajas
adicionales:

a) Mejoran la seguridad del test, ya que gran parte de los tems
que se presentan a los evaluandos son diferentes. Esta es una
preocupacin fundamental de los responsables de la
evaluacin en contextos aplicados ya que, incluso cuando se
decide aplicar tests convencionales, uno de los mayores
obstculos a la validez de los tests es que los evaluandos
puedan conocer de antemano los tems que se le van a
administrar. Como veremos, esto no significa que los TAIs
resuelvan el problema de la copia o transmisin de los tems
(suele ocurrir que un escaso porcentaje de tems se aplican a
muchos evaluandos), pero el problema es menor que en los
tests convencionales de lpiz y papel o en los tests
informatizados fijos; de hecho, cualquier algoritmo
adaptativo desarrollado recientemente incorpora
procedimientos para preservar la integridad del banco de
tems en que se fundamenta el TAI.

b) Reducen el tiempo de aplicacin (a veces a menos de la
mitad), ya que consiguen niveles similares de precisin que
los tests convencionales con un nmero menor de tems. Para
las empresas responsables de la aplicacin, el tiempo se
asocia inexorablemente a los costes de la evaluacin. Para los
evaluandos, que adems suelen manifestar una actitud
positiva hacia los tests informatizados en general y hacia los
TAIs en particular, este tipo de pruebas tienen la ventaja de
permitir conocer sus puntuaciones en varios rasgos o
conocimientos en una nica sesin de evaluacin, que
eventualmente podra incluso realizarse mediante Internet.

c) Permiten adems, con el mismo nmero de tems que un test
convencional, realizar estimaciones ms precisas. Bajo
condiciones similares a las de un test convencional (en
tiempo requerido y nmero de tems aplicados) un TAI
permite mayores garantas (menor error de medida) respecto

8
a los niveles que se estiman y, por tanto, respecto a las
decisiones que se toman a partir de las puntuaciones en los
tests. Si el banco tiene un tamao suficiente de tems con
elevado poder discriminante para los diferentes niveles de
rasgo, un TAI puede resultar enormemente eficaz para medir
los niveles extremos de rasgo, algo difcil de conseguir en la
aplicacin de tests convencionales, informatizados o no.

Estos tres aspectos resultan muy importantes cuando se realizan
aplicaciones masivas de tests de rendimiento o de conocimientos, por
ejemplo en contextos de seleccin de personal, de evaluacin
educativa o en pruebas de certificacin profesional o licenciatura. De
hecho, algunos de los TAIs que ms se aplican (por ejemplo el CAT-
ASVAB, el CAT-GRE o algunos tests de certificacin) tuvieron sus
ancestros en versiones de lpiz y papel o en versiones informatizadas
convencionales, que requeran ms tiempo de aplicacin (por tanto
mayor incomodidad para los evaluandos y, bajo ciertas
circunstancias, mayores costes) adems de mayor riesgo de difusin
para futuras aplicaciones a las mismas o a distintas personas. De
cualquier forma, resultara equvoco creer que los tests adaptativos
representan la piedra filosofal de la evaluacin mediante tests
psicomtricos. Lo han reflejado muy bien algunos autores (Wainer,
2000b, Wainer y Eignor, 2000) al reflexionar sobre los resultados de
la masiva aplicacin de los TAIs que se ha producido en la ltima
dcada y al analizar bajo qu circunstancias u objetivos de
evaluacin resultan autnticamente tiles; para estos autores, tiene
sentido su uso: a) cuando la naturaleza del constructo sea tal que la
administracin informatizada ayude a su evaluacin, b) cuando el
test ha de ofrecerse de forma continua y no slo una o pocas veces al
ao, y c) cuando las personas que hacen el test , y por supuesto los
responsables de la aplicacin, tienen inters en obtener el nivel de
rasgo correcto (por ejemplo, cuando la puntuacin estimada va a
servir para recomendar o no un determinado programa de
instruccin, o en situaciones donde los evaluandos no tienen inters
en obtener una puntuacin ms alta o baja que les d ms
posibilidades de ser seleccionado a un puesto de trabajo,..). Algunos
inconvenientes, como por ejemplo la necesidad de calibrar bancos en

9
muestras muy numerosas, la escasa informacin diagnstica que
proporcionan o determinados impactos negativos que pueden tener en
los evaluandos, podran incluso hacerlos inviables en la prctica.
Tampoco los TAIs pueden considerarse como algo nico e
invariable. Existen modos bastante diferentes de aplicar de forma
adaptativa un banco de tems, pueden utilizarse modelos de TRI
diferentes para estudiar sus propiedades y, como veremos, tienen
todava que dar respuesta a diversos interrogantes o problemas, tanto
tcnicos como aplicados, que se intentan responder desde diferentes
lneas de investigacin.

1.2.- Orgenes, desarrollo y aplicaciones

Las primeras experiencias sobre aplicacin adaptativa de tems
las desarrollaron Binet y Simon (1905), quienes construyeron tests de
inteligencia diferentes segn la edad o el nivel educativo de los
estudiantes.
Sin embargo, al plantear los orgenes de los TAIs resulta
obligado citar la obra de Lord y Novick (1968), fundamentalmente
los captulos de Birnbaum en este libro, donde se establecen las bases
de la TRI y los fundamentos estadsticos para ordenar a diversos
evaluandos en la misma escala de medida aunque hayan respondido
tems distintos.
La idea original de los TAIs fundamentados en la TRI es de Lord
(1970), y se ha desarrollado durante los aos 80 en el marco de un
convenio de la Universidad de Minnesota (dirigido por D. Weiss) con
el ejrcito estadounidense para elaborar versiones adaptativas del
Armed Services Vocational Aptitude Battery (ASVAB). La necesidad
aplicada del ejrcito era realizar estimaciones precisas de los niveles
aptitudinales de muestras muy numerosas y heterogneas de
candidatos. Durante una dcada se estudiaron las previsibles ventajas
de una versin adaptativa de este test, aplicado anualmente a ms de
500.000 personas, antes de utilizarla realmente como prueba de
seleccin. A mediados de los 80 se aplic la primera versin
adaptativa del ASVAB.

10
Durante las dcadas de los 70 y 80 se propusieron diferentes
procedimientos o estrategias adaptativas de seleccin de tems (una
descripcin ms detallada puede verse en Renom, 1993), algunas de
las cuales se idearon para la presentacin de los tems en formato de
papel y lpiz, dado que en esos aos los ordenadores difcilmente
podan realizar con la rapidez necesaria los clculos matemticos
requeridos por la TRI:

a) Lord (1971c) propuso la estrategia de dos etapas, segn la
cual todos los evaluandos responden a un primer test de
escasa longitud (test rutina). Despus de estimar sus niveles
de rasgo, se aplica a cada sujeto uno de k tests de ubicacin,
homogneo en dificultad y apropiado para el nivel estimado
en el test rutina.

b) Tambin Lord (1971a,b) propuso la estrategia de nivel
flexible, apropiada para la administracin de bancos de escasa
longitud. Se divide el banco de tems en dos mitades segn
su dificultad: la primera con los tems ms fciles y la
segunda con los ms difciles; se comienza con el tem de
dificultad media; si se acierta se pasa al siguiente ms difcil
y si se falla se presenta el siguiente ms fcil (entre los que no
se han presentado todava de esa mitad); la prueba se termina
cuando se responde a la mitad del banco.

c) Weiss (1974) describe varias estrategias alternativas de
ramificacin fija o estructura de rbol, que tienen en comn
el establecimiento previo de una ordenacin de los tems a
modo de pirmide segn su dificultad; la eleccin de un tem
depende de la respuesta al tem previo, pero las posibles
secuencias de tems a presentar estn prefijadas de antemano.

d) Lord (1980) describe una estrategia de ramificacin variable,
segn la cual se estima un nivel provisional de rasgo despus
de responder a un nmero determinado de tems y se elige el
tem ms informativo para dicho nivel; este procedimiento de
seleccin se denominar como mtodo de mxima

11
informacin. Owen (1975) haba propuesto previamente
procedimientos bayesianos de seleccin progresiva de tems.

En paralelo a los desarrollos psicomtricos comienzan a
ensayarse los primeros TAIs en contextos aplicados para la
evaluacin de conocimientos de diversas oposiciones (Urry, 1977),
exmenes escolares (Cusick, 1989; Kingsbury, 1990), aptitudes
intelectuales (Lord, 1977; McBride, 1988; Schoonman, 1989) o
dominio del ingls (Abernathy, 1986).
Actualmente existen versiones adaptativas de tests
convencionales, por ejemplo, del Test of English as a Foreign
Language (TOEFL), del Graduate Management Admissions Tests
(GMAT), o del Graduate Record Exam (GRE), de diversos tests de
aptitudes intelectuales (como el Differential Aptitude Tests), y de
mltiples tests desarrollados tanto en Estados Unidos como en Europa
para evaluar los conocimientos y aptitudes en contextos de seleccin
de personal (por ejemplo, el CAT-ASVAB en su versin actual o
algunos subtests de la batera MICROPAT para la seleccin de
pilotos y controladores areos), en pruebas de admisin a centros
educativos (es el caso del Law School Admission Test), para la
evaluacin educativa de nios y jvenes (por ejemplo el COMPASS
placement tests, el NWEA o el sistema CARAT), para la evaluacin
de conocimientos matemticos de personas adultas (la prueba
holandesa MATHCAT) o en exmenes de licenciatura o certificacin
(por ejemplo los que se realizan en Estados Unidos para las
profesiones de enfermera y medicina). Wainer (2000b) plantea el
crecimiento exponencial de la aplicacin de los TAIs, que l estima
en ms de un milln de pruebas aplicadas en el ao 1999 slo en
USA.

Captulo 2

Conceptos bsicos de la
Teora de la respuesta al tem

2.1.- Ventajas de la teora de la respuesta al tem

Hace ya unos 40 aos desde que se publicaron los primeros
bosquejos de una nueva teora de los tests, denominada como Teora
de la Respuesta al tem (TRI) o modelos de rasgo latente, en parte
para superar algunos de los inconvenientes de la ms tradicional
Teora Clsica de los Tests (TCT). Como es conocido, la TCT se
sustenta en un supuesto fundamental (X=V+E), segn el cual la
puntuacin emprica de una persona en un test es igual a la suma de
su puntuacin verdadera y el error. Se asume que los errores en un
test son aleatorios (con media cero) en la poblacin de referencia, que
correlacionan cero con las puntuaciones verdaderas y con los errores
de otros tests. A partir de estos supuestos, y otros adicionales sobre el
concepto de formas paralelas, se deducen teoremas que posibilitan la
obtencin de medidas empricas de fiabilidad (coeficiente de
fiabilidad, error tpico de medida) y validez (coeficiente de validez,
error tpico de estimacin) de los tests, as como indicadores
estadsticos de las propiedades psicomtricas de los tems (v.g.
dificultad, discriminacin,..).
Algunas de las limitaciones de la TCT, que por otra parte
intentarn superar los diferentes modelos propuestos desde la TRI,
son las siguientes:

14

a) En primer lugar, resulta difcil contrastar empricamente el
cumplimiento de los supuestos en que se fundamenta.
b) Es evidente que las propiedades psicomtricas de los tems
(por ejemplo, los ndices de dificultad y de discriminacin) y
del test en su conjunto (coeficientes de fiabilidad y de
validez) dependen de las caractersticas de la muestra donde
se obtienen (su nivel medio, su variabilidad) y de la propia
longitud del test.
c) Resulta difcil comparar el rendimiento de dos personas en
dos tests diferentes que no son paralelos (por ejemplo, si
tienen tems de diferente dificultad).
d) La TCT asume que la precisin con la que se estima el nivel
de rasgo de cualquier persona en un test es la misma.

Como cuestiones generales, desde la TRI se van a plantear los
siguientes objetivos fundamentales:

a) Establecer modelos estadsticos cuyo ajuste a los datos se
puede contrastar.
b) Realizar estimaciones invariantes de las propiedades
psicomtricas de los tems (independientes del nivel de rasgo
de las personas) y de los niveles de rasgo de las personas
(independientes de las propiedades psicomtricas de los
tems). Por ejemplo, algo que resultar esencial en los TAIs,
las estimaciones estadsticas del nivel de rasgo de dos
personas podrn compararse, aunque se les haya aplicado
distintos tems (otra cosa ser la precisin obtenida en cada
caso).
c) Obtener medidas individuales de precisin para cada persona
evaluada.

CAPTULO 2. CONCEPTOS BSICOS DE LA TRI

15
2.2.- Algunos modelos de teora de la respuesta al
tem

Cualquier modelo de TRI establece una relacin matemtica
entre la probabilidad de emitir una determinada respuesta a un tem
(v.g. dar con la respuesta correcta o elegir una de k categoras de
respuesta) y otras caractersticas del sujeto (v.g. su nivel en uno o ms
rasgos) y del tem (v.g. su dificultad o su discriminacin). Cuando se
asume y se comprueba que el rendimiento en un tem depende de un
nico rasgo latente se habla de modelos unidimensionales; cuando el
rendimiento en un tem depende de dos o ms rasgos se habla de
modelos multidimensionales. Por otra parte, si el modo de
cuantificacin de las respuestas es dicotmico, normalmente el que
corresponde a tems de rendimiento ptimo donde se producen
aciertos y errores, se formulan modelos dicotmicos; si se consideran
ms de dos categoras de respuesta (v.g. en tems de escalas de
actitudes o de tests de personalidad) se establecen modelos
politmicos. En las siguientes pginas describiremos
fundamentalmente algunos modelos unidimensionales dicotmicos,
aunque en apartados posteriores avanzaremos las caractersticas de
ciertos modelos multidimensionales y politmicos que representan la
base psicomtrica de ciertos TAIs particulares que actualmente estn
siendo sometidos a prueba.
Comencemos por uno de los modelos ms sencillos, que es un
modelo dicotmico unidimensional, denominado modelo logstico de
1 parmetro (1P) o modelo de Rasch:

) (
) (
1
) (
j
j
b D
b D
e
e
P

En este modelo P() es la probabilidad de acertar el tem j
cuando la persona tiene un nivel de rasgo . Este parmetro
normalmente asume valores entre 4 y +4. b
j
es el parmetro de
dificultad del tem (normalmente asume valores entre 4 y +4, pues
se mide en la misma escala que ), D es un valor constante (si D=1 se

16
habla de escala logstica; si D=1.7, de escala normal), y e es la base
de los logaritmos naturales (e=2.718).
Con el modelo 1P se est asumiendo en realidad que el
rendimiento en un tem depende nicamente del nivel de rasgo del
sujeto y de la dificultad del tem. Grficamente, el funcionamiento de
cualquier tem descrito por un modelo dicotmico unidimensional
puede representarse mediante la curva caracterstica del tem (CCI),
que pone en relacin los niveles con sus correspondientes P().

Figura 1. Curvas caractersticas de dos items para modelo 1P
Vase por ejemplo la figura 1, en ella se han representado las
curvas caractersticas de dos tems segn 1P: el tem 1 con una
dificultad de 0 (curva ms a la derecha), y el tem 2 que tiene un
parmetro de dificultad igual a 2. La dificultad de un tem indica
por tanto el grado en que su CCI est desplazada hacia la izquierda
(tendencia a la facilidad) o a la derecha (tendencia a la dificultad).
Para un tem en concreto, basta con sustituir en la expresin del

4,00
3,50
3,00
2,50
2,00
1,50
1,00
,50
,00
-,50
-1,00
-1,50
-2,00
-2,50
-3,00
-3,50
-4,00
P()
1,0
,8
,6
,4
,2
0,0
tem 1
tem 2

17
modelo 1P los correspondientes valores y su parmetro b para
obtener los correspondientes valores P().
Si se analizan con detalle la expresin de P() y la figura
anterior, pueden comprobarse tres propiedades importantes de este
modelo:

a) Cuando el nivel de rasgo coincide con la dificultad del tem,
la probabilidad de acertarlo es igual a 0.5. Dicho de otro
modo, la dificultad de un tem es el valor tal que P()=0.5.
b) Si el nivel es extremadamente bajo, la probabilidad de
acierto se aproxima a cero. En la expresin de P() se puede
ver que cuando el nivel tiende a -, el valor P() tiende a 0.
Es decir, este modelo considera que no se producen aciertos
por azar.
c) La pendiente que tiene la CCI en b es la misma para cualquier
tem. Como veremos a continuacin, tal pendiente tiene que
ver con la discriminacin del tem. Este modelo considera
que todos los tems tienen la misma discriminacin.

El modelo logstico de 2 parmetros (2P) incorpora a la funcin
logstica un parmetro de discriminacin del tem (a
j
). Su expresin
matemtica es:

) (
) (
1
) (
j j
j j
b Da
b Da
e
e
P

donde a
j
es proporcional a la pendiente de la CCI en el valor = b
j
.
Este parmetro de discriminacin, que suele oscilar entre 0 y 3,
indica el grado en que el tem discrimina entre los niveles
superiores e inferiores a la dificultad del tem. Si la CCI tiene poca
pendiente en b
j
(a
j
cercano a 0), el tem resulta poco discriminativo;
si su pendiente es elevada, el tem sirve para diferenciar los niveles de
rasgo por encima y por debajo de su dificultad.

18
En la figura 2 se representan las CCI de dos tems segn el
modelo 2P. Ambos tienen la misma dificultad (b=0) pero diferente
discriminacin (a
1
=2, a
2
= 1).
Podemos observar que el punto de interseccin entre las dos CCI
indica precisamente que ambos tienen la misma dificultad, dado que
en este caso coincide en los dos tems que =0 para P() = 0.5.

Adems, puede verse tambin que la pendiente de ambos tems
en b no es la misma. El tem 1 discrimina mejor que el 2 entre los
sujetos que tienen un nivel de rasgo cercano a =0. Como ocurra en
el modelo 1P, este modelo no considera tampoco la probabilidad de
acierto aleatorio. Podemos comprobar tambin que, si en el modelo
2P se sustituye el parmetro a por el valor 1, el modelo resultante es
el 1P.
El modelo logstico de 3 parmetros (3P) aade al anterior un
nuevo parmetro (c
j
), denominado como parmetro de pseudoazar
(puede oscilar aproximadamente entre 0 y 0.5), que es la asntota
inferior de la CCI y representa la probabilidad que tienen de acertar el

4,00
3,50
3,00
2,50
2,00
1,50
1,00
,50
,00
-,50
-1,00
-1,50
-2,00
-2,50
-3,00
-3,50
-4,00
P()
1,0
,8
,6
,4
,2
0,0
tem1
tem2

19
tem personas con nivel extremadamente bajo (lmite de P()
cuando tiende a -). Su expresin matemtica es:

) (
) (
1
) 1 ( ) (
j j
j j
b Da
b Da
j j
e
e
c c P
+
+

En la figura 3 se representan dos tems con igual dificultad,
idntica discriminacin pero diferente parmetro de pseudoazar.
Mientras que para el tem 1 c
1
=0.5, el parmetro de pseudoazar del
tem 2 es c
2
=0.1. Si supiramos, por ejemplo, que ambos tems tienen
diferente nmero de opciones de respuesta, seguramente el tem 2
tendra mayor nmero de opciones que el tem 1, ya que resulta
menos probable de acertar teniendo un nivel de rasgo muy bajo.


4,00
3,50
3,00
2,50
2,00
1,50
1,00
,50
,00
-,50
-1,00
-1,50
-2,00
-2,50
-3,00
-3,50
-4,00
P()
1,0
,8
,6
,4
,2
0,0
tem 1
tem 2

20
Algunas propiedades de este modelo son:

a) Cuando c
j
=0, el modelo resultante es el 2P.
b) El valor de c
j
suele asumir valores alrededor de 1/k, siendo k
el nmero de opciones de respuesta del tem.
c) A diferencia de los modelos 1P y 2P, en el modelo 3P, P(b
j
)=
(1+c
j
)/2. De ah que las CCI representadas en la figura 3 no
sean en principio muy ilustrativas para comprobar
visualmente la equivalencia en dificultad y discriminacin de
los dos tems.

2.3.- El supuesto de unidimensionalidad

Los tres modelos expuestos son modelos unidimensionales,
dado que suponen que el rendimiento en un tem depende del nivel
que tienen las personas en un nico rasgo . El grado de
unidimensionalidad de un test o de un banco de tems puede evaluarse
mediante tcnicas de anlisis factorial exploratorio aplicadas a la
matriz de correlaciones entre los tems (Lord y Novick, 1968). Una
vez extrada la matriz factorial sin rotar, se estudia el porcentaje de
varianza explicado por el primer factor. Algunos autores (Reckase,
1979) plantean que se cumplen los mnimos de unidimensionalidad
cuando este primer factor explica ms del 20% de la varianza total.
Conviene considerar que siempre puede ganarse en
unidimensionalidad si despus del primer anlisis se eliminan los
tems con cargas factoriales bajas en el primer factor sin rotar
(Lumsden, 1976). Otro aspecto importante es el tipo de correlacin
ms adecuada para el tipo de datos que pretendemos estudiar
(variables dicotmicas). Cuando se utiliza la correlacin de Pearson,
el primer factor sin rotar correlaciona significativamente con la
proporcin de aciertos en los tems, lo cul se interpreta como un
factor espurio de dificultad. Aunque tampoco est exento de
problemas, parece ms adecuado un procedimiento (Lord, 1980) que
consiste en aplicar el anlisis factorial sobre la matriz de
correlaciones tetracricas, propuestas para el anlisis de variables
dicotomizadas bajo el supuesto de distribucin normal en las

21
variables continuas subyacentes. McDonald (1999) justifica y
recomienda el uso de modelos no lineales de anlisis factorial.
Existen muchos otros mtodos para comprobar el grado de
unidimensionalidad de las respuestas de una muestra a un test, varios
de los cuales se exponen en Cuesta (1996).

2.4.- Estimacin del nivel de rasgo

La primera vez que se aplica un test a una muestra debemos
estimar los parmetros de los tems, proceso que se denomina
calibracin, y tambin los parmetros de los sujetos. Una vez que el
test est calibrado, el problema estadstico se reduce a estimar los
niveles de rasgo de los sujetos. Por motivos didcticos, vamos a
suponer en principio que estamos ante esta segunda situacin. Vamos
a suponer adems que un test est formado por 2 nicos tems (los
que hemos utilizado en la figura 1 para explicar el modelo 1P) con
parmetros b
1
=0 y b
2
=-2. Supongamos que una persona acierta el
primero y falla el segundo. Cul es el nivel que ms
probablemente le correspondera a esta persona? Para responder a
esta pregunta podemos obtener lo verosmil que resulta el patrn de
respuestas dado para cada nivel posible (tomando en principio 17
valores distintos en un rango desde 4 a +4). Como ha acertado el
primer tem y ha fallado el segundo, para cada obtenemos el valor
L=P
1
(1-P
2
), siendo P
1
y P
2
las correspondientes probabilidades de
acierto obtenidas mediante el modelo 1P. Grficamente, los
resultados L para cada valor seran los que se representan en la
figura 4.
Podemos observar en la grfica que el nivel de rasgo que hace
ms probable el patrn de respuestas observado es = -1, ya que el
valor mximo de L corresponde a dicho nivel de rasgo.


22
Figura 4. Estimacin de L para cada nivel de rasgo

El procedimiento que hemos seguido se denomina estimacin de
mxima verosimilitud condicionada, dado que consiste en buscar el
valor asociado al mximo valor de la funcin de verosimilitud,
tomados los parmetros de los tems como conocidos. Obsrvese que
se asume que, dado un nivel de rasgo concreto, la probabilidad de
emitir un patrn de respuestas determinado es igual al producto de las
probabilidades de emitir cada respuesta individualmente, lo que se
conoce como supuesto de independencia local, muy relacionado con
el de unidimensionalidad. Para Santisteban y Alvarado (2001) ambos
supuestos resultan equivalentes para datos estrictamente
unifactoriales.
En general, la funcin de verosimilitud se obtiene a partir de la
expresin:

4,00
3,50
3,00
2,50
2,00
1,50
1,00
,50
,00
-,50
-1,00
-1,50
-2,00
-2,50
-3,00
-3,50
-4,00
L
,08
,06
,04
,02
0,00
j j
u
j
u
j
n
j
Q P u L
1
1
) | (

23
donde u es el vector de respuestas (aciertos, 1, y fallos, 0) a los tems,
P
j
es la probabilidad de acertar el tem j (u
j
=1) dado un nivel de rasgo
, y Q
j
es la probabilidad de fallarlo. Lo que significa que, dado un
determinado patrn de respuestas a los tems que forman el test, el
valor L asociado a un nivel de rasgo se obtiene multiplicando las
correspondientes probabilidades de acierto y error obtenidas mediante
el modelo de TRI en uso.
Veamos otro ejemplo. Supongamos que una persona responde a
un test de 5 tems, con los siguientes parmetros de dificultad: b
1
=-2,
b
2
=-1, b
3
=0, b
4
=1 b
5
=2. Supongamos que la persona acierta los tres
primeros tems y falla los dos ltimos. Cul ser el nivel para el
que la funcin L alcanza el mximo valor? Fijando 17 valores
posibles y aplicando el modelo de Rasch, obtenemos los datos
sealados en la tabla 1.

Tabla 1. Ejemplo de clculo de L para cada nivel de rasgo

P
1
P
2
P
3
P
4
P
5
L=P
1
P
2
P
3
Q
4
Q
5

-4,00 0,12 0,05 0,02 0,01 0,00 0,00
-3,50 0,18 0,08 0,03 0,01 0,00 0,00
-3,00 0,27 0,12 0,05 0,02 0,01 0,00
-2,50 0,38 0,18 0,08 0,03 0,01 0,01
-2,00 0,50 0,27 0,12 0,05 0,02 0,01
-1,50 0,62 0,38 0,18 0,08 0,03 0,04
-1,00 0,73 0,50 0,27 0,12 0,05 0,08
-0,50 0,82 0,62 0,38 0,18 0,08 0,15
0,00 0,88 0,73 0,50 0,27 0,12 0,21
0,50 0,92 0,82 0,62 0,38 0,18 0,24
1,00 0,95 0,88 0,73 0,50 0,27 0,22
1,50 0,97 0,92 0,82 0,62 0,38 0,17
2,00 0,98 0,95 0,88 0,73 0,50 0,11
2,50 0,99 0,97 0,92 0,82 0,62 0,06
3,00 0,99 0,98 0,95 0,88 0,73 0,03
3,50 1,00 0,99 0,97 0,92 0,82 0,01
4,00 1,00 0,99 0,98 0,95 0,88 0,01


24
Por tanto, de los 17 niveles de rasgo considerados, la estimacin
mximo verosmil coincide con el valor =0.5. En la ltima columna
de la tabla 1 podemos observar que tambin existen otros niveles de
rasgo adyacentes que resultan bastante probables, pero esto es otra
cuestin que trataremos posteriormente al hablar de la precisin
asociada a una estimacin concreta.
El problema de estimacin es mucho ms complejo en
situaciones reales. En primer lugar, es necesario trabajar con
tamaos muestrales N muy altos (normalmente por encima de 500
sujetos), y no slo con un sujeto como en los ejemplos anteriores. En
segundo lugar, la primera vez que se aplica el test necesitamos
estimar los parmetros de los sujetos y los parmetros de los n tems
que forman el test, es decir, tenemos que realizar una estimacin
conjunta. En tercer lugar, el problema de la estimacin y los
requerimientos muestrales son mayores cuantos ms parmetros
tenemos que estimar para los tems. En cuarto lugar, los niveles de
rasgo considerados deben ser, desde luego, ms de los 17 establecidos
en nuestro ejemplo. A la vista de lo anterior, se comprende que la
estimacin mximo verosmil requiere la obtencin de los valores de
los parmetros de las personas () y de los tems (a, b, y c, si
aplicamos el modelo 3P) que hacen mxima la funcin de
verosimilitud L. La solucin a este problema est bien resuelto:
consiste en encontrar las soluciones del sistema de ecuaciones que se
obtiene al igualar a cero la derivada de L respecto a cada parmetro.
El sistema no tiene solucin analtica y se recurre a procedimientos
numricos para encontrar sus soluciones (ver Baker, 1992;
Hambleton y Swaminathan, 1985;). Por razones de simplicidad
matemtica, se suele maximizar LnL en vez de L, pues es ms fcil
de operar con LnL y se encuentran las mismas soluciones en uno y
otro caso. Por lo tanto, si tenemos N personas y n tems, la expresin
a maximizar sera la siguiente:

[ ]

+
N
i
n
j
ij ij ij ij
Q u P u L
1 1
ln ) 1 ( ln ln

25
Una explicacin detallada y en castellano del procedimiento
aproximacin numrica (de Newton-Raphson) se encuentra en Lpez
Pina (1995, apartado 5.2.3) y en Santisteban y Alvarado (2001,
apartado 2.3 del captulo de estimacin).
El mtodo de estimacin de mxima verosimilitud tiene una
caracterstica que dificulta su uso para estimar progresivamente el
nivel de rasgo de una persona a la que se aplica un TAI: no permite
obtener estimaciones finitas de mientras un sujeto tiene un patrn
constante de respuestas (todo aciertos o todo errores). En el modelo
1P, si una persona responde a n tems, cuyos parmetros suponemos
conocidos, el estimador mximo verosmil de su nivel de rasgo es el
valor de obtenido al igualar a cero la expresin:

Se puede comprobar que a) si slo ha habido aciertos (es decir u
ij

= 1, i: 1, 2, .. n), cuanto mayor es , ms se acerca P al valor de 1 y
por lo tanto ms cerca estamos de la solucin de la ecuacin. b) Si
slo ha habido errores, ocurre lo mismo cuanto ms pequeo sea .
Dicho de otro modo, cuando una persona obtiene un patrn constante
de respuestas no puede obtenerse un mximo en la funcin de
verosimilitud.
Una manera de resolver este problema es utilizar un
procedimiento de estimacin bayesiano, que permitir obtener
estimaciones finitas an con patrones constantes de respuesta. La idea
fundamental es incorporar a la funcin de verosimilitud informacin
sobre la distribucin a priori del rasgo en la poblacin. As, este tipo
de procedimientos establecen que el estimador de ser la moda
(estimacin bayesiana MAP) o la media (estimacin bayesiana EAP)
de la distribucin de probabilidad posterior de , P(|u), cuya
expresin es:

) ( / ) ( ln
1
ij ij
n
i
j
P u D u L

26

donde g() es la funcin de densidad (distribucin a priori) del rasgo,
L(u|) es la funcin de verosimilitud y L(u) es la verosimilitud del
patrn de respuestas u independientemente de .
Dado que el denominador es un valor concreto, puede afirmarse
que la funcin de densidad posterior, P(|u), es proporcional al
producto de la distribucin a priori y la funcin de verosimilitud. Esto
significa que si la funcin g() fuera la uniforme, el estimador
bayesiano coincidira con el mximo verosmil. Siguiendo a Baker
(1992), puede demostrarse que, siendo g() una distribucin normal
N(,), para la estimacin bayesiana MAP el mximo se encuentra
resolviendo la ecuacin:

Como puede verse en la expresin anterior, el estimador MAP
proporciona estimaciones finitas para , an con patrones constantes
de respuesta, dada la incidencia del primer sumando en la ecuacin.
La estimacin de parmetros en TRI es un asunto complejo. Los
procedimientos de estimacin vistos se combinan con tres estrategias
distintas y dan lugar a los mtodos de estimacin conjunta, marginal
o condicionada. En el primer caso, se estiman simultneamente los
parmetros de los tems y de las personas. En el segundo, a partir de
la distribucin conjunta de los tems y de las personas, se obtiene la
distribucin marginal de los estimadores de los parmetros de los
tems, y a partir de esta informacin se obtienen los parmetros de las
personas. En los mtodos condicionados los parmetros de los tems
se obtienen a partir de su distribucin condicionada, en vez de la
marginal. Puede encontrarse una descripcin detallada de estos
mtodos y sus caractersticas en Santisteban y Alvarado (2001,
cap.5) y Revuelta y Ponsoda (2001, cap.3).

) ( ) (
) (
) | ( ) (
) | (

u L g
u L
u L g
u P
0 ) (
) (
1
2
+
ij ij
n
i
P u D


27
2.5.- Precisin de las estimaciones

Una de las propiedades de la estimacin de mxima
verosimilitud es que, asintticamente (es decir, con un nmero
razonablemente grande de tems), la distribucin del estimador de
es normal, con media y varianza igual a:

donde Pes la derivada del correspondiente modelo. La raz cuadrada
de la expresin anterior ser el error tpico de medida (Se). El
denominador de la expresin se denomina informacin del test o
informacin de Fisher, y suele simbolizarse como I(). Dicho de otro
modo, la informacin de un test para un valor de rasgo concreto es el
inverso de la varianza del estimador para ese nivel. Puede observarse
que la informacin del test es el resultado de sumar las informaciones
de los n tems que lo integran. De la misma forma, la relacin entre el
error tpico de medida y la informacin puede expresarse como:

El valor de I() para cada uno de los modelos logsticos se
obtiene de la siguiente forma:

1) Para el modelo 1P:

n
i
i i
i
Q P
P
1
2
2
) |
(
1

) (
1
I
S
e
i i
Q P D I
2
) (

28
2) Para el Modelo 2P:

3) Para el modelo 3P:

A partir de las expresiones anteriores puede verse que la
informacin de un test, y por tanto el error tpico de medida, para un
determinado nivel de rasgo, depende fundamentalmente: a) de los
parmetros de discriminacin de los tems (cuanto mayores sean los
parmetros a, mayor ser el valor de la informacin), b) de los
parmetros de pseudoazar (cuanto ms bajos sean los valores de c,
mayor ser la informacin), c) del nmero de tems que tenga
(suponiendo que los tems tienen las propiedades psicomtricas
usuales, a mayor longitud, mayor informacin), y d) de la
convergencia entre el nivel de rasgo y los parmetros de dificultad b
de los tems (cuanto ms prximos sean, mayor ser el producto PQ,
y por tanto ms elevada ser la informacin). Esto tiene una capital
importancia para conseguir los objetivos que se pretenden con la
aplicacin de los TAIs: a pesar de aplicar pocos tems, particularidad
que en principio dificultara la obtencin de una adecuada precisin
en la medida, conseguiremos buenos niveles de precisin si
presentamos a una persona los tems ms apropiados para su nivel de
rasgo, es decir, aquellos tems discriminativos y de dificultad
apropiada para su nivel.
En la figura 5 se representan las funciones de informacin de los
5 tems y del test completo que sirvieron como ejemplo (tabla 1,
apartado 2.3) para describir el clculo de la funcin de verosimilitud,
siguiendo el modelo 1P.

i i
Q P a D I
2 2
) (
2
2 2
2
) 1 (
) (
) (
c P
c P Q a
D I
i
i i


29
Figura 5. Funciones de Informacin de los tem y del test

A partir de la grfica concluimos que el test resulta ms
informativo para valores centrales de rasgo que para niveles
extremos. Resulta curioso que, a pesar de que el test dispone de 5
tems heterogneos en dificultad (lo cul podra hacernos pensar que
resultara igualmente informativo para los diferentes niveles de
rasgo), los niveles ms elevados de precisin se obtienen para un
rango de valores centrales de rasgo, lo cul resulta bastante habitual
en la mayora de los tests o bancos de tems de rendimiento ptimo.
Adems, dado que se aplica el modelo 1P, podemos comprobar que el
mayor nivel de informacin de un tem coincide con los valores que
se aproximan a su dificultad.
En el caso de la estimacin bayesiana MAP, la varianza del
estimador es de nuevo asintticamente el inverso de la funcin de
informacin (Mislevy y Bock, 1990), que en este caso queda como :

4,00
3,50
3,00
2,50
2,00
1,50
1,00
,50
,00
-,50
-1,00
-1,50
-2,00
-2,50
-3,00
-3,50
-4,00
I()
1,0
,8
,6
,4
,2
0,0
ITEST
I1
I2
I3
I4
I5

30

con lo que puede observarse que la informacin para un mismo nivel
de rasgo es mayor en este mtodo bayesiano que en el mtodo de
mxima verosimilitud (tanto mayor cuanto menor sea la dispersin de
la distribucin a priori de ).
) (
1
) (
2

I J +

Captulo 3

Diseo del banco de tems

3.1.- Componentes de un banco de tems

Un banco de tems se puede considerar como una base de datos
sobre los tems que est formada por una parte sustantiva (enunciado,
opcin correcta, opciones incorrectas), cierta informacin
psicomtrica (parmetros estimados de los tems desde los desarrollos
de la TCT o de la TRI) y cualquier otra que pueda ser relevante (v.g.
contenido que mide cada tem, tasas de exposicin en aplicaciones
precedentes, distribucin de respuestas en los distractores, etc.).
Ningn algoritmo adaptativo resolver los problemas de
representacin, tamao o calidad psicomtrica que pueda tener un
banco de tems. Por tanto, todas las orientaciones que se establecen
para elaborar un buen banco (ver, por ejemplo, Barbero, 1999) son de
general aplicacin al caso en que el banco de tems sea la base
sustantiva fundamental de un TAI.

3.2.-Elaboracin de tems

a) Formato, n de opciones y especificaciones de contenido.

Como en cualquier test, los tems del banco pueden incluir
informacin verbal o grfica, que puede ser presentada de forma

32
esttica o dinmica mediante medios tcnicos diversos (la propia
pantalla, sistemas audio o vdeo, etc.).
Cuando se pretende medir el rendimiento mximo (v.g.
conocimientos o rasgos intelectuales), lo ms usual es utilizar un
formato de respuesta de eleccin mltiple, aunque se estn probando
sistemas adaptativos para tems de respuesta construida, como pueden
ser los que se desarrollan para evaluar el nivel de conocimientos en
matemticas o en programacin informtica. Algunos trabajos que
estudian el nmero ptimo de opciones que deben tener los tems
(Abad, Olea y Ponsoda, 2001) concluyen que tanto los indicadores
psicomtricos clsicos como los derivados de la TRI se mantienen en
niveles aceptables cuando se elaboran 3 buenas opciones de
respuesta. Cuando el objetivo es la medicin del rendimiento tpico
(v.g. rasgos de personalidad o actitudes) se establece un formato de
respuesta de categoras ordenadas.
De cualquier forma, en uno u otro formato, todas las
consideraciones tcnicas sobre la construccin de tems deben tenerse
en consideracin en la elaboracin del banco (ver, por ejemplo,
Prieto y Delgado, 1996). Entre otras muchas cosas, y
fundamentalmente cuando se quiere realizar una determinada
clasificacin de los sujetos a partir de sus puntuaciones en el TAI
(aprobado-suspenso, apto-no apto, admitido-excluido, etc.), resulta
importante el asesoramiento por parte de los especialistas en el
contenido que pretende medir la prueba. Por ejemplo, en pases donde
se aplican TAIs de conocimientos para objetivos de licenciatura, de
acceso a determinado tipo de estudios o de certificacin, suele
formarse un comit tcnico, formado por miembros de la asociacin
profesional, especialistas en el campo de inters y expertos en
Psicometra, que se encargan de establecer los objetivos del test, los
criterios de rendimiento mnimo que definen el punto de corte, as
como de realizar la construccin inicial y la revisin tcnica del
banco de tems. Estos especialistas son tambin los que indican a los
psicmetras qu mnimos de contenidos (v.g. cierto nmero de tems
para cada una de las categoras diferentes especificadas) deben estar
incluidos en todas las aplicaciones del TAI, de cara a preservar la
validez de contenido de las estimaciones que se realicen.
CAPTULO 3. DISEO DEL BANCO DE TEMS

33
Para preservar el supuesto de independencia local, conviene que
se cuide especialmente la redaccin de tems, de modo que un tem no
proporcione pistas para responder correctamente otro tem. En el caso
de que varios tems tengan evidentes relaciones sustantivas entre s,
conviene establecer ciertas restricciones en el algoritmo de seleccin
para que no se presenten simultneamente a un mismo sujeto.

b) Tamao del banco

El nmero de tems que deben elaborarse tiene mucho que ver
con otras consideraciones prcticas como, por ejemplo, con la
cantidad de restricciones que se establecen en el algoritmo de
seleccin de tems, con el nmero previsible de aplicaciones del TAI
en un futuro inmediato o con el propsito de disear bancos de tems
diferentes que se vayan rotando en las sucesivas aplicaciones.
Renom (1993) revisa varios trabajos donde se plantea el nmero
de tems que debe tener un banco que se va a emplear en un TAI.
Algunos autores recomiendan un mnimo de 100 tems, aunque lo
normal es que tenga ms de 500. Otros aconsejan que el banco tenga
10 veces ms tems que los que se van a emplear como promedio en
la aplicacin del TAI. Muchos de los TAIs operativos disponen de
bancos con ms de 1000 tems (Wise y Kingsbury, 2000). El CAT-
ASVAB, quizs el buque insignia de los TAIs, comenz con la
redaccin de unos 4000 tems (450 para cada una de las 9 reas de
contenido que incluye). El sistema CARAT (Computerized Adaptive
Reporting and Testing), empleado en Portland para evaluar 5 reas
diferentes de conocimientos en educacin primaria y secundaria,
dispone de un banco total de conocimientos matemticos de 6.500
tems calibrados, de los que se van construyendo bancos parciales
para diferentes niveles educativos (varios para cada nivel) que se van
usando de forma rotatoria por razones de seguridad.
Cuando se establecen diferentes categoras de contenido,
conviene que en cada una haya un nmero parecido de tems (o en su
caso un nmero proporcional a las restricciones establecidas en el
algoritmo de seleccin) ya que, de lo contrario, los tems que
pertenecen a las categoras menos numerosas pueden sobrexponerse
en las sucesivas aplicaciones del TAI. Adicionalmente al tamao

34
requerido, algunos autores (Bergstrom y Lunz, 1999) aconsejan que
la distribucin de la dificultad de los tems sea similar a la del rasgo
de la poblacin de examinados.

3.3.- Calibracin

Uno de los requerimientos que resultan ms costosos en un TAI
tiene que ver con la necesaria calibracin del banco de tems a partir
de los desarrollos de un modelo concreto de la TRI. Algunos estudios
empricos (Hetter, Segall y Bloxon, 1994) concluyen que la
calibracin realizada a partir de la aplicacin en lpiz y papel
proporciona resultados comparables a la que se obtiene en
aplicaciones informatizadas de los mismos tems. Desde un punto de
vista operativo, este dato resulta importante dado que la aplicacin
informatizada siempre resulta ms costosa a todos los niveles.
Para el proceso de calibracin debe decidirse el tamao mnimo
muestral recomendable, el modelo TRI ms apropiado y si se va a
establecer un determinado diseo de anclaje y equiparacin. Como en
cualquier otro test, deben comprobarse tambin el grado de ajuste de
los tems al modelo TRI seleccionado y otras propiedades
psicomtricas adicionales.

a) Tamao muestral

El tamao de la muestra que se requiere para la calibracin tiene
que ver fundamentalmente con el nmero de tems que tiene el banco
(o cada uno de lo bloques de tems que se establezcan) y con el
modelo de TRI que se va a aplicar (los modelos con ms parmetros
requieren tamaos muestrales mayores). Una de las ventajas del
modelo de Rasch es que exige un tamao muestral sensiblemente
inferior a otros modelos (con 200 sujetos puede ser suficiente).
Renom y Doval (1999) comentan que suele aceptarse como mnimo
un tamao muestral de 500 personas por cada bloque de tems en que
se divida el banco en el diseo de anclaje (vase el subapartado
siguiente). Un tamao insuficiente puede dar lugar a estimaciones de
los parmetros de los tems con alto nivel de imprecisin. En el caso

35
de los TAIs, por ejemplo, la sobrestimacin de los parmetros de
discriminacin de ciertos tems puede dar lugar a medidas
sobrestimadas de precisin. De todas formas, siempre pueden
plantearse estudios de simulacin para determinar los niveles de error
y sesgo en la estimacin de los parmetros que se obtienen con un
banco concreto y ciertas condiciones muestrales particulares (tamao,
distribucin del nivel de rasgo, etc.).
A veces, las condiciones reales llevan, por ejemplo, a calibrar
mediante el modelo 3P un banco de 164 tems de razonamiento
matemtico en una muestra de 200 sujetos (Zickar, Overton, Taylor y
Harms, 1999), ya que el TAI correspondiente se aplicaba con
objetivos de seleccin de programadores informticos en una empresa
de servicios financieros. Dada la escasez del tamao muestral, estos
autores procedieron mediante simulacin a calibrar el banco bajo dos
condiciones muestrales distintas (200 y 1000 sujetos simulados),
comprobando que bajo ambas condiciones los niveles de precisin y
sesgo que proporcionaba el TAI resultaban comparables.
Por poner otro ejemplo, los estudios de calibracin del banco de
tems del CAT-ASVAB, aplicando los desarrollos del modelo 3P, se
realizaron a partir de las respuestas de 1500 sujetos por tem.

b) Diseo de anclaje y equiparacin de parmetros

El elevado nmero de tems que contienen los bancos hace
muchas veces inviable su aplicacin completa a los mismos sujetos
para realizar la calibracin. Una solucin posible a este problema
sera aplicar subconjuntos diferentes de tems a muestras distintas de
sujetos, y proceder por separado a la calibracin de esos tests. Ahora
bien, si no se ha fijado la escala de medida para los niveles de rasgo
(su origen y su unidad de medida) los parmetros que se estimen para
los tems no estarn expresados en la misma escala de medida. Para
resolver este inconveniente, suele establecerse un diseo de anclaje
cuya versin ms comn consiste en dividir el banco en diversos
tests diferentes que tienen un conjunto de tems en comn
(denominado como test de anclaje). Los diferentes tests sern
aplicados a muestras diferentes de sujetos. Por ejemplo, si el banco
est formado por 100 tems pueden elaborarse 2 tests (X, aplicado en

36
la muestra 1, e Y, aplicado en la muestra 2) de 60 tems, cada uno
con 40 tems diferentes y 20 que son comunes a ambos (test de
anclaje -V-). Se trata de que el test de anclaje sea representativo del
banco completo (v.g. en cuanto a dificultad prevista o en relacin a
los subdominios que representan) y que suponga alrededor del 20%
del nmero de tems que tienen los diferentes tests a equiparar (vase
Navas, 1996).
Dado que los tems que componen el test de anclaje V se han
aplicado a muestras diferentes, el proceso de equiparacin de
parmetros de los tems ms extendido consiste en seguir el
procedimiento siguiente:

a) Por tratarse de los mismos tems, las estimaciones de
dificultad de los tems de V habrn de estar relacionadas
linealmente. Por tanto, podremos expresar la dificultad de un
tem en un grupo en funcin de la dificultad que ha
correspondido a ese mismo tem en el otro grupo, mediante la
ecuacin:
1 2
kb d b +
donde b
1
y b
2
son las estimaciones de los parmetros de
dificultad de los tems que forman el test de anclaje V
obtenidas en el grupo 1 y 2, respectivamente.
A partir de las dificultades de los tems de V en los dos
grupos se obtienen las constantes k y d. Una posibilidad es
tomar como valores de k y d los coeficientes de la ecuacin
de regresin lineal que mejor predice las dificultades en el
grupo 2 partir de las del grupo 1. Otra posibilidad (Muiz,
1997, pag. 154 y ss) es aplicar las siguientes expresiones:
) 1 (
) 2 (
b
b
S
S
k

siendo el numerador la desviacin tpica de los parmetros de
dificultad de los tems que forman V en el test Y (aplicado al
grupo 2), y el denominador la correspondiente en el test X
(aplicado al grupo 1).
2 1
b b k d +


37
donde b
1
y b
2
son, respectivamente, las medias de los
parmetros de dificultad de los tems de anclaje obtenidas en
los tests X e Y.

b) Una vez transformadas las estimaciones de dificultad de los
tems de anclaje del grupo 1 a la mtrica del grupo 2,
mediante la misma ecuacin pueden transformarse las
estimaciones de dificultad del resto de tems (en nuestro
ejemplo, 40) aplicados al grupo 1, a la mtrica establecida
como definitiva.

c) Si se han aplicado el modelo 2P o el modelo 3P, la
transformacin para las estimaciones de los parmetros de
discriminacin es:
k
a
a
1
2

Los parmetros de pseudoazar no necesitan transformacin.

Aunque nuestro ejemplo se limita a establecer nicamente dos
bloques de tems, en situaciones operativas con bancos muy grandes
(por ejemplo en el caso del banco inicial que soporta el CAT-
ASVAB) se establecen hasta ms de 40 bloques distintos de tems
con tests de anclaje encadenados. El banco de matemticas del
sistema CARAT se dividi en 134 bloques.
Por otra parte, cuando un TAI tiene versiones iniciales en lpiz y
papel, suelen establecerse diseos de anclaje para equiparar sus
estimaciones de rasgo; es decir, para expresar las estimaciones del
TAI en la misma escala en que se expresaban las estimaciones en el
test convencional. En el caso del CAT-ASVAB, por ejemplo, se us
el mtodo de equipercentiles basado en las puntuaciones directas, que
era la escala del test de lpiz y papel de partida.


38
c) Modelo de TRI

Aparentemente, el modelo 3P siempre sera preferible, en la
medida que es el que permite mayor flexibilidad para dar cuenta de
los datos empricos. Sin embargo, esto no siempre resulta as de claro
porque, entre otras cosas, la cantidad de parmetros que se tienen que
estimar en este modelo (3*N de tems) requiere tamaos muestrales
mucho ms grandes que, por ejemplo, el modelo 1P. De hecho,
bastantes de los TAIs operativos que ms se usan (v.g. el CAT-GRE
o pruebas adaptativas para la certificacin de la profesin de
especialistas mdicos) se fundamentan en bancos de tems calibrados
mediante el modelo de Rasch. El sistema MATHCAT emplea el
modelo logstico de dos parmetros, ya que dispone de un
procedimiento de respuesta construida (teclear una solucin
numrica) donde es mnima la probabilidad de acierto aleatorio.
Una vez aplicado el banco, algunos estudios preliminares
pueden ayudarnos a decidir sobre el modelo de TRI ms apropiado.
Por ejemplo, obteniendo las tasas de acierto de los sujetos con bajo
nivel de rasgo en los tems ms difciles podemos tener informacin
sobre el grado en que se han producido aciertos por azar (lo cul
podra aconsejar la aplicacin del modelo 3P). Estudiando la
variabilidad de los ndices clsicos de discriminacin de los tems,
relacionados con sus parmetros a
j
, podemos obtener una
informacin inicial sobre la viabilidad del modelo 1P. Suele ser
frecuente en estas fases iniciales de anlisis de tems obtener los
indicadores psicomtricos clsicos y, por ejemplo, eliminar los que
obtienen correlaciones biseriales bajas con las puntuaciones directas
en el total de la prueba. De cualquier forma, existen indicadores
estadsticos de bondad de ajuste que pueden aplicarse para tomar la
decisin sobre los tems a eliminar y sobre el modelo a elegir.

d) Ajuste al modelo

Como ya dijimos, una de las principales ventajas de la TRI en
relacin a la TCT es que puede contrastarse el grado de ajuste de los
modelos a los datos empricos. En este sentido, las principales
comprobaciones que deben hacerse con el banco de tems elaborado

39
inicialmente tienen que ver con: a) el grado de cumplimiento del
supuesto de unidimensionalidad, b) el grado de invarianza de los
parmetros (de los sujetos y de los tems) estimados, y c) el grado en
que el modelo predice los resultados empricos observados.
Respecto al tema de la unidimensionalidad, Wise y Kingsbury
(2000) recuerdan muy apropiadamente que un banco no tiene una
dimensionalidad determinada, sino que esta es una cualidad de las
respuestas emitidas por las muestras de sujetos que lo responden, y
por tanto puede variar de una muestra a otra. Por tanto, el grado de
unidimensionalidad de un banco debe analizarse cuando se disea por
primera vez, cuando se aplica a muestras diferentes de la inicial y,
desde luego, cuando se aaden nuevos tems. En el apartado 2.2
hemos visto algunos de los procedimientos ms utilizados para
evaluar el grado de unidimensionalidad.
En cuanto a la invarianza de los parmetros, pueden realizarse
dos comprobaciones distintas:

a) En relacin a la invarianza de las estimaciones de , podemos
obtener la correlacin entre los niveles de rasgo que se
estiman para toda la muestra de sujetos con dos submuestras
distintas de tems (v.g. los fciles en el primer subtest y los
difciles en el segundo). La correlacin entre ambas
estimaciones debera ser prxima a 1.
b) En cuanto a la invarianza de las estimaciones de los
parmetros de los tems, puede procederse a la calibracin
del banco en dos submuestras distintas (v.g. una formada por
los sujetos de menos nivel y la otra por los sujetos con ms
elevadas estimaciones de rasgo). Si aplicamos el modelo 1P,
la correlacin entre los valores bj estimados en ambas
submuestras debera ser prxima a 1.

En realidad, la invarianza de los parmetros es una propiedad
derivada de un buen ajuste del modelo. Se han propuesto indicadores
estadsticos de bondad de ajuste para comprobar el grado en que cada
tem individualmente o el banco de tems al completo se ajustan a un
modelo determinado. Uno de los procedimientos ms comunes
(Bock, 1972; descrito en Muiz, 1997, pp. 73 y ss) consiste en

40
comparar las CCI empricas y tericas, siguiendo el siguiente
procedimiento:

a) Dividir el continuo de rasgo en k intervalos o categoras
diferentes.
b) Obtener la probabilidad terica P(
j
) asociada al punto medio
del intervalo que predice el modelo correspondiente.
c) Obtener la proporcin emprica de aciertos - P
e
(
j
)- de cada
una de las categoras.
d) A partir de los datos anteriores, calcular el valor que asume el
estadstico:

con distribucin Chi-cuadrado con k-s grados de libertad,
siendo s el nmero de parmetros del tem segn el
correspondiente modelo TRI. Los valores de Q superiores a
los valores crticos tabulares correspondientes indicarn un
desajuste estadstico entre el modelo y los datos empricos en
el tem. Si sumamos los n valores Q de un banco de tems,
obtendramos un indicador global de ajuste con distribucin
Chi-cuadrado con[(n-1)(k-s)] grados de libertad.

e) Software

Quizs el programa para la estimacin de parmetros ms
empleado en la actualidad sea la versin para Windows de BILOG
(Mislevy y Bock, 1990) que emplea el mtodo de mxima
verosimilitud marginal y los mtodos bayesianos EAP y MAP para
estimar los parmetros de los 3 modelos logsticos. ASCAL y
RASCAL (Assesment Systems Corporation, 1994) permiten realizar,
respectivamente, una estimacin pseudobayesiana segn los modelos
2P y 3P (ASCAL) y 1P (RASCAL), de tal forma que combina una
estimacin de mxima verosimilitud conjunta con el procedimiento
[ ]
[ ]
2
1
) ( 1 ) (
) ( ) (
k
j
j j
j e j j
P P
P P n
Q


41
bayesiano MAP para la estimacin de los niveles de rasgo, asumiendo
su distribucin normal en la poblacin. MULTILOG (Thissen, 1991)
y PARSCALE (Muraki y Bock, 1996) realizan las estimaciones de
los tres modelos logsticos y las de la mayora de los modelos
politmicos; el primero permite la aplicacin de modelos politmicos
nominales y ordinales, y realiza una estimacin mximo verosmil
marginal para los parmetros de los tems y permite la estimacin
bayesiana para los parmetros de rasgo; el segundo realiza una
estimacin de mxima verosimilitud marginal para los parmetros de
los tems con formato de respuesta ordenada. Existen programas
especficos de estimacin para el modelo de Rasch (v.g. WINSTEPS,
FACETS,...) que proporcionan informacin ms detallada sobre las
propiedades de los parmetros estimados.

3.4.- Propiedades psicomtricas

Hemos indicado que, en principio, cuanto mayor sea el nmero
de tems que incluye el banco mayor eficiencia tendremos en la
aplicacin del TAI. Si el rango de los niveles de rasgo de la muestra
es amplio, conviene disponer de un banco cuyos tems sean
heterogneos en sus parmetros de dificultad (idealmente, la
distribucin del nmero de tems para cada valor de dificultad debera
ser uniforme) y tengan parmetros de discriminacin elevados (con
un nmero muy elevado de tems para discriminaciones superiores a
1). Por el contrario, si los objetivos de la aplicacin son selectivos,
conviene que existan muchos tems de dificultad apropiada para el
nivel de rasgo donde se situar el punto de corte (no puede ocurrir,
por ejemplo, que existan pocos tems difciles si se va a admitir
aproximadamente al 2% de los candidatos que se presentan a un
proceso de seleccin). La representacin grfica de la funcin de
informacin ser ilustrativa de la precisin que tendr el banco para
diferentes niveles de rasgo. Si, como suele ocurrir, la distribucin de
los parmetros de dificultad no es uniforme (dado que se dispone de
pocos tems adecuados para los niveles extremos de rasgo), es muy
probable que las estimaciones de dichos niveles extremos se realicen
con ms imprecisin que la asociada a los niveles centrales.

42
Una parte importante de la investigacin que hemos desarrollados
sobre tests adaptativos y autoadaptados ha tenido su base sustantiva en
un banco de tems de vocabulario ingls, cuyas propiedades se
describen en Olea, Ponsoda, Revuelta y Belch (1996). El banco inicial
estaba formado por 250 tems, cada uno de los cuales consta de la
correspondiente palabra inglesa junto a 5 alternativas de respuesta,
entre las que se encuentra su traduccin correcta al castellano. Se
intent incluir palabras inglesas usualmente conocidas para diversos
niveles de dominio del idioma y de categoras gramaticales variadas.
El banco se aplic inicialmente, mediante soporte informtico y de
forma aleatoria, a una muestra de 425 personas
1
de diferentes niveles
educativos (desde estudiantes de educacin secundaria hasta doctores).
Cada persona debe seleccionar mediante el teclado la alternativa que
considera como correcta y confirmar su respuesta mediante la barra
espaciadora. A partir de las respuestas de esta muestra se obtuvo para
cada tem, mediante los programas ITEMAN y ASCAL (Assessment
Systems Corporation, 1994): a) su ndice de discriminacin (correlacin
biserial tem-test), b) sus parmetros de discriminacin (a), dificultad
(b) y pseuodoazar (c) segn el modelo 3P, y c) el grado de ajuste
(medida Chi-cuadrado) de los datos empricos al modelo. La
variabilidad de los ndices de discriminacin y la evidente posibilidad
de acierto aleatorio nos hizo elegir este modelo. Se eliminaron 29 tems
por no manifestar buenos indicadores (ndices de discriminacin bajos o
valores Chi-cuadrado muy elevados), con lo que el banco definitivo
qued constituido por 221 tems, cuyas propiedades psicomtricas
fundamentales se detallan en las figuras 6, 7 y 8:

1
Reconocemos la posibilidad de cierto grado de inestabilidad de los parmetros
estimados, debida a la ratio tan exigua entre sujetos e tems y al nmero elevado de
opciones de respuesta que stos tienen. El tamao muestral empleado en este trabajo no
debe ser tomado como ejemplo de las necesidades muestrales que exige el modelo 3P.

43
Figura 6. Distribucin de parmetros de discriminacin

Figura 7. Distribucin de parmetros de dificultad

Figura 8. Informacin segn nivel de rasgo

Como puede observarse en la figura 6, la mayora de los tems
tienen parmetros de discriminacin aceptables (entre 0.8 y 1.5).

parmetro de discriminacin (a)
2.3 2 1.7 1.4 1.1 0.8 0.5 0.25
N
40
30
20
10
0

parmetro de dif icultad (b)
3.2 2.4 1.6 0.8 0 -0.8 -1.6 -2.4 -3.2
N
30
20
10
0

44
Figura 8. Informacin segn nivel de rasgo

Respecto a los parmetros de dificultad (ver figura 7), la
distribucin de frecuencias resulta bastante uniforme, excepto para
los niveles de rasgo extremadamente altos. En la Figura 8 podemos
ver que la funcin de informacin no es simtrica respecto al nivel de
rasgo cero, con lo que el banco resulta ms informativo para los
niveles medios-altos que para los medios-bajos; podemos constatar
adems que resulta muy informativo para los niveles centrales de
rasgo (aproximadamente entre 2 y 2). En relacin al parmetro de
pseudoazar, la inmensa mayora de los tems obtuvieron un parmetro
estimado entre 0.18 y 0.25, lo cul resulta bastante coherente si
recordamos que el nmero de opciones de respuesta de cada tem era
5.
Para comprobar el grado de unidimensionalidad del banco, se
obtuvo la matriz de correlaciones tetracricas entre los 221 tems, con el
programa PRELIS de la versin para Windows de SPSS. El primer
autovalor de esta matriz represent el 25.0% de la varianza total, lo que
result sustancialmente ms elevado que la varianza explicada por el
segundo autovalor (5.7%).
En relacin a su validez como una medida del dominio del idioma
ingls, se realizaron algunas comprobaciones adicionales. En primer

niveles de rasgo
3.5 2.5 1.5 0.5 -0.5 -1.5 -2.5 -3.5
i
n
f
o
r
m
a
c
i
n
60
50
40
30
20
10
0

45
lugar, en una muestra de 62 personas, las estimaciones de su nivel de
vocabulario realizadas mediante el modelo 3P se correlacionaron con 3
puntuaciones del Oxford Placement Test (Allan, 1992): con el subtest
de gramtica (r=0.69), con el de listening (0.55) y con la puntuacin
total (0.76). En segundo lugar, a partir de las respuestas de la muestra de
calibracin, se aplic un anlisis de varianza de un factor, donde la
variable independiente era el nivel educativo (1 , 2 , 3 y 4 de
secundaria, estudiantes universitarios y doctores) y la dependiente, las
estimaciones del nivel de vocabulario. Prcticamente todas las
comparaciones de medias resultaron significativas, lo que indica la
capacidad del banco para discriminar los niveles de vocabulario
obtenidos en los diferentes niveles acadmicos.

3.5.- Mantenimiento y renovacin del banco de
tems

Respecto al mantenimiento, los estudios sucesivos del banco
pueden llevarnos a eliminar tems con propiedades psicomtricas
inadecuadas (por ejemplo, tems desajustados al modelo de TRI
empleado, otros defectuosos en su redaccin o algunos escasamente
discriminativos). El estudio de las tasas de exposicin de los tems
(nmero de veces que se han presentado a diversos evaluandos)
puede hacer que los responsables de la aplicacin decidan posponer la
presentacin de tems que aparecen en un porcentaje elevado de las
aplicaciones del TAI.
De cara a la renovacin y ampliacin del banco, en los TAIs
operativos suelen incorporarse progresivamente nuevos tems, que no
se usan para estimar el nivel de rasgo de los evaluandos. La
estimacin de los parmetros de estos tems nuevos se realiza
mediante un procedimiento denominado como calibracin online,
considerando como parmetros de los sujetos las estimaciones
realizadas en el TAI con los tems antiguos y reduciendo as el
problema estadstico a la estimacin de los parmetros de los nuevos
tems. En el caso del CAT-ASVAB, los tems experimentales que se
incluyen en los TAIs operativos (uno slo en cada aplicacin) se
incorporan al inicio del test, cuando para un sujeto se aplican tems de

46
diferente dificultad debido a que las estimaciones de rasgo no son
precisas en las primeras fases de la aplicacin, es decir, cuando se
realizan con pocos tems. Tambin mediante este procedimiento
pueden re-calibrarse los tems originales a medida que se dispone de
ms respuestas a los mismos; Glas (2000) propone varios
procedimientos para estudiar si los datos iniciales y los nuevos
pueden ser descritos mediante el mismo modelo de TRI, es decir, si
en ambos conjuntos de datos se mantienen los valores de los
parmetros estimados.
En el caso de TAIs que se aplican un nmero de veces muy
elevado, y por tanto con elevado riesgo de transmisin del contenido
de los tems de una aplicacin a otra, es posible establecer mltiples
bancos de tems que se van usando de forma rotatoria. As se hace,
por ejemplo, en el caso del CAT-GRE, que dispone de ms de 70
bancos diferentes de tems que se emplean de forma rotatoria en las
sucesivas aplicaciones.

Captulo 4

Algoritmos adaptativos

4.1.- Proceso de aplicacin de un TAI

En la actualidad la mayora de los TAIs siguen estrategias de
seleccin de tems denominadas como estrategias de ramificacin
variable, lo que significa que se realiza una estimacin del nivel de
rasgo tras la respuesta a cada uno de los tems, a partir de la cual se
seleccionar el siguiente tem a presentar.
Calibrado el banco de tems, la aplicacin de un TAI requiere un
algoritmo que incluya: a) un procedimiento para determinar el primer
tem a presentar, b) un mtodo estadstico para estimar despus de
cada respuesta un nivel de rasgo provisional y la precisin asociada a
dicha estimacin, c) un algoritmo para la seleccin sucesiva de tems,
y d) un criterio para finalizar la presentacin de tems. El ncleo
fundamental de un algoritmo adaptativo consiste en establecer la
estrategia de seleccin progresiva de tems que facilite una estimacin
precisa del nivel de rasgo con la presentacin de un nmero reducido de
tems para cada evaluando. El proceso de aplicacin de un TAI a un
evaluando puede resumirse en el diagrama de flujo que muestra la
figura 9.
La sesin se inicia con una determinada estrategia de arranque, que
consiste en establecer de alguna forma el nivel de rasgo inicial que se
asigna al evaluando y que determina, por tanto, cual ser el primer tem
a presentar. Despus de que el evaluando responde al primer tem, se
realiza, mediante procedimientos estadsticos bayesianos o mximo-

48
verosmiles, una primera estimacin (por supuesto, muy imprecisa) de
su nivel de rasgo. Tambin se emplean procedimientos derivados de la
TRI para seleccionar el segundo tem a presentar al evaluando,
considerando que sea apropiado para el primer nivel de rasgo
provisional estimado. As pues, en cada paso del proceso, se procede a
la seleccin y presentacin sucesiva de tems, considerando el patrn de
respuestas (aciertos/fallos) que se dan a los tems precedentes para la
estimacin del nivel de rasgo provisional (y la precisin asociada a esta
estimacin) en ese momento de la aplicacin del TAI. Se requiere
adems algn criterio para dar por terminada la secuencia de
presentacin de tems, que normalmente tiene que ver con la
consecucin de cierto nivel de precisin o con el establecimiento de una
determinada longitud del TAI. Veamos con cierto detalle algunas de las
posibilidades a considerar para cada uno de estos componentes o
requerimientos.

4.2.- Procedimientos de arranque

Existen diversas formas de decidir cul ser el primer tem que
se presentar a un evaluando. La eleccin entre una u otra depender
fundamentalmente de si se dispone o no de informacin previa de los
evaluandos en aplicaciones previas de la prueba o en otro tipo de
variables relacionadas con el rasgo que mide el TAI (v.g. curso, edad
o nivel manifestado en otros tests). En el caso de que se disponga de
informacin previa en determinadas variables, pueden considerarse
como predictoras del nivel de rasgo que interesa y realizarse
estimaciones mediante regresin para decidir el primer nivel que
asignaremos a cada evaluando. Por ejemplo, Schoonman (1989)
utiliza la estimacin en el subtest Names de una batera adaptativa
de aptitudes intelectuales (GATB) para estimar el nivel inicial en los
otros tres subtests que componen la prueba (Computation, Words y
Arithmetic). En el sistema CARAT (Kingsbury y Houser, 1999), si no
se sabe nada del rendimiento previo del alumno, se eligen al azar los
primeros tems (entre los que tienen dificultad media para ese nivel
educativo) para evitar que se repita la secuencia inicial en diferentes
estudiantes; cuando se dispone de evaluacin previa de los alumnos
CAPTULO 4. ALGORITMOS ADAPTATIVOS

49
en otros tests aplicados previamente, se realiza una estimacin
mediante regresin y el TAI comienza con un tem ajustado en
dificultad al nivel de rasgo estimado en la regresin; otras veces se
utiliza como informacin previa sus calificaciones en las asignaturas
que se relacionan con los diversos tests o el rendimiento medio del
nivel educativo actual del evaluando.

Figura 9. Diagrama de flujo de la aplicacin de un TAI


50
Cuando en el proceso de evaluacin, como ocurre en muchos
contextos reales, los responsables de la aplicacin no tienen
informacin relevante sobre el rendimiento previsible de los
evaluandos, la estrategia de arranque puede establecerse:

a) Asignando un nivel de rasgo aleatorio entre un rango de
valores cercano a la media (por ejemplo, un valor
seleccionado al azar entre niveles de rasgo superiores a 0.4 e
inferiores a 0.4).
b) Aplicando un test corto inicial, heterogneo en dificultad y
comn a todos los sujetos, para estimar el nivel de rasgo
inicial a partir de datos empricos.
c) Permitiendo al evaluando que elija el nivel inicial de
dificultad del tem (estrategia tpica de los tests
autoadaptados, que se comentarn ms tarde).
d) Cuando se usan mtodos bayesianos de estimacin de los
niveles de rasgo, puede establecerse como nivel inicial la
media de la distribucin a priori.
e) En algunos tests de certificacin se inicia el TAI con un tem
cuya dificultad se encuentra prxima al nivel que delimita
el punto de corte (Bergstrom y Lunz, 1999). Se establece
tambin una restriccin que consiste en presentar los
siguientes 9 tems con una dificultad que no se separe en ms
de 0.10 logits del punto de corte establecido.
f) La versin adaptativa del GRE comienza con tems fciles,
dado que sus responsables quieren que los estudiantes
acierten los primeros tems para incrementar su motivacin
en la ejecucin del resto de tems.
g) En la aplicacin simulada de ciertos TAIs se elige al azar el
primer tem entre los 10 ms informativos para = -1 (Yi,
2002).

Algunos de estos mtodos pueden tener incidencia en la
estimacin final del nivel de rasgo, fundamentalmente si el nivel
inicial asignado est lejos del nivel verdadero del evaluando. En estos
casos, con una persona en concreto, pueden producirse secuencias
iniciales de errores (o aciertos) que inciden en los niveles de rasgo

51
provisionales estimados tras responder a los primeros tems de la
prueba. Esto tendra incidencia en el nivel de rasgo definitivo
estimado si se aplican pocos tems (alrededor de 10 como criterio de
parada), mientras que se consigue recuperar el nivel de estimacin al
nivel paramtrico si el TAI finaliza despus de aplicar unos 20 tems
(van der Linden y Pashley, 2000).

4.3.- Mtodos de estimacin del nivel de rasgo

Una vez que el evaluando responde al primer tem, se requiere
aplicar un mtodo estadstico para estimar un primer nivel provisional
de rasgo. En tests convencionales, existen programas de ordenador
para estimar el nivel de rasgo, que se aplican despus de obtener el
patrn de respuesta a los tems de cada evaluando. En el caso de un
TAI se requiere la programacin especfica del mtodo estadstico de
estimacin de los niveles de rasgo, ya que dicha estimacin hay que
realizarla tras la respuesta a cada tem, y determina tambin el
siguiente tem a seleccionar. En la aplicacin de un TAI debemos
estimar progresivamente niveles de rasgo, dando por conocidos los
parmetros de los tems, lo cual tiene tambin algunos problemas que
pasamos a comentar, junto a algunas de las soluciones propuestas.
El mtodo de mxima verosimilitud, como se dijo, no
proporciona estimaciones finitas mientras un evaluando tiene un
patrn constante de respuestas (todo aciertos o todo fallos), lo que
puede producirse en los primeros tems que se le presentan. A este
problema se han dado varias soluciones:

a) Herrando (1989) propone que se considere, previamente a la
estimacin del nivel de rasgo tras la respuesta al primer tem,
que el evaluando ha acertado un tem muy fcil (b=-4) y que
ha fallado otro muy difcil (b=4). De esta forma,
incorporando estas respuestas a dos tems ficticios,
conseguiremos tener variabilidad en las respuestas desde el
inicio de la prueba.


52
b) Dodd (1990) propone obtener las sucesivas estimaciones del
nivel de rasgo mediante las frmulas que siguen a
continuacin, hasta que sea posible estimar mediante el
procedimiento de mximo verosimilitud. Se parte de una
estimacin de nivel de rasgo inicial. El primer tem ser el
ms apropiado para dicha estimacin inicial. Si el tem es
acertado, se actualiza el nivel de rasgo mediante la expresin:

Si el primer tem es fallado, la expresin a aplicar es:

donde b
M
y b
m
son, respectivamente, los parmetros de
dificultad mayores y menores de los tems que componen el
banco. Las expresiones se siguen aplicando hasta que se
obtiene un vector de respuestas que contenga tanto aciertos
como errores.

c) Revuelta y Ponsoda (1997) modifican el procedimiento de
Dodd (1990) y proponen que el valor de rasgo actualizado no
sea el punto medio entre el ltimo valor de rasgo y el
parmetro de dificultad, sino la media o la mediana de una
distribucin normal truncada en esos dos valores. De esta
forma se tiene en cuenta la distribucin probable de los
niveles de rasgo en la poblacin.

d) Yi (2002) aplica una estimacin bayesiana EAP hasta que el
vector de respuestas tiene aciertos y errores; a partir de ese
momento aplica un mtodo de mxima verosimilitud.

El problema que tiene el mtodo de mxima verosimilitud con
los patrones constantes de respuesta podra resolverse tambin
2

1
i M
i i
b

+
+
2

1
i m
i i
b

+
+

53
mediante la aplicacin de mtodos bayesianos. Ahora bien, tampoco
estos carecen de problemas:

a) Uno importante es que la estimacin del nivel de rasgo no
depende nicamente del rendimiento de la persona, sino de
los valores de media y varianza que se asignan a la
distribucin a priori del rasgo en la poblacin. Desde un
punto de vista aplicado, este hecho ha dado lugar a demandas
legales en Estados Unidos (Wise y Kingsbury, 2000).

b) Desde un punto de vista terico, dependiendo de la
distribucin a priori establecida puede darse una distribucin
posterior multimodal, con lo que la estimacin bayesiana
MAP puede referirse a un mximo local.

c) Por otra parte, tenemos el problema del sesgo de las
estimaciones que, aunque lo trataremos con ms extensin en
los apartados finales de este texto, avanzamos someramente
en este momento. Normalmente, el sesgo en las estimaciones
es tanto mayor cuanto menor es la longitud del test, con lo
cul podra representar un problema importante si, como es el
caso en los TAIs, se aplica un nmero reducido de tems. Por
otra parte, en TAIs operativos, que establecen un tiempo
lmite global para realizar la prueba, ocurre un problema con
los sujetos que se dejan tems sin responder. En estos casos,
los procedimientos bayesianos sesgan hacia adentro la
estimacin, es decir, proporcionan una estimacin con cierta
regresin hacia la media de la distribucin a priori del rasgo
(lo cul puede favorecer a los sujetos de bajo nivel y
perjudicar a los de alto nivel). De este problema no escapan
los procedimientos de mxima verosimilitud, si bien la
direccin del sesgo es la contraria.


54
4.4.- Algoritmos para la seleccin de tems

Ya desde que se decide arrancar el TAI mediante un
procedimiento concreto, entra en funcionamiento uno de los
componentes fundamentales del algoritmo, que consiste en establecer
la forma de elegir el siguiente tem a presentar despus de estimar el
nivel de rasgo provisional de un evaluando. Mientras ste lee un tem
y piensa sobre su respuesta, el algoritmo realiza los clculos
oportunos para determinar cul ser el siguiente tem a administrar si
se acierta o falla el tem actual. De esta forma, el tiempo transcurrido
entre la emisin de una respuesta y la presentacin del siguiente tem
resulta imperceptible para el sujeto.
Los procedimientos de seleccin de los tems han
experimentado importantes mejoras con el transcurso de los aos. Los
primeros TAIs establecan procedimientos de seleccin de tems
bastante rgidos (ver el apartado 1.2). Prcticamente cualquier
procedimiento actual de seleccin de tems sigue una estrategia de
nivel mltiple con ramificacin variable, que permite actualizar el
nivel de rasgo estimado para una persona despus de responder
progresivamente a los tems que se le presentan. Para un nivel de
rasgo estimado provisionalmente se selecciona el siguiente tem
mediante alguno de estos dos criterios:

a) El criterio de mxima informacin consiste en seleccionar,
del banco de tems disponible en un momento dado de la
aplicacin, el tem con mayor nivel de informacin (ver
apartado 2.4) para el nivel de rasgo actual estimado. En el
caso de estimar el nivel de rasgo por el mtodo de mxima-
verosimilitud, la informacin que suministran los tems tiene
una estrecha relacin con la precisin con la que medimos el
nivel de rasgo. Supongamos que el TAI ha administrado
cinco tems; habr entonces 32 = 2
5
posibles patrones de
respuesta (u
1
, u
2
, .. u
5
). En 30 patrones se podr obtener el
estimador mximo-verosmil. No se podr obtener en los
patrones que slo contengan aciertos o errores. Si
conocisemos el verdadero nivel de rasgo de la persona

55
podramos calcular la varianza del estimador
del siguiente
modo:

, )
)( ,.. , (
30
1
2
5 2 1

i
u u u P V

donde es la media de los estimadores, es decir:

30
1
5 2 1
) ,.. , (
i
u u u P

El TAI, tras el quinto tem, ofrecer como varianza del
estimador el inverso de la informacin que suministran los
cinco tems para el ltimo nivel de rasgo estimado; este valor
es una aproximacin a la varianza real, V. De haber
administrado 50 tems, cabra un razonamiento similar. El
nmero de posibles vectores de respuesta sera mucho mayor
2
50
, solamente en (2
50
2) de los cuales podr obtenerse el
estimador mximo verosmil. La varianza del estimador sera
la varianza de estos posibles valores. Aplicado el test a una
persona, dar lugar a un vector de respuestas. El recproco de
la informacin suministrada por los 50 tems para la ltima
estimacin del nivel de rasgo ser la estimacin de la
varianza del estimador
. Cuanto mayor sea el nmero de

tems, mejor estimacin ser de la varianza real el inverso de
la informacin suministrada por el conjunto de tems
administrado.
Esto significa que si aplicamos este criterio de seleccin de
tems, reduciremos progresivamente lo mximo posible la
incertidumbre sobre el nivel verdadero de rasgo. Si el banco
se ha calibrado mediante el modelo 1P, el tem elegido ser el
que tenga un parmetro de dificultad ms prximo al nivel de
rasgo estimado tras la ltima respuesta del sujeto. Si se ha
empleado el modelo 3P, adems de la proximidad entre

56
ambas estimaciones incidir en la informacin el valor de los
parmetros de discriminacin y pseudoazar.

b) El criterio de mxima precisin esperada, tambin
denominado como mtodo de Owen (1975), es un mtodo de
seleccin bayesiano que consiste en elegir el tem que
proporciona una varianza menor de la distribucin posterior
del nivel de rasgo. Despus de que el evaluando responde a
una secuencia de k tems disponemos de la distribucin
posterior de [es decir, P(u)]. En este punto se estima la
precisin (varianza de la distribucin posterior) que se
conseguira si se acertara o fallara cualquiera de los tems que
quedan disponibles en el banco, seleccionando el que
proporcione una menor varianza, es decir, una mayor
precisin esperada. En este caso ya no se busca el tem que
ms contribuye a la precisin de la estimacin de un nivel
concreto de rasgo, sino el ms apropiado para toda una
distribucin de estimaciones.

Desde un punto de vista aplicado, el mtodo de mxima
informacin ha sido el ms empleado, entre otras cosas porque tiene
la ventaja, cada vez menos importante dada la potencia de los
ordenadores personales actuales, de que permite establecer tablas de
informacin calculadas de antemano, lo cul contribuye a agilizar la
seleccin del siguiente tem. Tiene sin embargo el inconveniente de
quemar tems muy discriminativos entre los primeros que se
presentan, cuando el nivel de rasgo estimado puede estar alejado del
parmetro de rasgo del sujeto. Esto es algo importante, ya que
aparentemente estamos seleccionando tems de alto poder
discriminante, cuando en realidad no es as (lo que se hace es emplear
tems que seran apropiados para otros niveles de rasgo). Por qu
entonces agotar tems que pueden no ser informativos para el nivel de
rasgo real del evaluando y podran sin embargo serlo para otros
sujetos? Dentro de las lneas actuales de investigacin en TAIs
abordaremos algunas alternativas para resolver estos problemas.
El criterio de mxima precisin esperada se fundamenta en el
supuesto de distribucin normal a priori de los niveles de rasgo en la

57
poblacin. Computacionalmente, este mtodo bayesiano es mucho
ms exigente como procedimiento de seleccin de tems. Esto ha
llevado a utilizar procedimientos hbridos de estimacin-seleccin,
como el empleado en el CAT-ASVAB, que realiza una estimacin
bayesiana del nivel de rasgo (con objeto de poder realizar
estimaciones finitas ante patrones constantes de respuesta) pero
selecciona los tems segn el principio de mxima informacin.
Parece (Segall y Moreno, 1999) que el procedimiento hbrido
proporciona mayor precisin y eficiencia (requiere menos tems para
alcanzar un determinado nivel de precisin) que cualquiera de los dos
procedimientos aplicados individualmente.

Un problema comn a ambos mtodos es que presentan muchas
veces los tems ms discriminativos (y de menor parmetro de
pseudoazar cuando se emplea el modelo 3P). Esto puede tener como
consecuencia que estos tems con mayores tasas de exposicin se
difundan entre los evaluandos, con lo cual se pone en riesgo la
seguridad del test y por tanto la validez de las puntuaciones estimadas
a partir de las respuestas de los evaluandos (Wise y Kingsbury, 2000).
Este riesgo exigir el establecimiento de mtodos para el control de
la exposicin, que actualmente representa un requisito de cualquier
TAI que se aplique en contextos de evaluacin un nmero elevado de
veces. Segn datos recientes (Hornke, 2000) existen bancos donde
ms del 80% de los tems prcticamente no se seleccionan en ninguna
de las aplicaciones (pinsese en los costes econmicos asociados a su
elaboracin), mientras que otros se presentan a ms de la mitad de los
evaluandos que reciben el TAI (lo cul incrementa el riesgo de que se
difundan para posteriores aplicaciones). No debe olvidarse que, dada
su escasa longitud, el efecto en ganancia ilegtima que tiene conocer
la respuesta correcta de un tem es mucho mayor en un TAI que en un
test convencional.
Hoy en da, cualquier algoritmo de seleccin de tems de los
TAIs operativos incorpora un procedimiento para reducir la tasa de
exposicin de los tems aplicados ms frecuentemente e incrementar
la de los infrautilizados. Es importante considerar que todos los
procedimientos establecidos para controlar la exposicin tienen
alguna repercusin en la precisin de las estimaciones, ya que tendrn

58
como consecuencia no seguir estrictamente el mtodo de la mxima
informacin. Algunos de los mtodos de control de la exposicin que
ms se aplican en los TAIs operativos son los siguientes:

a) Mtodo 5-4-3-2-1 (McBride y Martin, 1983): consiste en
administrar como primer tem uno al azar entre los 5 ms
informativos; como segundo, otro entre los 4 ms
informativos; y as hasta el quinto, a partir del cul se sigue el
criterio de mxima informacin.

b) Mtodo Randomesque (Kingsbury y Zara, 1989): la
seleccin se realiza siempre al azar entre los 5 tems ms
informativos.

c) Mtodo de Sympson-Hetter (Sympson y Hetter, 1985): quizs
el procedimiento ms utilizado hasta el momento, consiste en
asignar a cada tem un parmetro ki, que vara entre 0 y 1,
para controlar su tasa de exposicin. Este valor se obtiene,
antes de la aplicacin del test, mediante un estudio de
simulacin que pone en relacin la tasa de exposicin
permitida r- (prefijada segn los intereses de la aplicacin) y
la tasa obtenida para cada tem mediante la simulacin de
respuestas de una poblacin amplia (ti). Si ti>r, entonces
ki=r/ti; de lo contrario, ki=1. Durante la aplicacin del TAI se
selecciona el tem ms informativo para el ltimo nivel de
rasgo estimado; se elige al azar un valor aleatorio entre 0 y 1;
si este valor es menor de ki se administrar el tem; de lo
contrario, se sigue con el siguiente tem ms informativo
repitiendo el procedimiento.

La versin experimental del CAT-ASVAB empleaba el mtodo
5-4-3-2-1. Posteriormente se implement el mtodo de Sympson-
Hetter, que precisamente se propuso en el contexto de esta prueba
para resolver algunos de los problemas que manifestaba el mtodo
anterior. En el CAT-GRE se utiliz primero el mtodo Randomesque
(seleccionando al azar entre los 10 tems ms informativos) y con
posterioridad se ha optado por el de Sympson-Hetter. Algunos TAIs

59
para objetivos de certificacin seleccionan al azar cada tem entre los
ms informativos para un determinado rango de niveles de rasgo
(Bergstrom y Lunz, 1999). En el caso de TAIs para objetivos de
licenciatura y certificacin, Way (1998) propuso que: a) el banco
tenga 8 veces ms tems que los que se van a aplicar en cada test, b)
como promedio, cada tem no se presente a ms del 15% de los
candidatos, c) como promedio, para cualquier par de candidatos, no
deben presentarse ms de un 20% de tems comunes, y d) para
cualquier par de personas con similar nivel de rasgo, no deben
solaparse ms de un 40% de los tems. Los requerimientos que
acabamos de exponer precisan la disponibilidad de mtodos
condicionados de control de la exposicin (vase Hontangas,
Ponsoda, Olea y Abad, 2000).
Ninguno de estos mtodos carece de dificultades, pero la ms
importante es que controlan la tasa mxima de exposicin pero no
incrementan de forma apreciable la tasa de exposicin de los tems
menos discriminativos. En apartados posteriores veremos algunas
modificaciones interesantes para resolver estos problemas.
Adems, alguno de los TAIs operativos incorporan restricciones
adicionales en el algoritmo de seleccin de los tems, que pueden ser
de varios tipos. Unas tienen que ver con balancear los contenidos que
deben incluirse en cualquier aplicacin (de forma que se preserve la
validez de contenido del test) y el formato de los tems (para
asegurarse que todos los evaluandos reciben tems con formato
similar). Otras restricciones evitan que se presente a la misma persona
tems relativos al mismo contenido y que por tanto pueden colisionar
con el principio de independencia local. En definitiva, a los criterios
de seleccin de tems estrictamente estadsticos se han aadido otro
tipo de criterios y restricciones, que tienen mucho que ver con que los
clientes de los TAIs (las instituciones o empresas donde se van a
aplicar) los acepten como pruebas justas y de validez aparente. Entre
los procedimientos ms clsicos citaremos los siguientes:

a) Particin del banco. Uno de los primeros procedimientos
para incorporar restricciones no estadsticas en el algoritmo
de seleccin de tems fue propuesto por Kingsbury y Zara
(1989), quienes dividieron un banco segn varias categoras

60
de contenido y establecieron un algoritmo para elegir el tem
ms informativo entre la categora ms numerosa de tems.
Supongamos que cada tem pertenece a una de cuatro
categoras de contenido y que queremos que el test presente
un 30% de los tems de cada una de de las tres primeras
categoras y un 10% de la cuarta. Antes de seleccionar un
tem, el test obtendra el porcentaje de tems administrados de
cada categora y determinara en qu categora la diferencia
entre el porcentaje de tems administrados y el de referencia
es mayor. El siguiente tem a administrar seria el tem de la
categora seleccionada que proporcionase la mxima
informacin para la estimacin del nivel de rasgo actual.

b) Mtodo de las desviaciones ponderadas. Stocking y Swanson
(1993) propusieron un procedimiento para formular
matemticamente las restricciones establecidas por los
expertos (por ejemplo, un lmite mnimo y mximo de tems
para cada categora de contenido) junto a otras restricciones
estadsticas (por ejemplo, lmites para la funcin de
informacin). Cuando va a seleccionarse un tem se considera
el valor que proporciona cada tem disponible en el banco en
una funcin matemtica donde se pondera de manera
diferente las desviaciones respecto a los lmites establecidos
para cada restriccin (ver ms detalles en Olea, Ponsoda,
Revuelta, Hontangas y Suero, 1999).

c) Testlets. Wainer y Kiely (1987) establecieron unidades de
anlisis alternativas a los tems, que consistan en grupos de
tems referidos a un mismo contenido (por ejemplo, preguntas
sobre comprensin lectora referidas a un mismo texto). Ser
la seleccin de testlets, y no de tems aislados, la que se
adaptar al nivel del evaluando.

d) Tests multietpicos informatizados. Propuestos por Lord
(1980) representan una extensin de la estrategia de dos
niveles a k-niveles, de tal forma que en los niveles ltimos se
ubican tests, cada uno de los cuales es apropiado para niveles

61
homogneos de rasgo. Un ejemplo de esta estrategia se aplica
en USA para la evaluacin de conocimientos de medicina en
los exmenes de certificacin de esta profesin, mediante el
denominado como sistema CAST (Luecht y Nungester,
2000).

4.5.- Procedimientos de parada

El algoritmo debe incluir tambin un procedimiento para dar por
concluida la prueba; es decir, para considerar que una estimacin
provisional del nivel de rasgo es la que se va a tomar como
estimacin definitiva para el evaluando. Las posibilidades que
tenemos son cuatro: a) el criterio de longitud variable, que consiste en
detener la aplicacin cuando el error tpico de medida desciende de
un valor predeterminado, b) el criterio de longitud fija, que consiste
en parar el test cuando se presentan un nmero determinado de tems,
c) hacerlo mediante un criterio que combina los dos precedentes, y d)
un procedimiento especial de longitud variable, que consiste en dejar
de presentar tems cuando el nivel de rasgo estimado se aleja
significativamente del punto de corte establecido.
La eleccin de uno u otro procedimiento depende
fundamentalmente de los objetivos de la aplicacin y de las
propiedades psicomtricas (distribuciones de los correspondientes
parmetros de los tems) que tiene el banco. Por ejemplo, si el
objetivo es disponer de una primera evaluacin de conocimientos en
el acceso a un determinado nivel educativo, un criterio de longitud
fija puede tener la ventaja de emplear en la sesin de evaluacin un
tiempo parecido para todos los evaluandos (Wise y Kingsbury, 2000).
El problema de este procedimiento es que dispondremos de
estimaciones de rasgo con diferentes niveles de precisin;
normalmente, dado que las funciones de informacin de los bancos de
tems no son uniformes (se alcanza menor informacin para los
niveles de rasgo muy bajos o muy altos, dado que es difcil elaborar
muchos tems con alto valor discriminante para estos niveles), las
estimaciones de los evaluandos con niveles de rasgo extremos se
realizarn con menor precisin. Esto ser grave cuando el banco

62
disponga de pocos tems informativos para niveles de rasgo muy
bajos o muy altos.
El procedimiento de longitud variable tiene la ventaja de
proporcionar estimaciones con la misma precisin, pero tiene la
desventaja de que el test tiene diferente longitud para los evaluandos,
lo cul puede no ser bien percibido por aquellos que reciben pocos
tems. Suele ser el procedimiento que se elige cuando las
consecuencias de la evaluacin son especialmente importantes para
las personas; por ejemplo, en procesos de seleccin de personal o de
evaluacin de conocimientos para obtener la licenciatura o la
certificacin para desempear una determinada profesin. Una
manera de preservar cierto nivel de precisin sin que la sesin se haga
excesivamente larga consiste en emplear un criterio mixto. El sistema
CARAT utiliza un criterio de parada de este tipo, que consiste en
detener el test cuando se responden 22 tems o cuando el error de
medida desciende de 0.4.
En algunos exmenes de certificacin se ha decidido aplicar un
criterio de parada de longitud fija, ya que candidatos que no pasaban
la prueba, a los que se presentaban pocos tems (segn un criterio de
longitud variable), sentan que no haban tenido las suficientes
oportunidades para manifestar su competencia (Bergstrom y Lunz,
1999). En otros, sin embargo, se usa un criterio de longitud variable
estableciendo un mnimo de tems a aplicar (60 en algunos casos) y
terminando la prueba cuando el nivel de rasgo estimado cae fuera del
intervalo de confianza establecido para el punto de corte. Este ltimo
criterio de parada se emplea en tests referidos al criterio, donde los
objetivos de la aplicacin tienen que ver con la clasificacin de los
sujetos en uno de dos grupos (apto-no apto, aprobado-suspenso,
admitido-no admitido, etc.). Los evaluandos que tienen un nivel de
rasgo prximo al punto de corte establecido por los especialistas
necesitarn responder a un mayor nmero de tems para as poder
determinar con cierto nivel de confianza que su estimacin est por
encima o por debajo de dicho punto de corte. Por ejemplo, en el
MATHCAT se establecen dos puntos de corte ( = -0.544 y = -
0.021) para clasificar a los evaluandos en uno de los 3 niveles de
conocimiento establecidos; el TAI finaliza cuando el intervalo de

63
confianza (con probabilidad 0.90) del nivel de rasgo estimado no
incluye ninguno de los puntos de corte.
En relacin con el criterio de parada empleado, pueden surgir
problemas de sesgo en la estimacin si un evaluando deja un nmero
elevado de tems sin responder en el tiempo total asignado para la
sesin de evaluacin. En el caso del CAT-ASVAB, donde se realizan
estimaciones bayesianas del nivel de rasgo, se ha propuesto un
procedimiento para corregir este problema en funcin de la cantidad
de tems que se dejan sin responder (ver Segall y Moreno, 1999). En
la experiencia con el CAT-GRE se ha decidido estimar los niveles de
rasgo cuando se responde al menos al 80 % del nmero total de tems
establecido para una sesin concreta de evaluacin (Mills y Steffen,
2000); adems, se han ensayado diferentes formas para puntuar los
tests incompletos: a) puntuar de modo que se penalice la cantidad de
tems sin contestar, b) considerar que los tems no alcanzados se
fallan, c) suponer que se aciertan por azar, o d) asumir que se aciertan
segn las predicciones del modelo. Los responsables de esta prueba
han optado por el primer procedimiento, avisando previamente a los
alumnos, dado que consideran que es mejor animar a completar la
prueba en el tiempo prefijado que emplear cualquier procedimiento
corrector.

4.6.- Requisitos informticos

La aplicacin de los TAIs puede hacerse en ordenadores que
trabajan de forma independiente, en un sistema de red local o, lo que es
posible desde hace poco tiempo, a travs de Internet. En el primer caso,
cada ordenador debe disponer del software completo que se necesita
para una sesin de evaluacin. En caso de disposicin en red, cada
ordenador puede conectarse con los restantes y con una unidad central
que controla el proceso de evaluacin y registra los resultados. La
ventaja fundamental de una disposicin en red se refiere al control
central del proceso, que permite diagnosticar posibles errores puntuales
en el momento de la evaluacin (por ejemplo detectar patrones
aberrantes de respuesta) y centralizar toda la informacin de un grupo
de evaluandos. Sobre las posibilidades que ofrece Internet para

64
cualquier tipo de test, Hontangas (1999) describe el procedimiento de
construccin, aplicacin y transmisin de respuestas, as como el
software de programacin disponible.
En cuanto a la configuracin de los equipos, los avances tcnicos
que tienen los ordenadores personales actuales (capacidad y rapidez de
procesamiento, amplitud de memoria, disposicin de perifricos) son
suficientes para cubrir las necesidades que exigen los TAIs ms usuales.
Ahora bien, conviene recordar algunas exigencias concretas (Olea y
Ponsoda, 1996):

a) En primer lugar, resulta imprescindible que transcurra un
perodo de tiempo prcticamente imperceptible entre la emisin
de una respuesta y la presentacin del siguiente tem. Hay que
considerar que el ordenador debe realizar en ese tiempo una
cantidad importante de operaciones (las ms complejas son la
estimacin provisional de un nivel de rasgo y la seleccin del
siguiente tem) que se facilitan con procesadores rpidos. Una
estrategia frecuente es aprovechar los segundos en los que el
sujeto est pensando su respuesta para que el ordenador vaya
adelantando algunos de los muchos clculos que ha de realizar.

b) En segundo lugar, necesitamos una importante capacidad de
almacenamiento permanente (donde resida la informacin sobre
el banco de tems, los resultados de la calibracin, las
instrucciones, los ejemplos de prueba, los resultados de cada
evaluando y el software) cuyos requisitos mnimos cumplen ya
la mayora de las unidades de almacenamiento que incorporan
los ordenadores personales. Se precisa tambin una apreciable
cantidad de memoria RAM.

c) En tercer lugar, cuando el banco incluye tems con contenido
grfico, necesitamos una buena resolucin de pantalla,
considerar las exigencias de almacenamiento que requiere este
tipo de tems, y cuidar que la presentacin y desaparicin de los
tems sean instantneas y no graduales.


65
d) Finalmente, conviene simplificar al mximo el procedimiento
de respuesta mediante el teclado. Algo usual es hacer que el
evaluando marque la opcin que crea correcta con las teclas del
cursor o con el ratn, y que presione ENTER o la barra
espaciadora para que la seleccin realizada sea considerada
como la respuesta proporcionada.

Respecto al software, tenemos la opcin de programar los
algoritmos o de utilizar algunos programas disponibles en el mercado.
La idea bsica que se sigue es la programacin de mdulos (que pueden
incluir variables, procedimientos o estructuras de datos), relativamente
independientes, pero entre los cuales pueden establecerse relaciones de
jerarqua segn las cuales un mdulo hereda las propiedades de otro.
Para Hambleton, Zaal y Pieters (1991), un software completo para una
evaluacin adaptativa puede incorporar:

Procedimientos de identificacin de personas y pruebas
aplicadas.
Texto y parmetros del banco de tems.
Un mdulo de construccin de tests.
Un mdulo de presentacin de tems, que representa el ncleo
fundamental de un TAI. Podra encargarse de las siguientes
funciones: a) administracin de los tems de prueba, b) arranque
del test, c) seleccin sucesiva de tems a aplicar y estimacin
sucesiva de los niveles de rasgo, d) finalizacin de la prueba, e)
clculo de la precisin con la que se ha obtenido la estimacin
final, y f) almacenamiento de los resultados.
Un mdulo de baremacin y de actualizacin del banco, que
sirve para tener informacin sobre el rendimiento de los
examinados y de la historia de cada tem del banco (veces que
ha sido aplicado, informacin que permita futuras
recalibraciones,..).
Un mdulo para ofrecer al usuario un informe escrito de su
rendimiento.

En cualquier caso, el software debe facilitar la interaccin con el
usuario, empleando expresiones simples, proporcionando ayuda en el

66
proceso y facilitando una clara informacin sobre el rendimiento
obtenido.
Tambin es posible recurrir a programas ya elaborados. Entre el
software disponible para realizar evaluaciones adaptativas
informatizadas, Hontangas (1999) describe las prestaciones de los dos
programas mas empleados: el paquete MicroCAT (Assessment Systems
Corporation, 1994) y el CAT Software System (Computer Adaptive
Technologies, 1994). El primero, sin duda el que ms posibilidades
ofrece, permite construir bancos de tems, calibrarlos desde diversos
modelos de la TRI, as como administrar tests convencionales,
informatizados y adaptativos informatizados que siguen estrategias
bayesianas o mximo verosmiles. En Espaa se han desarrollado dos
programas con prestaciones mucho ms limitadas: DEMOTAC
(Renom, 1993) y ADTEST (Ponsoda, Olea y Revuelta, 1994).

Captulo 5

Propiedades psicomtricas del TAI

Muiz y Hambleton (1999) describen y comentan las directrices
especficas o requerimientos exigibles a cualquier TAI. Antes de que
los TAIs se encuentren operativos, normalmente se someten a muy
diversos controles psicomtricos de calidad que bsicamente tienen
que ver con su precisin y validez.

5.1.- Precisin

Como se dijo en apartados anteriores, una de las ventajas
fundamentales de la TRI es que proporciona medidas de precisin
(informacin o error tpico de medida) condicionadas a los diferentes
niveles de rasgo; es decir, diferentes para distintos evaluandos.
Haciendo uso de esta propiedad, la eficiencia del TAI puede
estudiarse mediante los oportunos estudios empricos o de
simulacin, informando de los siguientes aspectos:

a) Error tpico medio. o informacin que se obtienen para los
diferentes niveles de rasgo. Estos datos, ilustrativos de la
eficacia de los TAIs cuando se emplea un criterio de parada
de longitud fija o uno mixto, pueden obtenerse mediante
estudios empricos promediando los valores para los
evaluandos con un mismo nivel de rasgo estimado. La

68
precisin terica que manifiesta el TAI puede estudiarse
tambin mediante procedimientos de simulacin, obteniendo
el promedio de error tpico para los diferentes niveles de
rasgo establecidos en el diseo.
b) RSME. ( N
i i
2
)
( ). Mediante simulacin, puede

calcularse la raz cuadrada del error cuadrtico medio entre
las estimaciones de rasgo y sus correspondientes parmetros,
para valorar las discrepancias entre ambas.
c) Sesgo emprico. ( N
i i
/ )
( ). Mediante estudios de
simulacin pueden obtenerse las diferencias medias entre los
niveles de rasgo estimados para los sujetos simulados y sus
correspondientes parmetros. En general, cuando los TAIs
son cortos, los procedimientos mximo verosmiles producen
un sesgo hacia fuera (infraestimando los niveles de rasgo
bajos y sobrestimando los altos) mientras que los
procedimientos bayesianos obtienen un sesgo hacia adentro
(sobrestimando los niveles bajos e infraestimando los altos).
d) Eficiencia. Tambin mediante estudios empricos o de
simulacin, y fundamentalmente cuando el criterio de parada
es de longitud variable, puede estudiarse la cantidad media de
tems que se requiere para alcanzar el error tpico prefijado.
e) Correlacin con las estimaciones obtenidas a partir del
banco. Mediante cualquiera de las dos metodologas pueden
correlacionarse las estimaciones obtenidas en el TAI con las
que se obtienen a partir de las respuestas (reales o simuladas)
al banco completo de tems.
f) Procedimientos derivados de la TCT. Resulta factible aplicar
indicadores clsicos de fiabilidad, como por ejemplo el
coeficiente de fiabilidad test-retest o el coeficiente de
fiabilidad de formas equivalentes (cuando se dispone de dos
bancos diferentes).

CAPTULO 5. PROPIEDADES PSICOMTRICAS DEL TAI

69
5.2.- Validez

Un TAI, como cualquier otro test, debe someterse a las
oportunas comprobaciones empricas de validez para estudiar el
grado en que se cumplen determinadas inferencias realizadas a partir
de las puntuaciones que proporciona. En este sentido, los algoritmos
adaptativos no garantizan en principio mayor o mejor prueba de
validez, aunque hay algunas consideraciones particulares que
debemos tener en cuenta.

a) En relacin a la validez de contenido, las restricciones que se
impongan al algoritmo de seleccin de tems pueden ayudar a
que la muestra de tems que se presenta sea representativa de
todos los diferentes ncleos de contenido establecidos por los
especialistas en la fase de elaboracin del banco de tems.

b) En cuanto a la validez predictiva, suele ser comn, dado los
contextos donde se aplican los TAIs, correlacionar sus
resultados con medidas externas que se quieren predecir. As,
por ejemplo, un TAI de razonamiento matemtico para
seleccionar programadores informticos se correlacion con
las valoraciones de los supervisores en rendimiento laboral de
programadores con mucha experiencia (Zickar et al., 1999).
Las estimaciones del CAT-ASVAB suelen correlacionarse
con las calificaciones que obtienen los reclutas en cursos
posteriores de adiestramiento militar.

c) Respecto a la validez de constructo, podramos considerar
que ya las comprobaciones iniciales sobre la
unidimensionalidad del banco representa un primer estudio de
validez de constructo. Por otra parte, cuando los TAIs tienen
sus ancestros de lpiz y papel, suelen plantearse estudios para
comprobar la equivalencia entre ambas versiones. Se han
contrastado, por ejemplo, las capacidades predictivas del
CAT-ASVAB y del P&P-ASVAB (ancestro en lpiz y papel)
respecto al xito obtenido posteriormente por los evaluandos
en cursos de adiestramiento. Tambin puede estudiarse la

70
equivalencia de la estructura factorial y de las cargas
factoriales de ambas versiones.

Para concretar con un caso la aplicacin de algunos de estos
procedimientos para estudiar la precisin y validez, resumimos ahora
algunos de los estudios realizados sobre un TAI para evaluar el nivel
de vocabulario ingls. A partir del banco de tems calibrado de
vocabulario ingls se elabor un programa de ordenador (el programa
ADTEST) que convierte un banco calibrado en un TAI, con las
siguientes caractersticas: a) procedimiento de arranque aleatorio entre
niveles de rasgo medios, b) estimacin de mxima verosimilitud, c)
seleccin de tems segn el principio de mxima informacin. Para
comprobar las cualidades psicomtricas del TAI de vocabulario ingls
se dise un estudio de simulacin (Ponsoda et al., 1994) en el que se
establecieron 15 niveles de parmetros (-3.5, -3,....3, 3.5) y se
realizaron 3.750 simulaciones (es decir, 250 sujetos simulados para cada
nivel). Siguiendo el procedimiento adaptativo, y definiendo un criterio
de parada mixto (finalizar la aplicacin si S
e
< 0.30 o si se presentan 34
tems), se obtuvieron los correspondientes niveles definitivos de rasgo
estimados (
). Para cada uno de los niveles reales (parmetros) se

obtuvo:

a) El sesgo o media de las diferencias con los correspondientes
niveles estimados. La diferencia mxima se produjo para
niveles de rasgo bajos, y nunca super el valor 0.09. Para
niveles de rasgo por encima de 0.5 el sesgo result
prcticamente nulo.
b) La media de los valores S
e
. Se obtuvieron mejores niveles de
precisin para los valores de rasgo medios y altos (en torno a
0.3), lo cul puede deberse a la forma asimtrica que tena la
funcin de informacin del banco de tems.
c) La media del nmero de tems administrados para conseguir el
criterio de parada. Para niveles de rasgo entre 2 y +2, es decir,
aproximadamente para el 95% de la poblacin si el rasgo se
distribuye normalmente, se aplicaron menos de 20 tems para
alcanzar el nivel de precisin establecido.

CAPTULO 5. PROPIEDADES PSICOMTRICAS DEL TAI

71
Se dise un estudio emprico (Olea et al., 1996), ya comentado
brevemente en el apartado 3.3, para obtener datos de precisin con
aplicaciones reales del TAI de vocabulario ingls y obtener informacin
sobre su validez predictiva. A una muestra de 62 estudiantes de un
centro de enseanza del idioma ingls, se aplic:

a) El TAI con las especificaciones descritas en el trabajo anterior.
b) Los tems remanentes del banco, es decir, los tems del banco
que no formaban parte del TAI.
c) Una prueba de papel y lpiz, el Oxford Placement Test (Allan,
1992), que proporciona dos puntuaciones distintas: una de
conocimientos gramaticales y otra de "listening" relativa a la
capacidad para entender el ingls en su expresin oral.

Se registr, adems, el total de tiempos invertidos en las
respuestas al banco completo. Los principales resultados obtenidos
fueron los siguientes: a) Una correlacin de 0.9 entre los niveles de
vocabulario estimados con el TAI y los correspondientes estimados a
partir de las respuestas a los 221 tems; b) Una correlacin
significativa negativa (r = -0.33) entre el tiempo invertido y el nivel
de vocabulario estimado; c) Relaciones lineales (simples y
multivariadas) significativas entre los niveles de vocabulario ingls
estimados (en el TAI y en el banco completo) y las dos medidas del
Oxford Placement Test, resultando ms elevadas con el rendimiento
manifestado en gramtica que en "listening".

Captulo 6

Investigacin actual en tests
adaptativos informatizados

En colaboracin con
Pedro Hontangas (universidad de Valencia)
Francisco J. Abad y Javier Revuelta (UAM)

6.1.- Presentacin

No son pocos los desafos que tiene planteados la investigacin
sobre TAIs para que resulten eficientes en diversos contextos de
evaluacin psicolgica y educativa, que tienen a su vez muy diversos
objetivos, necesidades y restricciones. En uno de los ltimos
congresos de la National Council on Measurement in Education, una
de las principales reuniones cientficas internacionales sobre
Psicometra, alrededor del 25 % de las comunicaciones se
relacionaron con investigaciones sobre TAIs (Ponsoda, 2000).
Mientras que los primeros libros especficos sobre el tema (v.g.
Wainer, 1990; Weiss, 1983) describan algoritmos de seleccin de
tems muy bsicos y escasas aplicaciones reales, los ms actuales
(v.g. Drasgow y Olson-Buchanan, 1999; Olea, Ponsoda y Prieto,
1999; Sands, Waters y McBride, 1997; van der Linden y Glas, 2000)
incluyen la descripcin pormenorizada de diversas aplicaciones en
programas de evaluacin a gran escala y la revisin de las lneas de
investigacin que se desarrollan sobre el tema en los ltimos aos,

74
algunas de las cuales han dado lugar a cambios importantes en el
diseo y aplicacin de los TAIs. En una reciente revisin
bibliomtrica (Garca, 2002) sobre 5 de las principales revistas
cientficas internacionales de Psicometra se detecta tambin una
importante presencia de esta temtica en la investigacin actual sobre
teora de los tests. Prueba de este auge son tambin los nmeros
monogrficos dedicados al tema en Applied Measurement in
Education (1994), Applied Psychological Measurement (1999) y, en
Espaa, una seccin monogrfica de la revista Psicolgica (2000) y
una revisin actualizada de tendencias de investigacin en
Metodologa de las Ciencias del Comportamiento (Hontangas et al.,
2000).
Uno de los problemas tiene que ver con los mtodos estadsticos
de estimacin que se aplican, que pueden manifestar problemas de
precisin y sesgo cuando, como ocurre en los TAIs, el nmero de
tems no es elevado; debemos considerar, adems, que las
estimaciones provisionales de rasgo sern especialmente sensibles a
estos problemas, lo cual puede influir en el tipo de tems que se van
seleccionando en la prueba. Muy en relacin con estas estimaciones
provisionales (en las fases iniciales con elevado nivel de sesgo e
imprecisin) se encuentra el debate sobre el procedimiento aplicado
para la seleccin sucesiva de tems: el mtodo de mxima
informacin puede llevar a gastar los tems ms informativos para
niveles provisionales de rasgo que pueden estar alejados del
parmetro del sujeto, lo que ha llevado a ensayar procedimientos
alternativos de seleccin. Por otra parte, los mtodos ms
tradicionales de control de las tasas de exposicin no resuelven bien
problemas como la infrautilizacin de una parte importante del banco
de tems o su solapamiento, por lo que se han propuesto mtodos
alternativos o mtodos que resultan de modificar los que se
propusieron inicialmente. Una forma alternativa de abordar el
problema de la tasa de exposicin, y quizs de resolver los enormes
requerimientos que exige la calibracin de bancos, es la generacin
automtica de tems.
En relacin con los objetivos de evaluacin para los cuales
resultan apropiados los TAIs, se intenta ampliar el tipo de rasgos que
se pueden medir mediante estrategias adaptativas, lo que dar lugar,
CAPTULO 6. INVESTIGACIN ACTUAL EN TAIS

75
por ejemplo, al estudio de TAIs politmicos (para medir de modo
eficiente determinadas actitudes o rasgos de personalidad) o TAIs
multidimensionales (pruebas adaptativas que se fundamentan en
modelos de TRI multidimensionales). Cuando el objetivo de la
evaluacin sea eminentemente clasificatorio, como ocurre en
determinados contextos educativos o de seleccin de personal, se
ensayarn estrategias adaptativas (TAIs de maestra) que tendrn
como objetivo fundamental optimizar la fiabilidad de la clasificacin.
Tal como estn diseados los TAIs en la actualidad proporcionan
escasa informacin diagnstica que, por ejemplo, pueda resultar til
para el proceso de enseanza-aprendizaje de los alumnos;
fundamentalmente desde contextos educativos, se intentan proponer
estrategias adaptativas que sean eficaces para planificar un
entrenamiento adaptativo.
Finalmente, y desde la experiencia acumulada sobre el impacto
que tienen los TAIs en quien los responde, se ha intentado mejorar las
condiciones de aplicacin para que no tengan consecuencias
indeseables sobre el modo en que los evaluandos afrontan la prueba.

6.2.- Precisin y sesgo de las estimaciones

En el captulo 3 del libro de Revuelta y Ponsoda (2001) y en el
captulo 5 del libro de Santisteban y Alvarado (2001), ambos de esta
misma coleccin, se desarrollan con cierta extensin los principales
procedimientos de estimacin de parmetros y sus propiedades.
Como en cualquier procedimiento estadstico de estimacin de
parmetros, con la aplicacin de un TAI se busca que las
estimaciones de rasgo sean precisas (con bajos errores tpicos de
medida) e insesgadas . Cuando, como ocurre realmente en situaciones
aplicadas, los tests necesariamente deben tener una longitud reducida,
aparecen problemas de sesgo y precisin que se han estudiado
mediante procedimientos de simulacin. Tanto la estimacin de
mxima verosimilitud (ML) como las bayesianas (EAP y MAP)
producen problemas cuando se aplican tanto a tests convencionales
como a TAIs, aunque conviene matizar estos efectos.

76
Respecto a la precisin, ya se coment (apartado 2.4) que el
estimador bayesiano MAP tiene un menor error tpico de medida para
un mismo nivel de rasgo que el mximo-verosmil. En cuanto al
sesgo, Kim y Nicewander (1993) han comprobado que en tests
convencionales la estimacin por mxima verosimilitud produce un
sesgo hacia fuera; es decir, que se sobrestiman los niveles altos de
rasgo (sesgo positivo) y se subestiman los bajos (sesgo negativo). Lo
contrario ocurre con los mtodos bayesianos, que suelen provocar
cierta regresin a la media de la distribucin a priori. Lord (1983,
1986) deriv la funcin de sesgo terico para el procedimiento de
mxima verosimilitud y su relacin con el sesgo bayesiano-MAP ( I e
I
j
son la informacin del test y del tem, respectivamente, en ; a, la
discriminacin del tem; P*, su probabilidad de acierto segn el
modelo 2P; y n es el nmero de tems del test):

En la ecuacin anterior puede comprobarse que el sesgo que
produce el mtodo de mxima verosimilitud ser mnimo cuando,
como ocurre en los TAIs, la dificultad de los tems se ajusta al nivel
de rasgo del evaluando (entonces ser cercano a cero el numerador).
Por ello se asume que la aplicacin de este procedimiento a un TAI
produce estimaciones esencialmente insesgadas, ya que el sesgo
ser mnimo cuando se aplique un nmero elevado de tems. Wang y
Vispoel (1998) han comprobado que los mtodos bayesianos
producen mayor sesgo absoluto y en direccin hacia adentro, lo
cul podra perjudicar a los sujetos de alto nivel de rasgo y beneficiar
de forma ilegtima a los de nivel bajo. Si las estimaciones mximo
verosmiles son esencialmente insesgadas, en la expresin que sigue
puede comprobarse esta direccin del sesgo:

2
1
*
) 5 . 0 (
)) ( (
I
P I a
ML SESGO
n
j
j j j

I
ML SESGO MAP SESGO

)) ( ( )) ( (

77
En los ltimos aos se han propuesto varios mtodos para
reducir el sesgo. Los mtodos correctivos son fundamentalmente
analticos y actan despus de obtener una estimacin, restando el
sesgo terico correspondiente a partir de las frmulas que hemos
visto. Los mtodos preventivos modifican la funcin a maximizar,
con lo que intervienen antes de realizar la estimacin. En Hontangas
et al. (2000) se citan algunos mtodos preventivos mximo-
verosmiles y bayesianos.

Veamos como ejemplo un trabajo donde se estudia el sesgo que
pueden tener las estimaciones que se realizan con dos tests diferentes.
En un estudio emprico (Olea, Revuelta, Ximnez y Abad, 2000), en
el que se plante un diseo inter-sujeto, se asignaron los sujetos
aleatoriamente a dos tipos de tests:

a) Un TAI que seleccionaba los tems segn el procedimiento de
mxima informacin, estimaba los niveles de rasgo mediante
el procedimiento de mxima verosimilitud y utilizaba un
criterio de parada de longitud fija (20 tems).
b) Un test ptimo (TO) fijo de 20 tems ordenados en dificultad,
seleccionado del banco para que resultaran ptimos para la
distribucin de rasgo de la poblacin [N(0.57; 0.92)]. Se
eligieron al azar 20 valores de la distribucin anterior y se
eligieron los tems que resultaban ms informativos para esos
niveles de rasgo. Las estimaciones del nivel de rasgo en este
test se realizaron con el mismo procedimiento estadstico.

Ambos tests se fundamentaban en el banco de vocabulario ingls
(vase el apartado 3.3). De forma imprevista, el nivel de rasgo medio
estimado en el TO (0.92) fue significativamente ms alto que el
correspondiente a la condicin TAI (0.58), lo que en principio parece
contradecir la propiedad de invarianza de la TRI. En principio, este
resultado podra deberse al menos a dos razones: a) que el nivel de
rasgo de los sujetos en el TO fuese ms elevado, o bien b) que se
cometiera cierto sesgo en las estimaciones mximo-verosmiles
realizadas en alguno o en ambos tests.

78
Con objeto de aclarar las causas de las diferencias en nivel de
rasgo estimado, se plantearon dos estudios diferentes (Abad, Olea,
Real y Ponsoda , 2002):

a) Un estudio emprico, con un diseo intrasujeto en el que cada
participante recibi de forma consecutiva los dos tests (de tal
forma que se asegurase que el nivel de rasgo medio verdadero
es el mismo en las condiciones TAI y TO). En el TAI se
estimaron los niveles de rasgo segn el procedimiento ML,
mientras que en el TO se aplicaron tanto el procedimiento
ML, como los bayesianos MAP y EAP, con dos
distribuciones a priori distintas: N(0, 1) y N(0.57, 0.92). A
partir de las frmulas correspondientes se obtuvieron las
funciones de sesgo y error tpico asociadas a cada uno de los
procedimientos de estimacin.
b) Un estudio de simulacin, donde se replicaron 100 muestras
partiendo de los parmetros , a, b y c estimados
empricamente. A partir de los resultados de la simulacin se
obtuvo el promedio en las 100 rplicas (para cada nivel de
rasgo) de: 1) los niveles de rasgo estimados, 2) el valor
RSME (raz cuadrada de la media de los errores cuadrticos),
3) el sesgo, y 4) el error tpico de medida.

Algunos de los principales resultados obtenidos en estos estudios
fueron los siguientes:

El sesgo terico (obtenido mediante la frmula de Lord), para
los distintos valores de , de las estimaciones ML en el TAI
oscil entre 0.08 y 0.05, con una media de 0.0097. El
correspondiente a las estimaciones TO-ML oscil entre 0.13
y 0.14 (media 0.01), mientras que para TO-MAP se
encontr un sesgo negativo para los niveles altos de rasgo,
hasta un mximo de 0.40 (media 0.06).
Los errores tpicos medios obtenidos fueron 0.28 (TAI), 0.31
(TO-ML), 0.32 (TO-EAP) y 0.29 (TO-MAP).
Las correlaciones entre las estimaciones proporcionadas por
el TAI y las realizadas a partir del TO estuvieron en torno a

79
0.80, mientras que las diferentes estimaciones en el TO
correlacionaron por encima de 0.99.
El nivel de rasgo medio estimado en la condicin TAI (0.71)
fue significativamente inferior a la media de las estimaciones
en la condicin TO-ML (0.85). No se obtuvieron diferencias
significativas respecto a las estimaciones TO bayesianas.
Respecto al estudio de simulacin, puede decirse que en
general se obtienen los resultados derivados del estudio del
sesgo terico.

Con este segundo trabajo, y dado el diseo de investigacin
establecido, se asegura que las diferencias en nivel de rasgo estimado
encontradas en el primer trabajo no se deben a las diferencias en nivel
de rasgo que pudieran tener el grupo TAI del grupo TO. An as,
vuelve a aparecer una diferencia significativa entre la estimacin ML
en el TAI y en el TO, que no pueden atribuirse a problemas de sesgo.
En el trabajo citado se abren vas alternativas de explicacin.

6.3.- Alternativas a la informacin de Fisher

Los procedimientos de estimacin de ms usuales (mxima
verosimilitud y bayesianos) producen estimaciones sesgadas cuando
se presentan pocos tems. La existencia de sesgo y el gran error tpico
de las estimaciones cuando el test es corto repercuten en la precisin
total de un TAI. Los tems seleccionados son los ms informativos
para la ltima estimacin obtenida. Si sta se aleja apreciablemente
de la estimacin final, los tems que resulten muy informativos para
estas estimaciones provisionales lo sern muy poco para la estimacin
final. En consecuencia, algunos tems habrn resultado escasamente
tiles en el test, de ah el inters de explorar reglas alternativas de
medir la informacin de los tems. Chen, Ankenmann y Chang (2000)
han comparado cinco reglas de seleccin de tems diferentes y
comprobado su impacto en el sesgo, RSME y error tpico del nivel de
rasgo estimado en las fases iniciales de un TAI. Las cinco funciones
de informacin aplicadas fueron las siguientes:


80
a) La funcin de informacin de Fisher, I
j
(). Como vimos
(apartado 1.4), para un tem j, siendo P
j
() la probabilidad
de acierto, su informacin para un valor viene dado por

b) La funcin de informacin de Fisher en un intervalo
propuesta por Veerkamp y Berger (1997), FII
j
(), viene dada
por la siguiente expresin

I
j
() es la funcin de informacin de Fisher y W() es la
funcin de ponderacin, con valor 1 cuando (
l
,
u
), que
es el intervalo de confianza de la estimada, y con valor 0
para valores no comprendidos en el intervalo.

c) La funcin de Fisher con distribucin posterior, FIP
j
(). Al
principio del test, el intervalo de confianza puede no contener
la final del sujeto, por lo que el tem elegido no sera
apropiado. En esta regla de seleccin de tems se toma como
funcin de ponderacin la distribucin posterior de . Por lo
tanto,
d) La funcin de informacin de Kullback-Leibler, KL
j
(
). La
funcin de informacin global de Kullback-Leibler permite
saber la capacidad de un tem para discriminar entre los
niveles y
0
:

( )
) ( ) (
) (
) (
2
'

j j
j
j
Q P
P
I

u
l
d I d I W FII
j j j
) ( ) ( ) ( ) (

d I p FIP
j n j
) ( ) X | ( ) (

81

Tomando como
0
el ltimo valor estimado
y siendo (
l ,

u
) su intervalo de confianza, el tem a elegir sera el que
tuviese el mayor valor de KL
j
(
).

e) Kullback-Leibler con distribucin posterior, KLP
j
(
). En
este caso, en vez de ponderar por 1 la informacin de
Kullback-Leibler para las incluidas en el intervalo (
l ,

u
), y
por cero las excludas, se va a ponderar por la distribucin
posterior de .
La comparacin entre las cinco reglas de seleccin de tems
proporcion los siguientes resultados: No hubo diferencias en
tests de ms de 10 tems. El nmero de tems 10 resulta
mgico en este contexto. Cheng y Liou (2000) comprobaron
mediante simulacin el sesgo y error tpico de 4 algoritmos
diferentes, resultado de combinar dos mtodos de estimacin
(mximo-verosmil y mximo-verosmil ponderado de Warm
(1989)) y dos mtodos de seleccin de tems: la informacin
de Fisher y Kullback-Leibler. Tambin obtuvieron que en
tests de ms de 10 tems no hay diferencias entre las cuatro
condiciones estudiadas.

Van der Linden (1998) y van der Linden y Pashley (2000)
exponen varios criterios de seleccin de tem bayesianos, que
complementan el de mxima precisin esperada (definido en el
apartado 4.3). De los 3 que vamos a ver, los 2 primeros enfatizan el
modo de establecer la distribucin a priori de , mientras que el
( )
,
_
,
_
) ( 1
) ( 1
log ) ( 1
) (
) (
log ) ( ) || (
0
0
0
0 0

j
j
j
j
j
j j
P
P
P
P
P
P KL
u
l
d KL KL
j j
|| ( )
(
d KL p KLP
j n j
)
|| ( ) X | ( )

82
ltimo incorpora en la seleccin de tems el error de estimacin de
sus parmetros:

a) Cuando resulte posible, lo ms sencillo sera establecer una
distribucin a priori derivada de las estimaciones sobre el
rasgo obtenidas en estudios empricos.

b) Cuando se dispone de informacin de los sujetos en X
variables adicionales relacionadas con , otra alternativa
bayesiana emprica consiste en fijar la distribucin a priori a
partir de las estimaciones puntuales de rasgo realizadas
mediante la oportuna ecuacin de regresin.

c) Si los errores de estimacin de los parmetros de los tems
son elevados, como ocurre cuando la muestra de calibracin
es poco numerosa, los valores de estos parmetros pueden
actualizarse a medida que se dispone de mayor nmero de
respuestas. Bsicamente, la idea es actualizar
progresivamente las estimaciones de los parmetros de los
tems, no asignando estimaciones puntuales sino obteniendo
su distribucin posterior dadas todas las respuestas
disponibles en un momento determinado, lo que supone
considerar la incertidumbre que tenemos en su estimacin. De
esta manera, en la frmula que permite obtener la distribucin
posterior de (vase apartado 2.3), la expresin L(u|), que
es la funcin de verosimilitud asociada a un conjunto
concreto de parmetros de los tems, se sustituye por un
promedio de las verosimilitudes posibles dada la distribucin
posterior de estos parmetros .

6.4.- Restricciones en la seleccin de tems

Si la seleccin de tems se realizara nicamente mediante
criterios psicomtricos, por ejemplo mediante el mtodo de mxima
informacin, sin duda el ms empleado en los programas de
evaluacin mediante TAIs, no slo se planteara el problema de la

83
falta de control de la exposicin de los tems, sino que se
desatenderan otros aspectos importantes. Por ejemplo, los tems ms
informativos para determinados niveles de rasgo pueden corresponder
a temticas concretas, lo que puede hacer que los evaluandos se
preparen especialmente en esos contenidos y no en otros. Adems, los
responsables del programa de evaluacin consideran importante que
la composicin del test (contenidos evaluados, formato de los tems,
posicin aleatoria de la respuesta correcta,...) sea similar para los
diferentes sujetos. En algunas ocasiones, cuando el TAI tiene su
ancestro en un test fijo, conviene que ambos mantengan ciertas
condiciones formales similares.
Podramos decir que los TAIs difcilmente seran aceptados en
contextos de evaluacin si a sus bondades psicomtricas no se
incorporan otro tipo de especificaciones no estadsticas. Algunos de
los procedimientos clsicos para incorporar restricciones en los
algoritmos de seleccin de tems, que fueron expuestos en el apartado
4.3., pueden mejorarse notablemente. Por ejemplo, el mtodo de las
desviaciones ponderadas, un procedimiento basado en heursticos,
tiene el problema de que el mejor tem en cada eleccin no lleva a
que el conjunto de tems seleccionados al final sea el mejor
subconjunto posible para los requisitos impuestos. Los mtodos
basados en la construccin de testlets o tests multietpicos
informatizados permiten slo relativamente un autntico proceso de
adaptacin de la prueba al sujeto, con la consiguiente prdida en
eficiencia.
Van der Linden y Reese (1998) aplican el mtodo de la
programacin lineal 0-1 a los TAIs para resolver los problemas que
tienen los mtodos clsicos. En este procedimiento, la decisin sobre
los tems que han de componer el test se resuelve como un problema
en el que hay que maximizar la informacin que el test proporciona,
sujeta a un conjunto de restricciones. Supongamos que queremos
formar el test ms informativo para
0
sujeto a las siguientes cinco
restricciones: a) no ms de 10 de tems de conocimiento, b) al menos
10 sobre aplicaciones, c) 5 tems con grficos, d) que su longitud sea
25 tems, y e) los tems 64 y 65 no deben ir en un mismo test. El
problema a resolver sera el que se describe a continuacin.


84
Sean x
j
, j= 1, ... J, las variables que representan si el tem j ha
de formar parte (x
j
= 1) o no (x
j
= 0) del test. I
j
(
0
) es la informacin
del tem j en
0
.

Los conjuntos de tems sobre conocimientos, sobre
aplicaciones y con grficos son V
1
, V
2
y V
3
, respectivamente. El
problema consiste en encontrar los valores (0 1) de las variables x
j

que maximizan:

con las siguientes restricciones:

El procedimiento anterior muestra como ensamblar un test fijo.
Cuando hay que generar un TAI, el procedimiento cambia algo dado
que debe actualizarse continuamente el nivel de rasgo estimado, y por
tanto tambin el test apropiado para ese nivel que cumpla las
restricciones impuestas. La secuencia de acciones a seguir es la
siguiente (van der Linden, 2000): a) Se comienza con una asignacin
determinada de rasgo como criterio de arranque, b) antes de
administrar el primer tem hay que ensamblar on-line un test
completo (denominado como shadow test), de acuerdo al
procedimiento anterior, que cumpla las restricciones y sea
mximamente informativo para el nivel inicial, c) a continuacin, de
los tems del test ensamblado, se administra el ms informativo para
el primer nivel de rasgo asignado, d) se estima un nuevo nivel de
rasgo, e) para administrar el segundo tem, se vuelve a ensamblar on-
line otro shadow test, introduciendo en l el tem ya administrado, y
se elige el ms informativo para el nuevo nivel de rasgo, f) se procede
de esta manera hasta que se cumpla el criterio de parada establecido.
En un TAI aplicado en un contexto de admisin escolar (el Law
School Admission Test), van der Linden y Reese (1998)
comprobaron que la precisin de
no perdi eficiencia a pesar de

incorporar 433 restricciones. Van der Linden (2000) cita varios
trabajos en los que se utiliz la programacin lineal para cumplir
5 , 10 , 10 , 1 , 25
3 2 1
65 64
1
+

V j
j
V j
j
V j
j
J
j
j
x x x x x x
J
j
j j
x I
1
0
) (

85
restricciones sobre el tiempo necesario para responder a los tems en
relacin al tiempo disponible para finalizar el TAI, para incorporar
procedimientos de control de la exposicin de los tems y para
obtener puntuaciones en el TAI equiparadas con las de un test fijo.

6.5.- Control de la exposicin

En el apartado 4.3 expusimos los procedimientos ms utilizados
para el control de la exposicin de los tems y los problemas que se
intentaban resolver con ellos, que son fundamentalmente dos: evitar
una exposicin excesiva de los que se aplican con mayor frecuencia
y, de forma secundaria, incrementar la exposicin de los tems
infrautilizados. Lejos de representar una lnea de investigacin
cerrada, en los ltimos aos se han propuesto nuevos procedimientos
y se ha comparado su eficacia con los ms tradicionales. Por ejemplo,
Revuelta y Ponsoda (1998a) proponen dos nuevos procedimientos:

a) El mtodo restringido consiste en fijar para cada tem una
tasa mxima de exposicin que, cuando se alcanza, hace que
el tem no pueda presentarse. Por ejemplo, si la tasa de
exposicin mxima se fija en un 30%, un tem que se
presenta a un primer evaluando dejar de estar operativo en
las siguientes tres administraciones, pero podr ser elegido y
administrado a un quinto evaluando: despus de que se
presenta al primero, la tasa de exposicin del tem es del
100%, pero despus del cuarto evaluando, la tasa ser 25%
(inferior a la mxima establecida) y podr ser seleccionado
para la quinta aplicacin.

b) El Mtodo progresivo consiste en obtener un peso w=(1-
s)R+sI para cada tem y seleccionar como siguiente tem el de
mayor peso. En la expresin anterior, I es la informacin del
tem para el ltimo nivel de rasgo estimado, R es un nmero
aleatorio extrado entre 0 y el mximo de los valores I, y s es
la proporcin de tems ya administrados en relacin a la
longitud del TAI. Por tanto, el peso de un tem resulta de la

86
suma ponderada de un valor aleatorio y de la informacin del
tem para el ltimo nivel de rasgo estimado. La informacin
se pondera por el nmero de tems administrados en ese TAI
en particular, mientras que el valor aleatorio se pondera por el
nmero de tems que quedan por administrar en ese test. De
esta forma, al principio del TAI importa ms el componente
aleatorio, y por tanto no se eligen en este momento los tems
muy informativos, mientras que la informacin adquiere
mayor ponderacin a medida que avanza la aplicacin
(cuando el nivel de rasgo estimado est ms cerca del
parmetro del evaluando).

En el mismo trabajo, estos autores comparan mediante
simulacin la eficiencia de estos dos nuevos mtodos con otros ms
tradicionales (entre otros, los mtodos 5-4-3-2-1, Randomesque y
Sympson-Hetter, descritos en el apartado 4.3) y con el mtodo de
mxima informacin sin ningn tipo de restriccin. Para los mtodos
restringido y Sympson-Hetter se estableci una tasa mxima de
exposicin de 0.4. Todos los mtodos se probaron en dos condiciones
diferentes de parada del TAI: un criterio de longitud fija (35 tems) y
otro mixto (error tpico inferior a 0.22 aplicar 50 tems). Se
simularon las respuestas de 2.000 sujetos, cuyos parmetros de rasgo
se distribuyeron N(0, 1), al test de vocabulario ingls. En un segundo
estudio se ampliaron las condiciones de simulacin a otro tipo de
bancos, criterios de parada, tasas de exposicin mximas y
distribuciones de los parmetros de los tems. Como variables
dependientes establecieron el error tpico de medida, el sesgo, el
nmero de tems administrados, el porcentaje de tems que no se
administran nunca y la tasa de exposicin o porcentaje de veces que
se eligen los tems (as como el coeficiente de variacin, el mnimo y
el mximo de esta tasa de exposicin). Algunos resultados
interesantes fueron: a) ninguno de los mtodos resulta completamente
satisfactorio, b) los mtodos 5-4-3-2-1 y Randomesque son los
preferibles cuando se desea que los evaluandos no reciban tems
similares al comienzo del test, c) los mtodos que consiguen reducir
en mayor grado la sobrexposicin de algunos tems son los de
Sympson-Hetter y restringido, d) el mtodo progresivo es el que, sin

87
una perdida considerable en precisin, incrementa en mayor grado las
tasas de exposicin de los tems infrautilizados, e) un mtodo que
combina los mtodos progresivo y restringido consigue los resultados
globales ms positivos en cuanto a precisin, reduccin de las tasas
mximas de exposicin y del nmero de tems no seleccionados.
Existen otros problemas relacionados con las tasas de
exposicin de los tems, y por tanto con el establecimiento de
mtodos para su control. El primero es que, aunque los mtodos sean
eficaces para controlar la tasa mxima de exposicin, puede ocurrir
que ciertos tems siempre se presenten a evaluandos con un
determinado nivel de rasgo. Un segundo problema tienen que ver con
el grado de solapamiento entre cualquier par de tems, es decir, con
su tasa de ocurrencia simultanea. La solucin a estos problemas es la
elaboracin de mtodos de control de la exposicin condicionados.
En Hontangas et al. (2000) y Stocking y Lewis (2000) se describen
algunos de estos mtodos.

6.6.- Generacin automtica de tems

La generacin automtica de tems es un mtodo de construccin
de bancos de tems mediante algoritmos. Se encuentra todava en fase
de investigacin por lo que no existen ejemplos en los que se haya
logrado su aplicacin completa. Sin embargo, es un tema activo de
trabajo en distintos centros de elaboracin de tests y se espera su
aplicacin en contextos reales en un futuro inmediato (Bejar, 1993;
Irvine, Dann y Anderson, 1990; Irvine y Kyllonen, 2002; Revuelta y
Ponsoda, 1999).
Mediante la generacin automtica de tems lo que se construye
es un conjunto de reglas explcitas, susceptibles de programarse en un
ordenador, que determinan cmo deben construirse los tems. De este
modo se obtienen todos los tems posibles para un test determinado
(Hornke y Habon, 1986). Adems, los tems deben generarse con
unas propiedades psicomtricas predichas de antemano. En lugar de
estimar la dificultad y otras propiedades mediante su aplicacin a una
muestra, se intenta elaborar un modelo acerca del modo en que las

88
personas resuelven una determinada tarea. Este modelo permitira
predecir las propiedades de los tems generados.
La generacin de tems puede aplicarse con independencia de
que el banco obtenido se utilice posteriormente para un TAI o para
otros tipos de tests. Sin embargo, en el contexto de los TAIs, resulta
especialmente ventajosa por dos razones principales:

a) Permite mejorar la adaptacin del TAI a cada sujeto. Con la
generacin no existe un banco prefijado. Simplemente se
intenta construir para cada evaluando aquel tem que resulta
mximamente informativo para su nivel de rasgo entre todos
los posibles tems que resultan admisibles para el test.
b) Constituye una solucin al problema del control de la tasa de
exposicin, dado que se contar con un banco de tems del
tamao ms grande posible, lo que aumenta las posibilidades
de construccin de tests diferentes.

Los dos grandes retos de la generacin de tems son elaborar un
programa para crear los tems y obtener un mtodo de estimacin de
su dificultad. La elaboracin de tems resulta ms o menos
complicada dependiendo del formato de los mismos. En tests con un
bajo contenido verbal puede resultar sencillo elaborar un algoritmo
que genere los tems. Sin embargo, si el contenido verbal es elevado
la tarea se complica enormemente y no parece que puedan obtenerse
resultados a corto plazo. Bejar (1990) presenta un ejemplo en un test
de capacidad espacial, Bejar y Yocom (1991) en un test de figuras
enmascaradas y Embretson (1994) en un test de figuras
tridimensionales.
El problema de estimar la dificultad depende de la calidad del
modelo psicolgico disponible acerca de la tarea. Un modelo
psicomtrico utilizado con frecuencia para relacionar la dificultad con
el contenido es el denominado LLTM (Fischer, 1973; Fischer y
Pendl, 1980). Una descripcin detallada puede encontrarse en
Santisteban y Alvarado (2001, apartado 4.4.3). Supongamos que para
resolver un tem el sujeto tiene que realizar p operaciones. Las
variables C
i1
, C
i2
, ..., C
ip
se utilizan para describir la frecuencia con
que es necesario aplicar cada operacin en el tem i. Entonces el

89
parmetro de dificultad b
i
del tem se descompone de forma lineal en
la dificultad de las operaciones implicadas en su resolucin:
+
p
k
ik k i
C b
1
0

Siendo
1
, ...,
p
los parmetros de dificultad de cada operacin
y
0
una constante. A partir de esta dificultad predicha se obtiene la
probabilidad de acierto segn el modelo de Rasch. Es importante
advertir que este modelo nicamente incorpora p+1 parmetros de
dificultad, independientemente de cuantos tems se elaboren. De esta
forma es posible predecir la dificultad de los nuevos tems conocida
la dificultad de las operaciones necesarias para su resolucin.
Tambin se han propuesto extensiones del LLTM para el caso de que
se utilice una respuesta politmica (Fischer y Parzer, 1991) o tems
con diferentes discriminacin (Embretson, 1999).
Revuelta y Ponsoda (1998b) muestran un ejemplo de aplicacin
en un test de anlisis lgico y cmo la generacin de tems permitira
maximizar la informacin obtenida acerca de los examinados. En
concreto, su punto de partida es una versin de lpiz y papel del test
DA5 (SHL, 1996) e intentar desarrollar una versin adaptativa del
mismo test basada en la generacin de tems. El test de lpiz y papel
consta de 50 tems que miden anlisis lgico con un aspecto similar al
de la figura 10.

Figura 10. Item similar a los del test DA5

Para resolver el tem es necesario realizar mentalmente dos
transformaciones distintas sobre las figuras que aparecen en la

90
columna izquierda y escoger una respuesta entre las cinco alternativas
presentadas, marcadas con las letras A hasta E. Las transformaciones
a realizar se indican mediante las instrucciones codificadas que
aparecen dentro de un crculo en la parte izquierda del tem.

En el estudio realizado por Revuelta y Ponsoda (1998b):

a) Los tems pueden incluir 10 instrucciones u operaciones
diferentes con diferentes sentidos: por ejemplo rotar la figura
adyacente de distintas maneras, intercambiar una figura con
la que aparece en la fila superior, omitir una figura o ignorar
alguna otra instruccin. Utilizando el modelo LLTM es
posible predecir el 47% de la varianza en dificultad de los
tems a partir de la frecuencia de aparicin de las
instrucciones en el tem. Adems se encontr que la dificultad
de cada instruccin es tanto ms elevada cuanto mayor sea la
carga en memoria de trabajo que produzca en el sujeto,
midindose esta carga por el nmero de figuras que es
necesario manipular mentalmente de forma simultnea.

b) A continuacin se desarroll un mtodo para generar todos
los posibles tems para este test, estableciendo las
combinaciones vlidas de instrucciones. De esta manera es
posible obtener un banco compuesto por 4242 tems.

c) Finalmente, se compar la funcin de informacin de un TAI
aplicado a partir del banco generado con la del test original.
El resultado indica que el TAI basado en el banco generado
funciona razonablemente bien, pero no para los niveles bajos.
Esto se debe a que el modelo LLTM result especialmente
impreciso para predecir la dificultad de los tems ms fciles.

En la mayora de los casos no se dispone de un modelo
suficientemente exacto de la dificultad del tem. An as es posible
aplicar la generacin automtica utilizando la metodologa de tems
isomorfos. Supongamos que se dispone de un banco elaborado y
calibrado por el mtodo tradicional. Cada tem de este banco puede

91
tomarse como modelo para elaborar isomorfos, que son tems
superficialmente diferentes al original pero con una lgica similar de
resolucin. Por esta razn cabe esperar que los parmetros de los
isomorfos sean similares, aunque no necesariamente iguales, a los del
modelo. Por ejemplo, se dispone del siguiente tem cuya dificultad es
b = 1.3:

Pueden generarse varios isomorfos cuya regla de resolucin sea
la misma (MNOSTUP_ , GHIMNOJ_, etc.). Las dificultades de los
isomorfos deben ser parecidas dado que se resuelven del mismo
modo. Sea b
i
el parmetro de dificultad estimado del tem (modelo) i.
Los parmetros de los isomorfos obtenidos de un modelo siguen una
distribucin f (b) con media b
i
y varianza
i
2
. Por tanto, cuanto menor
sea la varianza
i
2
ms parecida ser la dificultad de los isomorfos a
la del modelo, es decir, el proceso de creacin de isomorfos ser mas
preciso. Cuando se genera un isomorfo se desconoce su verdadera
dificultad, nicamente se sabe que la distribucin de esa dificultad es
f (b). Por esto se utiliza la funcin de distribucin conjunta de la
respuesta del sujeto, indicada por u, y la dificultad del isomorfo:

siendo ) , | ( b u p la funcin de probabilidad de la respuesta
observada correspondiente al modelo de un parmetro. Por tanto, la
distribucin marginal de u, conocida tambin como funcin esperada
de respuesta es (Mislevy, Sheehan y Wingersky, 1993):

Indique la letra que contine la serie:

ABCGHID_
) ( ) , | ( ) | , ( b f b u p b u f
db b f b u p u f ) ( ) , | ( ) | (

92
La funcin f (u|) se utiliza como modelo psicomtrico para puntuar
a los sujetos en lugar de utilizar ) , | ( b u p , como es tradicional. La
ventaja de f (u|) sobre ) , | ( b u p es que tiene en cuenta la
imprecisin con que se conocen los parmetros de los tems, mientras
que al utilizar ) , | ( b u p para puntuar a los sujetos se est
asumiendo que el nivel de dificultad es conocido con absoluta
certeza.
Es importante estudiar qu efecto tiene la imprecisin con que se
conocen los parmetros de los isomorfos, la varianza
i
2
, en la
precisin con que se estima (Meisner, Luecht y Reckase, 1993). A
mayor varianza, mayor diferencia entre los parmetros del modelo y
los del isomorfo. Esta imprecisin debe aumentar la varianza error del
estimador de . En ocasiones se utiliza el modelo logstico de tres
parmetros, por lo que la funcin esperada de respuesta es:

La funcin f (a, b, c) que indica la imprecisin es una normal
multivariante. Cuanto mayor sea la magnitud de las varianzas y
covarianzas de esta distribucin, menor ser la precisin. Al igual que
) , , , | ( c b a u p , la funcin f (u|) puede representarse para distintos
valores de . Cuanto mayor sea la imprecisin de los isomorfos, se
encuentra que la funcin f(u|) es ms plana en comparacin
con ) , , , | ( c b a u p . Esto significa que cuanto mayor sea la
incertidumbre en los parmetros del tem, menos informacin
proporciona acerca de . Por ejemplo, la figura 11 muestra el valor de
) , , , | ( c b a u p para un tem con parmetros (a=1.4, b=0.4 y c=0.1),
junto con la funcin esperada de respuesta para un determinado nivel
de imprecisin.

dc db da c b a f c b a u p u f ) , , ( ) , , , | ( ) | (

93
Figura 11. Funciones ) , , , | ( c b a u p y f(u|)

Revuelta (2000) estudi el efecto de la imprecisin con que se
generan los isomorfos en la fiabilidad de las puntuaciones de los
sujetos en un TAI. Para ello, se toma como punto de partida un banco
calibrado segn el modelo de tres parmetros y se analiza la precisin
del TAI si la precisin de los isomorfos tomara diferentes valores
arbitrarios. Las dos variables independientes son la magnitud de las
varianzas y covarianzas de la distribucin f (a, b, c) y el porcentaje
de isomorfos que se utilizan en el test. Tambin se incluy un grupo
control en el que no se incluyen isomorfos. En cada condicin se
aplic un TAI a varios miles de sujetos simulados y se cuantific la
imprecisin con que se estima la del sujeto. Los resultados
principales del estudio fueron:

a) No se produjo sesgo en la estimacin del rasgo en ninguna de
las condiciones puestas a prueba.
b) El aumento en el porcentaje de isomorfos en el test y la
mayor imprecisin en sus parmetros producen un aumento
en el error de estimacin del rasgo. Adems, se encontr un
P (u |, a, b, c)
f (u| )

94
efecto de interaccin. A mayor porcentaje de isomorfos ms
acusada es la prdida de informacin acerca de debida al
aumento de la imprecisin en los parmetros de los
isomorfos.
c) En condiciones realistas, la informacin acerca de
proporcionada por un TAI basado en isomorfos est
aproximadamente entre un 50% y un 80% de la que se
obtendra en un TAI sin isomorfos.

6.7.- Nuevos modelos

La mayora de los TAIs han sido elaborados para medir rasgos
intelectuales o conocimientos, y su fundamentacin psicomtrica es la
de los modelos dicotmicos unidimensionales de la TRI. Sin
embargo, se estn ensayando TAIs sustentados en modelos
multidimensionales para evaluar el rendimiento que depende del nivel
en mltiples rasgos. Algunos trabajos (v.g. Abad., Ponsoda y
Hontangas, 1998) ponen en duda la robustez de los modelos
unidimensionales en el tratamiento de las respuestas a tems cuya
resolucin requiere un cierto nivel en varios rasgos. La opcin actual
es un claro intento por aplicar modelos de TRI multidimensionales
tanto en la seleccin de tems como en las estimaciones de rasgo.
Adems, el tipo de constructos psicolgicos a evaluar mediante TAIs
se ha incrementado mediante el estudio de la eficiencia de pruebas
adaptativas para tems de respuesta graduada, basadas en los modelos
politmicos de la TRI, la mayora pensados para la medicin de
actitudes y rasgos de personalidad.

6.7.1. Modelos multidimensionales

TAI s multi-unidimensionales: Mini-TAI s

Respecto a cmo afrontar desde una perspectiva adaptativa el
tema de la multidimensionalidad, se ha propuesto (Schnipke y Green,
1995) la construccin de los denominados como mini-TAIs, que
consisten en dividir un banco de tems en tantos bancos

95
unidimensionales como puedan establecerse, de modo que cada TAI
selecciona tems en uno de ellos. Para llegar a la puntuacin final de
un evaluando se agregan las diferentes estimaciones realizadas (por
ejemplo, obteniendo las medias de las estimaciones realizadas en los
mini-TAIs). El diseo de mini-TAIs no parece ser la mejor estrategia
para afrontar el tema de la multidimensionalidad ya que, entre otras
cosas, el trabajo con bancos pequeos incrementa los problemas
relacionados con la sobre-exposicin de los tems.

Testlets:

Un testlet es un conjunto de tems sobre un estmulo comn. En
un test de compresin lectora, por ejemplo, el estmulo podra ser un
prrafo de varias lneas de texto y los tems varias preguntas de
opcin mltiple sobre el prrafo. Este tipo de tests surgieron (Wainer
y Kiely, 1987) como respuesta a una crtica comn a los tems de
opcin mltiple: su falta de contexto.
Con los tems de un testlet no es fcil cumplir el principio de
independencia local. Las respuestas a dos tems suelen mantener una
correlacin positiva, ya que la probabilidad de acertar (fallar) ambos
tems a la vez es mayor (menor) que la esperada si hubiese
independencia local. Entre las razones que se dan para explicar esta
correlacin positiva estn las siguientes: incorrecta comprensin del
estmulo, descuido en su lectura, o una frustracin general con el
estmulo en cuestin.
Tres han sido los principales tratamientos psicomtricos dados a
los testlests (Wainer, Bradlow y Du, 2000):

a) Tratar los tems como si fuesen tems ordinarios tomados de
un banco, sin considerar que algunos se basan en el mismo
estmulo. En este caso, no se tiene en cuenta el
incumplimiento de la independencia local y las consecuencias
son dos: a) una sobrestimacin de la precisin en la
estimacin de los niveles de rasgo, y b) un mayor sesgo en la
estimacin de los parmetos de dificultad y discriminacin.
La dependencia y estos efectos son tanto ms importantes
cuanto mayor es el nmero de tems de cada testlet. Parece

96
que cuando el nmero es 4-6 por testlet, estos efectos no son
importantes (Wainer et al., 2000, p. 247).

b) Una segunda posibilidad es aplicar modelos politmicos de la
TRI. En este caso, un testlet se considera un tem en el que las
posibles respuestas son el total de posibles aciertos. Un testlet
con cuatro tems podr considerarse un tem politmico con
respuestas: 0, 1, 2, 3 y 4. Un inconveniente de este modo de
proceder es que se pierde la informacin sobre las respuestas
a los tems particulares. Otra alternativa sera considerar
como cantidad de respuestas el nmero total de posibles
resultados (2
k
, en el caso de k tems). La dificultad ahora es
la gran cantidad de respuestas disponibles cuando k pasa de 3.

c) La tercera alternativa consiste en plantear un nuevo modelo
TRI que aade un parmetro adicional para tems anidados en
el mismo testlest. La probabilidad de acierto en un tem viene
dada por la siguiente expresin:

donde los parmetros , a
i
, b
i
y c
i
tienen el mismo significado
que en el modelo de 3 parmetros. La nica diferencia con
este modelo es el termino aadido
t(i)
. Este trmino se
refiere a un rasgo secundario de los sujetos, distinto de , que
les facilita o dificulta el rendimiento en el testlet t. Esa
habilidad lleva el subndice t porque afecta al rendimiento del
sujeto en todos los tems del testlet t. Cada sujeto tiene tantos
parmetros
t
como testlets haya en la prueba, puesto que el
rasgo secundario no tiene por qu ser el mismo de un testlet a
otro. El modelo considera fija (e igual a 0) la media de las
t(i)
referidas a un mismo testlet. La varianza de
t
es proporcional
a la importancia del rasgo secundario. En la fgura 12 se
representa la probabilidad de acierto a un tem con c
i
= 0, a
i
=
1 y b
i
=0 como una funcin (multidimensional) de y
t(i)
.
)) ( exp(
) (
) ( i i t i
i
i i
b Da
c
c P
+
1
1

97
Para fijamos la desviacin tpica a 1; para
t(i)
fijamos la
desviacin tpica a 1 (figura 12.a), 0.50 (figura 12.b) y 0.01
(figura 12.c). Una forma de representar el efecto de la
desviacin tpica en la probabilidad de acierto es representar
slo los valores plausibles para y
t(i)
segn esa
variabilidad. En las figuras se observa cmo a medida que
disminuimos la varianza de
t(i)
la probabilidad depende ms
exclusivamente de . Obsrvese que, siendo la misma
funcin, slo hemos variado los valores de
t(i)
representados.

Figura 12. Probabilidad de respuesta desde un modelo Testlet.

a) Alta dependencia local b) Baja dependencia local c) Ausencia de dependencia local.

Como veremos inmediatamente, este modelo es equivalente a
otros multidimensionales que en vez de manipular la varianza de la
dimensin secundaria incluyen un parmetro de discriminacin para
esa dimensin adicional. Wainer y Wang (2000) aplican este modelo
a los testlets del TOEFL (Comprensin Lectora y Comprensin Oral)
y muestran el sesgo de estimacin en los parmetros al usar los
programas convencionales (v.gr., BILOG). Al final de ese trabajo se
plantean algunas de las preguntas que la investigacin sobre testlets
debe resolver. Por un lado, debe investigarse cules son las causas
concretas que hacen que en unos testlets aparezca mayor dependencia
local que en otros. Por otro lado, debe explicarse cmo el sesgo de

98
estimacin en a puede ir en cualquier sentido (infra o sobre-
estimacin). Finalmente, aunque en ambos trabajos se destaca como
ventaja la posibilidad de construir TAIs sin establecer a priori la
constitucin interna del testlet, la estabilidad y ajuste de los
parmetros en esa situacin estn por comprobar.
Glas, Wainer y Bradlow (2000) obtienen los estimadores de
mxima verosimilitud marginal del modelo anterior. En un TAI con
testlets, cabran dos opciones: a) la seleccin de los tems sin tener en
cuenta su pertenencia a testlets (es decir, no considerando el posible
incumplimiento de la independencia local), o b) considerando su
pertenencia al testlet. En este caso, el TAI elegira el testlet ms
informativo y a continuacin el tem ms informativo, dentro del
testlet elegido, para el ltimo nivel de rasgo estimado. Glas et al.
(2000) comprobaron que las estimaciones del nivel de rasgo son ms
precisas si se tiene en cuenta el testlet al que pertenece cada tem.

TAI S multidimensionales:

Los modelos multidimensionales de la TRI sirven para estimar el
rendimiento cuando depende del nivel en varios rasgos diferentes,
que pueden o no estar relacionados entre s. Existen dos tipos de
modelos: los no compensatorios y los compensatorios. Los modelos
no compensatorios, como el MLTM (Multicomponent Latent Trait
Model) se han utilizado generalmente en el anlisis de los procesos
que intervienen en la resolucin de los tems. En estos modelos la
probabilidad de acierto requiere la resolucin completa de un
conjunto de procesos; por completa se indica que el tem se fallar en
el momento en el que un proceso no se ejecute correctamente; el
modelo se expresa como un producto de probabilidades:

donde es un vector de p componentes de procesamiento que
intervienen en la resolucin del tem i; b
im
es el parmetro de

+

p
m
b
b p
m
m im i
im m
im m
e
e
P P
1
) (
) (
1
1
) ( ) (


99
dificultad asociado a la resolucin del proceso m; P
im
(
m
) es la
probabilidad de ejecutar el proceso m correctamente. En la figura 13
se representa la probabilidad de respuesta como funcin de 2
procesos (b
im
= 0 para todo m). Slo aquellas personas que obtienen
un nivel de ejecucin alto en ambos procesos obtienen una
probabilidad de respuesta prxima a 1.

Figura 13. Probabilidad de Respuesta Modelo No Compensatorio

Sin embargo, los modelos que por ahora centran el inters
investigador son los modelos compensatorios, ms cercanos al terreno
ms familiar del Anlisis Factorial (McDonald, 2000). En estos
modelos la probabilidad de respuesta es funcin de una combinacin
lineal de dimensiones. As, por ejemplo, el modelo logstico
multidimensional de 3 parmetros se formula como:

donde es un vector de p rasgos que intervienen en la resolucin del
tem i; b
i
es el parmetro de dificultad; c
i
el parmetro de pseudoazar;
+
p
m
i m im
b Da
i
i i
e
c
c P
1
1
1
) (

100
y a
im
es el parmetro de discriminacin asociado a la dimensin m. Si
c
i
=0, se obtiene el modelo logstico multidimensional de 2
parmetros. Si p = 1, la expresin es la del modelo unidimensional de
3 parmetros. El modelo asume que cada tem tiene parmetros
nicos de dificultad y pseudoazar, mientras que tiene diferentes
parmetros de discriminacin a
im
para cada uno de los rasgos
subyacentes (indica la importancia del rasgo m en el tem i y se
relaciona estrechamente con la saturacin factorial del tem i en el
factor m).

Figura 14. Probabilidad de Respuesta Modelo Compensatorio

En la figura 14 se representa la probabilidad de respuesta como
funcin de 2 dimensiones (a
i1
= a
i2
= 1; b
i
= 0; c
i
= 0). Como se puede
ver, ambas dimensiones, al poseer igual discriminacin, tienen
idntico efecto en la probabilidad de respuesta. Por otro lado, sujetos
con valores muy bajos en una dimensin no tienen un rendimiento
mnimo si los valores son altos en la otra dimensin. En ese sentido,
el modelo se denomina compensatorio. Una descripcin ms
detallada de los modelos multidimensionales puede encontrarse en
Santisteban y Alvarado (2001, apartado 4.4.3).

101
Segall (1996) y van der Linden (1999) han desarrollado
procedimientos de estimacin mximo-verosmiles y bayesianos de
los niveles de un evaluando en los p rasgos, as como los algoritmos
de seleccin sucesiva de los tems. El algoritmo de seleccin
multidimensional proporciona ventajas sobre el unidimensional slo
cuando las dimensiones estn relacionadas (estructura oblicua) y/o los
tems poseen un patrn de saturaciones complejas (y no una
estructura simple).
Conocida la matriz de varianza-covarianza de los p rasgos,
Var(), que informa de la precisin con que cada uno es estimado, el
siguiente paso es establecer el criterio numrico para ordenar los
tems en trminos de informacin; esto se hace considerando los
objetivos del evaluador; podemos tomar como medida del sujeto, z,
una combinacin lineal de habilidades (
p
m
m m
z
1

) en la que el
tamao de cada peso
m
represente el inters en reducir el error de
medida de la habilidad m. El siguiente tem a administrar ser el que
produzca un menor valor de Var(z).

Si todas las dimensiones son importantes, entonces
m
= 1 para
todo m. Si slo la dimensin m es importante, entonces
m
= 1 y el
resto de las = 0; en este ltimo caso, ) (
m
Var es el valor utilizado
para la seleccin.
Adems de las ventajas asociadas a los modelos
multidimensionales (permiten evaluar el rendimiento en tareas
complejas, incluir contenidos diferentes y estimar simultneamente el
nivel en los distintos rasgos), los TAIs multidimensionales parecen
ser ms eficientes que los unidimensionales (reducen hasta en un
tercio la longitud del test) y proporcionan estimaciones con mejores
propiedades (mayores correlaciones con los parmetros y menor
sesgo). Respecto a sus inconvenientes, Hontangas et al. (2000)
sealan la necesidad de muestras grandes para la estimacin de

+
p
m
p
m
p
n
n m n m m m
Cov Var z Var
1 1 1
2
) , ( ) ( ) (

102
parmetros y todas las especificaciones que requieren: nmero y
relacin entre las dimensiones, relaciones intra e inter-tems, etc.
En un trabajo reciente, Segall (2001) muestra cmo utilizar los
modelos multidimensionales para medir una nica dimensin. Segn
el autor, una de las dimensiones evaluadas y tiles en la medida de la
inteligencia es la habilidad cognitiva general. Sin embargo, los
procedimientos tradicionales, incluidos los de TRI unidimensional, no
se han traducido en mejoras en la evaluacin del factor general. Esto
se debe a que estos procedimientos son ptimos para aplicarse a tests
unidimensionales recogiendo su varianza especfica pero no su
varianza comn. Segall (2001) utiliza el Anlisis Factorial Jerrquico
para obtener los parmetros de los tems del ASVAB en dimensiones
ortogonalizadas; cada uno de los 420 tems del ASVAB tiene
saturaciones en 3 dimensiones: una dimensin general (Inteligencia
General o
g
), una dimensin especfica independiente de la general
(por ejemplo Verbal) y una dimensin an ms especfica y tambin
independiente de las anteriores (por ejemplo Conocimiento de
Palabras). El algoritmo de seleccin bayesiano utilizado minimiza la
varianza posterior de la dimensin general. En este trabajo se
comparan varias condiciones:

a) Test fijo y puntuacin directa: la suma de las puntuaciones en
un test fijo de 105 tems.
b) TAI unidimensional: con un banco de 420 tems, se aplica un
TAI de longitud fija (60 tems). Se obtiene una estimacin
nica de .
c) TAI multi-unidimensional: se aplican 4 TAIs de longitud fija
(15 tems) a cada sujeto, uno para cada rea de contenido.
es la suma de los niveles de rasgo estimados en cada TAI.
d) Test fijo y estimacin multidimensional: tras aplicar un test
fijo de 105 tems se utiliza un algoritmo multidimensional
para la estimacin de .
e) TAI multidimensional: seleccin y puntuacin
multidimensional en un TAI de longitud fija (60 tems).

En el estudio de simulacin se muestra que mediante la
aplicacin del modelo multidimensional, y gracias al algoritmo de

103
seleccin, se puede conseguir una medida casi perfecta de la
habilidad general. Mediante el algoritmo de puntuacin
multidimensional se obtienen tambin algunas mejoras. El peor
rendimiento se obtiene en el test fijo, a pesar de que la longitud del
test es casi el doble que en la condicin TAI. Otras aplicaciones del
modelo para la estimacin simultnea de varas dimensiones pueden
obtenerse en el trabajo de Segall (1996) aunque las conclusiones
(ventajosas para los modelos multidimensionales) son muy similares
a las aqu descritas.
6.7.2. Modelos politmicos

Se ha probado tambin la viabilidad de los denominados como
TAIs politmicos, sustentados en modelos TRI politmicos. En estos
modelos la probabilidad de seleccionar una determinada categora de
respuesta es funcin del nivel de rasgo del sujeto y de los parmetros
del tem. La ventaja de estos formatos es que proporcionan ms
informacin que los dicotmicos para estimar el nivel de rasgo. As,
por ejemplo, el modelo de respuesta graduada de Samejima, aplicable
a los formatos de respuesta de categoras ordenadas tpicos de las
escalas de actitudes o los tests de personalidad, se formula de la
siguiente forma:

Esta expresin, que corresponde al modelo logstico 2P (vase
2.1), pone en relacin la probabilidad de que un sujeto (con un nivel
de rasgo ) seleccione una categora de respuesta k o superior en el
tem j, siendo a el parmetro de discriminacin del tem (nico para
dicho elemento) y b el parmetro de localizacin (tambin
denominado como parmetro de dificultad) de la categora k (habr k-
1 parmetros de localizacin). El parmetro de discriminacin estar
relacionado con la pendiente en =b, en la expresin anterior. Los
parmetros de localizacin determinarn la separacin entre las
) (
) (
*
1
) (
jk j
jk j
b Da
b Da
jk
e
e
P

104
curvas; un valor de b concreto indica el valor del nivel de rasgo para
el que es 0.5 la probabilidad de elegir la alternativa k o alguna
superior. Por ejemplo, para un tem con 4 categoras de respuesta y
parmetros (a= 1, b
2
= -1, b
3
= -0.5, b
4
= 1.5) tendramos las siguientes
tres funciones de probabilidad acumuladas que se muestran en la
figura 15 (por supuesto, la funcin acumulada para la primera
categora no se representa porque sera igual a 1 para cualquier nivel
de rasgo).

Figura 15. Funciones de probabilidad del tem

Ser suficiente con restar las probabilidades de dos categoras
adyacentes para obtener la probabilidad de que un sujeto seleccione
una categora concreta:

Lo que dara lugar en nuestro ejemplo a las 4 funciones de
respuesta (tantas como categoras) de la figura 16.

niveles de rasgo
3,50
3,00
2,50
2,00
1,50
1,00
,50
,00
-,50
-1,00
-1,50
-2,00
-2,50
-3,00
-3,50
P
*
1,0
,8
,6
,4
,2
0,0
) ( ) ( ) (
*
) 1 (
*

+

k j jk jk
P P P

105
Figura 16. Funciones de respuesta del tem

En la Figura 15 puede comprobarse, por ejemplo, que una
persona con nivel de rasgo igual a 0.5 tiene una probabilidad de 0.5
de seleccionar una de las dos categoras de respuesta superiores (3
4), pues el parmetro b de la curva intermedia es precisamente 0.5.
En la Figura 16 podemos comprobar que la funcin de respuesta de la
primera categora es montona decreciente, que la correspondiente a
la ltima categora es montona creciente (mayor probabilidad cuanto
mayor es el nivel de rasgo) y que las de las categoras centrales son
unimodales (lo que significa que sern los sujetos con un cierto nivel
central de rasgo los que ms probabilidad tienen de seleccionarlas).
Se han presentado otros muchos modelos de TRI politmicos, que
pueden consultarse en Santisteban y Alvarado (2001, apartado 4.4.1).
Los hay que son modificaciones del modelo de Samejima, otros que
se derivan del modelo politmico de Rasch y hay modelos especficos
para los tems con repuesta nominal.
En su revisin sobre la investigacin desarrollada con TAIs
politmicos, Dodd, de Ayala y Koch (1995) sealan que pueden
manifestar niveles aceptables de precisin aunque el banco en que se

niveles de rasgo
3,50
3,00
2,50
2,00
1,50
1,00
,50
,00
-,50
-1,00
-1,50
-2,00
-2,50
-3,00
-3,50
P
1,0
,8
,6
,4
,2
0,0

106
sustentan contenga un nmero reducido de tems; en varios estudios
de simulacin se concluye que los niveles medios de error de medida
son aceptables para diferentes niveles de rasgo con bancos de unos 30
tems. Esto es as cuando se emplea como criterio de seleccin el de
mxima informacin del tem y cuando se establecen otros
alternativos (por ejemplo, el criterio de mxima informacin de la
categora, el criterio de mxima cercana entre el parmetro de
localizacin y el nivel de rasgo estimado, o el criterio de mxima
informacin para un determinado rango de valores de rasgo).
Respecto a los procedimientos de estimacin empleados, una de las
dificultades del mtodo de mxima verosimilitud es que no se pueden
realizar estimaciones finitas mientras un sujeto elige una de las
categoras extremas de respuesta (la primera o la ltima), lo cul se ha
intentado resolver mediante procedimientos stepsize como los
descritos para los modelos dicotmicos y mediante la aplicacin de
procedimientos de estimacin bayesianos. Aunque todava no existen
TAIs politmicos operativos, se ha ensayado su funcionamiento con
diversos cuestionarios de personalidad, escalas de actitudes hacia el
consumo de alcohol y de los consumidores hacia determinados
servicios.

Aguado (2000) dise un banco de 28 tems para medir el ajuste
emocional, a partir de diferentes concepciones tericas del constructo
y de diversos autoinformes ya validados. El formato de respuesta
inclua 6 categoras ordenadas, desde totalmente adecuado hasta
totalmente inadecuado para describir el modo de sentir o
comportarse habitualmente. Para estudiar las propiedades
psicomtricas del banco realiz las siguientes comprobaciones: a) un
anlisis clsico de los tems (media, varianza, ndice de
discriminacin y consistencia interna cuando se elimina el tem) y de
la consistencia interna del banco (=0.92), b) un estudio de validez
convergente (correlaciones en torno a 0.8 con la escala N del
cuestionario EPQ y con la escala de ajuste emocional del BFQ), c) un
estudio de validez factorial del que se obtuvieron 5 factores
correlacionados, d) mediante el programa PARSCALE se estimaron
los parmetros de rasgo y de los tems segn el modelo de respuesta
graduada de Samejima: se obtuvieron las funciones de informacin y

107
de error tpico de medida para los niveles de rasgo entre 4 y +4 y la
distribucin de los parmetros de discriminacin y de localizacin, y
e) para comprobar el grado de invarianza conseguido se
correlacionaron los niveles de rasgo estimados en dos mitades del
banco (r=0.87) y las correlaciones entre los parmetros estimados en
dos muestras distintas (correlacin alrededor de 0.96 para ambos
parmetros).
En un estudio de simulacin se estudiaron las propiedades de un
TAI politmico, basado en el modelo de Samejima, con las siguientes
caractersticas: a) procedimiento de arranque: seleccin de un nivel
aleatorio entre 1 y +1, b) procedimiento de estimacin de mxima
verosimilitud para estimar los niveles de rasgo, c) seleccin sucesiva
de tems segn el criterio de mxima informacin, y d)
establecimiento de diversos criterios de parada, unos de longitud fija
(determinado nmero de tems) y otros de longitud variable (alcanzar
determinado error tpico de medida). Se simularon las respuestas de
1100 sujetos (100 para cada uno de los 11 niveles de rasgo
prefijados). Como variables dependientes fundamentales se
establecieron el nivel medio de sesgo (diferencias entre el nivel de
rasgo estimado y el parmetro), error tpico de medida (en las
condiciones de parada de longitud fija) y nmero de tems
administrados (en las condiciones de longitud variable). El trabajo
concluye que, excepto para los niveles extremos de ajuste emocional,
con una media de 10 15 tems el TAI consigue estimaciones
razonablemente precisas, incluso ms precisas que las
proporcionadas por otros cuestionarios de mayor longitud.

6.8.- Condiciones de aplicacin

En un proceso real de evaluacin psicolgica o educativa, donde
las consecuencias del rendimiento en los tests son importantes para
las personas, la consecucin de la mejor calidad psicomtrica posible
de las estimaciones no debera entrar en colisin con el
mantenimiento de ciertas condiciones mnimas de confortabilidad, de
manera que la realizacin del test sea lo menos aversiva posible para
los evaluandos. En principio, cuando la aplicacin de un TAI tiene

108
importantes consecuencias para quien lo responde, la situacin de
evaluacin tiene componentes estresantes adicionales a los que se
plantean en la aplicacin de los tests convencionales de rendimiento,
en primer lugar porque se trata de una prueba informatizada (los
evaluandos pueden tener ms o menos experiencia con los
ordenadores, as como diferente predisposicin hacia su uso), en
segundo lugar porque el propio algoritmo de seleccin lleva a que se
acierte aproximadamente un 50% de los tems presentados (lo que
puede romper con la concepcin ms tradicional de que cuantos ms
tems se aciertan mayor nivel se manifiesta en el test), y en tercer
lugar porque los TAIs operativos tienen en algunos aspectos menos
flexibilidad que los tests convencionales (lo ms usual es que no
permitan omitir, diferir o cambiar respuestas). En este sentido, se ha
desarrollado toda una lnea de investigacin aplicada que pretende
incrementar la sensacin subjetiva de xito o el grado de control que
el evaluando tiene en la sesin de evaluacin. En definitiva, se
intenta disear pruebas adaptativas que, manteniendo en lo posible
sus beneficios de tipo psicomtrico, no tengan desventajas
motivacionales adicionales a las que tienen los tests convencionales.
Se han ensayado TAIs fciles que permiten tasas de aciertos
superiores a las que se obtienen en los algoritmos adaptativos ms
comunes, se han probado TAIs que permiten la revisin (y el
cambio) de las respuestas como cualquier otro test convencional y
algunas variantes interesantes (como los tests autoadaptados
informatizados) que permiten al evaluando cierto grado de control
sobre el nivel de dificultad de la prueba.

TAI s fciles

Independientemente del nivel de rasgo de las personas, en un
TAI suelen acertarse aproximadamente la mitad de los tems que se
presentan. Adems, el procedimiento de seleccin de los tems impide
que, como es usual en otros tests convencionales de rendimiento
ptimo, stos se presenten secuencialmente de ms fciles a ms
difciles. Algunos autores (v.gr., Andrich, 1995) advierten que estas
caractersticas de los TAIs pueden tener algn efecto negativo en el
estado motivacional con que los evaluandos afrontan la prueba.

109
Lunz y Bergstrom (1994) propusieron variantes fciles de los
TAIs que no seleccionaban el tem ms informativo, lo cul segn el
modelo 1P coincidira con el tem cuya probabilidad de acierto para el
ltimo nivel de rasgo estimado fuera ms prxima a 0.5, sino que
consistan en elegir en cada momento el tem cuya probabilidad de
acierto fuera algo superior (0.6 0.7). Como es lgico, un TAI fcil
necesitar aplicar un mayor nmero de tems para alcanzar la misma
precisin que un TAI convencional fundamentado en el principio de
mxima informacin. Estas mismas autoras (Bergstrom y Lunz,
1999) informan que, en contextos operativos de certificacin para
licenciados en enfermera y medicina, ajustan la dificultad del TAI a
una probabilidad de 0.6. Prefieren compensar la ligera prdida que se
produce en precisin con una mayor aceptacin del procedimiento
por parte de los candidatos.

Revisin de respuestas en TAI s

La oportunidad de revisar y cambiar las respuestas iniciales que
un evaluando da a los tems de un test es algo usual en las pruebas
convencionales. Los evaluandos perciben que la posibilidad de
revisar respuestas contribuye a que la prueba sea ms justa y a reducir
el nivel de ansiedad ante la situacin de evaluacin, lo que puede
hacer que ciertas personas rindan mejor ante una situacin que puede
resultar estresante.
En el caso de los TAIs, algunas razones pueden hacer
desaconsejable permitir la revisin y cambio de respuestas: en primer
lugar, puede incrementar el tiempo invertido en la sesin de
evaluacin; en segundo lugar, puede afectar a la precisin de las
estimaciones, dado que algunos tems ya no seran los ms
informativos para el nivel de rasgo estimado despus de la revisin;
finalmente, es posible que algunos evaluandos (si conocieran el
funcionamiento de un TAI y el procedimiento empleado para estimar
su nivel) utilicen en la primera aplicacin del TAI estrategias
ilegtimas de respuesta (por ejemplo, fallar deliberadamente algunos
tems, para que los siguientes que se le presenten sean muy fciles) y
as intentar incrementar su nivel estimado en la prueba (despus de
acertarlos en la fase de revisin). Respecto a este ltimo

110
inconveniente, Stocking (1997) obtuvo en un estudio de simulacin
menor sesgo y mayor precisin cuando la revisin se realizaba por
bloques de tems que cuando se planteaba al final de la primera
aplicacin del TAI. En algunas pruebas de certificacin operativas se
ha comprobado que cerca del 70% de los candidatos cambian alguna
de las respuestas dadas en la primera aplicacin del TAI (Bergstrom y
Lunz, 1999). Con objeto de evitar estrategias de ganancia ilegtima
asociadas a la revisin, en estos TAIs se controla de forma continuada
el porcentaje de tems que va acertando un candidato. Si el porcentaje
de la primera aplicacin es sensiblemente menor al que se espera (el
test est ajustado para que se produzca un 60% de aciertos) lo que se
hace es cambiar el algoritmo de seleccin para presentar los ms
informativos para el punto de corte (y no para el nivel de rasgo actual
estimado).
En lo que se refiere a las tasas de cambio de respuestas en los
TAIs, y sus efectos en cuanto a nivel de rasgo estimado y precisin,
en los estudios empricos realizados se puede concluir que: a)
aproximadamente el 60% de los evaluandos cambian al menos una
respuesta, b) entre las respuestas cambiadas, alrededor del 50% son
de error a acierto, c) de los sujetos que modifican respuestas, entre un
42 y un 52% mejoran su nivel en el test, mientras que lo reducen no
ms del 15%, d) la prdida en precisin asociada a la revisin es
escasa (el cociente entre las varianzas de los errores antes y despus
de la precisin es superior a 0.97), d) las ganancias medias despus de
la revisin oscilan entre 0.2 y 0.7, e) los sujetos de alto nivel de rasgo
se aprovechan ms de la revisin, f) el tiempo de la sesin se
incrementa entre un 37 y un 61% cuando se incluye la posibilidad de
revisar respuestas.
En un trabajo sobre el tema (Olea et al., 2000) se compararon
empricamente los efectos que tiene la revisin de respuestas en un
TAI y en un test fijo informatizado (TFI) de la misma longitud,
evaluando el nivel de ansiedad-estado de los sujetos antes y despus
de la aplicacin completa de los tests. Algunos de los principales
resultados obtenidos fueron los siguientes:

El grupo de sujetos a los que se permiti la revisin obtuvo
un descenso significativo de la ansiedad despus de responder

111
a los tests, mientras que el grupo al que no se permiti revisar
increment significativamente su nivel de ansiedad estado.
En la condicin TAI, ms del 80% de los evaluandos decidi
modificar alguna de sus respuestas iniciales; entre ellos, un
67% mejor su nivel despus de la revisin y un 25% lo
empeor. El 43% de las respuestas cambiadas fueron de error
a acierto, mientras que slo un 15% fueron de acierto a error.
La correlacin entre los niveles de rasgo estimados antes y
despus de la revisin fue de 0.95 (en el TAI) y 0.94 (en el
TFI).
En ambos tests, despus de la revisin se increment
significativamente el nivel de rasgo medio estimado, el
nmero de aciertos y el tiempo empleado en la sesin de
evaluacin. Descendi el nivel de ansiedad estado y no
aparecieron diferencias significativas en precisin.

En un segundo trabajo (Revuelta, Ximnez y Olea, en prensa) se
proponen nuevos procedimientos de revisin de respuestas y se
analizan sus consecuencias.

Tests autoadaptados informatizados (TADI s).

Rocklin y ODonnell (1987) propusieron un procedimiento
alternativo para intentar controlar la ansiedad de evaluacin que
pueden experimentar los sujetos cuando responden a los TAIs. La
idea consisti en permitir a los evaluandos ajustar de forma dinmica
el nivel de dificultad de los tems que deban responder, hasta situarse
en el nivel que les permitiera un rendimiento ptimo. Para ello,
propusieron dividir el banco de tems en varias categoras de
dificultad (normalmente entre 5 y 8) y permitir al evaluando, antes de
responder a cada tem, situarse en la categora que considere ms
adecuada para su nivel; un test autoadaptado informatizado (TADI)
selecciona en cada momento el tem ms informativo de la categora
elegida por el evaluando y proporciona feedback sobre el resultado
obtenido (acierto o fallo).
En lo ltimos aos se han realizado algunas revisiones (Wise,
1999; Wise, Ponsoda y Olea, 2002) sobre la investigacin que se ha

112
desarrollado sobre tests autoadaptados (normalmente estudios
empricos donde se aplican a grupos distintos un TADI y un TAI), de
la que pueden extraerse las siguientes conclusiones:

Aunque en algunos trabajos se obtienen mayores niveles de
rasgo estimado en la condicin TADI, en la mayora no se
obtienen diferencias significativas respecto a la condicin
TAI. Se obtienen mayores diferencias en submuestras de
sujetos que manifiestan mayor nivel de ansiedad-rasgo.
No existen resultados consistentes respecto al pretendido
descenso de ansiedad postest, aunque parece que las
estimaciones de rasgo en los TADIs correlacionan menos (y
de forma menos negativa) con los niveles de ansiedad de los
evaluandos.
Prcticamente en todos los estudios empricos se obtiene
mayor nivel de imprecisin (mayor error tpico de medida) en
la condicin TADI que cuando se aplica un TAI.
El tiempo invertido en la sesin de evaluacin se incrementa
entre un 20 y un 30%.

S.L. Wise, uno de los autores que ms investigacin han
realizado sobre el tema, considera que estos dos ltimos
inconvenientes hacen a los TADIs una alternativa de evaluacin poco
atractiva, a menos que se demuestre en un futuro prximo que sus
estimaciones resultan ms vlidas que las de los TAIs.
Los previsibles beneficios de los TADIs, fundamentalmente
respecto al incremento en nivel de rasgo estimado y al descenso en
ansidad estado, se han intentado explicar de forma diferente. As,
Rocklin (1994) plantea la hiptesis de auto-regulacin, segn la
cul el evaluando que responde a un TADI ajusta su nivel de ansiedad
al nivel que le resulta ms adecuado para conseguir un rendimiento
ptimo; Vispoel y Coffman (1994) plantean la hiptesis de
distraccin: los evaluandos prestan ms atencin a la tarea en un
TADI que en un TAI; Wise (1994) propuso la hiptesis de control
percibido, que mantiene que los efectos beneficiosos se deben a que
el evaluando tiene mayor grado de control sobre una situacin que le
puede resultar estresante.

113
Olea, Ponsoda y Wise (1995) encontraron que en un TADI se
obtuvieron mayores tasas de acierto y menor nivel de ansiedad
postest que en un TAI, lo que en principio puede hacer pensar que es
la sensacin subjetiva de xito (y no tanto el tipo de test) la
responsable del descenso en ansiedad. Para intentar clarificar estos
efectos, se planific un segundo estudio (Ponsoda, Olea, Rodrguez y
Revuelta, 1999) manipulando la dificultad en ambos tipos de tests.
Concretamente, y a partir de un banco de tems de vocabulario ingls
calibrado segn el modelo 3P, se establecieron 4 tipos de tests
diferentes:

TAI-Fcil: mediante una ligera modificacin en el algoritmo
de seleccin de mxima informacin, se elega el tem ms
informativo para la estimacin actual de rasgo menos 0.5.
TAI-Difcil: seleccionaba en cada momento el tem ms
informativo para el nivel de rasgo estimado ms 0.5.
TADI-Fcil: mediante instrucciones verbales, se instaba a los
sujetos a que eligieran categoras (y por tanto los tems) de
dificultad que les resultaran accesibles para su nivel. El banco
de tems se dividi en 5 categoras ordenadas de dificultad.
TADI-Difcil: se instrua a seleccionar categoras de
dificultad autnticamente desafiantes, dicindoles que los
aciertos en los tems difciles tenan ms peso en la
calificacin final que los obtenidos en tems fciles.

Los sujetos se asignaron de forma aleatoria a una de las 4
condiciones. Cada uno de los tests finalizaba cuando se presentaban
20 tems. Antes y despus del test cada sujeto debi responder a dos
versiones equivalentes de 10 tems de la escala de ansiedad estado de
Spielberger, Gorsuch y Lushene (1970). En la tabla 2 se muestran las
medias en n de tems acertados y en las diferencias en ansiedad
estado (entre el pretest y el postest) en cada una de las cuatro
condiciones.


114
Tabla 2. Media de tems acertados
Tipo de test tems acertados Ansiedad Pre-Postest
TAI-Fcil 15.15 1.07
TAI-Difcil 8.62 -0.84
TADI-Fcil 15.73 1.50
TADI-Difcil 13.04 0.18

Puede observarse cierta relacin entre los niveles de ansiedad
estado y la dificultad de cada una de las condiciones o tipos de tests:
en el TAI-Difcil se produce un incremento de la ansiedad, mientras
que cuando se obtienen tasas elevadas de acierto se experimenta
cierto descenso en la ansiedad-estado. No hubo diferencias
significativas entre los diferentes tipos de tests en el nivel medio de
rasgo estimado. La precisin fue mayor en las condiciones TAI. Se
obtuvieron diferencias significativas en ansiedad (diferencias pre-
postest) entre los dos tipos de TAIs.

6.9.- Otros objetivos de investigacin

Fundamentalmente en contextos de evaluacin educativa y
exmenes de certificacin resulta frecuente la elaboracin de tests de
maestra, para clasificar con precisin a los sujetos en uno de dos
grupos (aprobados-suspensos, admitidos-no admitidos, novatos-
expertos, etc.). Determinadas estrategias adaptativas pueden resultar
ms eficientes que los tests convencionales, en el sentido de optimizar
la consistencia de las clasificaciones mediante la presentacin de un
nmero reducido de tems.
La estrategia ms tradicional es la establecida en los tests de
maestra adaptativos, que son TAIs convencionales cuyo criterio de
parada tiene que ver con que el intervalo de confianza establecido a
partir del nivel estimado de incluya o no el punto de corte fijado por
los expertos en el contenido de la prueba. Obviamente, el intervalo
ser ms estrecho a medida que aumenta la presentacin de tems y se
requerir la aplicacin de un nmero ms elevado de tems para los
evaluandos cuyo nivel de rasgo se encuentre prximo al punto de
corte. Razonando como es usual en Estadstica Inferencial (Pardo y

115
San Martn, pp. 161 y ss), el intervalo de confianza de ser
(
e
S z
2 /

+ ,
e
S z
2 / 1
+ ), donde S
e
es el error tpico de medida
y z

es el valor de la distribucin normal, N(0, 1), tal que P(Z < z
) =
.
Una segunda estrategia, que da lugar a los denominados tests de
maestra secuenciales, consiste en aplicar un procedimiento de
parada fundamentado en el cociente de verosimilitudes (Spray y
Reckase, 1996). Proporciona una mayor precisin en las
clasificaciones que la obtenida con los tests de maestra adaptativos:

a) Se plantea en primer lugar una regin de indiferencia en torno
al punto de corte ( t
0
).
b) Se formulan las siguientes hiptesis estadsticas:
c) Se fijan las probabilidades de error (rechazar la hiptesis
nula cuando es verdadera) y (mantener la hiptesis nula
cuando es verdadera la alternativa).
d) Usando el test de razn de verosimilitud de Wald se obtiene
la razn entre las verosimilitudes, LR, definido como :
) ( / ) (
d e
L L LR .
e) Si ) 1 /( LR se mantiene
0
H , si / ) 1 ( LR se
rechaza, y si se encuentra entre los dos valores anteriores
contina la presentacin de tems.

Se han ensayado adems tests de maestra secuenciales con dos
puntos de corte (Eggen, 1999) y otros donde se aplican los desarrollos
de la teora bayesiana secuencial de la decisin (v.gr. Vos, 2000), que
permiten la seleccin de tems considerando criterios adicionales a los
psicomtricos (v.gr. costes econmicos o errores en la clasificacin) y
utilizar modelos de medida alternativos a la TRI. Vos y Glas (2000)
proponen un procedimiento para aplicar tests de maestra adaptativos
a testlets.

+
0 1 0 0
: :
d e
H H

116
Tambin en contextos de evaluacin educativa resulta algo
prioritario obtener informacin diagnstica sobre los dficits de
conocimiento o procesamiento de los alumnos, para tenerla en cuenta
en lo que idealmente sera un proceso de enseanza adaptado a las
necesidades individuales. En este sentido, Hontangas et al. (2000)
reflejan las limitaciones que tienen los TAIs convencionales para
cubrir los requerimientos de una buena evaluacin educativa y
describen algunos nuevos enfoques adaptativos (unos fundamentados
en la TRI y otros propuestos en el marco de los Sistemas Tutores
Inteligentes) que pretenden acercar la evaluacin y el adiestramiento.
Entre estos nuevos enfoques, destacamos algunos procedimientos de
TRI para clasificar a los alumnos en determinados estados de
conocimiento segn sus dficits de procesamiento (Tatsuoka y
Tatsuoka, 1997), otros que se fundamentan en las relaciones de
dependencia entre los tems para conseguir objetivos anlogos (por
ejemplo, los que se fundamentan en la Teora del Espacio de
Conocimiento -Dowling, Hockemeyer y Ludwing, 1996-) y,
finalmente, los que pretenden aplicar los desarrollos sobre Redes
Bayesianas para evaluar destrezas complejas (v.gr., Almond y
Mislevy, 1999). Tambin se ha probado la eficacia de TAIs
fundamentados en bancos de tems con formato de respuesta
construda (v. gr., Bennett, Steffen, Singley, Morley y Jacquemin,
1997).

Describiremos brevemente, como ilustracin de este ltimo
grupo de aportaciones, la estrategia de evaluacin diagnstica
adaptativa propuesta por Tatsuoka y Tatsuoka (1997). Esta estrategia
se apoya en la metodologa del espacio-regla (Tatsuoka, 1983, 1985;
Tatsuoka y Tatsuoka, 1987), que tiene por objeto determinar los
estados de conocimiento o los errores cognitivos en que incurren los
alumnos en algn dominio de contenidos. Hay bastantes estudios que
utilizan esta metodologa para analizar temas como la resolucin de
problemas sobre suma de nmeros con signo (Tatsuoka, 1985),
ecuaciones lineales (Birenbaum, Kelly y Tatsuoka, 1993),
multiplicacin y divisin con exponentes (Birenbaum y Tatsuoka,
1993), fracciones (Tatsuoka y Tatsuoka, 1997), compresin lectora
(Buck, Tatsuoka y Kostin, 1997) y tambin dominios ms complejos,

117
como la arquitectura (Katz, Martnez, Sheehan y Tatsuoka, 1998). La
mayora de estos estudios emplean esta metodologa con tests fijos
convencionales, habiendo sido utilizada de manera adaptativa
nicamente en el trabajo de Tatsuoka y Tatsuoka (1997). En lneas
generales, el mtodo del espacio-regla consiste en lo siguiente:

a) Identificar las destrezas y conocimientos elementales,
denominadas atributos A
k
, que intervienen en la ejecucin de
las tareas que constituyen el dominio objeto de evaluacin.
Los atributos se obtienen mediante un anlisis de los
requisitos cognitivos de una muestra representativa de estas
tareas. Por ejemplo, si el objeto de evaluacin es la suma de
fracciones, cada atributo puede ser un elemento o una etapa
del proceso para realizar la operacin:

A
1
= separar la parte entera de la parte fraccionaria
A
2
= obtener un denominador comn
A
3
= sumar los numeradores
etc.

b) Elaborar un matriz de incidencia, Q, con la que describir los
tems del banco (i=1,...,n) a partir de los atributos (k=1,...,K)
necesarios para resolverlos correctamente. Si la destreza k es
requerida por el tem i, el elemento q
ik
de la matriz Q ser 1, y
si la destreza no es requerida, q
ik
valdr 0, Por ejemplo, en
bancos de tres tems explicados por dos atributos, la matriz de
incidencia podra ser:

Banco 1 Banco 2

I
1
I
2
I
3
I
1
I
2
I
3

Atributos A
1
1 0 1 1 1 1

A
2
0 1 0 0 1 0

c) Identificar los estados de conocimiento (o uso de reglas
errneas, conceptos mal comprendidos, etc.), EC
h
, que se
pretende diagnosticar. Los EC
h
se definen como una
combinacin de atributos bsicos que se poseen y carecen, o

118
que son dominados y no dominados. En el caso de intervenir
K destrezas puede haber hasta 2
K
estados de conocimiento, es
decir, los resultantes de formar todas las combinaciones
posibles de atributos presentes, A
k
=1, o ausentes, A
k
=0,
simultneamente. En el ejemplo, tenemos cuatro estados: no
poseer ninguna destreza (EC
1
), poseer slo una (EC
2
y EC
3
) y
poseer las dos (EC
4
). A cada EC
h
le corresponde un patrn
ideal de respuestas, u
h
, que indica los tems que deberan ser
acertados, u
hi
=1, y fallados, u
hi
=0.

Patrones ideales de respuesta
Atributos Banco 1 Banco 2
A
1
A
2
I
1
I
2
I
3
I
1
I
2
I
3

EC
1
0 0 0 0 0 0 0 0
EC
2
1 0 1 0 1 1 0 1
EC
3
0 1 0 1 0 0 0 0
Estados de
Conocimiento
EC
4
1 1 1 1 1 1 1 1

En la prctica, el nmero de estados de conocimiento suele
ser menor que 2
K
, ya que algunos de ellos no son
identificables a partir el banco de tems disponible. Por
ejemplo, en el banco 2, segn lo visto en b), para acertar los
tems 1 y 3 se ha de tener la destreza A
1
y para acertar el tem
2 ambas destrezas. Por lo tanto, en el estado EC
1
(ninguna
destreza) habr que esperar que se fallen los tres tems. En el
estado EC
4
(ambas destrezas), habr que esperar tres aciertos.
En el estado EC
2
(slo destreza A
1
), habr que esperar acierto
en los tems 1 y 3 y fallo en el 2. En el estado EC
3
(slo
destreza A
2
), habr que esperar fallo en los tres tems. En
consecuencia, a partir del banco 2, no son identificables los
estados EC
1
y EC
3
, pues ambos producen el mismo patrn
ideal. Un anlisis lgico de la matriz Q permitir detectar las
combinaciones de atributos que son incompatibles en el
banco de tems. Por ejemplo, el programa BUGLIB (Varadi y
Tatsuoka,1989) permite identificar todos los estados de
conocimiento admisibles en un matriz de incidencia
utilizando reglas de lgebra booleana.

119
Tambin hay que tener en cuenta que en el conjunto de
patrones de respuesta posibles, u
j
, hay muchos que no
corresponden directamente a ningn estado de conocimiento.
En el ejemplo (banco 1) habra cuatro: 110, 100, 110 y 011.
Estos patrones no ideales, u
e
, se consideran desviaciones de
los patrones ideales, u
h
, de los estados de conocimiento, EC
h
.
Las desviaciones pueden deberse a que los estados de
conocimientos o la aplicacin de reglas que implican estn
sujetas a errores aleatorios. Es decir, personas con el mismo
nivel de rasgo o el mismo estado de conocimiento (v.gr., en el
caso de 8 tems ordenados por dificultad creciente,
u
h
=11110000), pueden mostrar empricamente diferentes
patrones por la influencia de factores como la adivinacin
(v.gr., u
e
=11110001) o el descuido (v.gr., u
e
=01110000);
mientras que sujetos con distinto nivel pueden obtener el
mismo patrn de respuesta u
h
por motivos similares. En
sntesis, el problema es cmo asignar los patrones u
e
a un EC
h

en base a su semejanza con los patrones u
h
. La solucin es
proponer un criterio comn para compararlos (apartado d) y
utilizar tcnicas de reconocimiento y clasificacin de patrones
estadsticos para tomar las decisiones (apartado e).

d) Definir el espacio de clasificacin, denominado espacio-
regla, en el que situar los patrones de respuesta, u
j
, y
establecer su correspondencia con los estados de
conocimiento, EC
h
. Se trata de un espacio cartesiano de dos
dimensiones: 1) el nivel, , y 2) el grado de adecuacin de los
patrones de respuesta, , al comportamiento esperado por
algn modelo de la TRI. La primera indica el nivel global,
j
,
ms compatible con el patrn de respuestas, u
j
, mostrado por
el sujeto. El nivel de rasgo es estimado por cualquiera de los
mtodos descritos en el apartado 2.3, a partir de u
j
y los
parmetros de sus tems. La segunda corresponde al ndice
ECI
4
de Tatsouka (1985) para analizar patrones de respuesta
aberrantes o atpicos:

120

siendo,

p
i
(
j
), la probabilidad de acertar el tem i con habilidad
estimada
j

T(
j
), la media de las p
i
(
j
) de los n tems aplicados

Todos los patrones de respuesta, u
j
, son situados en este
espacio como puntos x
j
=(
j
,
j
). En el caso de los estados de
conocimiento, EC
h
, dado que su aplicacin est sujeta a la
aparicin de errores aleatorios, hay cierta variabilidad en
torno a los puntos x
h
que idealmente les corresponden y, por
ello, se representan como elipsoides en lugar de puntos (ver la
figura 17). Segn Tatsuoka y Tatsuoka (1987), cada EC
h
tiene
un elipsoide definido por una distribucin normal bivariada,
con centroide en x
h
=(
h
,
h
) y matriz de covarianzas
h
, que
por tratarse de dimensiones independientes es:

] ) ( [
) (
j
j
j
f Var
f
u
u

n
i
j j i i j i j
T p u p f
1
] ) ( ) ( ][ ) ( [ ) ( u

n
i
j j i j i j i j
T p p p f
1
2
] ) ( ) ( ][ ) ( 1 [ ) ( ] ) ( var[ u
1
]
1
1 0
0 ) (
1
h
h
I

121
Figura 17. Representacin del espacio-regla
(+, patrones u
j
; elipses, EC
h
).

e) Clasificar los patrones de respuesta, u
j
, en uno de los estados
de conocimiento, EC
h
. Se utilizan tcnicas similares a las
empleados para el reconocimiento y clasificacin de patrones
estadsticos. El procedimiento consiste en calcular la
distancia del punto x
j
=(
j
,
j
) del patrn de respuesta u
j
a los
centroides de los estados de conocimiento x
h
=(
h
,
h
). La
mtrica utilizada es la distancia de Mahalanobis,
2
jh
D
, cuya
expresin es:

( ) ( )

-1
h
'
2

h j h j jh
D x x x x

A partir de las distancias, se seleccionan los dos estados de
conocimientos ms prximos EC
r
y EC
s
, es decir, aqullos
con los valores D
2
ms pequeos, y se aplican reglas
bayesianas para tomar la decisin de cul de ellos es ms

122
probable que haya generado el patrn u
j
. A partir de las
probabilidades de error de clasificacin obtenidas,
r
y
s
, se
asigna al sujeto el estado de conocimiento cuya probabilidad
sea ms baja. Las frmulas para efectuar estos clculos
pueden encontrarse en Tatsuoka y Tatsuoka (1987).

Una vez descrita la metodologa del espacio-regla, el proceso de
evaluacin adaptativa consistir en seleccionar los tems ms
apropiados para encontrar el estado de conocimiento del sujeto de la
manera ms eficiente posible. En cuanto a las partes del algoritmo
adaptativo, se procedera del siguiente modo:

a) El tem inicial ser seleccionado a partir de cualquiera de los
criterios generales de arranque ya comentados (en el apartado
4.1).
b) Despus de la administracin de un tem, se estima el nivel de
rasgo del sujeto y se calcula el ndice de ajuste del patrn de
respuestas resultante, con lo que se obtiene un punto en el
espacio-regla.
c) El tem siguiente es seleccionado utilizando la forma de
operar de las tcnicas de aceleracin usadas en los mtodos
de optimizacin. El prximo tem ser el que maximice la
distancia al punto estimado previamente. Es decir, para cada
tem del banco no presentado, se calculan los puntos que le
corresponderan en caso ser acertado y fallado. Se calculan
las distancias entre estos puntos y el anterior, y se selecciona
el tem cuya distancia sea mayor.
d) El test termina cuando el punto estimado se estabiliza en
alguna zona del espacio-regla, o sea, cuando la distancia entre
el punto obtenido en el tem n y el n+1 sea inferior a un
criterio de convergencia. Tambin se puede combinar con
otros criterios adicionales, como haber aplicado un nmero
mnimo de tems, etc.

Una vez terminada la aplicacin del TAI se clasifica al sujeto en
el estado de conocimiento que le corresponda, tal como hemos
descrito en el apartado e sobre el mtodo del espacio-regla. El

123
resultado es una estimacin global de la habilidad y un diagnstico
cognitivo a partir del patrn de atributos del estado de conocimiento
asignado.
Adicionalmente, la informacin obtenida sirve para disear
programas de enseanza especficos adaptados a las necesidades de
cada alumno, los cuales consisten en disponer las actividades de
entrenamiento en una secuencia apropiada segn indican las
distancias existentes entre estados de conocimiento. Es decir, una vez
el alumno ha sido clasificado en un estado de conocimiento y se han
detectado las destrezas que le faltan o la naturaleza de los errores que
comete, se le ofrece, primero, instruccin especfica en las destrezas
que corresponden al estado

ms prximo (menor distancia de
Mahalanobis), despus en el siguiente mas cercano a ste, y as
sucesivamente hasta alcanzar la competencia plena. De este modo, la
evaluacin y la enseanza pueden quedar integradas en un mismo
sistema.

Referencias bibliogrficas

Abad, F., Olea, J. y Ponsoda, V. (2001). Analysis of the optimum
number alternatives from the Item Response Theory. Psicothema
13, 1, 152-158.
Abad, F., Olea, J., Real, E. y Ponsoda, V. (2002). Estimacin de
habilidad y precisin en tests adaptativos informatizados y tests
ptimos. Un caso prctico. Revista Electrnica de Metodologa
Aplicada, 7, 1, 1-20.
Abad, F.J., Ponsoda, V. y Hontangas, P. (1998): El efecto de la
multidimensionalidad en las estimaciones de un modelo
unidimensional de la TRI. Psicolgica, 19, 41-51.
Abernathy, L.J. (1986). Computerized placement tests: A revolution
in testing instruments. New York: College Board.
Aguado, D. (2000). Garantas cientficas de un banco de tems para
la evaluacin del ajuste emocional. Caractersticas
psicomtricas de su administracin en formato de test
adaptativo informatizado. Tesis doctoral. Facultad de Psicologa
de la Universidad Autnoma de Madrid.
Allan, D. (1992). Oxford Placement Test 1. Oxford: Oxford
University Press
Almond, R.G. y Mislevy, R.J. (1999). Graphical models and
computerized adaptive testing. Applied Psychological
Measurement, 23, 223-237.
Andrich, D. (1995). Review of the book Computerized Adaptive
Testing: A Primer. Psychometrika, 4, 615-648.
Assessment Systems Corporation (1994). MicroCAT Testing System.
St. Paul. MN: Author.
Baker, F.B. (1992). Item Response Theory. Parameter estimation
techniques. New York: Marcel Dekker.

126
Barbero, M.I. M. (1999). Gestin informatizada de bancos de tems. En
J.Olea, V. Ponsoda y G. Prieto (Eds). Tests informatizados.
Fundamentos y aplicaciones.(pp. 63-83). Madrid: Pirmide.
Bejar, I. I. (1990). A generative analysis of a three dimensional
spatial task. Applied Psychological Measurement, 14 (3) 237-
245.
Bejar, I. I. (1993). A generative approach to psychological and
educational measurement. En N. Frederiksen, R. J. Mislevy e I.
I. Bejar (Eds.). Test theory for a new generation of tests. (pp.
323-358). Hillsdale, NJ: LEA.
Bejar, I. I. y Yocom, P. (1991). A generative approach to the
modeling of isomorphic hidden figure items. Applied
Psychological Measurement, 15 (2) 129-137.
Bennet, R.E., Steffen, M. Singley, M.K., Morley, M. y Jacquemin, D.
(1997). Evaluating an automatically scorable open-ended response
type for measuring mathematical reasoning in computerized
adaptive testing. Journal of Educational Measurement, 34, 162-
176.
Bergstrom, B. y Lunz, M. (1999). CAT for certification and licensure.
En F. Drasgow y J. B. Olson-Buchanan (Eds.). Innovations in
computerized assessment.(pp. 67-92).Mahwah, NJ: LEA.
Binet, A. y Simon, Th.A. (1905). Mthodes nouvelles pour le
diagnostic du niveau intellectual des anormaux. LAnne
Psychologie, 11, 191-336.
Birenbaum, M. y Tatsuoka, K.K. (1993). Applying an IRT-based
cognitive diagnostic model to diagnose studentsknowledge
states in multiplication and division with exponents. Applied
Measurement in Education, 6, 255-268.
Birenbaum, M., Kelly, A., y Tatsuoka, K.K. (1993). Diagnosing
knowledge states in algebra using the rule space model. Journal
for Research in Mathematics Education, 24, 442-459.
Bock, R.D. (1972). Estimating item parameters and latent ability
when responses are scored in two or more nominal categories.
Psychometrika, 37, 29-51.
Bradlow, E.T., Wainer, H. y Wang, X. (1999). A bayesian random
effects model for testlets. Psychometrika, 64, 153-168.
REFERENCIAS BIBLIOGRFICAS

127
Buck, G., Tatsuoka, K.K., y Kostin, I. (1997). The subskills of
reading: rule-space analysis of a multiple-choice test of second
language reading comprehension. Language Learning, 47, 423-
466.
Chen, S.-Y., Ankenmann, R.D. y Chang, H.H. (2000). A comparison
of item selection rules at the early stages of computerized
adaptive testing. Applied Psychological Measurement, 24, 241-
255.
Cheng, P. E. y Liou, M. (2000). Estimation of trait level in
computerized adaptive testing. Applied Psychological
Measurement, 24, 257-265
Computer Adaptive Technologies (1994). CAT software System.
Chicago, IL: Author.
Cuesta, M. (1996). Unidimensionalidad. En J. Muiz (Coord.)
Psicometra.(pp. 239-292). Madrid: Universitas.
Cusick, G.M. (1989). Computer-assisted vocational assessment.
Vocational Evaluation and Work Adjustment Bulletin, 22, 1, 19-
23.
Dodd, B.G. (1990). The effect of item selection procedures and
stepsize on computerized adaptive attitude measurement using
the rating scale model. Applied Psychological Measurement, 14,
355-366.
Dodd, B.G., de Ayala, R.J. y Koch, W.R. (1995). Computerized
adaptive testing with polytomous items. Applied Psychological
Dowling, C.E., Hockemeyer, C. y Ludwig, A.H. (1996). Adaptive
assessment and training using the neighbourhood of knowledge
states. En C. Frasson, G. Gauthier, y A. Lesgold (Eds.).
Intelligent Tutoring Systems. Heidelberg: Springer-Verlag.
Drasgow, F. y Olson-Buchanan, J.B. (1999). Innovations in
computerized assessment. Mahwah, NJ: Erlbaum.
Eggen, T.J.H.M. (1999). Item selection in adaptive testing with the
sequential probability ratio test. Applied Psychological
Measurement, 23, 249-261

128
Embretson, S. E. (1994). Application of cognitive design systems to
test development. En C. R. Reynolds (Ed.). Advances in
cognitive assessment. An interidisciplinary perspective. (pp. 107-
135). New York: Plenum Press.
Embretson, S. E. (1999). Generating items during testing.
Psychometric issues and models. Psychometrika, 64 (4) 407-433.
Fischer, G. H. (1973). The linear logistic test model as an instrument
in educational research. Acta Psychologica, 37, 359-374.
Fischer, G. H. y Parzer, P. (1991). An extension of the rating scale
model with an application to the measurement of change.
Psychometrika, 56 (4) 637-651.
Fischer, G. H. y Pendl, P. (1980). Individualized testing on the basis
of the dichotomous Rash model. En L. J. T. van der Kamp, W. F.
Langerak y D. N. M. de Gruijter (Eds.) Psychometrics for
educational debates. New York: John Wiley & Sons.
Carca, C. (2002). Proyecto docente de Psicometra. Madrid:
Universidad Autnoma.
Glas, C.A.W., Wainer, H. y Bradlow, E.T. (2000). MML and EAP
estimation in testlet-based adaptive testing. En W.J. van der
Linden y C.A.W. Glas (Eds.). Computerized adaptive testing.
Theory and practice. (pp 271-287).Dordrecht: Kluwer Academic
Publishers.
Hambleton, R. y Swaminathan, H. (1985). Item response theory.
Principles and applications. Boston: Kluver Nijhoff.
Hambleton, R., Zaal, J.N., Pieters, J.P.M. (1991). Computerized
adaptive testing: Theory, applications, and standards. En R.K.
Hambleton y J.N. Zaal (Eds.) Advances in Educational and
psychological testing. (pp. 341-366). Boston: Kluwer.
Herrando, S. (1989). Tests adaptativos computerizados: una sencilla
solucin al problema de la estimacin con puntuaciones
perfecta y cero. II Conferencia Espaola de Biometra.
Biometric Society. Segovia.
Hetter, R.D., Segall, D.O. y Bloxon, B.M. (1994). A comparison of
item calibration media in computerized adaptive testing. Applied
Psychological Measurement, 18(3), 197-204.
Hontangas, P. (1999). Software para la construccin y administracin
de tests informatizados. En J. Olea, V. Ponsoda, y G. Prieto

129
(Eds.). Tests informatizados: Fundamentos y aplicaciones.(pp.
251-286).Madrid: Pirmide.
Hontangas, P., Ponsoda, V., Olea, J. y Abad, F. (2000). Los tests
adaptativos informatizados en la frontera del siglo XXI: Una
revisin. Metodologa de las Ciencias del Comportamiento, 2
(2), 183-216.
Hontangas, P., Ponsoda, V., Olea, J. y Wise, S.L. (2000). The choice
of item difficulty in self-adapted testing. European Journal of
Psychological Assessment 16, 1, 3-12.
Hornke, L.F. (2000). Item response times in computerized adaptive
testing. Psicolgica, 21 (1-2), 175-189.
Hornke, L. F. y Habon, M. W. (1986). Rule based item bank
construction and evaluation within the linear logistic framework.
Applied Psychological Measurement, 10 (4) 369-380.
Irvine, S. H., Dann, P. L. y Anderson, J. D. (1990). Towards a theory
of algorithm determined cognitive test construction. British
Journal of Psychology, 81, 173-195.
Irvine, S. H. y Kyllonen, P. (Eds.) (2002). Item generation for test
development. Mahwah, NJ: Erlbaum Publishers.
Katz, I.R., Martnez, M.E., Sheehan, K, M., y Tatsuoka, K.K. (1998).
Extending the rule space methodology to a semantically-rich
domain: Diagnostic assessment in Architecture. Journal of
Educational and Behavioral Statistics, 24, 254-278.
Kim, J.K. y Nicewander W.A. (1993). Ability estimation for
conventional tests. Psychometrika, 58, 4, 587-599.
Kingsbury, G.G. (1990). Adapting adaptive testing: Using the
MicroCAT Testing System in a local School District.
Educational Measurement: Issues and Practice, 9, 2, 3-6.
Kingsbury, G.G. (1996). Item review and adaptive testing. Paper
presented an the annual meeting of the NCME, New York.
Kingsbury, G.G. y Houser, R. (1993). Assessing the utility of item
response models in computerized adaptive testing. Educational
Measurement: Issues and Practice, 12 (1), 21-27.
Kingsbury, G.G. y Houser, R. (1999). Developing computerized
adaptive tests for school children. En F. Drasgow y J. B. Olson-
Buchanan (Eds.), Innovations in computerized assessment. (pp.
93-116).Mahwah, NJ: LEA.

130
Kingsbury, G.G. y Zara, A.R. (1989). Procedures for selecting items
for computerized adaptive tests. Applied Measurement in
Education, 2, 359-375.
Lpez Pina, J.A. (1995). Teora de respuesta a los tems:
Fundamentos. Murcia: DM-PPU.
Lord, F.M. (1970). Some test theory for tailored testing. En W. H.
Holtzman (Ed.) Computer assisted instruction, testing and
guidance. (pp. 139-183). New York: Harper and Row.
Lord, F.M. (1971a). The theoretical study of the measurement
effectiveness of flexilevel tests. Educational and Psychological
Lord, F.M. (1971b). The self-scoring flexilevel test. Journal of
Educational Measurement, 8, 147-151.
Lord, F.M. (1971c). Tailored testing, an application of stochastic
approximation. Journal of de American Statistical Association,
66, 707-711.
Lord, F.M. (1977). A broad-range test of verbal ability. Applied
Psychological Measurement, 1, 95-100.
Lord, F.M. (1980). Applications of Item Response Theory to practical
testing problems. Hillsdale, NJ: LEA.
Lord, F.M. (1983). Unbiased estimators of ability parameters, of their
variance, and of their parallel-forms reliability. Psychometrika,
48, 233-245.
Lord, F.M. (1986). Maximum likelihood and Bayesian parameter
estimation in item response theory. Journal of Educational
Lord, F.M. y Novick, M.R. (1968). Statistical theories of mental test
scores. Reading, MA: Addison-Wesley.
Luecht, R.M. y Nungester, R.J. (2000). Computerized-adaptive
sequential testing. En W.J. van der Linden y C.A.W. Glas (Eds.).
Computerized adaptive testing. Theory and practice. (pp 117-
128).Dordrecht: Kluwer Academic Publishers.
Lumsden, J. (1976). Test Theory. Annual Review of Psychology, 27,
251-280.
Lunz, M.A. y Bergstrom, B.A. (1994). An empirical study of
computerized adaptive test administration conditions. Journal of

131
Martnez Arias, R. (1995). Psicometra: Teora de los tests
psicolgicos y educativos. Madrid: Sntesis.
McBride, J.R. (1988). A computerized adaptive version of the
Psychological Corporations Differential Aptitude Battery.
Paper presented at the annual meeting of APA, Atlanta, GA.
McBride, J.R. y Martin, J.T. (1983). Reliability and validity of
adaptive ability tests in a military setting. En D. J. Weiss (Ed.).
New Horizons in testing: Latent trait test theory and
computerized adaptive testing (pp 223-236). New York:
Academic Press.
McDonald, R.P. (1999). Test Theory: A unified treatment. New
Jersey: LEA.
McDonald, R.P. (2000). A basis for Multidimensional Item Response
Theory. Applied Psychological Measurement, 24, 99-114.
Meisner, R., Luecht, R. y Reckase, M. (1993). The comparability of
the statistical characteristics of test items generated by computer
algorithms. American College Testing Research Report Series,
93-3.
Mills, C.N., Potenza, M.T., Fremer, J.J. y Ward, W.C. (Eds.) (2002).
Computer-based testing: Building the foundation for future
assessment. Mahwah, NJ: LEA.
Mills, C.N. y Steffen, M. (2000). The GRE computer adaptive test:
Operational issues. En W.J. van der Linden y C.A.W. Glas
(Eds.). Computerized adaptive testing. Theory and practice. (pp
75-100). Dordrecht: Kluwer Academic Publishers.
Mislevy R.J. y Bock R.D. (1990). Bilog 3. Scientific Software, Inc.
Mooresville, Indiana.
Mislevy, R. J., Sheehan, K. M. y Wingersky, M. (1993). How to
equate tests with little or no data. Journal of Educational
Measurement, 30 (1) 55-78.
Mislevy, R.J. y Almond, R.G. (1996). Graphical models and
computerized adaptive testing. CSE Technical Report 434.
University of California.
Muiz, J. (Coord.) (1996). Psicometra. Madrid: Universitas.
Muiz, J. (1997). Introduccin a la teora de respuesta a los tems.
Madrid: Pirmide.

132
Muiz, J. y Hambleton, R. (1999). Evaluacin psicomtrica de los
tests informatizados. En J. Olea, V. Ponsoda, y G. Prieto (Eds.).
Tests informatizados: Fundamentos y aplicaciones. (pp. 23-
52).Madrid: Pirmide.
Muraki, E. y Bock, R.D. (1996). Parscale. IRT based test scoring and
item analysis for graded-open exercises and performance tests.
Chicago, Il.: Scientific Software International.
Navas, M.J. (1996) . Equiparacin de puntuaciones. En J. Muiz
(Coord.). Psicometra. (pp. 293-369).Madrid: Universitas.
Olea, J. y Hontangas, P. (1999). Tests informatizados de primera
generacin. En J. Olea, V. Ponsoda, y G. Prieto (Eds.). Tests
informatizados: Fundamentos y aplicaciones. (pp. 111-
125).Madrid: Pirmide.
Olea, J. y Ponsoda, V. (1996). Tests adaptativos informatizados. En J.
Muiz (Coord..) Psicometra. (pp. 730-783).Madrid: Universitas.
Olea, J., Ponsoda, V. y Prieto, G. (1999) (Eds.). Tests informatizados:
Fundamentos y aplicaciones. Madrid: Pirmide.
Olea, J., Ponsoda, V., Revuelta, J. y Belch, J. (1996). Propiedades
psicomtricas de un test adaptativo informatizado de vocabulario
ingls. Estudios de Psicologa, 55, 61-73.
Olea, J., Ponsoda, V., Revuelta, J., Hontangas, P., y Abad, F.J. (2001).
Requerimientos, aplicaciones e investigacin en tests adaptativos
informatizados. Apuntes de Psicologa, 19, 1, 11-28.
Olea, J., Ponsoda, V., Revuelta, J., Hontangas, P. y Suero, M. (1999).
Investigacin en tests adaptativos informatizados. En J. Olea, V.
Ponsoda y G. Prieto (Eds). Tests informatizados. Fundamentos y
Aplicaciones. (pp. 163-185).Madrid: Pirmide.
Olea, J., Ponsoda, V. y Wise, S. (1995). Tests adaptativos y
autoadaptados informatizados: Efectos en la ansiedad y en la
precisin de las estimaciones. Ponencia presentada en el IV
Simposium de Metodologa de las Ciencias del Comportamiento.
Murcia.
Olea, J., Revuelta, J., Ximnez, C. y Abad, F.J. (2000). Psychometric
and psychological effects of review on computerized fixed and
adaptive tests. Psicolgica, 21, 157-173.

133
Owen, R.J. (1975). A bayesian sequential procedure for quantal
response in the context of adaptive mental testing. Journal of the
American Statistical Association, 70, 351-356.
Pardo, A. y San Martn, (1998). Anlisis de datos II. Madrid:
Pirmide.
Parshall, C.G., Davey, T. y Pashley, P.J. (2000). Innovative item
types for computerized testing. En W.J. van der Linden y
C.A.W. Glas (Eds.). Computerized adaptive testing: Theory and
practice (pp. 129-148). Dordrecht: Kluwer Academic Publishers.
Parshall, C.G., Spray, J.A., Kalohn, J.C. y Davey, T. (2001).
Practical considerations in computer-based testing. New York:
Springer.
Ponsoda, V. (2000). Overview of computerized adaptive testing
special section. Psicolgica, 21(1 y 2), 115-120
Ponsoda, V., Olea, J. y Revuelta, J. (1994). ADTEST: A computer
adaptive test based on the maximum information principle.
Educational and Psychological Measurement, 54 (3), 680-686.
Ponsoda, V., Olea, J., Rodriguez, M.S. y Revuelta, J. (1999). The
effects of test difficulty manipulation in computerized adaptive
testing and self-adapted testing. Applied Measurement in
Education, 12, 167-184.
Ponsoda, V., Wise, S.L., Olea, J. y Revuelta, J. (1997). An Investigation
of Self-Adapted Testing in a Spanish High School Population.
Educational and Psychological Measurement 57(2), 210-221.
Prieto, G. y Delgado, A. (1996). Construccin de tems. En J. Muiz
(Coord.). Psicometra. (pp. 105-138). Madrid: Universitas.
Reckase, M.D. (1979). Unifactor latent trait models applied to multi-
factor tests: Results and implications. Journal of Educational
Statistics, 4, 207-230.
Reese, L.M., Schnipke, D.L. y Luebke, S.W. (1997). Incorporating
content constrains into a multi-stage adaptive testlet design.
Paper presented at the annual meeting of the AERA, Chicago.
Renom, J. (1993). Tests adaptativos computerizados: Fundamentos y
aplicaciones. Barcelona: PPU.
Renom, J. y Doval, E. (1999). Tests adaptativos informatizados:
Estructura y desarrollo. En J. Olea, V. Ponsoda y G. Prieto

134
(Eds.). Tests informatizados: Fundamentos y aplicaciones. (pp.
127-162).Madrid: Pirmide.
Revuelta, J. (2000). Estimacin de habilidad mediante tems
isomorfos. Efectos en la fiabilidad de las puntuaciones.
Psicothema, 12, 2, 303-307.
Revuelta, J. y Ponsoda, V. (1997). Una solucin a la estimacin
inicial en los tests adaptativos informatizados. Revista
Electrnica de Metodologa Aplicada 2, 2, 1-6.
Revuelta, J. y Ponsoda, V. (1998a). A comparison of item exposure
control methods in computerized adaptive testing. Journal of
Educational Measurement 35, 4, 311-327.
Revuelta, J. y Ponsoda, V. (1998b). Un test adaptativo informatizado
de anlisis lgico basado en la generacin automtica de tems.
Psicothema, 10, 3, 753-760.
Revuelta, J. y Ponsoda, V. (1999). Generacin automtica de tems.
En J. Olea, V. Ponsoda y G. Prieto (Eds.). Tests informatizados.
Fundamentos y aplicaciones. (pp. 227-250).Madrid: Pirmide.
Revuelta, J. y Ponsoda, V. (2001). Fundamentos de Estadstica.
Madrid: UNED.
Revuelta, J., Ximnez, C. y Olea, J. (en prensa). Psychometric and
psychological effects of item selection and review on
computerized testing. Educational and Psychological
Measurement.
Rocklin, T.R. (1994). Self-adapted testing. Applied Psychological
Measurement 7, 3-14.
Rocklin, T.R. y ODonnell, A.M. (1987). Self-Adapted testing: A
performance improving variant of computerized adaptive testing.
Journal of Educational Psychology, 79, 315-319.
Sands, W.A., Waters, B.K. y McBride, J.R. (Eds.) (1997).
Computerized adaptive testing. From inquiry to operation.
Washington: American Psychological Association.
Santisteban, C. (1990). Psicometra: Teora y prctica en la
construccin de tests. Madrid: Norma.
Santisteban, C. y Alvarado, J. (2001). Modelos psicomtricos. Madrid:
UNED

135
Schnipke, D.L. y Green, B.F. (1995). A comparison of item selection
routines in linear and adaptive tests. Journal of Educational
Schoonman, W. (1989). An applied study on computerized adaptive
testing. Amsterdam: Swets & Zeitlinger.
Segall, D.O. (1996). Multidimensional Adaptive Testing.
Psychometrika, 61, 331-354.
Segall, D.O. (2001). General Ability Measurement: An application of
multidimensional Item Response Theory. Psychometrika, 66 (1),
79-97.
Segall, D.O. y Moreno H.E. (1999). Development of the
computerized adaptive testing version of the Armed Services
Vocational Aptitude Battery. En F. Drasgow, y J.B. Olson-
Buchanan (Eds.). Innovations in computerized assessment. (pp.
35-66). Mahwah, NJ: LEA
SHL (1996). DA5: Diagramas codificados. SHL, Madrid: Psicologos
Organizacionales.
Spilberger, C.D., Gorsuch, R.L. y Luschene, R.E. (1970). Manual for
the state-trait anxiety inventory. Palo Alto, CA: Consulting
Psychologists Press.
Spray, J.A. y Reckase, M.D. (1996). Comparison of SPRT and
sequential Bayes procedures for classifying examinees into two
categories using a computerized test. Journal of Educational and
Behavioral Statistics, 21, 405-414.
Stocking, M.L. (1997). Revising item responses in computerized
adaptive tests: A comparison of three models. Applied
Stocking, M. L. y Lewis, Ch. (2000). Methods of controlling the
exposure of items in CAT. En W.J. van der Linden y C.A.W.
Glas (Eds.). Computerized adaptive testing. Theory and practice.
(pp. 163-182). Dordrecht: Kluwer Academic Publishers.
Stocking, M.L. y Swanson, L. (1993). A method for severely
constrained item selection in adaptive testing. Applied
Stocking, M.L. y Swanson, L. (1998). Optimal design of item banks
for computerized adaptive tests. Applied Psychological

136
Sympson J.B. y Hetter R.D. (1985) Controlling item exposure rates
in computerized adaptive testing. 27
th
Annual Meeting of the
Military Testing Association. San Diego. CA.
Tatsuoka, K.K. (1983). Rule space: An approach for dealing with
misconceptions based on item response theory. Journal of
Tatsuoka, K.K. (1985). A probabilistic model for diagnosing
misconceptions by the pattern classification approach. Journal of
Educational Statistics, 10, 55-73.
Tatsuoka, K.K., y Tatsuoka, M.M. (1987). Bug distribution an
statistical pattern classification. Psychometrika, 52-193-206.
Tatsuoka, K.K. y Tatsuoka, M.M. (1997). Computerized cognitive
diagnostic adaptive testing: effect on remedial instruction as
empirical validation. Journal of Educational Measurement, 34,
3-20.
Thissen, D. (1991) MULTILOG users guide. Chicago. Ill.: Scientific
Software International.
Thompson, T.D. y Davey, T. (1999). CAT procedures for passage-
based tests. Paper presented at the annual meeting of the
NCME, Montreal, Canada.
Urry, V.W. (1977). Tailored testing: A successful application of item
response theory. Journal of Educational Measurement, 14, 181-
196.
van der Linden, W.J. (1998). Bayesian item-selection criteria for
adaptive testing. Psychometrika, 62, 201-216.
van der Linden, W.J. (1998). Optimal assembly of psychological and
educational tests. Applied Psychological Measurement 22, 195-
211.
van der Linden, W.J. (1999). Multidimensional adaptive testing with
a minimum error-variance criterion. Journal of Educational and
Behavioral Statistics, 24, 398-412.
van der Linden, W.J. (2000). Constrained adaptive testing with
shadow tests. En W.J. van der Linden y C.A.W. Glas (Eds.).
Computerized adaptive testing. Theory and practice. (pp. 27-

137
van der Linden, W.J. y Glas, C.A.W. (Eds.) (2000). Computerized
adaptive testing. Theory and practice.Dordrecht: Kluwer
Academic Publishers.
van der Linden, W.J. y Pashley, P.J. (2000). Item selection and
ability estimation in adaptive testing. En W.J. van der Linden y
C.A.W. Glas (Eds.). Computerized adaptive testing. Theory and
practice. (pp 1-25).Dordrecht: Kluwer Academic Publishers.
van der Linden, W.J. y Reese, L.M. (1998). A model for optimal
constrained adaptive testing. Applied Psychological
Varadi, F. y Tatsuoka, K.K. (1989). BUGLIB. Programa de
ordenador no publicado.
Veerkamp, W.J.J. y Berger, M.P.F. (1997). Some new item selection
criteria for adaptive testing. Journal of Educational and
Behavioral Statistics, 22, 203-226
Vispoel, W.P. y Coffman, D.D. (1994). Computer-adaptive and self-
adaptive music listening tests: Psychometric features and
motivational benefits. Applied Measurement in Education, 7, 25-
52.
Vos, H.J. (2000). A Bayesian procedure in the context of sequential
mastery testing. Psicolgica, 21 (1 y 2), 191-211.
Vos, H.J. y Glas, C.A.W. (2000). Testlet-based adaptive mastery
testing. En W.J. van der Linden y C.A.W. Glas (Eds.).
Computerized adaptive testing. Theory and practice. (pp. 289-
Wainer, H. (2000a). Computerized adaptive testing: A primer. 2
edicin. Hillsdale, New Jersey: LEA. (1 edicin: 1990).
Wainer, H. (2000b). CATs: Whither and whence. Psicologica, 21, 121-
133.
Wainer, H., Bradlow, E.T. y Du, Z. (2000). Testlet response theory: An
analog for the 3PL model useful in testlet-based adaptive testing.
En W.J. van der Linden y C.A.W. Glas (Eds.). Computerized
adaptive testing. Theory and practice. (pp. 245-270).Dordrecht:
Kluwer Academic Publishers.
Wainer, H. y Eignor, D. (2000). Caveats, pitfalls, and unexpected
consequences of implementing large-scale computerized testing.

138
En H. Wainer (Ed.). Computerized adaptive testing: A primer.(pp.
271-300). 2 edicin. Hillsdale, New Jersey: LEA.
Wainer, H. y Kiely, G. (1987). Item clusters in computerized adaptive
testing: A case for testlets, Journal of Educational Measurement
24, 185-202.
Wainer, H. y Wang, X. (2000). Using a new statistical model for
testlets to score TOEFL. Journal of Educational Measurement,
37, 3, 203-220.
Wainer, H., Lewis, C., Kaplan, B. y Braswell, J.(1991). Building
Algebra Testlets: a comparison of hierarchical and linear
structures. Journal of Educational Measurement,28, 311-323.
Wang, T. y Vispoel, W.P. (1998). Properties of ability estimation
methods in computerized adaptive testing. Journal of
Warm, T. A. (1989). Weighted likelihood estimation of ability in item
response theory. Psychometrika, 54, 3, 427-450.
Way, W.D. (1998). Protecting the integrity of computerized testing item
pools. Educational Measurement: Issues and Practice, 17, 17-26.
Weiss, D.J. (1974). Strategies of adaptive ability measurement.
Research Report 74-5. Dep. of Psychology, U. of Minnesota.
Weiss, D.J. (1983). New horizons in testting: Latent trait test theory and
computerized adaptive testing. New York: Academic Press.
Wise, S.L. (1994) . Understanding self-adapted testing: The perceived
control hypothesis. Applied Measurement in Education, 7, 15-24.
Wise, S.L. (1999). Tests autoadaptados informatizados:
Fundamentos, resultados de investigacin e implicaciones para
la prctica. En J. Olea, V. Ponsoda y G. Prieto (Eds.). Tests
informatizados: Fundamentos y aplicaciones. (pp. 189-206).
Madrid: Pirmide.
Wise, S.L. y Kingsbury, G. (2000). Practical issues in developing and
maintaining a computerized adaptive testing program. Psicolgica,
21, 135-155.
Wise, S.L., Ponsoda, V. y Olea, J. (2002). Self-adapted testing: An
overview. Int. J. Cont. Engineering Eduction and Lifelong
Learning, 12 (1-4), 107-122.

139
Yi, Q. (2002). Incorporating the Sympson-Hetter exposure control
method into the a-stratified method with content blocking. Paper
presented at the annual meeting of AERA, New Orleans, LA.
Zickar, M.J., Overton, R.C., Taylor, R.y Harms, H.J. (1999). The
development of a computerized selection system for computer
programmers in a financial services company. En F. Drasgow y
J.B. Olson-Buchanan (Eds.). Innovations in computerized
assessment. (pp. 7-34).Mahwah, NJ: LEA

Modelo

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Modelo

Încărcat de

Drepturi de autor:

Formate disponibile

TEST ADAPTATIVOS

TESTS ADAPTATIVOS INFORMATIZADOS

. Cuanto mayor sea el nmero de

( ). Mediante simulacin, puede

). Para cada uno de los niveles reales (parmetros) se

TESTS ADAPTATIVOS INFORMATIZADOS

no perdi eficiencia a pesar de

TESTS ADAPTATIVOS INFORMATIZADOS

TESTS ADAPTATIVOS INFORMATIZADOS

S-ar putea să vă placă și