Documente Academic
Documente Profesional
Documente Cultură
TESTS ADAPTATIVOS
INFORMATIZADOS
"6-""#*&35"
5&454"%"15"5*704*/'03."5*;"%04
Quedan rigurosamente prohibidas, sin la
autorizacin escrita de los titulares del
Copyright, bajo las sanciones establecidas
en las leyes, la reproduccin total o
parcial de esta obra por cualquier medio
o procedimiento, comprendidos la reprografa
y el tratamiento informtico, y la distribucin
de ejemplares de ella mediante alquiler
o prstamos pblicos.
Universidad Nacional de Educacin a Distancia
Madrid 201
XXXVOFEFTQVCMJDBDJPOFT
+VMJP0MFBZ7JDFOUF1POTPEB
*4#/FMFDUSOJDP
&dicinEJHJUBl:NBZP de 201
Presentacin
ndice
13
15
20
21
27
31
31
34
41
45
4. ALGORITMOS ADAPTATIVOS
4.1. Proceso de aplicacin de un TAI.................................... 47
4.2. Procedimientos de arranque............................................ 48
4.3. Mtodos de estimacin del nivel de rasgo...................... 51
Presentacin..................................................................... 73
Precisin y sesgo de las estimaciones.............................. 75
Alternativas a la informacin de Fisher........................... 79
Restricciones en la seleccin de tems............................. 82
Control de la exposicin................................................... 85
Generacin automtica de tems...................................... 87
Nuevos modelos............................................................... 94
Condiciones de aplicacin............................................... 108
Otros objetivos de investigacin...................................... 114
Captulo 1
Introduccin conceptual e histrica
condicin adaptativa,
adicionales:
10
11
Captulo 2
Conceptos bsicos de la
teora de la respuesta al tem
14
15
P (T )
D (T b )
j
e
D (T b j )
1 e
16
,8
,6
P(T)
,4
,2
tem 1
0,0
tem 2
-4,00
-3,00
-3,50
-2,00
-2,50
-1,00
-1,50
,00
-,50
1,00
,50
2,00
1,50
3,00
2,50
4,00
3,50
17
e j j
P (T )
Da (T b )
1 e j j
donde aj es proporcional a la pendiente de la CCI en el valor T = bj.
Este parmetro de discriminacin, que suele oscilar entre 0 y 3,
indica el grado en que el tem discrimina entre los niveles T
superiores e inferiores a la dificultad del tem. Si la CCI tiene poca
pendiente en bj (aj cercano a 0), el tem resulta poco discriminativo;
si su pendiente es elevada, el tem sirve para diferenciar los niveles de
rasgo por encima y por debajo de su dificultad.
18
,8
,6
P(T)
,4
,2
tem1
tem2
0,0
-4,00
-3,00
-3,50
-2,00
-2,50
-1,00
-1,50
,00
-,50
1,00
,50
2,00
1,50
3,00
2,50
4,00
3,50
19
e j j
P (T ) c j (1 c j )
Da (T b )
1 e j j
En la figura 3 se representan dos tems con igual dificultad,
idntica discriminacin pero diferente parmetro de pseudoazar.
Mientras que para el tem 1 c1=0.5, el parmetro de pseudoazar del
tem 2 es c2=0.1. Si supiramos, por ejemplo, que ambos tems tienen
diferente nmero de opciones de respuesta, seguramente el tem 2
tendra mayor nmero de opciones que el tem 1, ya que resulta
menos probable de acertar teniendo un nivel de rasgo muy bajo.
Figura 3. Curvas caractersticas de dos items para el modelo 3P
1,0
,8
,6
P(T)
,4
,2
tem 1
tem 2
0,0
-4,00
-3,00
-3,50
-2,00
-2,50
-1,00
-1,50
,00
-,50
1,00
,50
2,00
1,50
3,00
2,50
4,00
3,50
20
21
22
,06
L
,04
,02
0,00
-4,00
-3,00
-3,50
-2,00
-2,50
-1,00
-1,50
,00
-,50
1,00
,50
2,00
1,50
3,00
2,50
4,00
3,50
L(U | T )
1u j
3 Pj j Q j
j 1
23
24
ln L
> u
i 1 j 1
ij
25
w ln L(u j ) / wT
D 6 (uij Pij )
i 1
26
g (T ) L(U | T )
L(U )
P(T | U )
v g (T ) L(U T )
(T P )
V2
D 6 (uij Pij ) 0
i 1
27
V (2T|T )
1
n
( Pi , (T )) 2
i 1 Pi (T )Qi (T )
Ve
1
I (T )
I (T )
D 2 6 Pi (T ) Q i (T )
28
I (T )
D 26a 2 Pi Qi
I (T )
D 26
a 2Qi ( Pi c) 2
Pi (1 c) 2
29
,8
,6
ITEST
I(T)
I1
,4
I2
I3
,2
I4
0,0
I5
-4,00
-3,00
-3,50
-2,00
-2,50
-1,00
-1,50
,00
-,50
1,00
,50
1,50
2,00
3,00
2,50
4,00
3,50
30
J (T )
V2
I (T )
Captulo 3
Diseo del banco de tems
3.2.-Elaboracin de tems
a) Formato, nmero de opciones y especificaciones de contenido.
Como en cualquier test, los tems del banco pueden incluir
informacin verbal o grfica, que puede ser presentada de forma
32
33
34
3.3.- Calibracin
Uno de los requerimientos que resultan ms costosos en un TAI
tiene que ver con la necesaria calibracin del banco de tems a partir
de los desarrollos de un modelo concreto de la TRI. Algunos estudios
empricos (Hetter, Segall y Bloxon, 1994) concluyen que la
calibracin realizada a partir de la aplicacin en lpiz y papel
proporciona resultados comparables a la que se obtiene en
aplicaciones informatizadas de los mismos tems. Desde un punto de
vista operativo, este dato resulta importante dado que la aplicacin
informatizada siempre resulta ms costosa a todos los niveles.
Para el proceso de calibracin debe decidirse el tamao mnimo
muestral recomendable, el modelo TRI ms apropiado y si se va a
establecer un determinado diseo de anclaje y equiparacin. Como en
cualquier otro test, deben comprobarse tambin el grado de ajuste de
los tems al modelo TRI seleccionado y otras propiedades
psicomtricas adicionales.
a) Tamao muestral
El tamao de la muestra que se requiere para la calibracin tiene
que ver fundamentalmente con el nmero de tems que tiene el banco
(o cada uno de los bloques de tems que se establezcan) y con el
modelo de TRI que se va a aplicar (los modelos con ms parmetros
requieren tamaos muestrales mayores). Una de las ventajas del
modelo de Rasch es que exige un tamao muestral sensiblemente
inferior a otros modelos (con 200 sujetos puede ser suficiente).
Renom y Doval (1999) comentan que suele aceptarse como mnimo
un tamao muestral de 500 personas por cada bloque de tems en que
se divida el banco en el diseo de anclaje (vase el subapartado
siguiente). Un tamao insuficiente puede dar lugar a estimaciones de
los parmetros de los tems con alto nivel de imprecisin. En el caso
35
36
37
>
n j P (T j ) Pe (T j )
38
39
b2
d kb1
Sb ( 2 )
Sb (1)
k b1 b2
40
a2
a1
k
41
42
El tamao muestral empleado en este trabajo no debe ser tomado como ejemplo de
las necesidades muestrales que exige el modelo 3P.
43
Frecuencia (N)
30
20
10
0
0.25
0.5
0.8
1.1
1.4
1.7
2.3
Frecuencia (N)
30
20
10
0
-3.2
-2.4
-1.6
-0.8
0.8
1.6
2.4
3.2
44
50
Informacin
40
30
20
10
0
-3.5
-2.5
-1.5
-0.5
0.5
1.5
2.5
3.5
Niveles de rasgo
45
46
Captulo 4
Algoritmos adaptativos
48
49
50
51
52
Ti 1 Ti
bM Ti
2
Ti 1 Ti
bm Ti
2
53
54
55
P (u , u
1
,..u 5 T )(T T ) 2 ,
i 1
30
P (u , u
1
,..u 5 T )T
i 1
56
57
58
59
60
61
62
63
64
65
66
Captulo 5
Propiedades psicomtricas del TAI
5.1.- Precisin
Como se dijo en apartados anteriores, una de las ventajas
fundamentales de la TRI es que proporciona medidas de precisin
(informacin o error tpico de medida) condicionadas a los diferentes
niveles de rasgo; es decir, diferentes para distintos evaluandos.
Haciendo uso de esta propiedad, la eficiencia del TAI puede
estudiarse mediante los oportunos estudios empricos o de
simulacin, informando de los siguientes aspectos:
a) Error tpico medio. o informacin que se obtienen para los
diferentes niveles de rasgo. Estos datos, ilustrativos de la
eficacia de los TAIs cuando se emplea un criterio de parada
de longitud fija o uno mixto, pueden obtenerse mediante
estudios empricos promediando los valores para los
evaluandos con un mismo nivel de rasgo estimado. La
68
(T T )
i
69
5.2.- Validez
Un TAI, como cualquier otro test, debe someterse a las
oportunas comprobaciones empricas de validez para estudiar el
grado en que se cumplen determinadas inferencias realizadas a partir
de las puntuaciones que proporciona. En este sentido, los algoritmos
adaptativos no garantizan en principio mayor o mejor prueba de
validez, aunque hay algunas consideraciones particulares que
debemos tener en cuenta.
a) En relacin a la validez de contenido, las restricciones que se
impongan al algoritmo de seleccin de tems pueden ayudar a
que la muestra de tems que se presenta sea representativa de
todos los diferentes ncleos de contenido establecidos por los
especialistas en la fase de elaboracin del banco de tems.
b) En cuanto a la validez predictiva, suele ser comn, dado los
contextos donde se aplican los TAIs, correlacionar sus
resultados con medidas externas que se quieren predecir. As,
por ejemplo, un TAI de razonamiento matemtico para
seleccionar programadores informticos se correlacion con
las valoraciones de los supervisores en rendimiento laboral de
programadores con mucha experiencia (Zickar et al., 1999).
Las estimaciones del CAT-ASVAB suelen correlacionarse
con las calificaciones que obtienen los reclutas en cursos
posteriores de adiestramiento militar.
c) Respecto a la validez de constructo, podramos considerar
que ya las comprobaciones iniciales sobre la
unidimensionalidad del banco representa un primer estudio de
validez de constructo. Por otra parte, cuando los TAIs tienen
sus ancestros de lpiz y papel, suelen plantearse estudios para
comprobar la equivalencia entre ambas versiones. Se han
contrastado, por ejemplo, las capacidades predictivas del
CAT-ASVAB y del P&P-ASVAB (ancestro en lpiz y papel)
respecto al xito obtenido posteriormente por los evaluandos
en cursos de adiestramiento. Tambin puede estudiarse la
70
71
Captulo 6
Investigacin actual en tests
adaptativos informatizados
En colaboracin con
Pedro Hontangas (Universidad de Valencia),
Francisco J. Abad y Javier Revuelta (UAM)
6.1.- Presentacin
No son pocos los desafos que tiene planteados la investigacin
sobre TAIs para que resulten eficientes en diversos contextos de
evaluacin psicolgica y educativa, que tienen a su vez muy diversos
objetivos, necesidades y restricciones. En uno de los ltimos
congresos de la National Council on Measurement in Education, una
de las principales reuniones cientficas internacionales sobre
Psicometra,
alrededor del 25 % de las comunicaciones se
relacionaron con investigaciones sobre TAIs (Ponsoda, 2000).
Mientras que los primeros libros especficos sobre el tema (v.g.
Wainer, 1990; Weiss, 1983) describan algoritmos de seleccin de
tems muy bsicos y escasas aplicaciones reales, los ms actuales
(v.g. Drasgow y Olson-Buchanan, 1999; Olea, Ponsoda y Prieto,
1999; Sands, Waters y McBride, 1997; van der Linden y Glas, 2000)
incluyen la descripcin pormenorizada de diversas aplicaciones en
programas de evaluacin a gran escala y la revisin de las lneas de
investigacin que se desarrollan sobre el tema en los ltimos aos,
74
75
76
a I
j
SESGO( ML(T )) |
( Pj* 0.5)
j 1
I2
T
I
77
78
79
80
I j (T )
P (T )
'
j
Pj (T )Q j (T )
FII j (T )
W (T ) I
(T )dT
Tu
(T )dT
Tl
f
FIPj (T )
p(T | X
) I j (T )dT
f
81
Pj (T 0 )
1 Pj (T 0 )
1 Pj (T 0 ) log
Pj (T 0 ) log
P (T )
1 P (T )
j
j
KL j (T || T 0 )
T KL (T || T)dT
KL j (T)
KLP (T)
j
p(T | X
)KL j (T || T)dT
f
82
83
84
(T 0 ) x j
j 1
x
j 1
25 , x64 x65 d 1 ,
x
jV1
d 10 ,
x
jV2
t 10 ,
jV3
85
86
87
88
89
bi
E 0 E k Cik
k 1
90
91
f (u | T )
p(u | T , b) f (b)db
92
f (u | T )
93
f (u~ T)
94
Modelos multidimensionales
95
96
Pi (T ) c i
1 ci
1 exp(Da i ( T T t ( i ) bi ))
97
2
1
1
0
2
0.5
0
-1
1
0
-1
0
-0.5
-2 -2
-1
-1 -2
0.02
0.01
2
1
0
0
-0.01
-1
-0.02 -2
98
99
e(Tm bim )
Pi (T ) Pim (T m )
(T m bim )
m 1
m 1 1 e
p
2
0
0
-2
-2
-4
-4
100
Pi (T ) ci
1 ci
p
DaimT m bi
1 em 1
4
2
2
0
0
-2
-2
-4 -4
101
O m T m ) en la que el
m 1
Var ( z )
O2mVar (T m ) OmOnCov(T m ,T n )
m 1
m 1n 1
102
103
Modelos politmicos
e j jk
P (T )
Da (T b )
1 e j jk
*
jk
104
,8
P*
,6
,4
,2
0,0
-3,50
-2,50
-3,00
-1,50
-2,00
-,50
-1,00
,50
,00
1,50
1,00
niveles de rasgo
2,50
2,00
3,50
3,00
105
Pjk (T )
106
107
108
109
x TAIs fciles
Independientemente del nivel de rasgo de las personas, en un
TAI suelen acertarse aproximadamente la mitad de los tems que se
presentan. Adems, el procedimiento de seleccin de los tems impide
que, como es usual en otros tests convencionales de rendimiento
ptimo, stos se presenten secuencialmente de ms fciles a ms
difciles. Algunos autores (v.gr., Andrich, 1995) advierten que estas
caractersticas de los TAIs pueden tener algn efecto negativo en el
estado motivacional con que los evaluandos afrontan la prueba.
Lunz y Bergstrom (1994) propusieron variantes fciles de los
TAIs que no seleccionaban el tem ms informativo, lo cul segn el
modelo 1P coincidira con el tem cuya probabilidad de acierto para el
ltimo nivel de rasgo estimado fuera ms prxima a 0.5, sino que
consistan en elegir en cada momento el tem cuya probabilidad de
acierto fuera algo superior (0.6 0.7). Como es lgico, un TAI fcil
necesitar aplicar un mayor nmero de tems para alcanzar la misma
precisin que un TAI convencional fundamentado en el principio de
mxima informacin. Estas mismas autoras (Bergstrom y Lunz,
1999) informan que, en contextos operativos de certificacin para
licenciados en enfermera y medicina, ajustan la dificultad del TAI a
una probabilidad de 0.6. Prefieren compensar la ligera prdida que se
produce en precisin con una mayor aceptacin del procedimiento
por parte de los candidatos.
x
110
111
112
113
114
Tipo de test
TAI-Fcil
TAI-Difcil
TADI-Fcil
TADI-Difcil
115
H 0 :T t T e { T 0 G
H1 : T d T d { T 0 G
116
117
118
Banco 1
Atributos
A1
A2
I1
1
0
I2
0
1
Banco 2
I3
1
0
I1
1
0
I2
1
1
I3
1
0
Estados de
Conocimiento
EC1
EC2
EC3
EC4
Atributos
A1
A2
0
0
1
0
0
1
1
1
I1
0
1
0
1
Banco 1
I2 I3
0
0
0
1
1
0
1
1
I1
0
1
0
1
Banco 2
I2 I3
0
0
0
1
0
0
1
1
119
120
f (u j )
]j
Var[ f (u j )]
siendo,
n
f (u j )
[ p (T
i
) u i ][ pi (T j ) T (T j )]
i 1
var[ f (u j )]
p (T
i
)[1 pi (T j )][ pi (T j ) T (T j )] 2
i 1
I (T h ) 1
121
D 2jh
xh
'
x
-1
h
xh
122
123
Referencias bibliogrficas
126
REFERENCIAS BIBLIOGRFICAS
127
128
cognitive assessment. An interidisciplinary perspective. (pp. 107135). New York: Plenum Press.
Embretson, S. E. (1999). Generating items during testing.
Psychometric issues and models. Psychometrika, 64 (4) 407-433.
Fischer, G. H. (1973). The linear logistic test model as an instrument
in educational research. Acta Psychologica, 37, 359-374.
Fischer, G. H. y Parzer, P. (1991). An extension of the rating scale
model with an application to the measurement of change.
Psychometrika, 56 (4) 637-651.
Fischer, G. H. y Pendl, P. (1980). Individualized testing on the basis
of the dichotomous Rash model. En L. J. T. van der Kamp, W. F.
Langerak y D. N. M. de Gruijter (Eds.) Psychometrics for
educational debates. New York: John Wiley & Sons.
Carca, C. (2002). Proyecto docente de Psicometra. Madrid:
Universidad Autnoma.
Glas, C.A.W., Wainer, H. y Bradlow, E.T. (2000). MML and EAP
estimation in testlet-based adaptive testing. En W.J. van der
Linden y C.A.W. Glas (Eds.). Computerized adaptive testing.
Theory and practice. (pp 271-287).Dordrecht: Kluwer Academic
Publishers.
Hambleton, R. y Swaminathan, H. (1985). Item response theory.
Principles and applications. Boston: Kluver Nijhoff.
Hambleton, R., Zaal, J.N., Pieters, J.P.M. (1991). Computerized
adaptive testing: Theory, applications, and standards. En R.K.
Hambleton y J.N. Zaal (Eds.) Advances in Educational and
psychological testing. (pp. 341-366). Boston: Kluwer.
Herrando, S. (1989). Tests adaptativos computerizados: una sencilla
solucin al problema de la estimacin con puntuaciones
perfecta y cero. II Conferencia Espaola de Biometra.
Biometric Society. Segovia.
Hetter, R.D., Segall, D.O. y Bloxon, B.M. (1994). A comparison of
item calibration media in computerized adaptive testing. Applied
Psychological Measurement, 18(3), 197-204.
Hontangas, P. (1999). Software para la construccin y administracin
de tests informatizados. En J. Olea, V. Ponsoda, y G. Prieto
(Eds.). Tests informatizados: Fundamentos y aplicaciones.(pp.
251-286).Madrid: Pirmide.
REFERENCIAS BIBLIOGRFICAS
129
130
REFERENCIAS BIBLIOGRFICAS
131
132
REFERENCIAS BIBLIOGRFICAS
133
134
REFERENCIAS BIBLIOGRFICAS
135
136
REFERENCIAS BIBLIOGRFICAS
137
138
REFERENCIAS BIBLIOGRFICAS
139