Sunteți pe pagina 1din 18

Psicolgica (1994) 15, 175-208.

Teora Clsica de los Tests versus Teora de


Respuesta al Item

Mara Jos Navas.


U.N.E.D. Madrid.
La dcada de los 80 ha sido testigo de la transicin de la teora clsica de los
tests a la teora de respuesta al item (Baker, 1989). El presente trabajo tiene.
por objetO reflexionar acerca del papel que han jugado y juegan ambos
modelos en el campo de la medida psicolgica y educativa. Para ello se
realizar, en primer lugar, un breve recorrido hislrico por dichas teoras y se
examinar el modo en que abordan el problema bsico de la medida. A
continuacin, se analizarn las semejanzas y. diferencias que existel1 en
aspectos como los supuestos en los que se basan, el modo de evaluar la
precisin de la medida, la dependencia/independencia contextual de los
parmetros, etc ... Por ltimo se. estudiarn las respuestas que dan estas
teoras a importantes problemas psicomtricos, como el estudio del sesgo, la
equiparacin de puntuaciones y la construccin de tcsts, examinando para ello
los tests referidos al criterio, los tests a medida y los bancos de tems.

PALABRAS CLAVE: Teora clsica de los tests, teora de respuesta al


item, sesgo, equiparacin, teSL<; referido~ al criterio, tests a medida, bancos de
items.

El campo de la medida ha avanzado de fOffi1a muy significativa durante


. los ltimos 25-30 aos, hasta el punto de que la medicin psicolgica y
educativa es ahora ms til que nunca para individuos particulares,
instituciones y sociedad en general (Snow y Lohman, 1989). Son muy
numerosos los cambios que han acontecido en las ltimas dcadas y estos
cambios han resultado ser crticos o 'dramticos' (Yoes, 1990), ya que ban
supuesto un giro muy importante tanto en los modelos de medida como en el
campo prctico de la evaluacin.
Un cambio sin duda fundamental ha sido la transicin, durante la
dcada de los ochenta, desde la Teora Clsica de los Tests (TCf) a la Teora
de Respuesta al Item (TRI). Esta teora representa, de hecho, el mayor avance
en la medicin psicolgica y educativa en los ltimos aos y tiene actualmente
un status hegemnico dentro de la Psicometra (Muiz y Hambleton, 1992).

176

Teora de lesls

MI Nayas

El objetivo del presente trabajo es examinar las semejanzas Y diferencias


entre el modelo clsico y los modelos de respuesta al item (Goldstein Y
Wood, 1989). Para ello, en primer tnnino, se realizar un breve recorrido
histrico por ambos modelos tericos: cando surgen Y en qu contexto
particular, qu difusin han tenido y porqu. Adems, se analizar cmo
abordan el problema central de cualquier teora de tests: la relacin entre la
actuacin -observable- del sujeto en el test con la habilidad o rasgo

-inobservable- que ste pretende medir. En segundo lugar, se analizarn las

diferencias que existen entre la TCf y la TRI en relacin a aspectos como los

supuestos en los que se basa una Y otra, el modo en el que se evala la

precisin de la medida, la dependencia/independencia contextual de los

parmetros de los modelos, etc ... El tercer apartado est dedicado a estudiar

las respuestas que dan estas teoras a importantes problemas psicomtricos,

como el estudio del sesgo de los items, la equiparacin de puntuaciones Y la

construccin de tests, examinando para ello los Tests Rereridos al Criterio

(TRC), los tests a medida y los bancos de items. Para finalizar se harn

algunas reflexiones acerca del peso especfico de estos modelos, acerca de lo

que han supuesto Y suponen realmente la TCT y la TRI en el campo de la

medida psicolgica y educativa.

INTRODUCCION
La TCf ha sido el modelo dominante en la teora de tests durante gran
parte de siglo y, aun hoy en da, tiene una vigencia ms que notable en el
campo de la prctica de la evaluacin psicolgica Y educativa. Esta teora
arranca de los trabajos pioneros de S pearman (1904, 1907, 1913) Y se
desarrolla en conjuncin con las teoras sobre la inteligencia. No en vano,
Spearman no es slo el padre de la TCf sino que es tambin el primero en
formular una teora psicolgica de la inteligencia (Spearrnan, 1923, 1927).
A su vez, los orgenes de la TRI se pueden remontar a los trabajos de
Thurstone en la dcada de los 20. Sin embargo, a pesar de la aparicin de
trabajos espordicos en los aos 30 y 40 (Lawley, 1943, 1944; Richardson,
1936; Tucker, 1946), es en la dcada de los 50 y 60 cuando realmente emerge
la TRI, siendo un hito fundamental en la historia de estos modelos la
publicacin en 1968 del libro de Lord y Novick Statictical Theories of Mental
Tests Scores, que seala el comienzo de la influencia de la TRI. A partir de
ese momento, se multiplican los trabajos con estos modelos, se ampla cada
vez ms su campo de aplicacin, aparecen monografas sobre el tema en las
revistas ms importantes del rea, a la vez que crece considerablemente el
nmero de libros y manuales publicados Y se 'generaliza su uso en grandes
empresas y compaas de tests, as como en los departamentos de educacin
de distintos pases y estados americanos (Goldstein, 1987; Guion e Ironson,
1983; Hambleton, Swaminathan, Arrasmith, Gower, Rogers y Zhou, 1986;
Messick, Beaton y Lord, 1983; Mislevy y Bock, 1989; pandey y Carlson,

177

1983; Raju, Steinhaus, Edwards y Delessio, 1991; van Thiel y Zwarts, 1986;
Yen, 1983).
No obstante, a pesar de que los orgenes de la TRI son slo un poco
posteriores a los de la TCf, hay que esperar a la dcada de los 80 para asistir
a la transicin de la TCf a la TRI (Baker, 1989) y es que, por un lado, la TRI
se desarrolla en un contexto bastante diferente al de la TCf, su desarrollo no
se vincula a teoras de la inteligencia sino a problemas tcnicos en la
construccin de tests y en la estadstica matemtica (Embretson, 1985) y, por
otro, aunque las ideas no son nuevas, el soporte matemtico, informtico y
tecnolgico necesario para ser aplicada s lo es (Jaeger, 1987). Es decir, slo
recientemente se ha dispuesto de la tecnologa necesaria de ordenador para
implementar los algoritmos que pemiten estimar los parmetros de estos
modelos. . .
.
Como sealan certeramente Gulliksen (1961) Y Lewis (1986), el
problema central de la teora de tests es la relacin entre la habilidad del sujeto
y su puntuacin observada en el tests: el objetivo de cualquier teora de tests
es realizar inferencias sobre el nivel en que los sujetos poseen la caracterstica
o rasgo inobservable que mide el test, a partir de las respuestas que stos han
dado a los elementos que forman el mismo. Es decir, para medir o, mejor
dicho, estimar las caractersticas latentes de los sujetos es necesario relacionar
stas con la actuacin observable en una prueba y esta relacin debe de ser
adecuadamente descrita por una funcin matemtica.
En efecto, tanto la TCf como la TRI tratan de estimar o inferir una
variable qqe no se puede observar directamente, una variable latente: la
puntuacin verdadera V -en la TCT- y el nivel 8 en el rasgo latente -en la
TRI-. No obstante, conviene notar que V y 8 son el mismo rasgo o habilidad
latente, si bien expresados en escalas diferentes, en distintas mtricas.
Realmente, la diferencia entre el modelo clsico y los modelos de respuesta al
item estriba en la ecuacin que relaciona la variable inobservable con la
actuacin observable en el test. En el caso de la TCT, esta relacin viene
expresada por una funcin lineal entre la puntuacin verdadera de un sujeto .
. en el test y la puntuacin que, de hecho, ha obtenido (X=V+E). En el caso de
la TRI, esta relacin viene expresada por una funcin no lineal entre el nivel
del sujeto en el rasgo latente y las respuestas dadas a los items del test
n

(V(8) =

P .(8))

l
. Esta ecuacin, conocida como funcin caracterstica
del test, es adems la ecuacin que permite pasar de la mtrica del parmetro
de habilidad en la TCf a la mtrica del parnletro de habilidad en la TRI.
En un intento de buscar la unidad subyacente a la diversidad de
modelos del anlisis multivariable, McDonald (1986, 1989) caracteriza a la
TRI dentro de los modelos del factor comn y considera que la TCT es
solamente un caso especial de la teora del factor comn. Asimismo, Weiss
(1983) sostiene que 'la TCf es un modelo de rasgo latente, aunque un
modelo muy sencillo' (p. 3). En definitiva, lo que se quiere poner de

i =1

178

MJ. Navas

Teoria de tests

manifiesto es que la TCf y la TRI pueden ser consideradas como teoras que
se solapan parcialmente, slo que la TRI hace supuestos ms fuertes y
obtiene, por tanto, resultados ms fuertes que la TCT. Esta afirmacin
general, sin embargo, debe ser convenientemente matizada o puede inducir a
error. En efecto, el hecho de imponer ms y ms fuertes restricciones a los
datos redunda en la obtencin de resultados tambin ms fuertes, pero a costa
de incrementar (1) el tamao muestral y (2) la complejidad matemtica de las
tcnicas usadas para la estimacin de parmetros. Como seala de forma muy
grfica Muiz (1992), 'la parsimonia y la sencillez del modelo lineal clsico lo
hace apropiado en numerosas ocasiones en las que la maquinaria pesada de la
TRI no puede maniobrar con eficacia' (p. 22). Y es que al basarse la TCT en
supuestos dbiles, stos son satisfechos por la mayor parte de las matrices de
datos obtenidas en la aplicacin de tests. Esta es la razn que explica que el
modelo clsico haya sido aplicado a una gran variedad de problemas de
construccin de tests y de anlisis de sus puntuaciones.

En efecto, si se evala a un mismo sujeto con un mismo test en dos


ocasiones distintas con muestras diferentes de sujetos -aunque el patrn de
respuestas del individuo en cuestin se puede Suponer que es el mismo-, el
error cometido al evaluar a dicho sujeto ser distinto en las dos ocasiones y
los valores estimados para su puntuacin verdadera tambin diferirn, ya que
el coeficiente de fiabilidad ser distinto, al modificarse la variabilidad de las
muestras. La siguiente cita de van der Linden (1986) ilustra sta y otras
inconsistencias posibles generadas en el marco de la TCf:

DIFERENCIAS EN LOS MODELOS


Uno de los aspectos que ha recibido numerosas crticas en el modelo
clsico se relaciona, precisamente, con los supuestos de los que parte, ya que
no son falsables sino que tienen un carcter claramente tautolgico
(Hambleton y van der Linden, 1982; Warrn, 1978). Esta deficiencia es
superada por los modelos de la TRI puesto que sus supuestos s son
susceptibles de comprobacin emprica.
Uno de los supuestos ms criticados es el de la independencia de las
puntuaciones verdaderas y el error, supuesto que, ya intuitivamente, resulta
bastante cuestionable. Lo que este supuesto viene a decir es que la precisin
de la medida es independiente de la habilidad del sujeto o del nivel que ste
muestra en el rasgo o caracterstica evaluados. Este punto conduce
directamente al segundo aspecto que ha sido seriamente cuestionado en la
TCf: la evaluacin de la precisin de la medida.
Los dos ndices bsicos de precisin de la medida en la TCT son el
error tpico de medida y la fiabilidad del test.
El problema que plantea el error tpico de medida es doble. Por un lado,
se define para un test global, no para cada item particular y, por otro, la TCT
supone que es el mismo para todos los niveles del rasgo latente evaluado,
supone que la varianza error es homocedstica en todos los niveles de e.
Por lo que respecta a la fiabilidad, hay que sealar que, segn Weiss y
Davinson (1981), la mayor debilidad de la TCT reside en el hecho de que las
estimaciones de la fiabilidad son especficamente una funcin del conjunto
particular de items y de la muestra de sujetos sobre la que han sido recogidos
los datos, razn por la cual su generalizabilidad resulta bastante limitada.
Adems, este carcter dependiente del grupo puede dar lugar a inconsistencias
.
importantes.

179

'En principio, para cualquier dominio de conocimiento o habilidad, se


pueden disear multitud de items diferentes. De este modo, todos los tests se
seleccionan de un dominio virtualmente infinito de items ... Dado que son
posibles muchas selecciones de items y cada una de ellas tiene el mismo
derecho a ser considerada como el 'el test estandard', surge un serio
problema: la teora clsica de los tests proporciona distintas escalas de
puntuaciones verdaderas en distintos tests. Incluso es posible que las distintas
escalas ordenen de forma diferente a la misma poblacin de sujetos. En tal
caso, la asignacin de puntuaciones en un test estandard no puede seguir
siendo condiderada como un intento serio de medida'. (pp. 327-8).
Otros problemas que se plantean al modelo clsico en relacin al
concepto de fiabilidad son, por un lado, el hecho de que su definicin se
apoya en gran medida en la disponibilidad de medidas paralelas y, tal Como se
sealan Hambleton y van der Linden (1982), stas son bastante difciles de
obtener en la prctica y, por otro lado, el coeficiente de fiabilidad sugiere un
modo de seleccionar items para construir tests contradictorio, en algunos
aspectos, con el sugerido por el coeficiente de validez (Rubin y Babbie,
1989).
.
. Todas estas deficiencias conducen a autores como Samejima (1977) a
concluir que 'la fiabilidad es un concepto muerto en la teora de tests' (p. 243)
a Lumsden (1976) a afim1ar que 'no tiene sentido. continuar prolongando la
vida de la puntuacin verdadera y del coeficiente de fiabilidad, definidos
segn el modelo clsico, como conceptos de la teora de tests' (p. 261).
La alternativa que ha planteado la TRI a la fiabilidad definida segn el
modelo clsico es la fiabilidad como informacin. En efecto, la funcin de
informacin del item (y del ~est) son medidas locales de fiabilidad (Boekkooi
Timminga y van der Linden, 1988) que especifican la precisin con la que el
de
item (o el test) mide cada una de los posibles valores de la escala
habilidad. Es decir, la funcin de la infom1acin, a diferencia del error tpico
de. medida, vara a lo largo de la escala pero no depende de la muestra de
sUjetos que ha respondido a los items del test en cuestion sino nicamente de
los items que lo integran. Adems, es posible evaluar la contribucin
de .cada item a la precisin total del test, lo que permitir
seleCCIonar los !tems de un modo no contradictorio con otros criterios tambin
imp?:rantes
la construccin de tests (no se producir un choque entre
.
fiablhdad y validez, Como en el modelo clsico).

indivi~ual

e~

TeorLl de tests

180

181

MJ. Navas

En este apartado, se tratar de ilustrar de forma breve algunas de las


aplicaciones ms interesantes de la TRI, poniendo especial nfasis en aquellas
en las que esta teora realiza una aportacin novedosa a los planteamientos del
modelo clsico. Concretamente, se comentarn las aplicaciones de la TRI en
el estudio del sesgo, en la equiparacin de puntuaciones y en la construccin
de tests.

Ahora bien, la caracterstica que diferencia radicalmente la TCf de la


TRI es el carcter dependiente/independiente de los parmetros del modelo
(Bock y Wood, 1971; Gulliksen, 1986; Hambleton Y Swaminathan, 1985;
Wright, 1968). En la TCT, los parmetros de los sujetos Y de los items
dependen, respectivamente, de las caractersticas de los items del test Y de la
muestra de sujetos a la que ste ha sido aplicado. El valor de la variable
medida depende del instrUmento utilizado para medirla y, a su vez, las
carectersticas de dicho instrUmento por las de la muestra de sujetos a la que

ste fue aplicado. Como sealan Muiz y Hambleton (1992), 'si se aspira a

una medicin rigurosa y cientfica, resulta difcil justificar que las mediciones

estn en.funcin del instrUmento utilizado' (p. 44). Por el contrario, en la TRI

los parmetros del item son independientes de la habilidad de los sujetos

utilizados en su estimacin y el nivel de un sujeto en el rasgo latente no

depende de los items concretos que se han utilizado para estimarlo. Es

justamente la invarianza de los parmetros del modelo en la TRI lo que

permite abrir nuevas perspectivas en la teora de tests, ya que se va a poder

dar respuesta a cuestiones que la TCT no poda responder adecuadamente

(Lord, 1980).
Una cuestin interesante que tambin emerge de este carcter
dependiente o independiente de los parmetros tiene que ver con el
significado e interpretacin de la escala de puntuacienes con la que se trabaja.
En el caso de la TCT, la muestra en la que se estiman los parmetros de los
items ' se asume representativa de la poblacin de sujetos a la que
posteriormente se va a aplicar el test y, por consiguiente, se utiliza como
grupo de referencia o norma con la que se compararn las puntuaciones
obtenidas en la prueba por otroS sujetos. Por tanto, el significado de la escala
de puntuaciones as generada tiene un carcter absoluto en su origen y unidad
es invariante respecto al
de medida. Por el contrario, en la TRI la escala
conjunto de items utilizados para estimar el rasgo latente pero es arbitraria, ya
que su origen y unidad de medida no estn determinados, no son fijos sino
que varan de una aplicacin a otra, por lo que slo tienen sentido las
comparaciones entre sujetos (o entre items), aunque tambin ofrece
posibilidades muy interesantes para interpretaciones referidas a la norma,
muy tiles en audiencias no profesionales.

DIFERENCIAS EN LA RESPUESTA A PROBLEMAS


APLICADOS
Son muchos los autores que subrayan la capacidad de los modelos de la
TRI para dar soluciones potentes a una gran variedad de problemas
psicomtricos aplicados (Hambleton y Swaminathan, 1985; Harrison, 1986;
Lord, 1980; Weiss, 1983). Como seala este ltimo autor, una de las grandes
aportaciones de la TRI es su capacidad de aplicacin a situaciones prcticas de
medida, que resultaban ciertamente problemticas desde la pespectiva clsica.

Sesgo
En la actualidad, los mtodos de estudio del sesgo basados en la TRI
son muy populares y son los mtodos preferidos, des~e el punto de vista
terico, por muchos investigadores (Mellenbergh, 1982;Shepard, Camilli y
Averill, 1981; Shepard, Carnilli y Williams, 1984, 1985). Si se defme como
itemo test sesgado aqul que da: lugar a medidas distintas en sujetos con el
mismo nivel en el rasgo o variable medida por el item o el test, resulta
bastante obvio que la TRI tiene algo que decir sobre la cuestin. En efecto, un
item estar sesgado si su curva caracterstica es distinta para diferentes grupos
de sujetos: un item est sesgado si es distinta la probabilidad que tiene un
sujeto de responder correctamente segn penenezca a un grupo u otro,
sea el mismo. Esta definicin de sesgo
supuesto que su nivel en la escala
con la que opera la TRI engancha directamente con las definiciones ms
comnmente aceptadas: se define el sesgo como dimensionalidad respecto al
grupo (Ackerman, 1993), como una violacin de la independencia
condicional (Mellenbergh, 1985, 1989; Oon, 1992) o como funcionamiento
diferencial del item. Este ltimo trmino se est imponiendo cada vez ms en
la literatura sobre el trmino tradicionalmente utilizado sesgo, ya que parece
ms adecuado para distinguir la evidencia emprica de la existencia de un
rendimiento diferencial necesario -impacto- de la conclusin de que el item o
el test estn sesgados. Precisamente, sta es una de las crticas fundamentales
que se hace a los mtodos de la TCT para estudiar el sesgo: su incapacidad
para manejar adecuadamente las diferencias reales en habilidad entre los
grupos de inters. Como sealan claramente Hunter (1975), Lord (1977) y
Peterson (1977) ,los mtodos clsicos pueden confundir las diferencias reales
en la habilidad media de los grupos con el sesgo.
Los mtodos usados por la TCT para la deteccin del sesgo son dos y
se basan en los parmetros fundamentales del item en esta teora: el mtodo
delta (Angoff, 1972; Angoffy Ford, 1973; Angoffy Sharon, 1974), basado
en las diferencias en el parmetro de dificultad obtenido en cada grupo, y el
mtodo de la discriminacin (Green y Draper, 1972; Ozenne, van Gelder y
Cohen, 1974), basado en las diferencias en la correlacin biserial puntual
obtenida en cada grupo.
El problema que plantea el uso del mtodo delta es que no tiene en
cuenta la discriminacin del item, lo que supone que, en presencia de grupos
con distinta habilidad, se va a confundir la discriminacin con el sesgo: las
diferencias en discriminacin crean diferencias en el valor de la dificultad del
item en los grupos y stas son interpretadas errneamente como indicadores

'1

MJ. Navas

182

del sesgo. Y es que el parmetro de dificultad del item en la TCf es tanto una
medida de la actuacin del grupo como una caracterstica del item. En
definitiva, el mtodo delta produce evidencia esprea de sesgo a no ser que
todos los items tengan la misma capacidad discriminativa o que los grupos
comparados tengan una habilidad media similar. Angoff (1982) propone una
modificacin del mtodo para corregir estas fuentes de error. Shepard,
Camilli y Williams (1985) comparan este ndice modificado con otros ndices
de sesgo habitualmente utilizados y concluyen que su eficacia es similar a la
.

del ndice X para identificar sesgo conocido, cuando se trabaja con tamaos
muestrales pequeos (N ~ 300).
El problema que plantea el uso del mtodo de la discriminacin es,
obviamente, el mismo que el sen alado para el mtodo delta cuando los grupos
difieren en habilidad. Ironson y Subkoviak (1979) y Merz y-Grossen (1979)
comparan este intodo con otros ndices y concluyen que es claramente
inadecuado en la deteccin del sesgo.
Los mtodos basados en la TRI superan a los mtodos clsicos por
varias razones. En primer lugar, la invarianza de los parmetros del modelo
en la TRl hace que sea mucho menos probable la confusin entre diferencias
reales en habilidad y sesgo. En el caso de la TRI, el parmetro de dificultad
del tem est en la misma escala que el parmetro de habilidad pero no se
relaciona en modo alguno con la actuacin del grupo. En segundo lugar, los
mtodos de la TRI examinan el funcionamiento diferencial del item a lo largo
de toda la escala e de habilidad y no en el punto que corresponde a la
habilidad media de los grupos implicados en el estudio. En tercer lugar, la
TRI estudia el sesgo condicionado al nivel de habilidad de los sujetos de la
muestra, pero condicionado al nivel real, no al observado en la habilidad o
rasgo medido por el test.
Como ya se ha sealado anteriornlente, la idea bsica en estos mtodos
es calcular y comparar l curva caracterstica del item (CCI) en los grupos de
inters (Rudner, 1977). La comparacin de las curvas obtenidas se puede
realizar de distinta forma. Un modo habitual consiste en calcular el rea
existente entre las curvas, bien el rea total (Hambleton y Rogers, 1989a;
Kim y Cohen, 1991; Raju, 1988, 1990; Rogers y Hambleton, 1989), bien las
diferencias al cuadrado entre las probabilidades de una respuesta correcta para
cada valor de la escala e (Linn, Levine, Hastings y Wardrop, 1981), bien
esas diferencias ponderadas por la varianza error de dicha probabilidad.
Segn Shepard, Camilli y Williams (1984), este ltimo ndice es el ms
adecuado para cuantificar las diferencias entre las CCIs de los distintos
grupos.
Otra posibilidad es comparar no directamente las curvas sino los
parmetros que las caracterizan: comparar los valores de los parmetros de los
items obtenidos en uno y otro grupo, probar la hiptesis nula de igualdad de
las CCIs (Hulin, Drasgow y Komocor, 1982; Lord, 1977, 1980;
Mellenbergh, 1972; Wright, Mead y Draba, 1976). Adems de estadsticos

Teora de tests

183

para probar dicha hiptesis, la TRI dispone de otros ndices para evaluar el
tamao del sesgo encontrado. MeIlenbergh (1989) hace una presentacin
sistemtica y clara de los estadsticos e ndices ms comnmente utilizados.
Las limitaciones de esta aproximacin se relacionan con el recurso a pruebas
estadsticas de significacin en tamaos muestrales grandes, habi.tualmente
. requeridos para un uso adecuado de los modelos de la TRI.
Otra aproximacin muy fructfera en la comparacin de las CCIs es la
que utiliza el recurso a una lnea base que ayude en la interpretacin de los
resultados obtenidos al comparar las CCfs de los grupos de inters. La lnea
base se define (1) mediante la construccin de la distribucin muestra! del
estadstico utilizado como indicador de sesgo a partir de dos submuestras
aleatorias extradas de un mismo grupo (Linn y Harnish, 1981), (2)
mediante la simulacin de la distribucin muestral en el supuesto de que no
existe sesgo (Hambleton, Rogers y Arrasmth, 1986; Rogers y Hambleton,
1989), (3) comparando las CCIs obtenidas en submuestras aleatorias,
extradas bien del grupo mayoritario, bien del grupo minotario, bien de
ambos (Shepard, Camilli y WilIiams, 1984; Wilson-Burt, Fitzmatin y
Skaggs, 1986). La ventaja que presenta la simulacin es que no es necesario
reducir la muestra a la mitad y, dadas las exigencias en cuanto a tamao
muestra! de los modelos de la TRI, sta es una ventaja a tener en cuenta.
Un ltimo mtodo a destacar dentro de los mtodos basados en la TRI
para el estudio del sesgo es el propuesto por Linn y Harnish (1981) y
conocido como pseudomtodo de la TRI. Muy brevemente, este mtodo
consiste en lo siguiente: en el grupo minoritario se compara la CCI terica
obtenida en el grupo combinado Con la CCf emprica obtenida en el grupo
. minoritario, concluyendo que el item est insesgado si ambas curvas son
- parecidas. Shepard, Camilli y Williams (1985) sostienen que ste debe de ser
el mtodo de eleccin cuando el tamao muestral de uno de los grupos es
pequeo.

El cuadro pintado hasta ahora presenta a los mtodos basados en la TRI


no slo como los preferidos desde el punto de vista terico sino tambin
como mtodos muy adecuados para la deteccin del sesgo. Ahora bien, no
estn exentos de problemas. Ya se ha sealado una de las cuestiones ms
espinosas que tienen planteados estos modelos y es la relativa a los grandes
tamaos muestrales necesarios para garantizar la adecuacin en el
funcionamiento de estos mtodos (Hoover y Kolen, 1984). Adems, la
utilizacin de la TRI Supone el recurso a procedimientos sofisticados y
co~tosos, desde el punto de vista computacional, que pueden limitar
senamente su uso. Otro problema importante tiene que ver con la incidencia
que pueden tener la variaciones muestrules en la estimacin de parmetros: es
posible
a que las diferencias observadas cntre las CCIs de los grupos se deban
no. la .existenci~ de sesgo en el item en cuestin sino a que el error de
estImaCIn cometldo en uno y otro grupo es, sencillamente, distinto. Este
problema se puede acentuar, adems, si los grupos de inters difieren
notablemente en su habilidad media. Una ltima cuestin que no puede ser

184

MJ. Navas
Te(lra de tests

obviada es la posible introduccin de error como consecuencia de la


equiparacin -absolutamente necesaria- de las estimaciones de los parmetros
obtenidas en uno y otro grupo (Cole y Moss, 1989).
Toda esta problemtica hace inevitable una referencia a mtodos que
constituyen una aproximacin a los mtodos basados en la TRI, como son los
2
.
mtodos de X (Camilli, 1979; Scheuneman, 1979), el modelo logit
(Mellenbergh, 1982; van der Flier, Mellenbergh, Ader y Wijn, 1984), el
mtodo Mantel-Haenszel (Holland y Thayer, 1986, 1988), la medida
omnibus (Johnson, 1989) y el modelo de regresin logstica (Swaminathan y
Rogers, 1990). Aunque, posiblemente, el mtodo ms profusamente utilizado
.
2
es el de X , el que est recibiendo ltimamente ms atencin es el mtodo de
Mantel-Haenszel,ya que comparte con los mtodos basados en la TRI
algunas de sus caractersticas ms deseables pero no comparte la mayor parte
de las dificultades que stos presentan. Si a esto se aade su simplicidad
conceptual, la disponibilidad de pruebas de significacin y se considera,
adems, que hay estudios que ponen de manifiesto que existe un acuerdo
importante entre los resultados obtenidos con este mtodo y con los mtodos
basados en la TRI (Hambleton y Rogers, 1989a; Hambleton, Rogers y
Arrasmith, 1988), resulta patente que estos ltimos mtodos han encontrado
un 'competidor' serio en el mtodo de Mantel-Haenszel.
Equiparacin '
El proceso de equiparacin de puntuaciones es un proceso fundamental
cuando se trabaja con distintos instrumentos de medida, ya que representa el
medio bsico de que se dispone para poder garantizar la adecuada
comparacin de las puntuaciones obtenidas en distintas pruebas: es el proceso
que permite el desarrollo de una conversin del sistema de unidades de un test
al sistema de unidades de otro (Angoff, 1984).
Tradicionalmente, la TCT ha utilizado dos mtodos muy sencillos pero
eficientes en algunas situaciones de equiparacin: el mtodo lineal yel mtodo
equipercentil. Skaggs y Lissitz (1986a) hacen una exhaustiva revisin de la
literatura sobre equiparacin de puntuaciones y sealan que los mtodos
clsicos funcionan muy bien en situaciones de equiparacin horizontal, es
decir, con tests de dificultad similar y con inuestras de sujetos con un nivel
parecido en la habilidad medida por los tests. Ahora bien, sta es slo una de
las muchas situaciones que se pueden plantear a la hora de equiparar
puntuaciones.
Este no es, sin embargo, el mayor inconveniente de los mtOdos de la
TCT en este campo sino que ste radica en las condiciones que la TCf
impone a los tests para que sus puntuaciones puedan ser equiparadas:
simetra, invarianza y equidad (equity ). El problema que se plantea con estos
requisitos es que, tal como seala Lord (1980; 1982), las puntuaciones de los
tests slo pueden satisfacer estos criterios cuando no hay necesidad de

185

equiparacin. En efecto, si se admite que el proceso de equiparacin debe ser


tal que para sujetos con la misma habilidad debe ser indiferente realizar un test
u otro, est claro que los tests deben ser bien perfectamente fiables, bien
formas estrictamente paralelas, en la acepcin fuerte del trmino (Samejima,
1977). Por consiguiente, una equiparacin estricta s610 es posible cuando es
innecesaria (Muiz, 1990). y es que las condiciones formuladas,
especialmente la de equidad, son muy difciles de cumplir utilizando mtodos
clsicos de equiparacin.
La gran ventaja que presenta trabajar con modelos de la TRI es que,
dentro de este marco, se obvia la necesidad de equiparar las puntuaciones de
los tests, por la propiedad de invarianza de los parmetros del modelo. No es
necesario equiparar las puntuaciones de dos sujetos que han realizado tests
distintos porque el parmetro de habilidad e es invariante respecto al
conjunto de items utilizados en su estimacin. Por esta razn, hay autores
como Cook y Eignor (1983), Hambleton, Swaminathan y Rogers (1991) y
Kolen (1988) que prefieren hablar de escalamiento para lograr comparabilidad
en vez de equiPantcin: la escala e es invariante pero arbitraria, por lo que es
necesario escalarla, determinar su origen y unidad de medida
Adems de superar las condiciones exigidas por la TCT para la
equiparacin, la TRI posibilita la equiparacin de puntuaciones en situaciones
en las que sta no era posible trabajando con la TCT.

Uno de los supuestos implcitos en la condicin de equidad es que los


tests deben de tener la misma fiabilidad lo que, a su vez, implica que stricto
sensu slo se pueden equiparar tests Con niveles semejantes de dificultad (si
vara el nivel de dificultad los tests no medirn con la misma precisin en
todos los pUntos de la escala de habilidad), lo que excluye automticamente a
los mtodos clsicos Como mtodos de eleccin en situaciones de
equiparacin vertical. Ahora bien, su inadecuacin a priori para este tipo de
situaciones no significa que no se hayan utilizado (Harris, 1991; Kolen,
1981; Marco, Petersen y Stewart, 1983; Patience, 1981), pero los trabajos
realizados confirman que se trata de mtodos poco vlidos -especialmente el
mtodo lineal- para equiparar las puntuaciones de tests con distinto nivel de
dificultad (Skaggs y Lissitz, 1986b) o incluso con distinto contenido o
longitud (Peterson, Cook y Stocking, 1983). Sin embargo, si se cumplen los
supuestos del modelo, los mtodos de equiparacin de la TRI s deberan de
funcionar bien en todas las combinaciones de diferencias en la dificultad del
test y en la habilidad de los grupos (Cook Y Eignor, 1983, 1989).
Como ya se indic, en situaciones de equiparacin horizontal los
mtodos
la TCT funcionan muy bien si los grupos de sujetos alos que se
les hll? aplIcado las pruebas tienen niveles de habilidad similares: el panorama
cambIa
conforme
van variando en dificultad las formas del test y en habilidad
los
grupos
de sujetos.

d~

.
Marco, Petersen y Stewart (1983) llevan a cabo un estudio de
equiparacin en el que manipulan distimas variables -nivel de dificultad de los

186

MI Navas
Teora de tests

tests, nivel de habilidad de las muestras, tipo de test de anclaje y tipo de


criterio- y concluyen que, en las situaciones de equiparacin horizontal, la
TCf y la TRI proporcionan resultados similares slo cuando se trabaja con
muestras aleatorias de sujetos. Este estudio confirma lo ya apuntado por
Kolen y Whitney (1982), Lord (1975) y Marco, Petersen y Stewart (1980): la
similitud entre la TCT y la TRI cuando se trabaja con tests paralelos y grupos
equivalentes de sujetos y la superioridad de la TRI frente a la TCf en tests no
paralelos y con grupos no equivalentes de sujetos. Ahora bien, este resultado
tampoco se ha encontrado de forma unvoca en la literatura.
En efecto, Skaggs y Lissitz (1986b) llevan a cabo un estudio de
simulacin en el que comparan el mtodo lineal, equipercentil y los basados
en los modelos logsticos de uno (lPL) y tres parmetros (3PL), cuando se
equiparan tests que varn en dificultad, discriminacin y pseudoadivinacin,
concluyendo que el mtodo de eleccin cuando varan considerablemente los
tests es el equipercentil. Harris y Kolen (1986) realizaron un estudio en el que
confirmaron la robustez frente a diferencias en la habilidad del grupo del
mtodo lineal, del equipercentil y del 3PL. A su vez, Skaggs y Lissitz
(1986c, 1988) trabajan con datos simulados utilizando el mtodo
equipercentil, el 3PL y el 1PL. Concluyen tambin la invarianza de los tres
mtodos de equiparacin respecto al nivel de habilidad de los sujetos
utilizados.
A pesar del marcado carcter especfico de algunas aplicaciones de la
TRI a situaciones de equiparacin en las que la TCT puede aportar poco, su
inters y relevancia en la prctica de la eval uacin psicolgica y educativa
pueden justificar su inclusin aqu. La primera aplicacin se relaciona con lo
que Se ha dado en llamar pre-equiparacin y consiste, sencillamente, en
equiparar las puntuaciones de dos tests antes de que se haya aplicado uno de
ellos (Bejar y Wingersky, 1982). Otra aplicacin muy interesante es la llevada
a cabo por Holmes (1980): equipara las puntuaciones de un test construido a
partir de un banco de items local con las puntuaciones de un test
estandarizado para el que se dispone de informacin normativa a nivel
nacional. Por ltimo, Cook, Dunbar y Eignor (1981) realizan un estudio en el
que demuestran que es posible equiparar las puntuaciones de tests no
paralelos aplicados a grupos no equivalentes de sujetos cuando no existen
items en comn ni tests de anclaje.
Hasta el momento se ha realizado nicamente un anlisis comparativo
de la TCf y la TRI acerca de las condiciones necesarias para llevar a cabo una
equiparacin y acerca de las situaciones que se pueden manejar desde una y
otra perspectiva terica. A continuacin, se describir brevemente lo que
aporta de novedoso la TRI a la metodologa de equiparacin de las
puntuaciones.
En primer lugar, la TRI ofrece varias posibilidades a la hora de
equiparar puntuaciones: se pueden equiparar las puntuaciones verdaderas, las
de habilidad.
puntuaciones observadas y las puntuaciones en la escala

187

Muy brevemente: se consideran equivalentes las puntuaciones


verdaderas de dos tests cuando corresponden al mismo nivel de habilidad.
Segn Cook y Eignor (1983), este mtodo es adecuado cuando Se trabaja con
tests cuyo nivel de dificultad difiere considerablemente. La equiparacin de
las puntuaciones observadas en la TRI (Lord, 1980) se realiza aplicando el
mtodo equipercentil a las distribuciones estimadas para las puntuaciones
observadas en los dos tests a equiparar. Lord y Wingersky (1983) llevan a
cabo un estudio comparando estos dos mtodos y aIlfIllan que producen .
prcticamente los mismos resultados. Ahora bien, a igualdad de resultados,
el mtodo de las puntuaciones observadas resulta ms complicado y costoso y
es dependiente del grupo en el que se estiman las puntuaciones.

La segunda gran aportacin de la TRI tiene que ver con la equiparacin


de las puntuaciones e de la escala de habilidad y consiste en un nuevo
mtodo para determinar los parmetros (ex y 13) que definen la relacin
lineal que existe entre las estimaciones de la habilidad de sujetos evaluados
con distintos conjuntos de items o tests (la escala e es invariante frente a una
transformacin lineal). Este mtodo, conocido como mtodo de la curva
caracteristica del test (CCn, fue propuesto por Haebara (1980) y Stocking y
Lord (1983) y consiste en determinar los valores de ex y 13 de forma que se
minimicen las diferencias cuadrticas entre las puntuaciones verdaderas de los
dos tests a equiparar en la muestra considerada. Stocking y Lord (1983)
comparan este mtodo con el mtodo iterativo de la media y la desviacin
tpica robustas y ponderadas en ms de una veintena de pares de tests y
concluyen que, en todas las comparaciones; el mtodo de la ccr proporciona
un ajuste mejor a las dificultades estimadas de los items. Realmente, la
ventaja que presenta este mtodo frente al mtodo de la media y la desviacin
tpica -en cualquiera de sus variantes- es que, pard detemunar el valor de ex y

p. el mtodo de la eCT utiliza informacin de todos los parmetros que

definen la Ccr, mientras que el mtodo de la media y la desviacin tpica slo

utiliza informacin relativa al parmetro b. Un mtodo simple y econmico

que tambin utiliza informacin sobre todos los parmetros del tem e incluso .

sus errores tpicos de estimacin es el mtodo de X propuesto por Divgi

(1985).
En suma, se puede decir que la TRI proporciona un marco terico
ptimo en el que se desvanece en parte la problemtica asociada a la
equiparacin de puntuaciones ya que, en ciena medida, se obvia la necesidad
ofrece la posibilidad de equiparar destintos tipos de
de
pun~acIones y apona metodologa propia para la equiparacin. Ahora bien,
conVIene tener presente que 'ningn mtodo es Superior a los dems en todos
los C?,ntextos. El mtodo de equiparacin que resulta ser mejor parece ser una
muchos !actores, incluyendo la longitud y contenido del test, la
dIStribUCIn del parametro de habilidad de la muestra y de dificultad de los

equ~parar;

f~nc!on ~e

M..I. Navas

188

Teorfa de tests

items, cmo se estiman los parmetros y cmo se hace la igualacin' (Skaggs


y Lissitz, 1986a, p. 516).
Construccin de ~
Ya en 1980, Willingham afmna que 'los mtodos de la TRI no son la
panacea pero que con el tiempo deberan de proporcionar un aumento
importante en la flexibilidad y precisin en la construccin de tests' .(p. 74).
La realidad no ha desmentido sus palabras. Son muchas las aportaciones que
la TRI ha realizado a la teora de tests en este campo, por dos razones
fundamentales.
"
En primer lugar, la invarianza de los parmetros del modelo en la TRI
abre nuevas posibilidades en el campo de la evaluacin psicolgica y
educativa. En efecto, si la escala es invariante respecto al conjunto de items
administrados, es posible comparar a sujetos que han realizado tests
diferentes, que han respondido a distintos conjuntos de items. Esto significa
que es posible utilizar con garanta diseos como el muestreo matricial
mltiple (Bock y Mislevy, 1981, 1988; Pandey, 1988; Sirotnik, 1974;
Sirotnik y Wellington, 1977), muy econmico y eficiente en proyectos de
evaluacin a gran escala. Asimismo, si se dispone de un conjunto calibrado
de items, se puede determinar cul sera el comportamiento de un sujeto -cuya
habilidad se conoce de antemano- en un test sin necesidad de aplicarlo, sin
ms que calcular la probabilidad que ste tiene de responder correctamente a
cada item del test y sumar estas probabilidades. Esta cuestin es sumamente
interesante pues puede permitir, por ejemplo, evaluar a un sujeto con un TRC
y, al mismo tiempo, dar una interpretacin referida a la norma.
En segundo lugar, la funcin de informacin constituye una
herramienta muy valiosa a la hora de construir y revisar distintas versiones o
mtodos de puntuacin de un test. En efecto, cuando en el proceso de
estimacin de parmetros se utiliza el mtodo maximo-verosmil o se pondera
de forma ptima los estimadores, se obtiene una funcin de informacin para
el test que es la suma de las funciones de informacin de cada uno de los
items que componen el test. Esto significa que si se dispone de un conjunto
de items calibrados, se puede saber, antes de aplicar el test, cul es la
contribucin individual de cada item a la informacin que el test proporciona
sobre el rasgo latente. Pero hay ms : dado que la informacin depende
directamente de e, se puede saber a priori qu items son los que
proporcionan ms informacin sobre el rasgo latente en cada uno de los
puntos de la escala e. Adems, la dificultad del item y la habilidad del
sujeto, a diferencia de lo que ocurre en la TCT, se miden en la misma escala,
lo que permite fcilmentela seleccin de los items ms tiles en determinadas
regiones de la" escala e. Todo esto permite construir tests que sean
mximamente eficientes para cumplir el objetivo para el que fueron
diseados.

189

Segn Hambleton, Swaminathan y Rogers (1991), ste es el caballo de


batalla para los mtodos de la TCf en la construccin de tests: no se pueden
seleccionar los items de forma que el test cumpla unas determinadas
especificaciones en cuanto a precisin de la medida. Yes que en la TCf no es
posible determinar ni la discriminacin de un itero ni su contribucin a la
fiabilidad del test de forma independiente de las caractersticas del resto de
items que integran el test, ya que la puntuacin en .el test depende de la
seleccin particular de items que se haya hecho. Por consiguiente, en la TCf
la evaluacin se realiza a posteriori, no conforme se va construyendo el test.
La TRI, sin embargo, no slo permite construir tests con caractersticas muy
determinadas en cuanto al error de medida admisible en cada zona de la
escala e, sino que posibilita la evaluacin del test a priori, antes de ser
construido. Y es que la TRI, como su propio nombre indica, tiene como
unidad bsica de anlisis el item mientras que en la TCf el modelado tiene
lugar a nivel de test, no de item: la TCT no proporciona informacin sobre la
actuacin en items concretos e individuales, no indica cmo respondern
sujetos con un determinado nivel de habilidad a tems particulares. Como
sealan certeramente Hambleton y van der Linden (1982), mientras que la
TCf proporciona modelos de puntuaciones de tests, la TRI consiste en
modelos que proporcionan puntuaciones de tests y de tems.
Dentro del campo de la construccin de tests, la TRI ha realizado
aportaciones fundamentales en tres grandes reas, a saber: en los TRCs, en
los tests a medida y en los bancos de items.
Tests referidos al criterio
Segn Hambleton y Rogers (l989b), el inters en la evaluacin referida
al criterio y el resurgir Con fuerza de la TRI han ido paralelos en el tiempo,
proporcionando esta ltima un marco muy apropiado para la construccin de
TRCs.

La TCT se revela como un modelo poco adecuado en el campo de los

TRCs, ya que los parmetros que en es le modelo se utilizan para caracterizar

los items -dificultad y discriminacin- no permiten determinar en qu parte de

la escala funciona mejor el item, es decir, en qu parte de -la escala tiene una

dificultad ms adecuada o acorde Con la puntuacin de Corte tomada como

criterio y en qu parte de la escala discrimina ms entre los sujetos. Adems,

la dificultad del item no se puede relacionar con el aspecto o caracterstica

evaluada por el test, ya que estn en escalas diferentes. Por tanto, los

parmetros del item en la TCT no se pueden usar para seleccionar de forma

ptima los items que deben ser utilizados para construir un TRC.
La TRI, sin embargo,Constituye una aproximacin mucho ms
adecuada para los TRCs. En "efecto, uno de los criterios que se utiliza con
ms frecuencia consiste en que el sujeto debe conocer o dominar una serie
determinada de cuestiones que, a su vez, se operativiza en que el sujeto debe
responder correctamente un deternlinado porcentaje de items en un test que

190

MI Navas

Teora de tests

represente, de forma adecuada, el dominio o campo de conocimiento que se


est evaluando. En la TRI, la puntuacin de cone 1t y el aspecto o rasgo
V(8)

que se trata de evaluar 8 estn directamente relacionados (1t = - .n-) y


esta relacin da una pauta bsica en la construccin de un TRC. Sea 1to el
criterio que deben superar los sujetos para que se pueda considerar que
dominan adecuadamente la materia evaluada. Pues bien, la seleccin de los
items debe-de realizarse de modo que su discriminacin sea mxima en el
punto 8 asociado a 1to y, dentro de stos, habr que seleccionar los items
que proporcionan la mayor informacin en ese punto de la escala. De este
modo, se estimar de forma ms precisa la zona de la escala asociada a 1to
que es la zona en la que es ms fcil cometer un error de clasificacin.
El procedimiento descrito se conoce como el mtodo ptimo de
seleccin de items en un TRC. Un mtodo similar a ste es el mtodo ptimo
del contenido (optima/-content method ), que es idntico al anterior slo que
se pone una restriccin al test final y es que debe de satisfacer una serie de
condiciones en cuanto a especificaciones de contenido. De Gruijter y
Hambleton (1983) y Hambleton y de Gruijter (1983) comparan estos dos
mtodos de seleccin de items con los usados tradicionalmente por laTcr: el
mtodo aleatorio -seleccin de una muestra aleatoria o estratificada aleatoria
de items- y el mtodo clsico -seleccin de items con ndices moderados de
dificultad y con ndices altos de discriminacin-o Estos estudios ponen de
manifiesto que, en la regin de inters cercana a la puntuacin de cOrte, los
dos mtodos basados en la TRI proporcionan casi el doble de informacin
que el mtodo clsico y el aleatorio.
De especial inters es el mtodo ptimo del contenido porque, a la hora
de seleccionar iterns, combina criterios estadsticos con criterios relacionados
con el contenido. Como sealan Kingston y Stocking (1986), esta
consideracin es bsica en la construccin de un TRC. Van der Linden y
Boekkoi-Timminga (1989) han desarrollado un procedimiento que permite la
seleccin de items a partir de la funcin de informacin especificada para el
test pero que, a su vez, permite el cstablicimiento de condiciones que
aseguren la validez de contenido del test y la longitud deseada para el mismo,
entre otras caractersticas.
Una herramienta muy til a la hora de construir y evaluar un TRC es el
programa TESTLEN, creado por MilIs y Simon (1981). Este programa
simula las respuestas de sujetos a TRCs via la TRI, proporcionando la
posibilidad de manipular factores como la distribucin de las puntuaciones de
dominio, la eleccin de la puntuacin de cone, las caractersticas estadsticas
del banco de items, la longitud del test y el mtodo de seleccin de iterns.
Por ltimo, no se puede cerrar este apartado sin hacer referencia a un
trabajo de Lewis y Sheehan (1990), a caballo entre los TRCs y los tests a
medida. Estos autores desarrollan la idea de un test de dominio
computerizado (CMT: Computerized Mastery Test). En este tipo de test se

191

conjuga la idea de la evaluacin individualizada con los TRCs del siguiente


modo: se aplican tests ms cortos a ~os sujetos que son claramente
competentes o incompetentes y tests ms largos a los sujetos para los que no
est tan clara la decisin acerca de su competencia (regla de terminacin
adaptada al sujeto). De es~e mo<;i~, ~egn los au.t~~es se puede :educ~r a la
mitad la longitud del test Sin peIJUlcIo en la preclSlon de las claSIficacIones.
Adems, otra caracterstica que hace panicularmente interesante a este tipo de
test es que el proceso secuencial de evaluacin opera no sobre items
individuales sino sobre bloques de items.
Esta idea de combinar los tests a medida con los TRCs no es nueva. Ya
en 1982, Weiss apunta que los tests a medida diseados para llevar a cabo
clasificaciones dicotmicas presentan mejoras respecto a los tests
convencionales diseados para el mismo objetivo y describe estudios que
muestran una reduccin en la longitud del test y un aumento en la precisin de
la clasificacin a favor de los tests a medida (Kingsbury y Weiss, 1979,
1980, 1981). Estudios posteriores de estos dos autores realizados en 1983
vuelven a poner de manifiesto que este mtodo combinado puede dar lugar a
una clasificacin ms eficiente que los tests convencionales de longitud fija.
Tests a medida
La idea de la evaluacin individualizada, de la aplicacin de tests
adaptados o hechos a la medida de los sujetos objeto de la evaluacin no es en
absoluto nueva sino que, Como seala Weiss (1985), se remonta ya a los
trabajos de Binet y Simon sobre la inteligencia en 1908. Sin embargo, apenas
se trabaj sobre esta idea hasta finales de la dcada de los 60. Una razn
bsica para entender el abandono de esta orientacin durante ms de medio
siglo se relaciona con la ausencia hasta la dcada de los 70 de ordenadores

interactivos que hicieran factibles los tests a medida. Con el advenimiento de

los ordenadores, la evaluacin individualizada se conviene en evaluacin

individualizada computerizada (CAT: Computerized Adaptive Testing).

Bunderson, Inouye y Olsen (1989) se refieren al CA T como a la segunda

en la
computerizada y Wainer (1990) seala que

generacin
enmedida
CATeseducativa
la C.
la sigla crucial
Van der Linden y Zwarts (1989) consideran que Son dos los hechos

que han posibilitado la automatizacin en la evaluacin. El primero de ellos

sera, como ya se ha sealado, la introduccin a gran escala del ordenador en

los
y el inters creciente que sus aplicaciones en el proceso educativo

ha SUscItado entre los profesores y administradores educativos. El segundo


sera la introduccin de la TRI en la teora de tests. Segn Weiss y Vale
se c?mbina Con la TRI y la aplicacin computerizada, la
(1987),
evalua~Ion rndIylduaJ~da proporciona una familia de tcnicas que dan lugar
a SOI.uclones mas efectIvas y eficientes a una gran variedad de problemas de
Como seala Weiss (1983), aunque la evaluacin
no depende de la TRI, sta s resulta sumamente til a la hora
de Implementar de forma efectiva la primera. Hamblenton, Swaminathan y

cole~ios

.'~u~n~o.

~e~l~a' ~p.260).
md~VlduaJzada

192

M.J. Navas

Rogers (1991) van todava ms lejos al afirmar que el CAT no sera realmente
factible sin la TRI.
La idea bsica de los mtodos del CA T basados en la TRI es la

siguiente. Se trata de escoger items cuya dificultad sea similar al nivel

estimado en el rasgo latente del sujeto, de modo que al aplicar items con esas

,.
(b.""e
. . , que se o buene dI
a "fi=l,n a)l a esumacloQ
caractensucas
1
e rasgo

latente es muy precisa. La caracterstica distintiva es la seleccin automatizada

de los items durante el proceso de aplicacin del test

Kingsbury y Zara (1989) y Thissen y Mislevy (1990) sealan dos .


estrategias fundamentales en la seleccin de items cuando se uliza la TRI
para implementar el CAT. La primera de ellas es la estrategia de mxima
informacin (Weiss, 1982): se selecciona el item que proporciona la mxima
informacin en el nivel estimado de habilidad del sujeto en cuestin.
Variaciones interesantes de este mtodo son las realizadas por Green, Bock,
Humphreys, Linn y Reckase (1984), que proponen una seleccin aleatoria de
entre todos los items que proporcionan mxima informacin para un valor e
determinado y la realizada por Sympson, Weiss y Ree (1982), que proponen
una estrategia estratificada de mxima infomlacin, muy til cuando puede
resultar problemtico el tiempo de CPU en el ordenador. Theunissen (1985,
1986) Y Theunissen y Verstralen (1986) fueron los primeros en formular
modelos de optimizacin para implementar procesos de seleccin de items
basados en funciones de informacin. La segunda gran estrategia utilizada
por la TRI es la seleccin bayesiana del item (Owen, 1969, 1975): se
selecciona el item que reduce en mayor medida la varianza de la distribucin a .
posteriori del valor estimado de la habilidad e.
Ahora bien, qu ventajas reales presenta el uso de la TRI en el CAT
frente al uso de mtodos de la TCT -mtodoup-and-down de rama fija o
variable, mtodo bietpico o multietpico-, considerablemente ms fciles de
implementar que los primeros? Weiss y Vale (1987) sostienen que la ventaja
fundamental de los mtodos basados en la TRI son la eficiencia y el control
sobre la precisin en la medida.
Por eficiencia se quiere significar que un CAT permite obtener la mayor
cantidad de informacin sobre el sujeto por item aplicado. Esto se traduce
lgicamente en un incremento en la precisin de la medida y en un
considerable ahorro de tiempo, ya que se requiere slo entre un 10 y un 50%
del nmero de items que exigira un test no adaptado a la caractersticas del
sujeto para proporcionar la misma informacin sobre su habilidad (Brown y
Weiss, 1977; Kent y Albanesse, 1987; Kiely, Zara y Weiss, 1983; McBride
y Martin, 1983; Moreno, Wetzel, McBride, 1984; Olsen, 1990; Warm, 1978;
Weiss, 1982).
Por control se quiere significar que se puede evaluar la habilidad de
. cada sujeto con un nivel previamente especificado de error. La TRI permite
determinar no slo los items que tienen una dificultad similar al nivel
. estimado inicialmente para el sujeto que se desea evaluar sino los items que,

Teora de tests

193

.en ese nivel, proporcionan la mxima informacin sobre el rasgo latente, los
items que en ese nivel estiman de forma ms precisa el rasgo latente. Esto no
es posible en la TCT ya que la precisin de la medida es independiente del
nivel del rasgo latente que se mide con el test: el error tpico de medida es el
miyno en todos los puntos de la escala e. Adems, el nivel de precisin en

. la medida de la habilidad proporciona en la TRI un criterio para la terminacin

del test individualizado: la aplicacin del test termina cuando el error tpico de

estimacin de e muestra un valor idntico al establecido por el evaluador de

antemano. Esto representa una ventaja importante frente a los mtodos de la

TCT ya que, en la perspectiva clsica, la nica regla lgica de terminacin del

. test representaba, paradjicamente, una seria limitacin al CAT: la regla


consista en la aplicacin de un determinado nmero -fijo- de items.
Estrechamente ligada con la anterior se encuentra otra de las ventajas de
la TRI y es que con su aplicacin se obtiene una mayor validez aparente, ya
que el sujeto no tiene que responder items demasiado fciles -que pueden
aburrirle- o demasiado difciles -que pueden desmotivarle y generar ansiedad~
. Estos items contribuyen muy poco 11 la precisin y a la economa de la
medida (Homke, 1981).
Por ltimo, la gran ventaja que presenta la TRI sobre la TCT en el
campo del CATes que la habilidad del sujeto y la dificultad de los items estn
en la misma escala, 10 que proporciona una pauta clara en la seleccin ptima
de los items: aplicar items de dificultad similar al nivel estimado para la
habilidad del sujeto para obtener estimaciones precisas de la misma. Esto es
imposible trabajando con el modelo clsico ya que los parmetros de
habilidad y dificultad estn en mtricas distintas. En" este caso, para
seleccionar los items es necesario acudir a estructuras ramificadas basadas en
el ndice de dificultad de items individuales o grupos de items. Para complicar
todava ms las Cosas, las puntuaciones obtenidas por distintos sujetos no son
directamente comparables. Sin embargo, si se dispone de un banco de items
calibrados segn un modelo de TRI se pueden obtener puntuaciones
comparables cuando se aplican distintos items a distintos sujetos, ya que el
parmetro de habilidad es invariante respecto al conjunto particular de items
administrados a cada sujeto.
.
Bancos de items
Un banco de items no es ms que un conjunto de elementos que miden
un mismo rasgo, campo o rea de conocimiento, almacenados en un
ordenador junto con sus propiedades estadsticas, junto con sus parmetros.
Es decir, un banco de items es un conjunto de items calibrados, un conjunto
de items
caracterizados por unos parmetros que han sido estimados en la
misma
escala
Los primeros trabajos realizados sobre bancos de items tuvieron lugar
al final de la dcada de los 60 y comienzos de los 70 pero fracasaron, segn
Hambleton (1986), debido a la ingente cantidad de papel y al nivel de

194

M.J. Navas

aplicacin y organizacin necesarias para implantarlos. Y es que los


procedimientos implicados en un banco de iteros -almacenamiento,
clasificacin y recuperacin de items, estimacin y actualizacin de los
valores estimados para los parmetros de los items, diseo y puntuacin de
los tests, estimacin y actualizacin de distribuciones normativas- difcilmente
pueden ser implimentados sin el recurso a un ordenador (Brzezinski y
Hiscox, 1984).
Van der Linden y Eggen (1986) sealan dos ventajas fundamentales de
los bancos de items frente a los tests estandarizados. La primera de ellas tiene .
que ver con la flexibilidad que esta alternativa introduce en la evaluacin en el
campo psicolgico y educativo: se posibilita la construccin de tests
basndose nicamente en consideraciones prcticas de carcter especfico,
relacionadas con las necesidades de evaluacin que, en un momento
determinado, exigen el desarrollo de un test concreto. La segunda ventaja
tiene que ver con el uso eficiente en las respuesta de los sujetos a los items:
cualquier conjunto de datos se puede incorporar al sistema para una
actualizacin peridica de las estimaciones de los parmetros de los items.
Otra ventaja adicional de los bancos de items sobre los tests estandarizados
es, como se ha puesto de manifiesto en los dos apartados anteriores, que
permite el desarrollo significativo de la evaluacin individualizada y de la
evaluacin referida al criterio.
Aunque, en principio, tanto la TCf como la TRI pueden trabajar con
bancos de items, la TCf resulta poco adecuada para operar con ellos.
Un banco de items tiene sentido si presenta una dimensin
considerable, si contiene un cierto nmero de items. En caso contrario, se
est trabajando con la nocin clsica de tests. Pues bien, dado que en la TCT
los parmetros de los items dependen de la muestra de sujetos que ha sido
utilizada para estimarlos y, dado que todos los sujetos de la muestra no
pueden responder a todos los items del banco, es difcil conseguir que los
valores estimados para los parmetros de todos los items sean estrictamente
comparables. 'Por el contrario, la invarianza de los parmetros del item en la
TRI convierte a esta teora en el marco adecuado para trabajar con bancos de
items, ya que permite disponer de una escala comn para los parmetros de
todos los items.
Una vez estimados y puestos en dicha escala los parmetros de los
items del banco, se puede pasar a utilizar el modelo de la TRI como un
modelo de medida para determinar el nivel en el rasgo latente d los sujetos,
para estimar el parmetro de habilidad. Si el patrn de respuesta del sujeto es
vlido, entonces su medida estima el nivel de dominio del sujeto en trminos
de todos los items que definen el banco (no slo en trminos de los items que
le han sido realmente aplicados) y la posicin del sujeto en el rasgo o campo
de conocimiento evaluado por el banco lo sita en relacin a todos los sujetos
que, en algn momento, han realizado items de ese banco, no lo relaciona
nicamente con los sujetos que han respondido al mismo conjunto de items
(Wright y Bell, 1984). En suma, a diferencia de la TCT, la TRI proporciona

Teora de tests

195

un marco adecuado para una interpretacin de las puntuaciones en el test


referida al criterio pero, al mismo tiempo, tambin referida a la norma.
En un intento de integrar la construccin y el anlisis de iteros con la
teora psicolgica, Homke y Habon (1986) ~onstruyen ~n banco d.e.636
items mediante el recurso a regls que combInan operacIOnes cognItIvas.
Aplican estos i~ems, agrupados en .35 tests distintos! a una muestra ~e 7400
sujetos (aproxImadamente, cada Item es respondido por 211 sUJetos) y
utilizan el modelo logstico lineal (Fischer, 1974), revelando el anlisis que
existen 446 items homogneos. Este resultado pone de manifiesto claramente
que las operacione~ cognitiva~ utilizadas ~ la hora de cons?"Uir los items
explican bastante ~Ien los para~etro~ de dIficultad d~ los nusmo~. En este
punto reside preCIsamente el Interes de este estudIO, ya que Ilustra la
posibilidad de calibrar los items de un banco antes. de ser realmen~e aplic~~os,
siempre y cuando se recurra para su constrUCCIn a una teona cogmtIva
sustantiva: se supone que sta puede proporcionar las reglas necesarias para
construir items cuyo nivel de dificultad sea estimable, en gran medida, a partir
de las demandas cognitivas del item, antes de su aplicacin efectiva. Aunque
sta es una posibilidd interesante, la literatura psicomtrica lo que ilustra de
forma sistemtica es el uso de bancos de items en combinacin Con una teora
de tests, fundamentalmente la TRI, aunque tambin en algunos casos la TCT
(vase, por ejemplo, Nitko y Hsu, 1984).
Como sealan Mi.lIman y Aner (1984), los bancos de items presentan
caractersticas muy diversas. Los hay que representan conjuntos
. computerizados de decenas de miles de items (Brown, 1982; Epstein, 1974;

Rentz y Bashaw, 1977) y los hay tambin que representan a conjuntos de

items muy pequeos, mecanografiados en fichas-ndice y reproducidos en los

tests de forma mecnica o manual (Mershon, 1982; Rodel, 1979). La

diversidad en los bancos de items no slo est presente en sus caractersticas

sino tambin en sus mbitos de aplicacin. As se han construdo bancos de

items en sectores tan distintos como las Fuerzas Armadas, grandes compaas

de tests y en imponp1tes organizaciones mdicas y relacionadas con la salud,

pero donde se ha observado el desarrollo ms floreciente ha sido en el campo

educativo. De nuevo, la diversidad de aplicaciones es la tnica dominante,

desde el programa de evaluacin del sistema educativo americano (NAEP:

National Assessment 01 Educational Progress) y los bancos de items de la

International Association lor the Evaluation 01 Educational Achievement

(LEA) hasta las aplicaciones dentro del aula, pasando por los distritos

escolares
y los Departamentos o Ministerios de Educacin de distintos

estados o pases.

.~ ttulo de ejemplo, dentro de los bancos de items desarrollados para


ser utIhzados en el COntexto del aula se pueden citar los trabajos de Nitko y
Hsu (l?84~ l' O'Brien y Hampilos (1988). Nitko y Hsu (1984) desarrollan
una aphcacIOn para ordenadores personales que pretende ser una herramienta
que puedan usar los profesores para mejorar la enseanza y los tests o
pruebas que pasan a sus alumnos, as como para evaluar e informar sobre el

196

MJ. Navas

Tcora de tcsts

197

aprendizaje de los mismos. Las limitaciones de este trabajo tienen que ver con
el tamao de la muestra de sujetos e items que admite, con la imposibilidad de
aplicaciones computerizadas de los tests y con el uso de parmetros del item
en la TCT. O'Brien y Hampilos (1988) estudian la plausibilidad de la
creacin de un banco de items a partir de un test construido por un profesor y
aplicado a dos clases distintas de. alumnos -comparables- cuya instruccin ha
corrido a cargo de la misma persona.
En EE.UU., los distritos escolares de Florida, Los Angeles, Oregon y
Portland, entre otros, han desarrollado proyectos que suponen la
construccin, para reas curriculares de inters, de bancos de items y escalas
de rendimiento basadas en modelos de la TRI para aplicar tests y
proporcionar informacin a los centros escolares y a la opinin pblica. Por
ejemplo, en 1978 el Centro para el Desarrollo de Tests de Los Angeles trat
de calibrar los items de un rea curricular detenninada -las Matemticas- en
distintos cursos. Menos ambiciosos que este proyecto son los trabajos
realizados por Bejar, Weiss y Kingsbury (1977), Douglas (1980) y
Eisenberg y Book (1980) en los que se incluye un solo curso escolar, no
varios como en el anterior. Otros proyectos que tambin surgieron en
EE.UU. se pueden encontrar en los trabajos de Foster y Archer (1977),
Foster y Doherty (1978), Hankins (1990), Koslin, Koslin, Zeno y Wainer
(1977), Smith (1985) y Wongbundhit (1985).
Ahora bien, EE.UU. no es el nico foro en el que se crean bancos de
items sino que stos se desarrollan tambin en pases como Australia .'
(Cornish y Wines, 1977; Hill, 1985; Tognolini, 1982), Austria (Kubinger,
1985), Canad (Popyuk, 1982) o Gran Bretaa (Choppin, 1968, 1976,
1978, 1981; Elliot, 1983; Haksar, 1983; Pollitt, (&( 1985; Wood y
Skurnik, 1969);
Por ltimo, como ejemplos del uso de bancos de items en
Departamentos de Educacin se sealar el trabajo de Burke, Kaufman y
Webb (1985), desarrollado en el Departamento de Instruccin Pblica de
Wisconsin, y el trabajo de van Thiel y Zwarts (1986), en el Instituto de la
Medida Educativa de Holanda (CITO).
El banco de items de Wisconsin es un sistema computerizado de 1()()()()
items repartidos en tres reas (matemticas, lenguaje y lectura) para los curso
3Q a 12Q, cuyo objetivo es proporcionar tests a los centrs de los distritos
escolares que participan en el programa de evaluacin de competencia llevado
a cabo por dicho estado. Es muy efectivo para el examen y seleccin de items
y para la produccin impresa de tests, pero no almacena informacin
estadstica sobre los items sino nicamente informacin relativa a su
contenido y objetivos curriculares.
Van Thiel y Zwarts (1986) desarrollan un sistema de evaluacin (TSS:
Testing Service System) que es un sistema integrado para el almacenamiento
de los items y la construccin y anlisis de tests, en el que se utiliza como
herramienta de desarrollo ellSAC (lnformation System Work and Analysis
oi Change). Este sistema tiene dos variantes: el CITO-TSS y el TSS de

centros. El CITO-TSS es un sistema Con dos actividades fundamentales: la


construccin de bancos de items, que estructura en trn1inos de su contenido
y caractersticas psicomtricas, y la construccion de tests a partir de los items
del b1l)co, los cuales, a su vez, pueden ser tambin almacenados en un banco
de tests. El TSS de centros est dirigido a profesores sin conocimientos
especficos ni de psicometra ni de metodologa de la evaluacin y
proporciona a los mismos la posibilidad de construir tests a partir de los
bancos de items creados por el CITO-TSS, aunque es tambin posible que los
profesores creen sus propios items y los utilizen de fonna conjunta con los
del banco. Asimismo, este sistema pennite la evaluacin individualizada, a
travs de la creacin y aplicacin de tests a medida Una vez procesadas las
respuestas, se generan informes que pueden ser muy tiles para la toma de
deci~iones del profesor.

CONSIDERACIONES FINALES
A lo largo de estas pginas, se ha puesto de manifiesto que la TRI es
una teora de tests conceptualmente ms poderosa que la Ter (Baker, 1985),
pennite solucionar problemas difciles de abordar desde la perspectiva clsica
pero, adems, esta teora abre vas a nuevas preguntas y fonnas de investigar
en Psicometra y tiene profundas implicaciones para la mejora de la medida
psicolgica (Weiss, 1983). Como seala Hambleton (1989a), las
caractersticas distintivas de la TRI son las que han dado lugar al desarrollo de
procedimientos muy prometedores en el mbito de la evaluacin
computerizada. De hecho, este autor considera el uso de la TRI como un
prerrequisito en un sistema de evaluacin que se precise de operativo.
Sin embargo, no se puede olvidar que siempre es conveniente

plantearse 'qu es mejor, una solucin basada en una teora fuerte (restrictiva)

a la que la realidad no se ajusta muy bien (por ejemplo, la teora del rasgo

latente) o un procedimiento ad hoc con una base terica dbil (no restrictiva),

si es que la tiene. Para algunos problemas, la respuesta a esta cuestin es

clara, siendo preferida la teora del rasgo latente pero para otros problemas la

respuesta est lejos de ser obvia' (Traub y Wolfe, 1981, p. 342). Wood

(1987) subraya la importancia del problema del ajuste de los datos a los

modelos de la TRI y seala, asimismo, que esta teora tiende a producir

'ceguera' a la significacin del mundo real, ya que conduce por s misma a la

matematizacin y trivializacin de los problemas. Ahora bien, tampoco hay

que perder de vista el gran avance que Supone la modelizacin del error en la

TRI y la posibilidad de respuesta a problemas y aplicaciones psicomtricas


que introduce la independencia Contextual de los parmetros del modelo.
El caso de la construccin de bancos de items como metodologa de
construccin de tests' es un ejemplo incontestable de la superioridad de la TRI
sob~e}~ ~er: ~s difcil con.cebir los bancos de items sin la TRI pero tambin
es dlctllmaglllar la TRI SIn los bancos de items. De hecho, el tandem TRI
Bancos de items est realmente sustituyendo en el campo de la evaluacin

198

MJ. Navas

psicolgica y educativa al tandem clsico TCT-Tests estandarizados. Como


seala Hambleton (1989b), 'los modelos de la TRI han demostrado ser muy
tiles a los expertos en medida para resolver una variedad de problemas de
medida. Pero la TRI no es una varita mgica con la que tocar un conjunto de
datos para solventar la falta de adecuacin en el diseo de un test o en los
procedimientos de evaluacin. Al contrario, los constructores del test deben
centrar su atencin en cuestiones de contenido del test, en la preparacin de
items tcnicamente correctos y en otras prcticas de evaluacin importantes.
Entonces, cuando se encuentra que los datos del test se ajustan en un grado
razonable a los modelos de la TRI y cuando se usan e interpretan
correctamente los modelos y resultados asociados, los modelos de la TRI
sern muy tiles para dar cuenta de un gran nmero de cuestiones tcnicas
que surgen en el desarrollo y uso de los tests' (p. 125).
En cualquier caso, hay que convenir con Yen (1986) que lo que s es
importante e innegable es que la TRI 'ha sacado a relucir supuestos
tradicionales de medida y convenciones que exigen un reexamen y que ponen
de manifiesto que se necesita ms investigacin para definir los rasgos de
rendimiento, para reevaluar los convenciones de medida, para examinar las
propiedades de distintos mtodos de escalamiento, para desarrollar criterios
para juzgar la calidad de distintas escalas y asegurar la significacin de las
decisiones educativas, basadas en resultados de las escalas de medida' (p.
322).

ABSTRACT
The decade of the 1980s saw the basis of measurement practice begin to
make the transition from c1asical test thcory to item response thcory (Baker,
1989). This work aims to think about the role playcd by these modcls in tbe
field of psychological and cducational mcasurementFirst of all, we will
briefly examine the history of both test theories and the way they cope with
the basic mcasurement problem. Then, it will be discussed tbe similaries
and differences in such aspects as assumptions made by tbe models, tbe
assessment of measurement error, tbe parameters invariance, etc ... Finally, it
will be considercd how these test tbcorics solve sorne measurement problems
as important as item and test bias , cquating scores and test construcon,
particulary criterion-referenccd tests, tailorcd tesl" and item banks.

KEY WORDS: Classical test theory, item response thcory, bias, equating,
criterion-referenced tests, tailorcd tests, item banks.

Teora de leSls

199

REFERENCIAS
Ackerrnan, T. (1993): Differenlial ilem funclioning as a funClion of lhe valid Sublesl space.
Comunicacin presentada en la 1993 European Meeting of the Psychometric
Society, Barcelona
Angoff W. H. (1972): A lechnique for Ihe invesligalion of cullural differences.
Comunicacin presentada en la reunin de la American Psycholigical Associaon
(APA), Honolulu.
. . .
Angoff, W. H. (1982): Use of difficulty and discrimination ndices for detecting item bias.
En R. A. Berk CEd.), Handbook of melhods for delecling lesl bias. Baltimore, MD:
The Johns Hopkins University.
Angoff, W. H. (1984): Scales, norms and equivalent scores. Princeton, NJ: Educatonial
Testing Service.
Angoff, W. H. y Ford, S. F. (1973): ltem-mce interaction on a test of sholasc aptitude.
Joumal ofEduca/ional Measuremenl. 10. 95-106.
.
. Angoff, W. H y Sharon, A. L. (1974): The eva1ution of differences in test performance of
two or more groups. Educalional and psychological Measuremenl, 34, 807-816.
Baker, F. B. (1985): The basics ofilem response lheory. Portsmouth, NH: Heinemann.
Baker, F. B. (1989): Computer tcchnology in test construction and processing. En R. L.
Linn CEd.), Educational Measurement. New York: Macmillan.
Bejar, 1. l.; Weiss. D. J. Y Kingsbury, G. (1977): Calibralion of an ilem pool for Ihe
adaplive measuremen/ of achivement (Psychometric Metbods Program Research
Repon N2. 77-7) . . Minneapolis: University of Minnesota, Department of
Psychology.
Bejar, 1. I Y Wingersky, M. S. (1982): Astudy of the pre-equating based on item response
theory. Applied Psychological Measuremenl. 6. 309-325.
Binet, A. y Simon, T. H. (1908): Le devclopment de nntelligence chez les enfants.
L'Anne Psychologique,1J, 191-244.
.
Bock, R. D. Y Mislevy, R. J. (1981): An item response curve model for matrix-sampling
data: The California grade-Lhree assesmenl. New DireClions for Tesling and
Measuremenl, 10,65-90.
Bock, R. D. Y Mislevy, R. J. (1988): Comprehensive educational assessment for the
States: The duplex designo Educalional Evalualion and Policy Analysis.lo, 89-105.

Bock, R. D. YWood, R. (1971): Test theory. Annual Review of Psychology, 22, 193-224.

Boekkooi-Timminga, E. y van der Linden, W. J. (1988): Algoritbms for automated test

construction. En F. Maarse, L. Mulder, W. Sjoaw y A. Akkerman CEds.),

Compulers in psychology: melhods. inslrumenlalion and psychodiagnoslic. Lisse:

Swets y Zeiinger.
Brown, B. (1982): Automaled test quiz produclion. Classron computer News, 2, 4, 33-35.
Brown, J. M. Y Weiss, D. J. (1977): An adaplive lesling slralegy for ahievemenl lesl
balleries (Research Repon N. 77-6). Minneapolis: University of Minnesota,
Department of Psychology, Psychometrics MeLhods Programo
Brzezinski, E. J. Y Hiscox, M. D. (1984): Microcomputers and testing. Educalional
Measuremenl: Issues and Praclice. 3, 4-34.
Bunderson, C. V:; Inouye, D. K. Y Olsell, J. B. (1989): The four generations of
computerized educational measurernent. En R. L. Linn (Ed.), Educalional
Measurement. New York: MacMillan .
Burke, N. W.; Kaufman, B. D. Y Webb, N. L. (1985): The Wisconsin lem bank:
Development. operalion and relaled issues. Madinson Wisconsin Departrnent of
Public Instruetion.

200

M..l. Navas

Camilli, G. (1979): A critique of lhe chi-square melhod of assessing item bias. Laboratory
ofEducational Rescarch, Boulder, CO: University ofColorado.
Cole, N. S. y Moss, P. A. (1989): Bias in tr.st use. En R. L. Linn (Ed.), Educalional
Measuremenl. New York: MacMillan.
Cook, L. L.; Dunbar, S. B. y Eignor, D. R. (1981): IRT Equaling: A flexible alternative
lo conventional melhods for solving praclical lesling problems. Comunicacin
presentada en la reunin anual de la American Educational Research Association
(AERA)National Council on Measurement in Education (NCME), Los Angeles.
Cook, L. L. Y Eignor, D. R. (1983): Practical considerations regarding the use of item
response theory to equate tests. En R. K. Hambleton, (Ed.), Applications of Ilem
Response Theory. Vancouver, BC: Educational Research Institute of British
Columbia.
Cook, L. L. Y Eignor, D. R. (1989): Using tem response theory in test score equating.
lnlernalionalJournal ofEducalional Research. 13,2, 161-173.
Comish, G. y Wines, R. (1977): Malhemalics profile series. Hawthom, Victoria:
Australian Council for Educational Research.
Choppin, K H. (1968)): An item bank using sample-free calibration. Nalure. 219, 870
872.
Coppin, B. H. (1976): Recent developments in tem banking. En D. N. M. de Gruijter y L.
J. Th. van der Kamp (Eds.), Advances in Psychological and Educational
Measuremenl. New York: Wiley.
Choppin, B. H. (1978): llem banking and lhe monitoring of achievemenl research in
progress series (N2 1). Slough, England: National Foundation for Educational
Research.
Choppin, B. H. (1981): Educational Measurement and the tem bank model. En C. Lacey y
D. Lawton (Eds.), lssues in evalualion and accounlability. London: Methuen.
Divgi, D. R. (1985): A minium chi-square method for developing a common metric in
IRT. Applied Psychological Measuremcnl, 9,4,413415.
Douglas,1. B. (1980): Applyng lalenllrait lheory 10 a classron examinalion syslem: Model
comparison and selection. Comunicacin presentada en la reunin anual de la
AREA, Boston.
Eisenberg, E. M. Y Book, C. L. (1980): Applyng lalenl lral lheory 10 a course
examination syslem: AdminiSlration, maintenance and lraining. Comunicacin
presentada en la reunin anual de la AREA, Boston.
ElIiot, C. D. (1983): Brilish ability scales. Manuals 1-4. Windsor, England: NFER
Nelson.
EmbrelSOn, S. (1985): Studying intelligence with test theory models.Current Topics in
Human lnlelligence, 1,98-140.
Epstein, M. G. (1974): Classificalion schemefor items in CAT. Comunicacin presentada
en la Computer Assisted Test Construction conference, San Diego (Ed 110505).
Fischer, A. G. (1974): Einfhrung in die Theorie psychologischer Tesis. Bem: Huber.
Foster, F. y Archer, G. (1977): The Rasc/ calibraled item bank: A new 1001 for
. compelency based evalualion . POrlland OR: Portland Schools, Oregon State
Department of Education.
Foster, F. y Doherty, V. (1978): Using lhe Rasch approach 10 measuremenl lO solve
praclical schoollesling problems. Comunicacin presentada en la reunin anual de
la AREA, Toronto.
Goldstein, H. (1987): Multilevel models in educational and social research. London: Oxford
Univers"ity Press.

Teora de lesls

201

Goldstein, H. Y Wood, R. (1989): Five decades of item response modelling. British Journal
of Malhemalical and Slalislical Psychology, 42, 139-167.
.
Green, B. F. ; Bock, R. D. ; Humphreys, L. G. ; Linn, R. B. Y ReclcaSe, M. D. (1984):
Technical guidelines for assessing computerized adaptive tests. Journal 01
Educalional Measurement, 21,4,347-360.
Green, B. F. Y Draper, J. F. (1972): ExploralOry sludies of bias in achievemenl leSls.
Comunicacin presentada en la reunin anual de la AREA, Honolul.
.
Gruijter, D. N. M. de y Hambleton, R. k. (1983): Using tem response models in criterion
referenced test tem selection. En R. K. Hambleton (Ed.), Applicalions of tem
response lheory. Vancouver, BC: Educational Research Institute of British
Columbia.
.
Guion, R. M. Y Ironsoo, G. H. (1983): latent trait theory for organizational research.
Organizalional Behavior & Human Performance, 31,1,54-87.
Gulliksen, H. (1961): Measurement of leaming and mental abilities. Psychomelrika. 26.
93-107.
Gulliksen. H. (1986): Perspective on edutational measuremenL Appied Psychological
Measurement. 10, 109-l32.
Haebara, T. (1980): Equating logistic ability scales by a weighted least squares method.
Japanese Psychological Research, 22,144-149.
Haksar, L. (1983): Dcsign and usage of an item bank. Programmed learning and educaJional
lechnology, 20, 253-262.
Hambleton, R. K. (1986): The changing cOllception of measurement: A commentary.
Appied Psychological Measurement, 10,415421.
.
Hambleton, R. K. (1989a): Principies and ScIccted applications of item response theory. En
R. L. Linn (Ed.), Educational Measuremenl. New York: MacMillan.
Hambleton, R. K. (1989b): Applications of itcm response theory.lnlernalional Joumal of
Educalional Research, l3, 2,123-125
Hambleton, R. K. Y Gruijter, D. N. M. de (1983): Applications of item response models to
criterion-referenced test tem sclection. 10urnal ofEducational Measurement, 20,4,
355-367.
.
Hambleton, R. K. Y Rogers, J. (1989a): Detccting potentially biased test items:
Comparison of IRT area and Mantel-Haenszel methods. Applied Measurement in
Educalion, 2.4, 3l3-334.
Hambleton, R. K. Y Rogers, J. (l989b): Solving criterion-referenced measurement

problems with item response modelsJnternalional.lournal ofEducalional Research,

l3,2, 145-160.
Hambleton, R. K.; Rogers, J. y Arrasmith, D. (1986): ldentifying pOlenliaUy biased leSl

tems: Acomparision of lhe Manlel-Iiaenszel slalislic and several tem response

lheory melhods. Comunicacin presentada en la reunin anual de la APA,

Washington.
Hamblelon, R. K. ; Rogers, J. y Arrasmith, D. (I988): Identifying pOlen/iaUy biased lest
items: Acomparision of lhe Manlel-Iiaenszel slalislic and several ilem response
lheory melhods (LabOflltory of Psychometric and Evalutive Research Report N2.
154). Amhersl: Universty of MassachusctlS, School of Education.
Hambleton, R. K. Y Swaminathan, H. (1985): Item Response Theory: Principies and
Applicalions. Boston: Kluwer-Nijhoff.
.
Hambleton, R. K. Y Swaminathan, H. Arrasmith. ; Gower, C. ; Rogers, J. y Zhou, A.
(1 ~86): Developmenl of an inlegraled syslem lO assess and enhance basic job skills
(Au Force Research Repon N. 2). Amherst, MA: School of Education, University
of MassachussetlS.

202

MJ. Navas

Teora de lesls

203

Hambleton, R. K. Y Swaminathan, H. y Rogers, J. (1991): Fundamenlals 01 item response


Kirn S. y Cohen, A. S. (1991): A comparision of two area measures for detecting
lheory. Sage.
, differential item functioning. Applied Psychological Measuremenl, 15, 3,269-278.
Hamb1eton, R. K. Y van der Linden, W. J. (1982): Advances in lRT and applications: An
Kingsbury, G. G. Y Weiss, D. J. (1979): An adaptive lesling stralegy lor maslery decisions
introduction. Applied Psychological MeasuremenL, 6, 4, 373-378.
(Research Report N 79-5). Minneapolis: University of Minnesota, Department of
Hankins, J. A. (1990): Florida's vocational testing programo Journal 01 Employmenl
Psych010gy, Psychometric Methods Programo
.
Counseling. 27, 3, 130-138.
Kingsbury, G. G. Y Weiss, D. J..(1980): A compari.s~on 01 adaptive. sequential and
Harris, D. J. (1991): A comparision of Angoff's Design 1 and Ddesing 11 for vertical
conventionaltesting strategles lor maslery declSlons (Research Report NO. 80-4).
equating using traditional and IRT methofology. Journal 01 Educalional
Minneapolis: University of Minnesota, Department of Psychology, Psychometric
Measuremenl. 28, 3, 221-235.
Methods Program, Computerized Adaptive Testing Laboratory.
.
Harris, D. J. Y Kolen, M. J. (1986): Effect of examinee group on equating relationships.
Kingsbury, G. G. Y Weiss, D. J. (1981): A . validiry comparision 01 ad~ptive a?d
Applied Psychological Measuremenl, 10.35-43.
convenlional strategieslor mastery lestlng (Research Report 81-3) Minneapohs:
Harrison, D. A. (1986): Rohustness of lRT parameter estirnation to violations of the
University of Minnesota, J;>epartment of Psychology, Computerized Adaptive
unidimensionality assumption. Journal 01 Educational Slaiislics. 11,2,91-115.
Testing Laboratory.
Hill, P. W. (1985): The TesIs 01 Reading Comprehension (TORCH). Comunicacin
Kingsbury, G. G. Y Weiss, D. J. (1983): A comparision of IRT-hased adaptive mastery
presentada en la reunin anual de la IEA, Oxford.
testing and a sequential mastery testing procedure. En D. J. Weiss (Ed.), New
Holmes, S. (1980): ESEA Tille 1 linking projecl: Final repon Salem, OR: Oregon
horizons in testing: Latenttrait lesttheory and computerized adaptive testing. New
Dcparunent of Education.
Yorlc Academic Press.
. Holland, P. W. y Thayer, D. T. (1986): Differenlial item lunclioning and Ihe Manlel
Kingsbury, G. G. Y Zara, A. R. (1989): Proccdures for selecting items for tomputerized
Haenszel procedJ,re (Tcchnical Report NQ. 86-89). Princeton, NJ: Educational
adaptive tests. Appied Measurement in Education. 2. 4. 359.375.
Testing Service.
Kingston, N. M. y Stoking, M. (1986): Psychometric issues in IRT-based test

Holland, P. W. y Thayer, D. T. (1988): Differential ilem performance and Ihe Manlel


construccion. Comurucacin presentada en la reunin de la APA, Washington.

Haenszel procedure. En H. Wainer y H. 1. Braun (Eds.), Tesl validily. Hillsdale, NJ:


Kolen, M. J. (1981): Comparison of traditional and IRT methods for equating tests. Journal

Lawrence Earlbaun Associatcs, Inc..


.
.
01 Educational Measurement.18. 1.11.
Hoover, H. D. Y Kolen, M. J. (1984): The reliability oC six item bias indices. Applied
Kolen, M. J. (1988): Traditional equating methodology. Educalional Measurement: Issues
Psychological Measurement. 8, 173-181.
and Practice, 7, 4, 29-36.
Hornke, L.F. (1981): Computeruntcrsttztes Testen (CUT) von PrfungsangsL Zeitschrifl
Kolen, M. J. Y Whitney, D. R. (1982): Comparision of four procedures for equating the
lr Differenlielle und Diagnositsche PSJchologie, 2, 325-335.
. Test of General Educational Development. JOUrnal 01 Edllcational Measuremenl, 19,
4,279-293.
Hornke, L. F. Y Habon, M.W. (1986): Rulcd-bascd item bank construction and evaluation
within the linear logistic framework. Applied psychological Measuremenl. 10,369
Koslin, B.; Koslin, S.; Zeno, S. y Wainer, H. (I977): The validiiy and reliabiliry 01 the
380.
Degree 01 Reading Power Test. Elmsford NY: Touchstone Applied Sciences
Associates.
Hulin, C. L.; Drasgow, F y Komocar, J. (1982): Applications of item response theory to
analysis of auitude scale translations. J(Jurnal 01 Applied Psychology, 67, 818-825.
Kunbinger, K. D. (1985): On a Rasch model based test lor noncomputerized adaptive

Hunter, J. E. (1975): A critical analysis 01 the use 01 item means and ilem-lesl co"elations
testing. Comunicacin presentada en la 13th IPN Conference on Latent Trait and

lo delermine Ihe presence or absence 01 contenl bias in achivemenl test ilems.


Latent Class Models in Educational Research, Kiel.

Comunicacin presentada en la Nation:!l lnstitute of Education Conference on Test


Lawley, D. N. (1943): On problems connected with tem selection and test construction.

Bias, Annapolid, MD.


Proceeding 01 the Royal Sociery olEdinburgh. 61,273-287.

lroson, G. H. Y Subkoviak, M. (1979): A comparision of several methods of assessing


Lawley, D. N. (1944): The factorial analysis of multiple tem tests. Proceeding 01 the

item bias. Journal 01 Educalional Measuremenl, 16,209-225.


. Royal Society 01 Edinburgh. 62-A, 74-82.
Jaeger, R. M. (1987): T~o decades of revolution in educational measurement? Educalional
Lewis, C. (1986): Test theory and Psychometrika: The past twenty-five years.
Psychomentrika.51, 11-22.
Measurement: Issues and Praclice, 4, 6-14.
Johnson, E. G. (1989): Theoretical justification of the omnibus measure of differential item
Lewis, C. Sheehan, K. (1990): Using bayesian decision theory lo design a computerized
functioning. En B. J. King. R. Bertrand y F. A. Dupuis, A world 01 differences. An
masLCry tesL Applied Psychological Measurement.14. 4, 367-386.
Inlernalional Assessment 01 Mathematics and Science (Technical Report).
Linn, R. L. Y Harnisch. D. L. (1981): Intcraction between item Content and group
Kent, T. H. Y Albanese, M. A. (1987): A comparision of the relative efficiency and validity
membership
on achievement ,test items. Journal 01 Educational Measurement. 18,
109-118.
of tailored tesLS.and conventional quizzcs. Evalulion and lhe Heallh 01 Prolessions.
la, 1,67-69.
Linn, R. L. ; Levine. M. V. ; Hastings, C. N. y Wardrop, J. L. (1981): Item bias in a test

Kiely, G. L.; Zara, A. R. YWeiss, D. J. (1983): Alternatelorms reliabilily and concurrenl


of reading comprehension. Applied Psychological Measurement. 5. 159-173.

validity 01 adaplive and conventionallesls with mililary recruils. Infonne presentado


Lord, F. M. (1975): A su:vey 01 equating melhods based on item characteristic curve theory

al Navy Personnes Research and Devclopment Center, San Diego.


(Research BulIeun N. 75-13). Princeton, NJ: Educational Testing Service.

204

MJ. Navas

Lord, F. M. (1977): Practical applications of item charactenstic curve theory. Princeton,


NJ: Educational Testing Service.
.
Lord, F.M. (1980): Applications of item response theory to practical testing problems.
Hillsdale, NI: LEA.
Lord, F. M. (1982): Standard error of an cquating by IRT. Applied Psychological
.
Measurement. 6,4,463-472.
Lord, F. M. Y Novick, M. R. (1968): Statisticaltheories of mental test scores. New York:
Addison Wesley.
Lord, F. M. Y Wingersky, M. (1983): Comparision of IRT observed-score and true-score
-equatings- (Research BuIletin N. 83-86). Princelon, NI: Educational Testing
Service.
Lumsden, I. (1976): Test theory. En M. R. Rosenzweig y L. W. Poner (Eds.), Annual
Review of Psychdlogy. Palo Allo, CA: Annual Reviews Inc ..
Marco, G. L.; Petersen, N. S. y Stewart, E. E. (1980): A lest of the adequacy of curvilinear
score equating methods. En D. 1. Weiss (Ed.), Proceedings 01" the 1979
CompUlenzed AdaptiveTesling Conference. Minneapolis.
Marco, G. L.; Petersen, N. S. y Stewart, E. E. (1983): A test of the adequacy of curvilinear
score equating modeIs. En D. I. Weiss (Ed.), New Honzons in Testing: LatentlTail
theory and computenzed adaptive testing. New York: Academic Press.
McBride, I. R. Y Martn, J. T. (1983): Reliabilily and validity of adaptive ability tests in a
military seLting. En D. I. Weiss (Ed.), New Horizons in Testing: LatentlTait theory
and computerized adaptive testing. New York: Academic Press.
McDonald, R.P. (1986): A survey of sorne sludes in methods for the structural anaIysis of
multivariate data in Lhe social sciences.lnterchange, 17,2,25-40.
McDonald, R.P. (1989): Future directions for item response theoryJnternacional Journal of
Educational Research. 13,2, 205-220.
MelIenbergh, G. I. (1972): ApplicabililY of the Rasch model in two cultures. En L. I. C.
Cronbach y P. J. D. Drenth (Eds.), Mental tests and cultural adaption. The Hague:
Mouton.
MelIenbergh, G. J. (1982): Conlingency tablc modcls for assessing item bias. Journal of
Educational Statistics. 7. 105-118.
MeIlenbergh, G. J. (1985): Vraag-onzuiverheid: definitie, delectie en onderzoek (ltem bias:
Definition, detcction and explanaLion) . Nederlands Tijdschrift Voor de Psychologie,
40,425-435.
MelIenbergh, G. J. (1989): Item bias and ilem response Lheory. International Journa1 of
Educational Research. 13,2, 127-143.
Mershon, D. H. (1982): An inexpensive system for producing examinations with minimal
typing and proofreading. Teaching ofPsychology. 9,2,108-109.
Merz, W. R. y Grossen, N. E. (1979): An empirical invesligation of sixmelhods for
examining test item bias. Informe presentado al National Inslilute of Education,
GraIl~ NIE-6-78-0067, California State UniversilY; Sacramento_
Messick. ; Beaton, A. y Lord, F. M. (1983): A new designfor a new era. Princeton, NI:
Educational Testing Service.
Millman, J. y Arter, J. A. (1984): Issues in ilem banking. JournaJ ofEducacional Research,
21,315-330.
.
MilIs, C. N. y Simon, R. (1981): A method for determinig the length of cnterion
referenced tests using reliability and validity indices (Laboratory of Psychometric and
Evaluation Research Repon N. 110). AmherSl. MA: School of Education,
Universily of Massachussets.

Teora de tests

205

Mislevy, R. J. Y Bock, R. D. (1989): A hierarchical item response model for educational


testing. En R. D. Bock (Ed.), Multilevd analysis of educational data. New York:
Academic Press.
Moreno, K. E.; Wetzel, C. D.; McBride, J. R. Y Weiss, D. J. (1984): Relationship
between corresponding Armed Services Vocational Apitude Bauery (ASVAB) and
computerized adaptive testing (CA T) sublests. Applied Psychological Measurement,
8. 155-163.
Muiz, J. (1990): Teora de respuesta a los Items: Un nuevo enfoque en la evoluci6n
psicol6gica y educativa. Madrid: Pirmide.
Muiz, J. (1992): Teoria clsica de los tesIS. Madrid: Pirmide.
Muiz, J. y Hambleton, R. K. (1992): Medio siglo de teora de respuesta a los ilems.
Anuario de Psicol6gica. 52, 41-66.
Nitko, A. J. Y Hsu, T. C. (1984): A comprehensive microcomputer c1assroom testing
syslem.Journal ofEducational Measurement. 21,377-390_
O'Brien, M. L. Y Hampilos, 1. P. (1988): The feasibility of creating an item bank from a
teacher-made test using theRasch mOdel. Educational and Psychological
Measurement. 48, 201-212.
.
Olsen, J. B. (1990): Appying computerized adaptive testing in schools. Measurementand
Evaluation in Counseling and Development. 23, 1,31-38.
Oort, F. J. (1992): Using reslIicled faclor analysis lo dCClCCl item bias. Methodika. VI,
150-166.
Owen, R. J. (19.69): A bayesian appoach to tailored testing (Research Report 69-92) .
Princeton NJ: Educational Tesling Servicc.
Owen, R. J. (1975): A bayesian sequential proccdure for quantale response in the eontext of
adaptive mental testing. Journal of the American Statistical Association. 70, 351
356.
Osenne, D. G.; Gelder, N. C. van y Cohen, A. J. (1974): Emergency school aid act
(ESAA) national evaluation. achievement test standardization. Santa Monica,
. California: Systems Developmem COrporation.
Pandey, R. T. (1988): Application of multiple matrix sampling in large-scale assessment
programs. Comunicacin presentada en el Symposium on Large-Scale Assessments
in an Intemational Perspective, Deideshcim.
Pandey, T. H. Y Carslon, D. (1983): Applicalion of item response modeIs to reporting
assessment data. In R. K. Hamblelon (Ed.), Applications of item response theory.
Vancouver, BC: Educational Rcscarch Institule of British Columbia.
Paence, W. (1981): A comparision of latent lrail and equipercentile methods ofvertically .
equaling tests. Comunicacin presentada en la reunin anual del NCME, Los
Angeles.
Petersen, N. S. (1977): Bias inthe selection rule: Bias in the test. Comunicacin

presentada en el Third Internalional Symposium on Educational Testing, University

of Leyden, The NeLherlands.


Petersen, N. S., Cook, L. L. Y Stocking, M. L. (1983): IRT versus conventional equating
methods: A comparative Sludy of scale stability. Journal ofEducational Statistics. 8,
2,137-156.
Pollit, A. B. (.1979): Item banking issues in educatio/lal assessment. Edinburgh: Scottish
.
Educatlon DepartmenL
Pollit, A. B. (1985): Ilem banking and school assessmenL En N. EntwhisUe (Ed.) New
Directions in Educational Psychology. Easl Susscx. England: The Falmer Press.

206

MI Navas

Popuyk, W. (1982): A model for an item bank in second language proficiency testing.
Comunicacin presentada en el 5lh Internalional Congress of Applied Linguiscs,
Montreal.
Raju, N. S. (1988): The area betwccn two item characteristic curves. Psychometrika, 53,
495-502.
Raju, N. S. (1990): Deterrnining lhe significance of esmated signed and unsigned areas
between two item response functions. Applied Psychological Measurement, 14,2,
197-207.
Raju, N. S. ; Steinhaus, S. D. ; Edwards,l. E. Y Delessio, J. (1991): A 10gistic reg:ession
modcl for personnel selecon. Applied Psychological Measurement, 15,2, 139-152.
Rentz, R. R. Y Bashaw, W. L. (1977): The Naonal Reference Scale for Reading: An
application of lhe Rasch model. JournalofEducaJional M easurement. 14, 161-179.
Richardson, M. W. (1936): The relaonship between difficulty nd lhe differential validit)r
of a test Psychometrika, 1, 33-49.
Rodel, L. J. (1979): CAM~s coordinator manual. Hopkins Independent School District274,
MN (ED 183580)
Rogers, J. Y Hambleton, R. k. (1989): Evalualion of computer simulated baseline statistics
for use in item bias sludies. Educational and Psychological Measurement, 49, 355
369.
Rubin, A. y Babbie, E. (1989): Research methods for social work. Belmont, CA:
Wadswonh.
Rudner, 1. M. (1977): Weakly paralell tests in lalent trail lheory wilh sorne cricims of
CIT. Psychometrika, 42, 2,193-198.
Scheuneman, J. (1979): A melhod of assessing bias in tesl items. Journal of Educational
Measurement,16.3,143152.
Shearp. L. A.; .Camilli, G. Y Averill, M. (1981): Comparision of procedures for detecting
test item bias wilh bolh inlernal and external ability crileria. Journal of Educational
Statistics, 6,317-375.
Shearp, L. A.; Camilli, G. y Williams, D. M. (1984): Accounting for statisticaI artifacts
in item bias research. Joumal of Educational Statistics, 9, 93-128.
Shearp, L. A.; Camilli, G. y Williams, D. M. (1985): Validity of approximation
techniques for detecling ilem bias. Journal of Educational Measurement, 22,2,77
105.
Sirotnik. K. (1974): Introduclion lO matrix sampling for lhe practilioner. En w. J. Popham
(Ed). Evaluation in Education: Current Applications. Berkeley; CA: McCutchen
Publishing Corporation.
Sirotnik, K. y Wellinglon, R. (1977): Indidence sampling: An integrated lheory for
'matrix sampling'. Journal of Educational Measurement,14. 4,343-399.
Skaggs, G. y Lissitz, R.W. (1986a): IRT tesl equang: Relevant issues and a review of
recent research. Review of Educational Research, 56, 495-529.
Skaggs, G. y Lissitz, R.W. (1986b): An exploration of lhe robustness of four test equang
models. Applied Psychological Measurement. 10, 303-317.
Skaggs, G. y Lissitz, R.W. (1986c): The effecl of examinee ability on tesl equating
invariance. Comunicacin presentada en la reunin anual de la AREA, San
Francisco.
Skaggs. G. y Lissitz,.R.W. (1988): Effect of 0xamine ability on test equating invariance.
Applied Psychological Measurement. 12, 1,69-82.
Smilh, I. L. (1985): Content validity study of the AASPB item bank. New York:
Professional Examination Service, Division ofRcarch and Development.

Teora de tests

W7

Snow. R. E. Y Lohman, D. F. (1989): Implications of cognitive psychology for


educational measuremenL En R. L. Linn (Ed.), Educational Measurement. New
York: Macmillan.
Spearman, C. (1904): The proof and measurement of association belween two lhings.
American Journal of Psychology, 15, 72-101.
Spearman, C. (1907): Demostration of formulae for true measurement of correlation.
American Journal ofPsychology, 18, 161-169.
Spearrnan, C. (1913): CorrelaLions of sums and differences. British Journal of Psychology,
5,417426. .
Speannan, C. (1923): Tlze nature of intelligence and the principies of cognition. London,
England: Mcmillan and Company. Ltd ..
Spearman, C. (1927): The abilities ofmanoNew York: Mcmillan.
Stoking, M. y Lord, F. M. (1983): Developing a common metric in IRT. Applied
. Psychological Measurement, 7, 2,201-210.
Swaminalhan, H. y Rogers. J. (1990): Detecng differential item funconing using
Iogistic regression procedures. Journal ofEducational Measurement. 27, 4,361-370.
Sympson, J. B. ; Weiss, D. J. Y Ree, M. J. (1982): Predictive validity of conventional ami
adaptive tests in an Air Force training environment (AFHRL TR 8140). Brooks Air
Force TX: Manpower and Personnel Division, Air Force Human Resources
Laboratory.
.
Theunissen. T. J. J. M. (1985): Binary programming and test designo Psychometrika, 50,
411420.
Theunissen, T. J. J . M. (1986): Sorne applications of opLimization algorithms in test
design and adaptive testing. Applied Psychological Measurement,lO, 333-344.
Theunissen, T. J. J. M. Y Verstralen, H. H. F. M. (1986): Algoritem voor het
sarnenstellen van tOCsLsen. En W. J. van der Linden (Ed. ), Moderne methoden Voor
toetsgebruik en constructie. Lisse, The Netherlands: University of Twente.
Thissen, D. y Mislevy. R. J. (1990): Tcsting algorithms. En H. Wainer (Ed.),
CompUlerized Adaptive Testing. A Primer. Hillsdale, NJ: LEA.
Tognolini, J. (1982): Pupil achievemem in stage 6 mathematics (Discussion paper N2. 15).
Perth: Education DepartJnent of Weslern Australia.
Traub. R. E. Y Wolfe, R. G. (1981): Latent trait theories and lhe assessment of educaonal
achievcment Review of Research in Education, 9, 377435.
Tucker,1-13.
L. R. (1946):
Maxium validity of a test with equivalent items. Psychomem'ka, 11,
'
van der Flier, H. ; Mellenbergh, G. J. ; Ader, H. J. Y Wijn, M. (1984); An iterave item
. bias detection method. fournal ofEducational Measurement. 21. 131-145.
van der Linden, W. J. (1986): The changing conception of measurement in educaon and
PSychology. Applied PSYChological Measurement, 10,4,325-332.
.
van der
J. Y
E. (1989): A maximun model for test design
wlth practlcal constra.mts. Psychometrika, 54,237-247.

van der Linden, W. J. y Eggent, T. J. H. M. (1986): An empirical bayesian approach to

item banking. Applied Psychological Measurement, 10,345-354.

van der
W. J. '! Zwarts, M. A. (1989): Sorne procedures for computerized ability

testlng./mernatlOnal Journal ofEducational Research. 13, 2, 175-187.

van Thiel, C. C. y Zwarts, M. A. (1986): Development of a testing service system.

Applied Psychological Measurement, 10, 391404.


. Wainer, H. (1990): Computerized adaptive testing: A primer. Hillsdale, NJ: LEA.
Warm, T. A. (1978): A primer.of IRT. U. S. Coa,t Guard lnsutute Oklahoma City.

~inden, Y1.

Li~den.

Boc~ooi-Timminga,

208

MI Navas

Weiss, D. J. (1982): Improving measurement quality and efficiency with adapLive tesLing.
Applied Psychological Measurcment. 6,4,473-492.
Weiss, D. J. (1983): New horizons in testing. New York: Academic Press.
Weiss, D. J. (1985): AdapLive testing by computer. .lournal of Consulting and Clinical
Psychology, 53, 774-789.
.
Weiss, D. J. Y Davinson, M. L. (1981): Test Theory and methods. Annual Review of
Psychology, 32,629-658.
Weiss, D. 1. Y Vale, C. D. (1987): Adaptive tesLing. Applied Psychology: An
lnternational Review, 36, 3/4,249-262.
Wilson-Burt, C; FitzmanLin, R. D. Y Skaggs, G. (1986): Baseline strategies in evaluating
IRT item bias indices. Comunicacin presentada en la reunin anual de la AREA,
San Francisco.
.
Willingham, W.W. (1980): New melhods and direcLions in achivement measuremenL New
Directionsfor Testing and Measurement, 5,73-80.
Wongbundhit, Y. (1985). ltem banking procedure and quality control in Dade County
public schools. Comunicacin presentada en la reuninn anual de la AERA,
Chicago.
Wood, R. (1987). Measurement and assessment in education and psychology. Philadelphia,
PA: Falmer Press.
Wood, R. y Skurnik, L.S. (1969): ltcm banking. London: NaLional Foundation for
EducationaI Research.
Wright, B.D. (1968): Sample-frec test calibration and person measuremenL Proceedings of
lhe 1967 Invitational Conference on Tr.sting Problems. Princeton, NJ: EducaLionaI
Testing Service.
Wright, B.D. y Bell, S.R. (1984).ltem banks: What, why and how. Journal of Educational
Measurement, 21, 4,331-346.
Wright, B.D. , Mead, R. y Draba, R. (1976): Detecting and correcting item bias with a
logistic response model (Rcsearch Memorandum No. 22). Chicago: University of
Chicago, Statistical Lab., Departrnent of Education.
Yen, W.M. (1983): Tau equivalence and equipcrcentile equating. Psychometrika, 48, 353
369.
Yen, W.M. (1986): The choice of scales for educational measurement: An IRT perspective.
Journal ofEducational Measurcment, 23,299-325.
Yoes, M.E. (1990): A comparison of microcomputer-based item parameter estimation
procedures used with the 3-parametcr lRT model. Comunicacin presentada en la
reunin anual del NCME, Boston.

(Revisin aceptada: 18/11193)

S-ar putea să vă placă și