Documente Academic
Documente Profesional
Documente Cultură
Abal, Facundo Juan Pablo; Susana Lozzia, Gabriela; Aguerri, María Ester; Silvia
Galibert, María; Attorresi, Horacio Félix
¿Cómo citar? Número completo Más información del artículo Página de la revista
www.redalyc.org
Proyecto académico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto
La escasa aplicación de la teoría de respuesta
al ítem en tests de ejecución típica
Resumen Abstract
El objetivo de este trabajo fue exponer los factores que ex- This study was aimed to evidence the factors behind the limi-
plican la escasa aplicación de la Teoría de Respuesta al Ítem ted application of the Item Response Theory (IRT ) to typical
(TRI ) en tests de ejecución típica. Una revisión exploratoria performance tests. An exploratory review of psychometric
de la literatura psicométrica permitió identificar dos factores: literature has led to identify two factors. The historical fac-
el histórico, que remite a problemas en la difusión de la TRI tor refers to the problems of spreading the IRT outside the
por fuera del campo educativo y a las demandas sociales que educational field and to the social demands that favored its
privilegiaron su aplicación en el contexto educativo; y el factor application in the educational context. And the application-
asociado a la aplicación, que describe los obstáculos que en related factor refers to the theoretical and operating obstacles
la actualidad dificultan la puesta en práctica de los modelos which currently hinder the implementation of models in typi-
en tests de ejecución típica. Aunque ambos factores fueron cal performance tests. Although both factors can be conside-
relativamente superados, el impacto de estos en la producción red as overcome, their impact on the scientific production in
científica del área es aún significativo. this field is still significant.
Palabras clave: medición de actitudes, medición de la per- Keywords: attitude measurement, Item Response Theory,
sonalidad, psicometría, Teoría de Respuesta al Ítem, test de personality measurement, pyschometrics, typical perfor-
ejecución típica. mance test.
Artículo de Revisión
R ecibido: 31 de ag osto del 2009 - Acepta do: 27 de a br il del 2010
* Correspondencia: Zuviría 5691 (CP1439) Ciudad Autónoma de Buenos Aires. E-mail primer autor: fabal@psi.uba.ar
sus orígenes, la TRI se aplicó en el contexto edu- ítems con modelos dicotómicos. Por otra parte,
cativo a la medición de habilidades y aptitudes no todos los tests de ejecución típica usados en
al margen de los potenciales aportes que podían esa época presentaban un formato de respuesta
brindarse desde la psicología cognitiva; esta in- politómica. Algunos inventarios (p. e., MMPI)
tegración, según Prieto y Delgado (1999), no se estaban construidos con ítems de dos opciones
produce sino hasta hace pocos años. de respuesta, por lo que no hubiese requerido la
Durante los primeros años de la historia dicotomización de las respuestas.
de la TRI, los teóricos estuvieron concentrados Otro factor histórico que explica la escasa
en el desarrollo y en la complejización de mo- aplicación de la TRI en tests de ejecución típica
delos para ítems dicotómicos. Este formato de puede encontrarse en la pobre difusión que se
respuesta resultaba ideal para las aplicaciones hizo acerca de su potencial para evaluar la perso-
educativas, puesto que era y es el más frecuen- nalidad, las actitudes y los intereses. Para Childs
temente utilizado en tests de ejecución máxima et al. (2000), la baja utilización se explica por el
que puntúan con 1 el acierto y con o el fallo. La desconocimiento de los beneficios que conlleva
limitación que presentaban estos modelos dico- el uso de esta teoría. Si los especialistas no co-
tómicos de la primera generación de la TRI era nocen las ventajas de la TRI por sobre la TCT no
la dificultad de dar un tratamiento satisfactorio a intentarán su aplicación. Y, como señalaron Lan-
ítems puntuados politómicamente, formato por ge y Honran (1999), salvo por algunas excepcio-
excelencia de ítems de tests de ejecución típica. nes, el potencial de esta teoría en la medición con
Para Reise (1999), esta limitada aplicabilidad de tests de ejecución típica fue largamente ignorado.
los modelos a ítems dicotómicos fue clave para Es innegable que la escasa difusión de la
que no se despertara el interés de los investiga- TRI también se asocia a su nacimiento en el
dores que provenían del campo de la psicología campo educativo. Al ser desarrollados en un
de la salud y la personalidad. contexto donde abundan los tests de ejecución
Hacia 1969, Samejima describió el primer máxima, la descripción de los modelos adoptó
modelo para ítems de respuesta politómica gra- nombres asociados a las pruebas que evalúan
duada. Aunque su autora lo propuso inicial- rendimiento para interpretar características
mente para ítems de habilidades con respuestas matemáticas que son esencialmente neutrales
parcialmente correctas, las características del frente a cualquier tipo de constructo (Ositini
modelo permitieron también extender su apli- & Nering, 2005; Zickar & Ury, 2002). Este pro-
cación al análisis de reactivos con escalas tipo blema afecta incluso actualmente la difusión de
Likert. Si bien esto inauguró una nueva gene- la TRI por fuera de la medición educativa. En
ración de desarrollos en el área psicométrica, efecto, gran parte de la bibliografía sobre TRI
la revisión efectuada para esta investigación no sigue explicando los modelos apelando a estas
mostró un aumento importante de las aplicacio- denominaciones en lugar de recurrir a nom-
nes en tests de ejecución típica en este periodo. bres neutros, lo que no contribuye a motivar el
Sin embargo, la inexistencia de modelos interés de investigadores de otros contextos.
politómicos no puede explicar por sí sola la baja A modo de ejemplo, la curva característica
aplicación de la TRI a tests de ejecución típica. del ítem (CCI), un concepto básico de la TRI, se
Como señaló Hambleton (1997), antes de la apa- define frecuentemente en la literatura como la
rición de los modelos para datos politómicos, los representación de una función que describe la
modelos dicotómicos cubrían todas las necesi- probabilidad de contestar de forma correcta a un
dades. Según este autor, era habitual dicotomi- ítem para todo nivel de habilidad. Los intentos
zar los datos politómicos para poder analizar los de definir de manera neutra la CCI se refieren a la
probabilidad de dar una respuesta determinada al público constante y una fuerte demanda legal de
ítem (opción‒clave) en función del nivel del ras- las minorías, la medición en el campo educati-
go. En los ítems de rendimiento máximo, la cla- vo estuvo obligada a revisar y perfeccionar sus
ve es la respuesta correcta, y en los de ejecución prácticas. En contraste, la evaluación con tests
típica, es aquella opción que indica la presencia de ejecución típica ha tenido pocas presiones
de un nivel mayor de rasgo en el individuo. Nun- legales que propicien un replanteo de los proce-
nally y Bernstein (1995) llamaron respuesta alfa dimientos utilizados. Sin un apremio judicial, se
a la opción-clave, mientras que Ositini y Nering retrasó el tratamiento de las posibles innovacio-
(2005) la denominaron opción positiva. nes (Reise & Henson, 2003).
Como es posible apreciar, también es cierto Durante los años setenta se recuperó la
que resulta difícil eliminar la impronta educativa atención de los expertos sobre la aplicación de
en la definición de la CCI si se desea pasar a una la TRI a tests de ejecución típica (p. e., Andrich,
terminología neutra. La definición neutra de la 1978; Bejar, 1977; Kuncel, 1973). Desde enton-
CCI requiere de una explicación más extensa y ces, su empleo aumentó de forma lenta pero
detallada que la ligada al campo educativo. Se- sostenida extendiéndose al campo de la evalua-
gún Ostini y Nering (2005), la popularidad de ción de la personalidad normal y clínica (p. e.,
los términos derivados de los test de ejecución Carter & Wilkinson, 1984; Hendryx, Haviland,
máxima para describir los modelos de la TRI se Gibbons & Clark, 1992; Ozer & Reise, 1994;
debe a que estos ayudan a entenderlos más intui- Schaeffer, 1988), la epidemiología psiquiátrica
tivamente. Tanto la exposición didáctica como (Reiser, 1989) y el mercadeo (Singh, Howell &
la comprensión de estos conceptos se ven faci- Rhoads, 1990), entre otros contextos.
litadas al asociarlos a nociones de amplia expe- En resumen, la escasa aplicación de la TRI
riencia colectiva como son los exámenes de las en el área de la medición con tests de ejecución
instituciones educativas. típica podría explicarse desde un plano históri-
co, en parte, porque una importante cantidad de
Problemas vinculados a la demanda social investigadores desconocieron durante años sus
Calero y Padilla (2007) señalaron otro fac- ventajas (problemas asociados al surgimiento
tor que ha incidido en un momento histórico y difusión de la TRI) y, por otra parte, porque
de la evolución de la TRI. Según estos autores, aquellos expertos que la conocían se volcaron
los primeros intentos de utilizarla para el aná- mayoritariamente a buscar soluciones a las pro-
lisis de tests de ejecución típica, especialmente blemáticas de la medición educativa (problemas
en la medición de las actitudes, comenzaron vinculados a la demanda social).
durante el desarrollo y expansión de la TRI
como teoría psicométrica Factor asociado a la aplicación de
A pesar de las experiencias pioneras, el pro- la tri en la actualidad
greso de esta línea siempre fue más lento que el Las investigaciones aplicadas con tests de
que se produjo con las variables de habilidad. ejecución típica realizadas en los últimos años
Calero y Padilla (2007) atribuyen esto a que du- han permitido a los especialistas identificar las
rante varios años los investigadores con conoci- limitaciones que puede tener la TRI al intentar
miento sobre TRI desplazaron su interés hacia modelizarlos. Aunque suponen que tendrá hacia
las pruebas de rendimiento máximo. La razón de el futuro un importante rol en el análisis de tests
la preferencia fue porque estas presentaban una de ejecución típica, los autores más optimistas
mayor exigencia social por sus objetivos de cer- reconocen que el uso de la TRI tiene barreras téc-
tificación académica. A causa de un escrutinio nicas que limitan su aplicación rutinaria (Reise &
Henson, 2003; Steinberg & Thissen, 1995). Los ambigüedad de los ítems de personalidad respec-
más pesimistas consideran que son justamente to de los ítems de rendimiento juega en contra al
estos obstáculos los que hacen que la TRI difícil- pretender alcanzar la unidimensionalidad reque-
mente pueda reemplazar a la TCT en la medición rida por los modelos de la TRI.
con tests de ejecución típica (p. e., Aiken, 1999). Otras dificultades surgen frente a la aplica-
Una de las dificultades de aplicación más ción de modelos de la TRI a tests diseñados y
mencionadas es el cumplimiento del supuesto de validados a partir de la TCT. Como aseguraron
unidimensionalidad del rasgo latente requerido Embretson y Reise (2000) la TRI ha modificado
por los modelos de la TRI más utilizados (Aiken, varias de las reglas clásicas que posibilitaban la
1999; Morizot et al., 2007). Los constructos me- medición en psicología. Para Steinberg y This-
didos con tests de ejecución típica suelen ser más sen (1995), algunas de estas nuevas reglas pueden
complejos que las variables que habitualmente se restringir el uso de la TRI en la medición con
miden con tests de rendimiento máximo. Como tests de ejecución típica. Desde la perspectiva
aseguraron Fraley, Waller y Brennan (2000) re- clásica, este tipo de tests suele utilizar una gran
firiéndose a la medición de la personalidad, los cantidad de reactivos que, en general, son poco
esfuerzos actuales se orientan a la evaluación de consistentes. Esto se deriva de que para la TCT
dimensiones aisladas aunque muchas de estas los tests más largos son más fiables que los tests
variables son inherentemente multidimensiona- cortos. Por el contrario, la TRI resulta especial-
les. No es posible emplear un modelo explicativo mente adecuada para mediciones con un con-
unidimensional para aplicarlo a un constructo de junto reducido de ítems altamente consistentes.
naturaleza multidimensional sin que se produz- A diferencia de la TCT, que requiere una
ca una representación inaceptable tanto de las mayor cantidad de ítems que discriminen en los
propiedades de los ítems como de las personas valores medios del rasgo, la TRI necesita que los
evaluadas. Como intento de solución para este reactivos elaborados cubran todo el espectro del
problema se utilizan técnicas de agrupamiento, constructo. Esto significa que se deben redactar
como el análisis factorial, para analizar los datos ítems con contenidos que discriminen en todos
de los tests y aislar distintos subgrupos de ítems los niveles del rasgo incluidos los extremos. En la
que presentan un comportamiento similar. Cada medición de una habilidad puede resultar relati-
uno de estos subgrupos es tratado por un sub- vamente más fácil predecir el nivel de dificultad
test distinto que representa a cada una de las que tendrá un ítem y así anticipar su capacidad
dimensiones del constructo medido, lo que lle- para discriminar en un nivel particular del rasgo
va a perder la información interrelacional entre latente. Sin embargo, la experiencia de Reise y
los subtests (Hambleton, 1997). En definitiva, el sus colegas en la construcción de ítems para in-
requerimiento de unidimensionalidad de la TRI ventarios de personalidad mostró que esta tarea
obliga al investigador a realizar una definición se torna compleja (Flannery, Reise & Widaman,
conceptual de la variable que recorta las interrela- 1995; Reise & Waller, 1990).
ciones existentes en el marco de una teoría. Reise Si bien la TCT consiente la construcción de
(1999) reconoció que esta es una de las desventa- ítems redundantes para aumentar la consistencia
jas más importantes que tiene la TRI al ser aplica- interna de la escala, desde la perspectiva de la TRI
da en tests de ejecución típica. se encuentra un límite con el supuesto de inde-
La complejidad teórica de los constructos pendencia local. Este requisito de los modelos de
medidos con tests de ejecución típica también se la TRI exige que, para cada nivel del rasgo medi-
traduce en dificultades para su operacionaliza- do, las respuestas a distintos ítems deben ser esta-
ción. Aiken (1999) destacó que el mayor grado de dísticamente independientes. Como aseguraron
Steinberg y Thissen (1995, 1996), la violación de típica son distintos a los que pueden afectar a los
este supuesto puede aparecer en tests de ejecu- ítems de habilidades. Variables tales como la de-
ción típica si se utilizan ítems con enunciados seabilidad social, la ambigüedad-vaguedad de un
similares o exactamente opuestos (utilizados en enunciado o la complejidad sintáctica de un ítem
ocasiones desde TCT también para examinar si el adquieren mayor relevancia en la determinación
evaluado responde de forma consistente). de la calidad de un ítem de ejecución típica (Zic-
Los intentos por sortear estos problemas kar & Ury, 2002).
llegaron cuando algunos autores decidieron El paulatino crecimiento de las aplicaciones
adoptar una postura pragmática (Ferrando, de los modelos de la TRI a datos obtenidos con
1994; Ferrando & Chico, 2000; Reise & Waller, tests de ejecución típica mostró la necesidad de
1990). El objetivo común de estos estudios estudios minuciosos de las características del
consistió en considerar como exploratorios los ítem y de la forma en que este es respondido (Fe-
intentos de aplicación. De esta manera, la pre- rrando & Demestre, 2008). Las investigaciones
tensión fue evaluar hasta qué punto algunos actuales están enfocadas a encontrar interpreta-
modelos, los cuales habían sido diseñados para ciones psicológicas específicas para los paráme-
la medición de rendimiento máximo, podían ser tros de los modelos de la TRI, especialmente en
adecuados en tests de ejecución típica. la medición de la personalidad (Zickar & Ury,
Como se ha podido observar, las limita- 2002). Por esta razón, la postura pragmática fue
ciones para aplicar la TRI a datos obtenidos con perdiendo poco a poco su vigencia a medida que
tests de ejecución típica surgen de contraponer avanzaron los desarrollos en el área.
las particularidades de los constructos medidos Un importante factor que afecta actualmen-
por estos con las que caracterizan a las variables te la expansión y puesta en práctica de la TRI en
medidas con tests de rendimiento máximo. Esto el contexto de los tests de ejecución típica es de
también confirma el peso preponderante que tie- orden operativo. Los procedimientos de estima-
ne el factor histórico. La comparación entre estos ción de los parámetros de los modelos requieren
tipos de constructos es útil dado que los modelos tamaños muestrales elevados para garantizar un
de la TRI se basan en una descripción racional de bajo nivel de error en las estimaciones. Si bien los
la forma en que un individuo contesta al ítem a modelos más sencillos de la TRI pueden alcanzar
partir de la cual se presupone una curva de proba- estimaciones estables con 200 a 500 individuos, a
bilidad de respuesta. Los ítems de ejecución típica medida que se incorporan más parámetros para
son muy diferentes a los de rendimiento máximo, describir el modelo, aumentan significativamen-
así como también es diverso el proceso que lleva te los requerimientos en cuanto a tamaño mues-
a un individuo a optar por alguna de las opcio- tral. Diversas investigaciones han mostrado que
nes del ítem. Mientras que en uno debe indicar para un óptimo funcionamiento de los procedi-
qué hace usualmente (conducta típica), en el otro mientos de estimación con ítems dicotómicos se
debe mostrar cuánto puede hacer (rendimiento requiere de al menos 500 aplicaciones. (Muñiz,
máximo). Aunque a priori no existen razones 1997; Tsutakawa & John son, 1990). Para los mo-
para dejar de lado los modelos surgidos en el con- delos politómicos (más frecuentes en los tests
texto de la medición educativa, también es facti- de ejecución típica), este aspecto puede resultar
ble suponer que adoptarlos de manera pragmática más difícil, dado que se necesitará más cantidad
puede tener alguna consecuencia negativa aún de parámetros para describirlo (la cantidad de
desconocida (Chernyshenko, Stark, Drasgow & parámetros usados para describir los modelos
Roberts, 2007). Los factores que intervienen en la de la TRI dependen de la cantidad de opciones
respuesta de un individuo a un ítem de ejecución de respuesta que tiene el ítem). En consecuencia,
los modelos para datos politómicos necesitarán de mayor rigurosidad y objetividad a la medi-
tamaños muestrales considerablemente más ción de constructos psicológicos imposible de
grandes para alcanzar un criterio de convergen- alcanzar desde la perspectiva clásica.
cia aceptable en la estimación de los parámetros. Pero los desarrollos de la TRI han teni-
Mediante un estudio de simulación, Reise y Yu do un crecimiento disparejo en función de los
(1990) encontraron que un tamaño de muestra constructos evaluados. Mientras que la TRI ha
mínimo de 500 puede ser aceptable para estimar conseguido cierto predominio en el análisis de
los parámetros de ítems con cinco opciones de pruebas de rendimiento, habilidades y aptitudes,
respuesta graduadas. Los estudios de simulación los tests que indagan sobre actitudes, intereses
permiten establecer la potencia de los procedi- o atributos de la personalidad continúan siendo
mientos estadísticos en determinadas condi- explicados desde modelos como la TCT.
ciones, que pueden no ser iguales a las que se Es esencialmente el factor histórico el que
presentan en los estudios empíricos. Cuando se determinó la marcada desproporción en las
realizan investigaciones con datos reales pueden aplicaciones de la TRI en función del tipo de
incidir otras variables ocultas que pueden obligar constructo. Su surgimiento y desarrollo en el
a trabajar con un tamaño muestral más elevado contexto educativo obstaculizó su difusión como
del que indica la simulación. teoría psicométrica. La progresiva superación de
Reise (1999) resaltó como punto importan- estos factores implicó la difusión de la existencia
te la poca accesibilidad a grandes muestras que de los modelos politómicos y de los beneficios
se tiene en la investigación con tests de ejecu- que brinda la aplicación de la TRI al análisis de
ción típica. Este aspecto se agudiza si se preten- ítems de ejecución típica. Aunque queda un lar-
de abordar el campo de la psicología clínica. En go camino por recorrer, se ha avanzado bastante
contraposición, las muestras numerosas son más al respecto. En la actualidad, diversos libros so-
fácilmente asequibles y en un menor tiempo en bre evaluación psicológica dedican uno o varios
contextos educativos, lo que garantiza una pro- capítulos a las aplicaciones de los modelos de la
lífica aplicación de los modelos de la TRI a tests TRI a variables de personalidad (Embretson &
de rendimiento máximo. Es conveniente señalar Hershberger, 1999; Embretson & Reise, 2000)
que Reise (1999) basa su justificación en la difi- y actitudes (Bond & Fox, 2001). Asimismo, los
cultad para conseguir muestras numerosas, pero textos abocados a la medición de la personali-
no se refiere a la inversión económica que esto dad han comenzado a dedicar un capítulo para
conlleva. Los investigadores de países menos de- comentar los avances producidos por la aplica-
sarrollados, como los de Latinoamérica, deben ción de la TRI (Morizot et al., 2007; Steinberg &
realizar un esfuerzo aún mayor por la falta de Thissen, 1995).
recursos financieros. A pesar de la preponderancia del factor
histórico, no es despreciable el impacto que ac-
Consideraciones finales tualmente ocasionan los factores asociados a la
La psicometría atraviesa un momento de aplicación, principalmente porque estos expli-
enorme expansión teórica y aplicada sustentado can por qué la disparidad persiste hasta la actua-
en gran medida por los aportes de la TRI. Esta lidad y es altamente probable que permanezca
teoría ha permitido garantizar que la medición también en las próximas décadas. El avance en
de rasgos psicológicos y las propiedades de los la difusión de la TRI ha permitido el surgimiento
ítems se mantengan constantes más allá de los de los primeros ensayos prácticos de los mode-
cambios en la composición del instrumento y los a los datos conseguidos con tests de ejecu-
del grupo normativo. Esto le confiere un estatus ción típica. Pero los intentos pragmáticos ya han
assessment: A demonstration using the MMPI-2 Hambleton, R. K. (1997). Perspectivas futuras y aplica-
Depression Scale. Assessment, 7, 37-54. ciones. En J. Muñiz (ed.), Introducción a la Teoría de
Cronbach, L. J. (1972). Fundamentos de la exploración Respuesta a los Ítems (pp. 203-213). Madrid: Pirámide.
psicológica. Madrid: Biblioteca nueva. Hambleton, R. K. & Swaminathan, H. (1985). Item re-
Damarin, F. (1970). A latent structure model for answe- sponse theory: Principles and applications. Boston:
ring personal questions. Psychological Bulletin, 73, Kluwer.
23-40. Hendryx, M. S., Haviland, M. G., Gibbons, R. D. &
Embretson, S. E. & Hershberger, S. L. (1999). The new Clark, D. C. (1992). An application of item response
rules of measurement. Mahwah, NJ: Erlbaum. theory to alexithymia assessment among abstinent
Embretson, S. E. & Reise, S. (2000). Item response alcoholics. Journal of Personality Assessment, 58,
theory for psychologists. Mahwah, NJ: Erlbaum. 506-515.
Escorial, S. & Navas, M. J. (2007). Analysis of the gender Hernández, A., Espejo, B. & González-Romá, V. (2006).
variable in the Eysenck personality questionnaire The functioning of central categories middle level
revised scales using differential item functioning and sometimes in graded response scales: Does the
techniques. Educational and Psychological Measu- label matter? Psicothema, 18, 300-306.
rement, 67, 990-1001. Jones, L. V. & Thissen, D. (2007). A history and over-
Ferrando, P. J. (1994). Fitting response models to the view of psychometrics. En C. R. Rao & S. Sinharay
EPI-A Impulsivity scale. Educational and Psycho- (eds.), Handbook of Statistics, 26: Psychometrics
logical Measurement, 54, 118-127. (pp. 1-27). Amsterdam: North Holland.
Ferrando, P. J. & Chico, E. (2000). Adaptación y análisis Kline, P. (1983). Personality: Measurement and theory.
psicométrico de la escala de deseabilidad social de London: Hutchinson.
Marlowe y Crowne. Psicothema, 12, 383-389. Kuncel, R. B. (1973). Response processes and relative
Ferrando, P. J. & Demestre, J. (2008). Características location of subject and item. Educational and
de forma y contenido que predicen la capacidad Psychological Research, 34, 545-563.
discriminativa en ítems de personalidad: un aná- Lange, R. & Houran, J. (1999). Scaling MacDonald’s
lisis basado en la Teoría de Respuesta a los Ítems. AT-20 using item-response theory. Personality and
Psicothema, 20, 851-856. Individual Differences, 26, 467-475.
Flannery, W. P., Reise, S. P. & Widaman, K. F. (1995). An López-Pina, J. A. (2005). Ítems politómicos vs. di-
item response theory of the general and academic cotómicos: Un estudio metodológico. Anales de
scales of the Self-Description Questionnaire II. Psicología, 21, 339-344.
Journal of Research in Personality, 29, 168-188. Lord, F. M. (1952) A theory of test scores. (Psychometric
Fraley, R. C., Waller, N. G. & Brennan, K. A. (2000). An Monograph, 7). Iowa City, IA: Psychometric Society.
item response theory analysis of self-report measu- Lord, F. M. (1980). Applications of item response theory
res of adult attachment. Journal of Personality and to practical testing problems. Hillsdale, NJ: Erlbaum.
Social Psychology, 78, 350-365. Martínez-Arias, M. R. (1995). Psicometría: Teoría de los
Gomez, R. & Fisher, J. W. (2005). Item response theory tests psicológicos y educativos. Madrid: Síntesis.
analysis of the spiritual well-being questionnaire. Martínez-Arias, M. R. (1999). Los avances de la
Personality and Individual Differences, 38, 1107-1121. psicometría y la construcción de test. En F. Silva
Gray-Little, B., Williams, V. S. L. & Hancock, T. D. (ed.), Avances en evaluación psicológica (pp. 9-73).
(1997). An item response theory analysis of the Valencia: Promolibro.
Rosenberg self-esteem scale. Personality and Social Morizot, J., Ainsworth, A. T. & Reise, S. P. (2007). To-
Psychology Bulletin, 23, 443-451. ward modern psychometrics. application of item
response theory models in personality research. En (ed.), Sociological methodology (pp. 271-307). Was-
R. W. Robins, R. C. Fraley & R. F. Krueger (eds.), hington: American Sociological Association.
Handbook of Research Methods in Personality Psy- Rojas, A. J. & Pérez, C. (2001). Nuevos modelos para la
chology (pp. 407-423). New York: Guilford Press. medición de actitudes. Valencia: Promolibro.
Muñiz, J. (1997). Introducción a la teoría de respuesta a Roskam, E. E. (1985). Measurement and personality
los ítems. Madrid: Pirámide. assessment. Amsterdam: North Holland.
Nunnally, J. C. & Bernstein, I. J. (1995). Teoría psicomé- Samejima, F. (1969). Estimation of latent ability using
trica (3.ª ed.). México: McGraw-Hill. a response pattern of graded scores (Psychometric
Ostini, R. & Nering, M. L. (2005). Polytomous item Monograph No. 17). Richmond, VA: Psychometric
response theory models. Newbury Park, CA: Sage. Society. Recuperado el 4 de mayo del 2009, de
Ozer, D. J. & Reise, S. P. (1994). Personality assessment. http://www.psychometrika.org/journal/online/
Annual Review of Psychology, 45, 357-388. MN17.pdf
Prieto, G. & Delgado, A. R. (1999). Medición cognitiva Schaeffer, N. C. (1988). An application of the item
de las aptitudes. En J. Olea, V. Ponsoda & G. Prieto response theory to measurement of depression.
(eds.), Tests informatizados. Fundamentos y aplica- En C. C. Clogg (ed.), Sociological methodology
ciones (pp. 207-226). Madrid: Pirámide. (pp. 271-307). Washington: American Sociological
Rasch, G. (1960). Probabilistic models for some inte- Association.
lligence and attainment tests. Copenhague: The Singh, J., Howell, R. D. & Rhoads, G. K. (1990). Adap-
Danish Institute for Educational Research. tive designs for Likert-Type data: An approach
Reise, S. P. (1999). Personality measurement: issues for implementing marketing surveys. Journal of
viewed trough the eyes of IRT. En S. E. Embret- Marketing Research, 27, 304-321.
son & S. L. Herschberger (eds.), The new rules of Smith, L. L. (2002). On the usefulness of item bias
measurement: What every psychology and educator analysis to personality psychology. Personality and
should know (pp. 219-241). Mahwah, NJ: Erlbaum. Social Psychology Bulletin, 28, 754-763.
Reise, S. P. & Henson, J. M. (2000). Computarizacion Steinberg, L. & Thissen, D. (1995). Item response theory
and adaptative administration of the NEO PI-R. in personality research. En P. E. Shrout & S. T. Fiske
Assessment, 7 (4), 347-364. (eds.), Personality research methods, and theory
Reise, S. P. & Henson, J. M. (2003). A discussion (pp. 161-181). Hillsdale, NJ: Erlbaum.
of modern versus traditional psychometrics as Steinberg, L. & Thissen, D. (1996). Uses of item re-
applied to personality assessment scales. Journal of sponse theory and testlet concept in measurement
Personality Assessment, 81, 93-103. of psychopatology. Psychological Methods, 1, 81-97.
Reise, S. P. & Waller, N. G. (1990). Fitting the two- Thissen, D., Steinberg, L., Pyszczynski, T. & Greenberg,
parameter model to personality data. Applied J. (1983). An item response theory for personality
Psychological Measurement, 14, 45-58. and attitude scales: Item analysis using restricted
Reise, S. P. & Waller, N. G. (1993). Traitedness and the factor analysis. Applied Psychological Measurement,
assessment of response pattern scalability. Journal 7, 211-226.
of Personality and Social Psychology, 65, 143-151. Tsutakawa, R. K., & Johnson, J. (1990). The effect of
Reise, S. P. & Yu, J. (1990). Parameter recovery in the uncertainty of item parameter estimation on ability
graded response model using MULTILOG. Journal estimates. Psychometrika, 55, 371-390.
of Educational Measurement, 27, 133-144. Waller, N. G., Tellegen, A., McDonald, R. P. & Lykken,
Reiser, M. (1989). An application of the item response D. T. (1996). Exploring nonlinear models in perso-
model to psychiatric epidemiology. En C. C. Clogg nality assessment: Development and preliminary