29432672-T2 - TCT - Tri

CARACTERÍSTICAS DE LOS INSTRUMENTOS DE MEDIDA:
TEORÍA CLÁSICA DE LOS TEST (TCT) Y

TEORÍA DE RESPUESTA AL ÍTEM (TRI)
JOSÉ LUIS DIEGO MARTÍN.-

ÍNDICE
Características técnicas de los instrumentos de medida

1
2 Teoría clásica de los test (TCT)
Teoría de respuesta al ítem (TRI)

3
4 Aplicaciones de la TRI
Diferencias entre la TCT y la TRI

5
1. CARACTERÍSTICAS TÉCNICAS DE LOS INSTUMENTOS DE MEDIDA:
Reglas
MEDICIÓN
Unidad de Medida
INSTRUMENTOS DATOS Tratamiento (estadístico)
Reunir unos requisitos técnicos

(tanto el instrumento en su conjunto Necesidad de medir con precisión,
como los items que lo integran) con rigor técnico
 El resultado depende de la muestra elegida (sobre

Se pueden analizar: todo de su variabilidad)
desde un planteamiento clásico (TCT)

 Se expresa en relación al “grupo normativo” (sólo
en algún caso, como el coeficiente de Kappa, se hará
mención al test de referencia criterial)
desde la Teoría de Respuesta al Ítem (TRI)
 No depende de la muestra elegida (aunque exige
o modelo de rasgo latente
un tamaño importante de la misma)
2. LA TEORÍA CLÁSICA DE LOS TEST (TCT):
El modelo parte de la idea de Spearman de que la puntuación de una persona en

un test (puntuación empírica que podemos representar por X), está formada por
dos componentes:
 Una puntuación verdadera de esa persona en el test (V),
 Un error (e).
Por tanto: X =V + e
El error puede deberse a múltiples razones:
 La propia persona.
 El contexto.
 El test.
 Etc.
SUPUESTOS QUE PLANTEA SPEARMAN:
1. La puntuación verdadera de una persona en un test (V) se define

como la media que obtendría si se le pasase el test infinitas veces
(es un supuesto teórico, dado que es imposible pasar un test infinitas
veces).
2. No hay relación entre las puntuaciones verdaderas y el tamaño de los

errores (puede haber puntuaciones verdaderas altas con errores
altos, medios o bajos, y lo mismo ocurre con puntuaciones
verdaderas bajas). Por tanto, el valor de la puntuación verdadera
es independiente de los errores.
3. Los errores de medida de las puntuaciones en un test no están

relacionados con los errores de medida en otro test distinto.
OTROS CONCEPTOS DE INTERÉS:
Tests paralelos: aquellos que miden exactamente lo mismo,

pero con distintos ítems. Por tanto, las puntuaciones
verdaderas de un sujeto serían las mismas, y también las
varianzas de los errores de medida.
Los errores que contienen las puntuaciones de los test se

pueden estimar, lo que estaría en relación con el concepto de
la fiabilidad de los tests.
Es posible estimar la fiabilidad de un test cuando se aumenta

o disminuye su longitud.
Otro concepto relacionado es el de validez, que también está

en relación con la longitud de la prueba y con la propia
fiabilidad (existen fórmulas que relacionan estos aspectos).
CRÍTICAS A LA TCT:
1) Los supuestos de los que parte no son comprobables

empíricamente (tienen un carácter claramente tautológico o
verdadero).
2) Relaciona con el supuesto de independencia de las puntuaciones y

del error, cuestionando que la precisión de la medida sea
independiente de la habilidad del sujeto o del nivel que éste
muestre en el rasgo o característica evaluado.
3) Problemas relacionados con el cálculo del error típico:
a) Se define para el test globalmente, no para cada ítem.
b) Se supone que es el mismo para todos los niveles del rasgo

latente evaluado.
4) La fiabilidad es función del conjunto particular de items y de la

muestra de sujetos en la que han sido recogidos los datos, por lo que
su generalidad resulta bastante limitada.
5) La fiabilidad generalmente se basa en la disponibilidad de medidas

paralelas, que son difíciles de obtener en la práctica.
INDICADORES MÁS UTILIZADOS PARA EVALUAR LA CALIDAD DE LOS ÍTEMS:
Dificultad.
Discriminación.
Análisis de distractores.
Fiabilidad.
Validez.
Dimensionalidad.
DIFICULTAD
Está en función del número de personas que contestan de forma correcta al

ítem, siendo su fórmula de cálculo:
Su valor depende de la muestra de sujetos a la que se aplique.
Tiene sentido en test o pruebas objetivas.
Se aconseja que la mayor parte de los ítems tengan una dificultad media, unos
pocos tengan dificultad alta y otros pocos dificultad baja.
En realidad debería llamarse índice de facilidad, dado que a mayor valor el

índice es más fácil.
Para su interpretación podemos tener en cuenta la siguiente tabla:

EJERCICIO 1:
En un ítem de una prueba de dos alternativas en sus respuestas

(verdadero / falso) contestan acertadamente 25 alumnos de una clase de
40 y en otro sólo aciertan 15. Calcular e interpretar el índice de dificultad
de ambos ítems.
EJERCICIO 2:
En un ítem de una prueba de tres alternativas en sus respuestas aciertan

25 alumnos de una clase de 40 y en otro sólo aciertan 15. Calcular e
interpretar el índice de dificultad de ambos ítems.
DISCRIMINACIÓN
Determina la capacidad de una pregunta para diferenciar el grupo que tiene

mayor cantidad de aciertos en la misma frente al que tiene menos.
Un ítem discrimina cuando tiene correlación positiva ítem – test.
Da una idea de la homogeneidad del ítem en relación al test.
Oscila entre -1 y +1.
Se considera un buen índice de discriminación el comprendido entre 0,25 y

0,35 o mayor.
Su fórmula de cálculo es la siguiente:
siendo los extremos superior e inferior el 27% de personas con mayor y menor
puntuación, respectivamente.
También puede calcularse mediante la correlación obtenida entre las
puntuaciones del grupo en el ítem y en el test, cuando el ítem no es valorado,
denominándose dicha correlación índice de discriminación o de homogeneidad.
Si no se quita el ítem, la fórmula de cálculo es la siguiente:
La correlación ítem – test será diferente en función de las variables:

a) Si son dicotómicas: coeficiente ɸ (correlación de Pearson de 2 var. Dicotómicas)
b) Si están dicotomizadas y provienen de distribuciones normales: correlación tetracórica
c) una dicotómica y otra dicotomizada: correlación biserial
d) una continua y otra dicótómica: correlación biserial puntual
e) dos variables continuas: correlación de Pearson
La interpretación del grado de homogeneidad podemos realizarla teniendo en
cuenta la tabla siguiente:
Relación entre variabilidad y discriminación:
La variabilidad en el test está relacionada con el índice de discriminación.
Si la variabilidad es cero no habría discriminación ninguna, dado que todos los

individuos tendrían la misma puntuación y no sería posible distinguir entre ellos.
EJERCICIO 3:
Pasamos un ítems de un test a 300 estudiantes. De los 81 (27 de 300) que

obtienen mejores puntuaciones en el test 40 aciertan el ítem y de los 81
que obtienen peores puntuaciones sólo 12 lo aciertan. Indicar si el ítem
discrimina o no bien.
EJERCICIO 4:
El estudio de items de una prueba de 15 ítems, medidos en una escala

continua, es el que se presenta en la tabla siguiente. Determinar si
convendría eliminar algún ítem por su baja discriminación.
Este ítem se debe eliminar, de acuerdo

con lo expresado en la tabla anterior
EJERCICIO 5 (examen septiembre 2012/2013 – septiembre reserva):
EJERCICIO 6 (examen septiembre 2013/2014 – septiembre reserva):
EJERCICIO 7 (examen septiembre 2014/2015 – original):
Observaciones:
Para calcular el índice de discriminación del ítem
4 calculamos la correlación del ítem 4 con el test
(quitando el ítem 4, es decir, la suma de los otros
tres), que es lo que se expresa en la solución,
teniendo en cuenta que los valores 1, 3, 1, 1, 0,
son la suma de los tres primeros ítems (en el
primer término de la correlación, que
corresponde al ítem 4, sobra un cero).
ANÁLISIS DE DISTRACTORES
Distractores son las diferentes alternativas falsas o respuestas incorrectas de

un ítem.
Todas las alternativas de un ítem deberían tener la misma probabilidad de ser

elegidas. Para comprobar si esto es así se ultiza la prueba de ji-cuadrado.
EJERCICIO 8:
300 estudiantes contestan un ítem de cuatro alternativas en el que la

última de ellas (“d”) es la correcta. Los valores obtenidos por los 198 que
fallaron son los que se presentan en la tabla siguiente:
A B C TOTAL
85 40 73 198
la frecuencia esperada, en cada caso, sería 198 / 3 = 66,
por lo que tendríamos:
para k – 1 grados de libertad (3 – 1 = 2), a un nivel de confianza del 95%,

el valor de ji-cuadrado teórico es de 5,991 .
Por tanto: 16,45 > 5,991, con lo que se rechaza la hipótesis de

independencia, lo que implica que las respuestas son distintas en
función de la alternativa.
FIABILIDAD
Un instrumento es fiable si está libre de error de medida, lo que es una condición

necesaria pero no suficiente (no por ser fiable es necesariamente buen instrumento, dado
que debe reunir otras características).
Se cuantifica mediante el coeficiente de fiabilidad (fiabilidad relativa) y con el error

típico de medida (fiabilidad absoluta).
El coeficiente de fiabilidad se define como la correlación entre las puntuaciones

obtenidas por los sujetos en dos formas paralelas de un test.
Es un indicador de la probabilidad de fallo de nuestro instrumento en la reproducción de la

medida o en la utilización de un instrumento paralelo.
Al repetir el proceso de medición, la variabilidad de las puntuaciones no sólo se debe

al instrumento, sino también a otros aspectos como la madurez de los individuos, los
cambios ambientales, etc. Esta variabilidad es diferente a la producida por errores del
instrumento (que podríamos comparar con la precisión de una balanza si repetimos el
proceso de medición varias veces).
El coeficiente de fiabilidad de un test X, con una forma paralela X’, se puede expresar
como:
ERROR TÍPICO DE MEDIDA:
Si repetimos infinitas veces un test a un individuo, la media de las puntuaciones

obtenida nos daría la puntuación verdadera y la desviación típica de las puntuaciones
respecto a la media sería el error típico.
Dado que no podemos repetir el test a una persona infinitas veces, tendremos que
encontrar una estimación. De acuerdo con la fórmula (2) anterior tendríamos la expresión
del error típico de medida:
Las aplicaciones del error típico de medida son:
 Estimación de los límites entre los que se encuentra la verdadera puntuación.
 Comparar las puntuaciones de varios sujetos en el mismo intrumento.
 Comparar las puntuaciones del mismo sujeto en diferentes instrumentos.
Como los valores de la varianza de error y la varianza de la puntuación verdadera son

desconocidos, será necesario realizar estimaciones, lo que podemos hacer con las
fórmulas que se presentan a continuación.
FIABILIDAD COMO EQUIVALENCIA (FORMAS PARALELAS): COEFICIENTE DE EQUIVALENCIA
Para que dos pruebas puedan considerarse “formas paralelas” deben reunir los siguientes
requisitos:
a) Tener el mismo número de elementos.
b) La misma estructura y redacción en cada elemento.
c) El mismo contenido y objetivo.
d) Iguales índices de dificutad.
e) Que no exista diferencia significativa entre medias, varianzas y covarianzas.
f) Las mismas consignas en ambos casos, para que ninguna sea más atrayente.
g) Idéntica presentación.
Uno de los coeficientes más utilizados para el cálculo de la fiabilidad por este
procedimiento es el coeficiente K de Kappa, cuyos valores oscilan entre 0 y 1, siendo su
fórmula de cálculo la siguiente:
FIABILIDAD COMO ESTABILIDAD: COEFICIENTE DE ESTABILIDAD
Hace referencia a la concordancia de puntuaciones en el tiempo (dos

aplicaciones del mismo instrumento separadas por un tiempo variable).
Influenciada por las condiciones cambiantes de los individuos.
Se calcula como la correlación entre las puntuaciones obtenidas en las dos

aplicaciones de la prueba.
El tiempo que se considera aconsejable entre una y otra aplicación de la

prueba, por diferentes autores, está entre los 20 y 25 días.
Existen dos problemas que pueden influir claramente en los resultados:
a) La memoria de los individuos ante la repetición de la prueba.
b) La motivación de los sujetos (desagrado o desinterés al repetirse la acción).
Cálculo: correlación entre las puntuaciones test – retest.

FIABILIDAD COMO CONSISTENCIA INTERNA: COEFICIENTE DE CONSISTENCIA INTERNA
El índice de fiabilidad (IF) es función del índice de discriminación y de la desviación típica

del ítem:
Se basa en el supuesto de que si la prueba mide una característica o rasgo, dos partes
de la misma (subconjunto de ítems) deben medir lo mismo y representar ambas lo que
mide el instrumento en su totalidad. La correlación entre ambas submuestras nos daría el
índice de consistencia interna de la prueba.
Las submuestras pueden ser pares – impares o primera y segunda mitad (con el
inconveniente, en este segundo caso, de la distribución uniforme de la dificultad del test).
Tiene la ventaja de que sólo necesita una aplicación del test.
Al utilizar submuestras será necesario corregir el coeficiente para obtener la fiabilidad del
test.
Para calcular la fiabilidad del test completo se utiliza la alfa de Cronbach, estimador del
coeficiente de fiabilidad, de manera que:
Como puede observarse, la fiabilidad de un test está

relacionada directamente con el número de items del
mismo (a mayor número de items, mayor fiabilidad). Por
tanto, los factores que afectan a la fiabilidad son:
a) Longitud de la prueba.
b) Variabilidad.
EJERCICIO 9 (examen 2014/2015 – 1ª semana):
FIABILIDAD Y LONGITUD:
A mayor longitud de la prueba mayor fiabilidad (cuantos más ítems mejor

podemos valorar un determinado aspecto) y, por tanto, menor error de medida.
La fórmula para valorar la relación entre fiabilidad y longitud de la prueba es

la siguiente (fórmula de Spearman-Brown):
Para el caso de dos mitades (n = 2) la fórmula se reduce a la siguiente:
Por ejemplo, si tendríamos:

FIABILIDAD Y VARIABILIDAD:
Al aumentar la variabilidad de una muestra aumenta la fiabilidad, como

puede observarse en la propia definición del coeficiente de fiabilidad, entendido
como correlación entre formas paralelas de ítems de una prueba.
Si tenemos la fiabilidad de una población podemos calcular la fiabilidad de otra

población basándonos en las varianza de ambas, con la fórmula siguiente:
EJERCICIO 11:
Realizado el estudio de una prueba de 15 ítems medidos en una escala

continua se obtienen los resultados de la tablas siguientes. Calcular el
índice de fiabilidad del ítem 7.
VALIDEZ
Un instrumento es válido si mide lo que dice medir.
Se puede exigir validez respecto a (Félix Calvo, 1990):
a) La construcción del test, estudiando si las cualidades o factores que queremos medir
están valorados en ese test.
b) El contenido, de manera que las cuestiones abarquen el contenido de lo que se

quiere medir.
c) El criterio, que se logra con otras puntuaciones externas al test.
La APA (American Psychological Association) plantea que hay cuatro metas de los
instrumentos de medición, que representan cuatro tipos de validez:
 De contenido.
 Predictiva.
 Concurrente.
 De elaboración o constructo.
VALIDEZ DE CONTENIDO:
Imprescindible, sobre todo en pruebas de rendimiento.
Para Pérez Juste (1986) su esencia está en relación con la suficiencia y la

representatividad de la muestra.
La representatividad de la muestra es una condición imprescindible y la suficiencia

hace referencia a la longitud adecuada del instrumento para que incorpore todas las
facetas que queremos medir, sin llegar a hacerse aburrido.
VALIDEZ PREDICTIVA:
Para poder hacer predicciones, que son uno de los objetivos básicos de los trabajos
científicos, necesitamos determinar la correlación entre las puntuaciones en la prueba
con alguna otra medida, para lo cual:
 Debe mediar algún tiempo entre las aplicaciones de ambas medidas.
 Debe existir independencia entre los instrumentos (no deben estar relacionados).
 Son necesarios criterios intermedios, relativos, para hacer las predicciones.
Para realizar pronósticos sobre una variable externa (criterio) con el instrumento de
medida construido, necesitamos valorar la relación de cada ítem con dicho criterio, lo que
se realiza con el índice de validez (correlación entre el ítem y el criterio):
La validez predictiva no implica validez de contenido (por ejemplo, un test puede predecir
el éxito de una profesión sin tener contenidos apropiados).
VALIDEZ CONCURRENTE:
Es una variante de la validez predictiva, diferenciándose de ella en que en

este caso las medidas se hacen simultáneamente, para tomar decisiones
en un plazo breve.
Al igual que ocurre con la validez predictiva, la validez concurrente no implica

validez de contenido, aunque es conveniente que se den las dos.
VALIDEZ DE ELABORACIÓN O DE CONSTRUCTO:
Algunos autores la denominan “de hipótesis de trabajo”.
Va a la raíz del prolema: “eso que medimos, ¿qué es?”.
Para cuantificarla es necesario ir acumulando progresivamente

información que vaya proporcionando consistencia a la construcción inicial. El
método utilizado para conseguir estos fines es el análisis factorial de las
tareas incluidas en la prueba.
VALIDEZ Y LONGITUD DE LA PRUEBA:
Existe una relación directa entre validez y número de ítems de la prueba.
Además de con la longitud, la validez se relaciona con la fiabilidad de la prueba.

EJERCICIO 12 (examen septiembre 2014/2015 – reserva):
Para calcular el índice de validez calculamos la correlación del total del test
(suma de los 4 ítems) con el criterio. Tendríamos (2,3,1,1,) (4,2,4,1).
Para calcular el índice de discriminación del ítem 2 calcularíamos la
correlación del ítem 2 (0,1,0,0) con el total de los tres restantes (2,2,1,1)
DIMENSIONALIDAD
El objetivo de los test es medir una variable de interés, que se puede concretar en una
o más dimensiones, por lo que uno de los aspectos más importantes del test será la
dimensionalidad de la prueba.
El estudio de la dimensionalidad se puede realizar utilizando el análisis factorial,

observando la agrupación de los items en uno o más factores.
El análisis factorial trabaja con la matriz de correlaciones o covarianzas entre los ítems. Si
estos son dicotómicos se aplica la correlación tetracórica y si son categóricos (por
ejemplo, una escala de Likert de 1 a 5 categorías) la correlación policórica.
Existen distintas técnicas de factorización para el agrupamiento de ítems, siendo las

más utilizadas las siguientes:
 Método de componentes principales.
 Método de ejes factoriales (utilizado para maximizar la información de cada factor).
Aunque no es nuestro objetivo calcular la dimensionalidad de una prueba, conviene tener

en cuenta que existen diferentes criterios para considerar la unidimensionalidad de la
misma, siendo algunos de los más conocidos los siguientes:
 Criterio de Carmines y Zeller (1979): consideran unidimiensionalidad cuando el primer

factor explica más del 40% de la varianza común.
 Criterio de Lord (1980): el primer factor es como mínimo cinco veces mayor que el 2º.
EJERCICIO 13 (examen septiembre original 2011/2012):
3. TEORÍA DE RESPUESTA AL ÍTEM (TRI):
Asume la existencia de una variable no observada, latente, que explicaría las

respuestas de las personas a una prueba o ítem, considerando que entre la
respuesta que la persona ofrece a una pregunta o prueba y el rasgo o
habilidad (aptitud, competencias, etc.) de la persona, existe una relación no
lineal, que puede expresarse en términos probabilísticos.
No invalida el enfoque clásico, sino que es un complemento del mismo, dando

respuesta a problemas mal resueltos en aquel (ambas tecnologías conviven
como lo hacen coches y aviones, utilizando el más procedente en función de la
situación).
Plantea supuestos más fuertes que la TCT y, por tanto, obtiene resultados más
potentes a costa de incrementar el tamaño de la muestra y la complejidad
matemática de las técnicas usadas.
SUPUESTOS:
1) Unidimensionalidad: exige que la respuesta al ítem esté determinada
exclusivamente por una variable, denominada rasgo latente.
2) Independencia local: exige que la probabilidad de responder correctamente
a un ítem sea independiente de la de responder a otro cualquiera.
Sólo se comprueba el 1º (independencia) dado que su cumplimiento implica el 2º.

POSTULADOS BÁSICOS:
1) El resultado de un individuo en un ítem puede ser explicado por un
conjunto de factores llamados rasgos latentes o aptitudes, que se
simbolizan por la letra griega zeta: θ.
2) La relación entre la respuesta de un sujeto a un ítem y el rasgo

latente que subyace puede describirse como una función monótona
creciente, denominada función característica del ítem o curva
característica del ítem (CCI). A medida que aumenta la aptitud (θ)
también aumenta la probabilidad de respuesta correcta al ítem. La
forma concreta de la CCI viene determinada por el valor que tomen
tres parámetros, a, b y c, siendo a el índice de discriminación del
ítem, b la dificultad del ítem y c la probabilidad que hay de
acertar el ítem al azar.
3) Las estimaciones de la aptitud (θ) obtenidas con distintos ítems

serían iguales y las estimaciones de los parámetros de los ítems
obtenidos en distintas muestras de individuos serán iguales.
MODELOS:
Existen distintos modelos.
Los más utilizados son aquellos donde la CCI obedece a una función logística.
El más difundido es el modelo de RASCH o de un solo parámetro (b),

asociado a la dificultad del ítem (es el mejor para muestras pequeñas):
e = número de euler (≈ 2,71828182…)
Θ es el rasgo latente no observado, que iría desde - ∞ a + ∞,

aunque se considera estandarizado, con media 0 y desviación típica 1,
con un recorrido básicamente entre – 3 y + 3
Modelo de dos parámetros: (requiere muestras grandes (n > 300))
a es el índice de discriminación
Modelo de tres parámetros: (requiere muestras grandes (n > 300))
c es la probabilidad de acertar el ítem sin

conocimiento alguno del tema
EJERCICIO 17:
Supuesto un modelo TRI de Rasch, donde θ = 3, ¿cuál es la probabilidad

de que los estudiantes de un instituto acierten un ítem cuyo índice de
dificultad b = 2? (se supone D = 1).
EJERCICIO 18:
Supuesto un modelo TRI de tres parámetros, donde θ = 3, ¿cuál es la

probabilidad de acertar el ítem sabiendo que la probabilidad de acertarlo
por azar es 0,3, el índice de dificultad 0,6 y el índice de discriminación 1,3
(suponer D = 1).
Los datos que nos facilita el enunciado son (modelo de tres parámetros):
θ = 3; D = 1; a = 1,3; b = 0,6; c = 0,3,
ESTIMACIÓN DE LOS PARÁMETROS DE LOS MODELOS:
El proceso de estimación de los parámetros de los modelos se denomina

CALIBRACIÓN.
Es un proceso complejo, que requiere ayuda de programas informáticos (R tiene

comandos para hacerlo).
Para realizar la calibración:

1) Estimar los parámetros.
2) Valorar la precisión de las estimaciones mediante distintos procedimientos:
a) Correlación entre los valores simulados de los parámetros y los estimados.
b) Índice de ajuste.
c) Calcular la bondad del ajuste de las curvas características.
En el proceso de calibración se van calculando los distintos parámetros de los ítems

y las pruebas, eliminando aquellos que no reúnen unos requisitos mínimos. Los
valores ideales y los criterios definidos para admitir los ítems son:
PARÁMETRO Valor ideal Valor para aprobación

Correlación ítem - prueba Entre 0,1 y 0,60 Entre 0,1 y 0,60
Ajuste próximo y lejano 1 > 0,60 y < 1,40
Discriminación 1 > 0,20 y < 1,80
Error de la estimación Menor que 0,01 Menor que 0,1814
CÁLCULO DE LOS RESIDUOS ESTANDARIZADOS (RE):
En el último criterio señalado anteriormente (c), se pueden calcular los residuos

estandarizados (RE), que nos permiten valorar el grado de ajuste (normalmente se
fija un máximo R = 1,96, y se estudia el número de residuos que supera dicho
nivel).
PROCEDIMIENTO PARA EL ANÁLISIS DE UN TEST POR MEDIO DE LA TRI:
Los pasos a seguir para analizar las características de un test según la TRI, y
estimar los niveles de rasgo de las personas que contesten al test son los
siguientes:
a) Preparar los datos para su análisis.
b) Analizar si los datos cumplen los supuestos básicos de la TRI.
c) Estimar los parámetros del modelo elegido (uno, dos o tres parámetros).
Elaborar los resúmenes y gráficas correspondientes.
d) Analizar el ajuste del modelo a los datos. Si el ajuste no es adecuado

volver a la fase anterior recurriendo a otro modelo.
e) Estimar los niveles de habilidad de los participantes.
Los cálculos se pueden realizar con el programa R (existen librerías, como

“Itm”, que facilitan dichos cálculos).
RESULTADOS QUE GENERA LA TRI:
La TRI genera una serie de resultados de especial interés:
Parámetros. Tanto la dificultad, como la discriminación son dos elementos

esenciales en la valoración de un ítem. Lo mismo puede decirse sobre el
pseudoazar. Estos elementos tienen implicaciones directas en la construcción
de test y pruebas académicas.
Curva característica del ítem. Es un elemento fundamental en la TRI porque,

por un lado, ofrece una representación gráfica de las características del ítem, y
por otra parte muestra la relación entre el nivel de habilidad y la repuesta al
ítem, en términos probabilísticos.
Puntuación verdadera en el test. Se identifica con la suma de las

probabilidades estimadas con relación al nivel de habilidad, para el total de
ítems del test.
Curva características del test. Permite ver de manera gráfica, la relación

entre puntuación verdadera y habilidades. La Curva Característica del Test
(CCT) muestra la relación existente entre la puntuación total en un test (no
solamente en un ítem como sucede con la CCI) y el nivel de habilidad de una
persona.
Nivel de información. Es un indicador de la precisión de la estimación.

CURVA CARACTERÍSTICA DEL TEST:
Es la representación que muestra la relación entre la ejecución de

una persona en un test y su nivel de habilidad.
Permite transformar los valores θ en puntuaciones verdaderas:
Por tanto, si conocemos θ podemos calcular el valor de la puntuación

verdadera para ese nivel de aptitud.
FUNCIONES DE INFORMACIÓN:
La función de información es un indicador de la precisión de la estimación

de los parámetros. Para cada nivel de habilidad se le atribuye un valor de
error en la estimación.
Se puede calcular la función de información de un ítem y del test completo

(suma de las funciones de información de cada ítem).
Las fórmulas para su cálculo (ver formulario) varían según el modelo (de
uno, dos o tres parámetros).
La función de información de un test es invariante respecto al cambio de

escala de θ, lo que permite comparar dos test mediante la llamada eficacia
relativa (ER).
PONDERACIÓN ÓPTIMA DE LOS ÍTEMS:
Para maximizar la información que suministran los ítems es aconsejable su

ponderación, lo que podemos realizar para los diferentes modelos (ver
fórmulas en el formulario).
4. APLICACIONES DE LA TRI:
BANCO DE ÍTEMS. Construcción de conjuntos de ítems de propiedades métricas

conocidas. En la conformación del banco de ítems se debe controlar:
 Que se respete la unidimensionalidad de los items del banco.
 Elaboración de test con unas determinadas características.
EQUIPARACIÓN DE PUNTUACIONES. Nos permite establecer una

correspondencia entre las puntuaciones de los test que miden la misma variable y
con la misma fiabilidad.
FUNCIONAMIENTO DIFERENCIAL DE LOS ITEMS. Se estudia si existe distinto

comportamiento de los items en función de diferentes grupos.
TEST ADAPTATIVOS. Presentan a cada persona exclusivamente los items que

nos informan de su nivel de rasgo. Así, por ejemplo, a una persona con elevado
vocabulario en inglés no se le pide que traduzca “dog” (perro), ni a una persona
con bajo vocabulario que traduzca “sled” (trineo). Al administrar los ítems sólo
realmente útiles se consigue la misma precisión en la medida del rasgo con
muchos menos items.
5. DIFERENCIAS ENTRE LA TCT Y LA TRI:
CARACTERÍSTICAS TCT TRI
Lineal: X = V + e Exponencial (modelo de Poisson, ojiva

TIPO DE RELACIÓN
normal, error binomial, etc.)
Principios del siglo XX (trabajos de Aunque con antecedentes antes de la
Spearman) mitad del siglo XX, su desarrollo
ORIGEN
práctico es bastante más reciente (con
los programas informáticos)
No son susceptibles de Sí lo son
SUPUESTOS
comprobación empírica.
REFERENCIA Al “grupo normativo” A un criterio
Dependen de la muestra elegida No dependen de la muestra elegida

RESULTADOS
(sobre todo de su variabilidad)
MUESTRA No requiere un tamaño importante Requiere un tamaño importante
Considera varias dimensiones de un Asume que el test debe medir una sola
constructo dimensión (responder a una pregunta
DIMENSIONALIDAD
implica poner en juego múltiples
habilidades)
La respuesta a un ítem no tiene por La respuesta a un ítem está asociada a
qué estar relacionada con la las respuestas a los demás ítems
RESPUESTAS
respuesta a otros ítems de la
prueba
La varianza de los errores de Se mide la precisión en la estimación

ERROR DE MEDIDA medición es igual para todos los de cada sujeto
sujetos
Comparación de sujetos evaluados Se compara a los sujetos aunque hayan
EQUIVALENCIA DE
en distintos momentos, utilizando la abordado diferentes pruebas pero que
PRUEBAS
misma prueba y los mismos sujetos midan lo mismo
1) Invarianza de los parámetros 1) Permite comparar examinandos
respecto a la muestra, es decir, los aunque hayan realizado diferentes
parámetros del ítem no cambian pruebas que midan el mismo rasgo
aunque las personas que (los diferentes instrumentos utilizan
contestan sean distintas la misma escala, lo que permite que
las puntuaciones en distintos tests
2) Invarianza del parámetro del sean comparables)
rasgo del sujeto respecto al
instrumento utilizado para 2) Facilitan una medida de precisión en
calcularlo (es decir, el nivel de la estimación de la habilidad de cada
VENTAJAS habilidad de la persona no individuo
depende del test)
3) Proporciona un indicador de
precisión de las estimaciones para
niveles concretos
4) Permita hacer inferencias sobre el

nivel en que los sujetos poseen la
característica o rasgo
inobservable que mide el test
1) Las mediciones no resultan 1) La dificultad y discriminación de una

invariantes respecto al pregunta puede depender de la
instrumento utilizado, por lo que posición que ésta tiene en la prueba
no es posible establecer
equivalencias entre dos 2) Mayor dificultad de comprensión de
puntuaciones de dos test los resultados por parte del sujeto,
distintos (para poder comparar dado que puede ocurrir que con el
las puntuaciones es necesario mismo número de respuestas
transformarlas a una escala correctas, incorrectas y omitidas el
común, por ejemplo percentiles) resultado sea diferente
2) Propiedades importantes de los 3) Mayor dificultad en los cálculos
DESVENTAJAS test, como la dificultad de un item
o la fiabilidad del test, están en 4) Dificultad para crear pruebas de
función de la muestra utilizad ensayo (que exigirían tecnología que
no siempre está disponible)
3) Presupone que el test mide con
la misma fiabilidad a todas las
personas y esto no siempre es así,
dado que la precisión está en
relación con la persona (es decir,
asume que la fiabilidad se reparte
por igual a lo largo del test)
4) No permite analizar la
interacción entre sujetos e items
Cuando el objetivo de la Cuando no se cumple alguno de los
CUÁNDO investigación requiera una medición supuestos de la TCT, es decir, cuando:
UTILIZARLA independiente de la población o el  El constructo sea multidimensional
contexto  La muestra sea heterogénea
Fuente:
Muñiz, J. (1997):
Introducción a la teoría de
respuesta a los ítems.
Madrid: Pirámide.
AUTOEVALUACIÓN
1. Diferencia entre TCT y TRI (2011/2012 – 1).

Gracias por vuestra atención.
2. ¿Qué representa el índice de discriminación y sobre qué valores
oscila en los items con buena discriminación? (2011/2012 – 2).

3. ¿Qué indicadores son los más utilizados para valorar la calidad de los
ítems en los test? (2011/2012 – 2 y Sept.)

4. Teoría clásica de los test: indicadores utilizados (2012/2013 – 1).
5. Teoría clásica de los test: dificultad, discriminación y análisis de
distractores (2013/2014 – 1).
6. TRI: generalidades y modelos (2014/2015 – 1).

…hasta aquí hemos llegado…


29432672-T2 - TCT - Tri

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

29432672-T2 - TCT - Tri

Încărcat de

Drepturi de autor:

Formate disponibile

CARACTERÍSTICAS DE LOS INSTRUMENTOS DE MEDIDA:

TEORÍA CLÁSICA DE LOS TEST (TCT) Y

JOSÉ LUIS DIEGO MARTÍN.-

Características técnicas de los instrumentos de medida

2 Teoría clásica de los test (TCT)

Teoría de respuesta al ítem (TRI)

Diferencias entre la TCT y la TRI

INSTRUMENTOS DATOS Tratamiento (estadístico)

Reunir unos requisitos técnicos

 El resultado depende de la muestra elegida (sobre

desde un planteamiento clásico (TCT)

El modelo parte de la idea de Spearman de que la puntuación de una persona en

 Una puntuación verdadera de esa persona en el test (V),

El error puede deberse a múltiples razones:

1. La puntuación verdadera de una persona en un test (V) se define

2. No hay relación entre las puntuaciones verdaderas y el tamaño de los

3. Los errores de medida de las puntuaciones en un test no están

Tests paralelos: aquellos que miden exactamente lo mismo,

Los errores que contienen las puntuaciones de los test se

Es posible estimar la fiabilidad de un test cuando se aumenta

Otro concepto relacionado es el de validez, que también está

1) Los supuestos de los que parte no son comprobables

2) Relaciona con el supuesto de independencia de las puntuaciones y

3) Problemas relacionados con el cálculo del error típico:

a) Se define para el test globalmente, no para cada ítem.

b) Se supone que es el mismo para todos los niveles del rasgo

4) La fiabilidad es función del conjunto particular de items y de la

5) La fiabilidad generalmente se basa en la disponibilidad de medidas

Está en función del número de personas que contestan de forma correcta al

Tiene sentido en test o pruebas objetivas.

En realidad debería llamarse índice de facilidad, dado que a mayor valor el

Para su interpretación podemos tener en cuenta la siguiente tabla:

En un ítem de una prueba de dos alternativas en sus respuestas

En un ítem de una prueba de tres alternativas en sus respuestas aciertan

Determina la capacidad de una pregunta para diferenciar el grupo que tiene

Un ítem discrimina cuando tiene correlación positiva ítem – test.

Da una idea de la homogeneidad del ítem en relación al test.

Oscila entre -1 y +1.

Se considera un buen índice de discriminación el comprendido entre 0,25 y

Su fórmula de cálculo es la siguiente:

Si no se quita el ítem, la fórmula de cálculo es la siguiente:

La correlación ítem – test será diferente en función de las variables:

Relación entre variabilidad y discriminación:

La variabilidad en el test está relacionada con el índice de discriminación.

Si la variabilidad es cero no habría discriminación ninguna, dado que todos los

Pasamos un ítems de un test a 300 estudiantes. De los 81 (27 de 300) que

El estudio de items de una prueba de 15 ítems, medidos en una escala

Este ítem se debe eliminar, de acuerdo

Distractores son las diferentes alternativas falsas o respuestas incorrectas de

Todas las alternativas de un ítem deberían tener la misma probabilidad de ser

300 estudiantes contestan un ítem de cuatro alternativas en el que la

la frecuencia esperada, en cada caso, sería 198 / 3 = 66,

por lo que tendríamos:

para k – 1 grados de libertad (3 – 1 = 2), a un nivel de confianza del 95%,

Por tanto: 16,45 > 5,991, con lo que se rechaza la hipótesis de

Un instrumento es fiable si está libre de error de medida, lo que es una condición

Se cuantifica mediante el coeficiente de fiabilidad (fiabilidad relativa) y con el error

El coeficiente de fiabilidad se define como la correlación entre las puntuaciones

Es un indicador de la probabilidad de fallo de nuestro instrumento en la reproducción de la

Al repetir el proceso de medición, la variabilidad de las puntuaciones no sólo se debe

Si repetimos infinitas veces un test a un individuo, la media de las puntuaciones

Las aplicaciones del error típico de medida son:

 Estimación de los límites entre los que se encuentra la verdadera puntuación.