Documente Academic
Documente Profesional
Documente Cultură
de aprendizajes
Cedetec
3.1.2 Confiabilidad
1. Mientras menor sean los rangos de dificultad del instrumento, mayor será su Página
confiabilidad. 3
2. El número de preguntas o ítemes.
3. La interdependencia entre los ítemes tiende a reducir la confiabilidad del instru-
mento.
4. Mientras más objetivo es la asignación de puntajes, mayor es la confiabilidad
del test.
5. Asignación de puntajes inexactos afectan la confiabilidad de la medición.
6. El azar en la obtención de las respuestas correctas afectan la confiabilidad de
un test.
7. Mientras más homogéneas sean las preguntas o actividades, el test es más con-
fiable.
8. Mientras más común sean las experiencias del test para el grupo de sujetos, más
confiable es el test.
9. El lenguaje contenido en la forma de medición, tales como las contenidas en
las instrucciones, estructuras gramaticales complejas, expresiones; pueden ser
emocionalmente mal interpretadas.
10. El uso de material único, optativo o complementario de un test afecta la con-
fiabilidad de la medición.
11. Preguntas cerradas o de recuerdo general mayor confiabilidad en la medición
que preguntas de inferencias o procesos nuevos.
12. Las instrucciones para contestar el instrumento. Falta de explicitación de las
instrucciones conduce a que las diferentes interpretaciones reduzcan la confia-
bilidad.
MAGÍSTER EN DOCENCIA PARA LA EDUCACIÓN SUPERIOR
Evaluación para el Aprendizaje
13. El incentivo al esfuerzo para responder bien el instrumento. Para algunos tipos
de test, -como los de personalidad- este factor afecta su confiabilidad.
14. La exacitud del tiempo de aplicación del instrumento es un factor que tiende a
estabilizar la confiabilidad de la medición.
15. Distractores de las condiciones de administración del test, tales como inciden-
tes ocasionales o accidentes. Pueden afectar negativamente la confiabilidad de
la medición; y también, otros factores emocionales que afecten el clima de tran-
quilidad para contestar el cuestionario.
16. La copia de las respuestas afecta la confiabilidad del instrumento.
3.1.3 Validez
propone medir. Este tipo de validez es considerada como un medio para estimar hasta
qué punto el contenido de la escala muestrea la conducta o el campo de contenido
sobre los que se hacen inferencias.
Esta situación es similar a lo que sucede cuando un docente le consulta a otro acerca
de lo que mide cada pregunta, y si un conjunto de preguntas miden lo que se pretende
medir. Como la validez de contenido implica que alguien inspecciona los elementos, y
decide si están o no en concordancia con elcontenido, destrezas, habilidades, dispo-
siciones, situaciones y/o con las conductas del sujeto que se van a medir, se requiere,
obviamente, una gran confianza en la capacidad del juicio humano al utilizar este tipo
de validez.
La existencia de una explícita y clara descripcion del referente evaluativo hace más Página
riguroso el juicio de los expertos. La función que tienen los jueces es identificar la 5
proporción de los elementos congruentes en las preguntas, respecto al propósito de
medición y el criterio evaluativo que orientaron el desarrollo y selección de las pre-
guntas y lo ítemes escogidos. Si los elementos no apuntan al objetivo previsto, o dicha
descripción es poco precisa, deben adoptar una decisión negativa sobre la validez del
procedimiento o instrumento.
Adicionalmente, es importante señalar que existen otros tipos de validez: una de cri-
terio externo y otra de constructo. La validez a un criterio externo, establece a priori
“N” posibles asociaciones que, posteriormente, deben ser probadas. Entre las interpre-
taciones de dos o más instrumentos o procedimientos de medición es posible tener
validez concurrente (los puntajes y sus interpretaciones están altamente asociados
MAGÍSTER EN DOCENCIA PARA LA EDUCACIÓN SUPERIOR
Evaluación para el Aprendizaje
En el caso de nuestra foto, la validez de constructo podría ser aplicada a una situación
en que hubo un robo y las personas arrancaron. Una de las actividades que hace la
policía es construir un retrato hablado de los ladrones, a partir de los datos e infor-
mación proporcionadas por los testigos. Con ello, se va construyendo y ajustando la
representación de la persona, de modo que contemple características claves y distinti-
vas de la persona que se pretende buscar. Con el retrato hablado se puede seleccionar
personas que cumplan esas características. Sin embargo, todas ellas podrán ser sos-
pechosas; pero no culpables. Una persona sospechosa cambia a culpable cuando se
cuente con una multiplicidad de evidencias sobre las hipótesis, que permitan sustentar
una interpretación en un intervalo de confianza ausente de otras significaciones. Este
procedimiento de construir un constructo teórico y validarlo, es un procedimiento de Página
gran utilidad para evaluar competencias, y que supera el objetivo de este documento. 6
MAGÍSTER EN DOCENCIA PARA LA EDUCACIÓN SUPERIOR
Evaluación para el Aprendizaje
De acuerdo con el tipo de información que se requiere para tomar decisiones, el pro-
pósito de medición establece: qué va a ser medido, a quien (es) se va a aplicar, como
se van a interpretar los puntajes y cómo se va a usar el o los instrumento (s) o procedi-
miento (s). De acuerdo con lo presentado, en el propósito de medición deben quedar
explícitos los atributos de los diferentes dominios que serán medidos, y el marco de
referencia evaluativo que será utilizado; en caso que sea respecto a la norma o al cri-
terio.
El rango de medición debe posibilitar una medición sensible respecto al o los dominios
de aprendizajes; respecto a los cuales, se pretende clasificar a las personas. Claramen-
te, el rango de medición está relacionado con el próposito de medición, y una gran
cantidad de conocimiento no puede ser medido, directamente, con una sola situación
de medición.
La confiabilidad es una condición necesaria para validez de una medición. Como fue
mencionado, tiene que ver con la estabilidad y consistencia interna de las mediciones;
y se destacaron varias precauciones para lograr un buen índice de confiabilidad. Los
datos empíricos de la confiabilidad de la medición y las condiciones de administración
del instrumento son aspectos centrales a ser considerados para velar por el error de
medición asociado a la medición; y, consecuentemente, al margen de seguridad o ries-
go en la toma de decisiones. Estas consideraciones son válidas tanto para un instru-
mento referido a la norma o al criterio.
Por su parte, en la evaluación referida a criterio, las investigaciones de estas últimas Página
décadas han enfatizado la importancia de estudiar el patrón de las respuestas; más 10
que la distribución teórica de la organización de los puntajes del test para sus inferen-
cias, aunque los ítemes en cuestión tengan un puntaje continuo o pseudo continuo.
La Teoría de Respuesta al ítem ha contribuido a diferenciar, de la psicometría clásica
basada en la calidad del instrumento, que se pueda abordar la calidad del ítem me-
diante procesos de calibración. Los niveles de dificultad y discriminación de cada ítem,
proporcionan evidencias sobre niveles de capacidad vinculadas a atributos o moviliza-
ciones de atributos específicos, comprometidos en las expectativas de desempeño. En
suma, los datos comparativos del instrumento o procedimiento evaluativo.
MAGÍSTER EN DOCENCIA PARA LA EDUCACIÓN SUPERIOR
Evaluación para el Aprendizaje
A. E l contenido del test (la materia que será medida y el tipo de habilidad que
requerirá el test);
B. Peso que se les asignará a las diferentes categorías del test;
C. El largo aproximado del test (una estimación del número de ítemes que se in-
cluirán en la forma final relacionado con la confiabilidad deseada y el tiempo
disponible);
D. Límite de tiempo (relacionado con la velocidad con que se contestará el test);
E. El tipo de ítemes (de selección múltiple, verdadero o falso, respuesta corta, u
otro tipo que será usado. Para ítems de selección múltiple, debe especificarse el
número de distractores que serán usados);
F. Dificultad del ítem (el número de ítemes en cada nivel de dificultad y, este últi-
mo, deberá ser especificado para cada categoría de ítemes); y, Página
G. Puntuación del test (los procedimientos que serán usados para asignar puntajes 11
significativos y precisos a cada estudiante. Preguntas como estas, deberían ser
consideradas: ¿será el puntaje totalmente objetivo?, ¿se aplicará corrección para
el azar?, ¿se usará algún sistema de ponderación?).
Para contar con decisiones coherentes en el diseño del instrumento, se utilizan tablas
de especificaciones. A continuación, se aborda una para la evaluación referida a la
norma y, posteriormente, otra referida a la medición por criterio.
Los diferentes tests confeccionados, tanto para mediciones cognitivas como para las
afectivas, sociales y psicomotoras, han sido elaborados bajo la idea que son medicio-
nes referidas a una característica precisa y, explícitamente, definida como única. Estas
características, han sido referidas a los objetivos de enseñanza o a los resultados de
aprendizajes esperados.
MAGÍSTER EN DOCENCIA PARA LA EDUCACIÓN SUPERIOR
Evaluación para el Aprendizaje
Independiente del o los aspectos de la conducta humana que se desee medir, se debe
estudiar aquellas categorías que colaboran a definir un perfil de conducta para la des-
cripción de un sujeto, o para la comparación entre sujetos. La manera en que se han
de interpretar correctamente los resultados de un test, está en estrecha relación con
la manera real en que se organizan las respuestas de los distintos ítems, definiendo
categorías que sean interpretables.
Página
12