Edumetría, Análisis Itemes (JM)

EDUMETRIA, ANALISIS DE ITEMES,
CONFIABILIDAD Y VALIDEZ
Jorge Manzi
2013
LA EDUMETRA VS LA PSICOMETRA
Origen del Enfoque.

Se genera en el mbito educacional como
reaccin a la teora psicomtrica a mediados
de la dcada del 60.
Reaccin contra la distribucin normal.
Como crtica al uso de grupos normativos en
pruebas educacionales convencionales.
Como necesidad para obtener informacin ms
explcita sobre los aprendizajes efectivos de los
alumnos.
Distribucin Normal versus distribucin

esperada en educacin
0.09
0.08
0.07
0.06
0.05
0.04
Normal
Esperada
0.03
0.02
0.01
0
Comparacin entre el enfoque

psicomtrico y edumtrico.
Instrumentos con enfoque
psicomtrico
Interpretacin de resultados
con respecto a un grupo de
referencia.

edumtrico
Interpretacin de resultados
con respecto a criterios o
estndares.

psicomtrico

edumtrico
Amplio rango de dificultad de

las preguntas.
Rango de dificultad estrecho.
Congruencia y cobertura
curricular difusa, rango de
conocimientos, destrezas
amplio.
Congruencia y cobertura
curricular alta, rango de
conocimientos, destrezas
claramente especificado.
6

psicomtrico

edumtrico
Se derivan diversos tipos de

Se establecen categoras
normas (percentiles, estndar, descriptivas de los aprendizajes
etc.). Las normas son relativas. logrados y no logrados. Las
normas son absolutas.
No permite un juicio acerca del Permite informar sobre el nivel

nivel de logro de los
de logro de los aprendizajes
aprendizajes especficos.
especficos.
Etapas del proceso de construccin de

instrumentos edumtricos
Determinacin de propsitos y destinatarios
Establecimiento de formato y longitud del
test, tipo de itemes y recursos disponibles
para el desarrollo del test.
Preparacin de especificaciones para orientar
la redaccin de itemes
Produccin de itemes
Etapas del proceso de construccin de

instrumentos edumtricos
Evaluacin de la validez de contenido de los itemes

Aplicacin experimental (anlisis de itemes)
Establecimiento de estndares (si corresponde)
Estudios complementarios de validez
Anlisis de temes en pruebas

edumtricas.
El anlisis de reactivos se realiza con muestras antes
y despus de la instruccin, o bien, muestras sin y
con instruccin.
Sobre grado de dificultad y capacidad discriminativa
de los itemes:
La proporcin de respuestas correctas sea baja para la
muestra sin instruccin o antes de la misma y,
La proporcin de respuestas correctas sea alta para la
muestra con instruccin o despus de la misma.
Cuando se cumplen ambas condiciones, ello tambin
indica que el tem es adecuadamente discriminativo
10
Anlisis de temes en pruebas

edumtricas.
Sobre distractores:
Cada distractor o respuesta errada debe ser elegido con mayor
frecuencia por el grupo no instruido (o pretest) que por el grupo
instruido (o postest).
Ningn distractor es elegido con la misma frecuencia por ambos
grupos o en ambas ocasiones.
Sobre omisin:
Las omisiones deben ser mayores en el grupo no instruido (o pretest)
que en el grupo instruido o (postest).
11
Especificacin de dominios de aprendizaje para

la construccin de itemes.
1.
2.
3.
4.
5.
Sector de aprendizaje.
Subsector: subconjunto del sector.
Objetivo o aprendizaje esperado.
Tipo de item.
Atributos del enunciado y de los
distractores.
6. Ejemplo de item.
12
Taxonoma de Bloom revisada*.

Presenta dos diferencias fundamentales
respecto a la taxonoma original:
Utiliza dos dimensiones en lugar de una que tena
la taxonoma original.
Designa las categoras de los procesos cognitivos
con verbos en lugar de sustantivos.
Clarifica los contenidos de las categoras.
Combina las dos dimensiones slo en las
categoras que tienen sentido sustantivo.
*Anderson, L. W: y Krathwohl, D. R. Eds..(2001) A taxonomy for Learning, Teaching,
and Assessing.New York, Longman.. .
13
Taxonoma de Bloom revisada.

Dimensin
Tipo de
conocimiento
Dimensin de procesos cognitivos

1.
2.
3.
4.
5.
6.
Recordar Compren- Aplicar Analizar Evaluar Crear
der
Conocimiento
factual
Conocimiento
conceptual
Conocimiento
procedimental
Conocimiento
Metacognitivo
14
Taxonoma de Bloom revisada:

Procesos cognitivos.
Recordar: recuperar conocimiento relevante
de la memoria a largo plazo.
Reconocer. Ej.: Reconocer las partes del sistema
circulatorio en un diagrama.
Evocar. Ej.: Enunciar los principales perodos de la
historia de Chile.
15

Comprender: construir el significado a partir de
diferentes mensajes, incluye la comunicacin oral,
escrita y grfica.
Interpretar. Ej.: Parafrasear una definicin de

confiabilidad de un instrumento de medicin
educacional.
Ejemplificar. Ej.: Proporcionar ejemplos de trueque.
Clasificar. Ej. Clasificar casos de trastornos de lenguaje
observados o descritos.
Resumir. Ej.: Redactar una sntesis de los principales
hechos en una noticia.
Comparar. Ej. Comparar democracia en la Grecia
antigua con la democracia en Chile contemporneo.
Explicar. Ej.: Explicar los principales antecedentes de la
Independencia en Chile.
16

Aplicar: realizar o utilizar un procedimiento en
una situacin dada.
Ejecutar. Ej.: Multiplicar dos nmeros de 3 dgitos.
Implementar. Ej.: Determinar en qu situaciones
es aplicable la segunda ley de Newton.
17

Analizar: dividir un contenido en sus partes
constitutivas, determinar cmo se relacionan
estas parte entre s y con la estructura o
propsito general.
Diferenciar. Ej.: Distinguir entre los datos
relevantes e irrelevantes en un problema
matemtico de enunciado verbal.
Organizar. Ej.: Estructurar una argumentacin a
partir de evidencia contradictoria en un hecho
policial.
Atribuir. Ej.: Determinar el punto de vista del autor
de un ensayo en trminos de su perspectiva
poltica.
18

Evaluar: emitir juicios basados en criterios o
estndares.
Comprobar. Ej.: Determinar si las conclusiones en
un artculo cientfico se desprenden de los datos
aportados en el mismo.
Criticar. Ej.: Juzgar cual de dos mtodos es la
mejor forma de resolver un problema.
19

Crear: reunir elementos para formar un todo
coherente o funcional; reorganizar elementos
en una estructura o patrn nuevo.
Generar. Ej.: Formular una hiptesis que d cuenta
de un fenmeno.
Planificar. Ej.: Preparar un proyecto de
investigacin.
Producir. Ej.: Escribir un cuento en la poca actual,
basndose en el argumento central de Edipo Rey.
20

Tipos de Conocimiento.
Conocimiento factual: elementos bsicos que
los alumnos deben conocer para estar
familiarizados con una disciplina y(o) resolver
problemas.
Conocimiento de terminologa. Ej.: Vocabulario
tcnico bsico; smbologa qumica.
Conocimiento de detalles especficos y elementos.
Ej. Fuentes de informacin confiables; principales
recursos naturales.
21

Conocimiento conceptual: relaciones entre los
elementos bsicos en una estructura de orden
mayor que les permite funcionar en conjunto.
Conocimiento de clasificaciones y categoras. Ej.
Clasificacin de los cuerpos geomtricos; tipos de
sociedades comerciales.
Conocimiento de principios y generalizaciones. Ej.:
La ley de la oferta y la demanda; los teoremas de
semejanza; conocimiento de los modelos
genticos.
Conocimiento de teoras, modelos y estructuras.
Ej. La teora celular; la teora de sistemas.
22

Conocimiento procedimental: forma de ejecucin de
algo; mtodos de indagacin y criterios para utilizar
destrezas, algoritmos, tcnicas y mtodos.
Conocimiento de destrezas especficas y algoritmos en una
disciplina. Ej.: Las destrezas necesarias en la pintura al
leo; el algoritmo para calcular la sumatoria de una serie.
Conocimiento de tcnicas y mtodos especficos en una
disciplina. Ej.: Tcnicas de entrevista; el mtodo cientfico.
Conocimiento de criterios para determinar cundo
emplear un procedimiento apropiado. Ej.; Uso de criterios
para determinar el procedimiento ms adecuado para
determinar la confiabilidad de un test.
23

Conocimiento metacognitivo: conocimiento de la
cognicin en general, as como del monitoreo, control y
regulacin de su propia cognicin.
Conocimiento estratgico: estrategias generales para
aprender, pensar y resolver problemas. Ej.: Construccin
de esquemas; heurstica para resolver problemas.
Conocimiento de herramientas para construir significados
y comprensin. Ej. Conocimiento de que estrategias como
sintetizar y parafrasear contribuyen a una comprensin
ms profunda.
Autoconocimiento: de sus fortalezas y debilidades
respecto al aprendizaje Ej. Identificacin de los propsitos
al realizar una tarea; conocimiento de sus intereses,
utilidad de realizar la tarea.
24
Taxonoma de Bloom revisada

Ejemplo de plan de combinacin de dimensiones.
Dimensin
Tipo de
conocimiento
Dimensin de procesos cognitivos

1.
2.
3.
4.
5.
6.
Recordar Compren- Aplicar Analizar Evaluar Crear
der
Conocimiento
factual
Conocimiento
conceptual
Conocimiento
procedimental
Conocimiento
Metacognitivo
X
25
Tipos de modelos
Modelos continuos
Modelos de estado
26
Modelos continuos
Conjunto (relativamente homogneo) de
destrezas, habilidades referidas a un mismo
dominio de aprendizaje, distribuido en forma
continua.
No dominio
Dominio
27
Modelos continuos
En el extremo superior de este continuo se
identifica un segmento en el que se ubican los
individuos que poseen dominio y que
constituye una categora de logros de
aprendizaje. El puntaje de corte delimita a
este segmento.
No dominio
Dominio
Puntaje de corte
28
Modelos continuos
En algunos modelos es posible identificar una zona
intermedia de dominio parcial.
El objetivo de la medicin es obtener informacin
para tomar decisiones educacionales; en particular,
sobre las acciones que siguen a la medicin.
El puntaje de corte representa un criterio para
interpretar el logro de aprendizajes de un alumno.
29
Modelos de estado
Consideran el dominio o logro de aprendizaje
como un estado dicotmico.
El puntaje de corte debiera proporcionar una
clasificacin con un mnimo de error.
Por lo tanto, en ambas familias de modelos la
determinacin del puntaje de corte es
fundamental.
30
Determinacin de estndares
Estndares de Desempeo
y Puntos de Corte
Estndares de Desempeo: Descripcin escrita del nivel de
conocimientos, habilidades o actitudes que los estudiantes
deben mostrar para cumplir con un determinado nivel de
rendimiento (p.ej., insatisfactorio, bsico, competente,
destacado).
Puntos de corte: Puntaje de un test que separa a quienes

logran un estndar de rendimiento de aquellos que no lo
logran.
Advertencias
Los Estndares (normas, puntos de corte) son
siempre parcialmente subjetivos.
En consecuencia: Diferentes jueces pueden
establecer distintos puntos de corte empleando el
mismo mtodo.
Se debe poner cuidado en basar los puntos de
corten en mtodos acadmica y profesionalmente
establecidos, de manera de acotar el grado de
subjetividad.
Criterios para Standard Setting

Objetividad / Transparencia / Reproducibilidad
Confiabilidad
Invarianza a travs de replicaciones.
Consistencia
Robustez
Invarianza cuando hay cambios en el las condiciones o materiales
usados, etc. (p. ej.: seleccin de itemes)
Factibilidad
Puntajes de corte
Cualquiera sea el mtodo para determinar
el puntaje de corte, existe la posibilidad de
dos tipos de decisiones errneas:
Un alumno que no haya logrado los
aprendizaje puede obtener un puntaje
superior al de corte y,
un alumno que haya logrado los aprendizajes
puede obtener un puntaje inferior al del
puntaje de corte
35
Errores en la clasificacin de los

alumnos.
Ubicacin
respecto al
puntaje de
Corte
Situacin
real de logro
Por debajo
Por encima
No Domina
Decisin
correcta
Error
(Falso
positivo)
Domina
Error
(falso
negativo)
Decisin
correcta
36
Procedimientos para la implementacin
Definicin de propsitos
Seleccin de participantes
Entrenamiento de participantes
Definicin de Estndares de Rendimiento
Procedimientos de Recoleccin de Datos
Procedimientos para validacin (interna
externa)
Principales Mtodos
Mtodos basados en Tests
basados en el contenido de los indicadores (suponen el
juicio de expertos. Ej.: Angoff, Nedelsky, Jaeger, y Ebel);
Generalmente son ms apropiados para pruebas breves y
de seleccin mltiple.
Mtodos basados en los estudiantes /

examinados
Basados en los puntajes de los examinados (suponen
aplicaciones empricas. Ej.: mtodo de grupos
contrastantes y de grupos lmtrofes);
Generalmente son ms apropiados para formatos de
respuesta ms extendidos.
Estudiante limtrofe
Muchos mtodos de Estndar Setting emplean el
concepto de estudiante/examinado/candidato
limtrofe, tambin denominado:
Candidato Mnimamente Competente
Candidato Apenas Certificado
Es un estudiante o examinado (o grupo) real o ficticio

que posee los conocimientos / habilidades mnimos
para aprobar el test (para ser certificado, para ser
denominado competente, etc.).
Mtodos Clsicos
Desarrollados principalmente para pruebas que miden
conocimiento.
Rbricas de puntuacin dicotmicas (p.ej.: seleccin
mltiple)
Pruebas tpicamente unidimensionales.
Itemes independientes.
Alta generalizabilidad de los puntajes (buen rendimiento
en algunos itemes implica buen rendimiento en otros).
Ejemplos de Mtodos basados en Tests

Nedelsky (solo para pruebas con itemes de
seleccin mltiple)
Angoff
Jaeger
Ebel
Mtodo de Angoff (1971)

Puede ser utilizado en cualquier tipo de
prueba.
Cada juez debe pensar en un estudiante
limtrofe y su estimar la probabilidad de
respuesta correcta para cada pregunta.
El puntaje de corte es igual a la suma de
probabilidades estimadas.
Si hay ms de un juez se debe calcular el
promedio o mediana de ellos.
Mtodo de Angoff
.%
.%
.%
.%
.%
.%
.%
.%
.%
S u m: .
s
i
Mtodo de Angoff
Item
1
2
3
4
5
Punto de corte
1
0.70
0.90
0.80
0.70
0.80
3.90
Juez
2
0.60
0.50
0.50
0.80
0.80
3.20
3
0.70
0.80
0.60
0.60
0.70
3.40
A menudo se emplea ms de una vuelta de

juicios: Mtodo Delphi.
Promedio
0.67
0.73
0.63
0.70
0.77
3.50
Mtodos Modernos
Evaluaciones de rendimiento complejas.
Multidimensionalidad. Se requiere que los examinados

realicen tareas que poseen mltiples componentes, cada
uno de los cuales es considerado importante para el xito
educacional o laboral
Rbricas de puntuacin policotmicas.
Interdependencias (p.ej.: el examinado no puede completar
una tarea debido a que no ha realizado otras).
Baja generalizabilidad de puntajes al nivel de las tareas /
ejercicios. El rendimiento correcto en una determinada tarea
no necesariamente implica un rendimiento alto en otras.
Estndares de Rendimiento para

evaluaciones complejas
Mtodo de Angoff Extendido
Mtodo Bookmark (Item-Mapping)
Mtodo de Grupos Contrastados
Cizek, G.J. (2001). Setting Performance Standards: Concepts, Methods and
Perspectives. New York: Lawrence Erlbaum Associates, Inc.
Mtodo de Bookmark (item mapping)

Escalamiento de itemes
Entrenamiento de Jueces
Familiarizacin con los itemes (ordenados
segn su grado de dificultad)
Jueces juzgan primero individualmente y
luego colectivamente los itemes hasta
alcanzar un consenso.
Bookmark: mapa de itemes

Ms Difciles
I34
I15
I4
I21
I19
I11
I9
I18
I25
Ms Fciles
I30
Escala de Puntajes IRT
Bookmark: Ronda 1
Los participantes revisan, en forma personal, el cuadernillo con los
itemes previamente ordenados segn su grado de dificultad. Se les
pide que al analizar cada item respondan dos preguntas:
qu conocimientos, habilidades y destrezas deben ser aplicados
correctamente para responder un item dado?
qu hace a cada item progresivamente ms difcil que el anterior?
En esta etapa se evita que los participantes discutan los itemes en
trminos de qu contenido debe ser dominado en cada nivel de
desempeo (esto es propio de la 2 y 3 ronda). Con ello se pretende
evitar que los juicios personales se contaminen con las opiniones de
los otros o con la de algn miembro del grupo cuya opinin sea
dominante.
Al trmino de esta fase, los participantes expresan su juicio sobre los
puntos de corte, poniendo una seal o marca entre los temes que
representan el punto de corte
Bookmark: Ronda 2
En esta fase, se realiza la discusin en grupos pequeos. En esta fase,
el encargado de grupo solicita a cada participante que exponga y
justifique los puntos de corte establecidos en la primera ronda.
Mientras, el encargado del grupo anota esta informacin en una
pizarra, de manera que todos puedan ver los puntos de corte de los
otros. En este momento se discute qu tipo de contenidos debe
dominar un profesor en cada una de las categoras de desempeo,
identificando as, qu preguntas resultan crticas para situar a un sujeto
dentro de un determinado nivel de logro.
Luego de esta discusin, se les pide a los participantes que vuelvan a
establecer sus puntos de corte, y si luego de esta segunda ronda no
hay consenso, se calcula la mediana entre los puntos de corte
propuestos (analizando el rango entre el cul se sita el punto de
corte).
Bookmark: Ronda 3
Se inicia con la presentacin de los resultados de la ronda
anterior en plenario. Las personas a cargo del proceso
muestran los porcentajes de docentes que clasifican en
cada categora de desempeo, segn los puntos de corte
sugeridos en la ronda anterior. En esta etapa se intenta
promover el consenso del plenario, pidiendo a un
representante de cada grupo que explique y justifique las
decisiones del grupo. Si el consenso no se produce, se
hace una votacin final de los panelistas. Finalmente, se
tabulaban los juicios, se calculan las medianas y se
presentan los puntos de corte finales y el impacto
estimado.
ANLISIS DE ITEMES BASADO EN

TEORA CLSICA DE LA MEDICIN
Plan de anlisis de itemes

en estudios de campo
Definir el diseo muestral (tamao y representatividad de la
muestra)
Identificar grupos que se desee contemplar en el plan muestral
(sexo, condicin socioeconmica, grupos tnicos, etc.). Esto es
especialmente relevante para el anlisis del sesgo de itemes.
Establecer la longitud de las formas que se aplicarn
Establecer el tiempo asignado para responder las formas
Incorporar otros instrumentos si se desea incluirlos como
criterio para evaluar los itemes.
10/8/2013
Aspectos que se evala en itemes
Grado de Dificultad
Capacidad Discriminativa
Omisin
Distractores
Sesgo de itemes / DIF
10/8/2013
Grado de Dificultad
Porcentaje de respuesta correcta
Porcentaje ajustado de respuestas correctas
(considerando respuestas correctas al azar)
El rango de grado de dificultad deseable depende de la
naturaleza y uso de la prueba (por ejemplo, temes de
mayor grado de dificultad son deseables en pruebas de
seleccin).
Lo usual es, en todo caso, excluir temes muy fciles o
muy difciles.
El grado de dificultad es dependiente de la distribucin
de habilidades de la muestra en que se estima.
10/8/2013
Capacidad discriminativa
Corresponde al grado en que cada pregunta del
test permite diferenciar (discriminar) entre
examinados con mayor o menor grado de
habilidad.
Se puede establecer con respecto a un criterio
externo (otro instrumento) o interno (puntaje
total en el test)
El primer caso maximiza la validez del instrumento
El segundo maximiza la consistencia interna
Tcnicas
Comparacin de grupos extremos

Correlacin item-test
Correlacin biserial
Correlacin biserial-puntual (cuyo valor mximo depende del
grado de dificultad)
10/8/2013
Omisin
Se analiza el porcentaje de casos que deja la pregunta sin
responder, tratando de establecer las razones de la omisin.
Considerar las instrucciones antes de resolver el grado de omisin
tolerable. Mayor grado de omisin es esperable cuando se
penalizan respuestas incorrectas.
Comparar el patrn de omisiones entre grupos de alta y baja
habilidad.
Si la omisin es equivale entre ambos grupos, se puede sospechar
ambigedad en el item (descartar)
Si la omisin es mayor en el grupo de menor habilidad, la omisin
reflejara el grado de dificultad del item (conservar el item)
Analizar la omisin segn la posicin del item en la prueba. Si se

incrementa hacia el final, el tiempo asignado para la prueba puede
haber sido insuficiente (por esto es deseable evaluar la omisin
cuando un mismo item ocupa diversas posiciones en las formas)
Distractores
Se refiere a la distribucin de las respuestas entre las
opciones incorrectas.
Criterios para seleccionar itemes segn la
distribucin de respuestas entre los distractores:
Que ningn distractor presente proporciones demasiado
bajas de frecuencia (salvo en itemes muy fciles).
Que presenten una distribucin relativamente
homognea
Que todos presenten una correlacin nula o negativa
con el puntaje total
Que la media de quienes los eligen sea inferior a la
media de quienes eligen la opcin correcta
Sesgo de item
Un item es sesgado cuando antecedentes
ajenos a la habilidad de los examinados
inciden en el desempeo en los itemes.
Los antecedentes ms estudiados han sido la
pertenencia a grupos (segn gnero, origen
social o tnico).
Espacio para seleccin de itemes

Capacidad
Discriminativa
rbis
> 0.4
0.3 a o.4
0.2 a 0.3
0.1 a 0.2
0 a 0.1
10/8/2013
Grado de Dificultad de los itemes
0a
0.1
0.1 a
0.2
0.2 a
0.4
0.4 a
0.6
0.6 a
0.8
0.8 a
0.9
0.9 a
1.0
ILUSTRACIN CON ITEMES DE PRUEBAS

DE ADMISIN A LAS UNIVERSIDADES
EN CHILE
Ejemplo de item de Lenguaje

12. La lengua es tambin una fiel representante de la calidad de ser humano en la que
queremos convertirnos y hay sntomas que delatan un deterioro, como el predominio
del lenguaje periodstico por sobre un lenguaje de expresin. Se perdi el matiz, la
metfora, la hiprbole. La gente ahora habla de flujo vehicular y de vacacionar,
copindoles a los periodistas y a la publicidad.
Marta Blanco, El Mercurio
La consistencia de la argumentacin contenida en el texto ledo se manifiesta en que la
autora
A) utiliza el deterioro de la lengua como argumento y lo valida a travs de ejemplos.

B) emplea una frmula narrativa para presentar una crtica.
C) explica que la prdida del uso de figuras literarias empobrece la lengua.
D) presenta una opinin slida sobre el deterioro del lenguaje periodstico.
E) realiza una valiosa argumentacin basada en el lenguaje periodstico y publicitario.
Ejemplo de resultados del item

anterior
Item
i12
12: * is keyed
A*
Responses
34.5%
10.3%
17.0%
7.5%
6.3%
24.4%
0.0%
Upper 27%
56.7%
5.5%
15.6%
2.3%
4.5%
15.3%
0.0%
Lower 27%
15.3%
12.5%
15.4%
11.9%
9.8%
34.9%
0.0%
Mean Score 45.459
35.074
38.773
32.016
34.496
Point Bis
0.345
-0.091
-0.002
-0.139
-0.080
Biserial
0.445
-0.154
-0.003
-0.259
-0.158
Item-Total:
Omit Invalid
Distribucin del grado de dificultad y

capacidad discriminativa total de itemes
Capacidad Discriminativa (rbis)
0.8
0.6
0.4
0.2
0
0
0.1
0.2
0.3
0.4
0.5
0.6
-0.2
Grado de Dificultad
0.7
0.8
0.9
i6
7
i7
0
i7
3
i7
6
i7
9
i3
7
i4
0
i4
3
i4
6
i4
9
i5
2
i5
5
i5
8
i6
1
i6
4
i2
2
i2
5
i2
8
i3
1
i3
4
i19
i16
i13
i10
i7
i4
i1
Tasa de Omisin segn la posicin

de los itemes
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
Relacin entre Omisin

y Dificultad
0.8
0.7
Tasa de Omisin
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0.1
0.2
0.3
0.4
0.5
0.6
Grado de Dificultad
0.7
0.8
0.9
Grado de dificultad de itemes de formas

paralelas prueba de Matemtica
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
ILUSTRACIN CON SOFTWARE IATA
Validez
Consistente (Confiable)
Consistente y Certero (Vlido)
Definiciones prevalecientes de Validez

Hasta los 80:
Mide este test lo que intenta medir?
Desde los 80 (Messick):

Qu me dice un puntaje X acerca de la persona?
Qu tipo de inferencias puedo hacer acerca de la
persona a partir de sus resultados?
Cun confiado estoy acerca de estas evidencia?
La visin de Messick:
Validity is not a property of the test or assessment
as such, but rather of the meaning of the test scores.
These scores are a function not only of the items or
stimulus conditions, but also of the persons
responding as well as the context of the assessment.
In particular, what needs to be valid is the meaning
or interpretation of the score; as well as any
implications for action that this meaning entails.
Messick, 1995
Antecedentes acerca de la validez: La

nocin de tipos de validez
La distincin entre 3 4 tipos de validez fue
predominante hasta la publicacin de los
Standards for Educational & Psychological Testing de
1999 (producidos por un comit conjunto de la APA,
AERA y NCME)
Los tipos clsicos
Validez de contenido
Validez concurrente
Validez predictiva
La revolucin en la validez:
la Validez de Constructo
La aparicin del concepto de Validez de Constructo en los
aos 50 transform radicalmente la visin tradicional.
La validez comenz a ser comprendida como un proceso de
acumulacin de evidencias en torno al significado de los puntajes de
un test.
La validacin debiera fundarse en los avances del conocimiento y las
teoras en torno a los constructos medidos
La validacin debiera entenderse como un proceso de contrastacin
de hiptesis
La validacin debiera recurrir a todas las metodologas cientficas
pertinentes (no experimentales y experimentales)
Los cambios que introdujo

la Validez de Constructo
La validez dej de entenderse como una pregunta con una respuesta
definitiva. Es una cuestin permanentemente abierta a nueva evidencia
La validez dej de entenderse como la obtencin de un indicador clave
(como la correlacin con otro test), en favor de la acumulacin de
mltiples evidencias
La validez dej de ser un ndice, en favor de una configuracin de
resultados esperados
La validez dejo de considerar slo evidencia convergente, considerando
tambin evidencia discriminante (ejemplo ms acabado: uso de matrices
multirasgo-multimtodo)
Se privilegi la acumulacin de diverso tipo de evidencia (de distinta
naturaleza, obtenida con metodologas alternativas).
Los cambios de la
conceptualizacin de 1999
Desaparecen los tipos de validez
Se promueve la acumulacin de distinto tipo de
evidencias acerca de un test
Validity is the degree to which all of the accumulated evidence
supports the intended interpretation of the test scores for the
intended purposes.
AERA, APA, & NCME, 1999, p. 11
En consecuencia:
No validamos un test
Validamos el uso que se da a un test
La Validez depende del test, personas
evaluadas y las circunstancias en que se lleva a
cabo la medicin.
Por tanto, un test puede ser vlido para un grupo
o para un contexto determinado, pero invlido en
otros grupos o contextos.
Tipos de evidencia acerca de la validez

(Standards for Educational & Psychological Testing 1999)
Evidencia basada en el contenido del test

Evidencia basada en Procesos de
Respuesta
Evidencia basada en la Estructura Interna
Evidencia basada en relaciones con otras
variables
Evidencia basada en las consecuencias
de la medicin
Evidencia basada en
el contenido del test
Anlisis lgico y evaluacin experta acerca del contenido del
test. El juicio apunta a establecer si el contenido del test es
representativo del dominio al que apunta
temes
Tareas
Formatos
Fraseo
Procedimientos requeridos
Juicio basado en
Revisin de la literatura
Opinin de expertos
Evidencia basada en
procesos de respuesta
En qu medida las tareas o tipos de respuesta requeridas
activan procesos psicolgicos relacionados con el constructo
que se pretende medir
Evidencia:
Entrevista o cuestionarios a participantes, indagando su comprensin
de las preguntas estrategias empleadas, etc.
Observacin de examinados
Anlisis del sesgo de medicin
Evidencia basada en
la estructura interna del test
En qu medida los componentes de un test (itemes, tareas,
etc.) se relacionan en la forma esperada para el constructo
medido.
Por ejemplo, si una teora afirma que un constructo es
unidimensional, ello debiera verificarse en las interrelaciones
entre los componentes del test
Evidencias principales:
Anlisis factorial exploratorio de los itemes
Anlisis factorial confirmatorio de los itemes
Anlisis de la invarianza factorial entre grupos
Evidencia basada en
la relacin con otras variables
El grado en que un test se relaciona con diversas variables
aporta evidencia crucial para su validez
Evidencias principales:
Validez concurrente: correlacin con otros tests que miden el mismo
constructo
Validez convergente y discriminante: para verificar si correlaciona
segn lo esperado con constructos similares, y para demostrar que el
test no se asocia con constructos diferentes (evaluada principalmente
mediante matrices multirasgo-multimtodo)
Validez predictiva
Comparacin entre grupos
Estudios experimentales
Evidencia basada en
las consecuencias de un test
Anlisis de las consecuencias esperadas y no esperadas de las
mediciones. Esto es especialmente til para informar la validez
de las decisiones basadas en un test.
Especialmente til cuando se pueden identificar diferentes
consecuencias para diversos tipos de usuarios.
Esta evidencia sirve para verificar si se producen las
consecuencias positivas que normalmente han motivado la
creacin o aplicacin de un test
Evidencia:
Estudio de las consecuencias a partir de entrevistas, observaciones o registros
disponibles en bases de datos
Ejemplo con datos nacionales

Validez predictiva de la PSU
Correlaciones Factores de Seleccin y

Notas universitarias
Ao Ingreso
N carreras
Lenguaje
Matemtica
NEM
PSEL
2003 (PAA)
766
0.02
0.13
0.25
0.30
2004
777
0.08
0.29
0.27
0.39
2005
824
0.11
0.25
0.26
0.38
2006
851
0.10
0.24
0.24
0.36
2007
918
0.10
0.25
0.25
0.36
Resumen de Correlaciones
Factores Optativos
Carreras
Ciencias
Ciencias
Carreras
Historia
Historia
2003 (PCE)
93*
0,09
29**
0,01
2004
475
0,26
342
0,08
2005
508
0,27
430
0,08
2006
554
0,24
447
0,06
* PCE Biologa
** PCE Ciencias Sociales
SESGO DE MEDICIN
Cmo evaluar sesgo de medicin?

(mtodos externos)
Un test es sesgado para los miembros de un

grupo, cuando la prediccin de un criterio a
partir del test se aparta sistemticamente de
la prediccin comn para todos los grupos. En
otras palabras, es sesgado cuando la lnea de
regresin comn resulta muy alta o muy baja
para ese grupo.
Caso 1:
Diferencias entre grupos, pero test no sesgado
alto
Criterio
Grupo de referencia
Grupo focal
bajo
bajo
alto
Predictor
Caso 2:
Diferencias entre grupos, test sesgado
Lnea de regresin comn
alto
Grupo focal
Criterio
Grupo de referencia
bajo
bajo
alto
Predictor
Mtodos para estudiar sesgo

Validez diferencial: anlisis comparativo de la
validez predictiva segn subgrupos. Usualmente
se estudia comparando las correlaciones o
coeficientes de regresin entre grupos
Prediccin diferencial: comparacin de los
residuos de distintos grupos una vez que se ha
ajustado una ecuacin de regresin comn. Si los
residuos son diferentes, se produce subprediccin
o sobreprediccin para ciertos grupos
Prediccin diferencial del SAT

Sobreprediccin: -; Subprediccin: +
(Fuente: Mattern et al, 2008)
SAT-CR
SAT-M
SAT-W
NEM
Hombres
-.14
-.20
-.11
-.08
Mujeres
.12
.17
.10
.07
Blancos
.04
.05
.04
.06
Negros
-.30
-.26
-.26
-.32
Hispnicos
-.17
-.16
-.16
-.27
PSUM
0.15
0.11
0.10
0.10
0.10
0.09
0.10
0.05
0.00
2003
2004
2005
2006
2007
-0.05
-0.10
-0.09
-0.09
-0.09
-0.10
-0.15
Hombre
Mujer
-0.10
PSUL
0.15
0.10
0.09
0.06
0.07
0.07
0.07
0.05
0.00
2003
2004
2005
2006
2007
-0.05
-0.06
-0.10
-0.06
-0.08
-0.07
-0.15
Hombre
Mujer
-0.07
NEM
0.15
0.10
0.05
0.02
0.01
0.00 0.00
0.00
-0.01
-0.02
0.02
0.02
-0.02
-0.02
-0.05
2003
2004
2005
2006
-0.10
-0.15
Hombre
Mujer
2007
ESTNDARES DE MEDICIN
Estndares sobre Validez

1. Se debe presentar una justificacin para cada interpretacin recomendada y el uso
de los puntajes del test, junto con un resumen comprensivo de la evidencia y teora
que subyace a estos usos interpretativos.
2. Quienes desarrollen el test deben establecer claramente cmo se deben interpretar
y usar los puntajes. La poblacin para la cual el test es apropiado debe estar
claramente delimitada y se debe describir claramente el constructo que el test
pretende medir
3. Si la validez de algn tipo de interpretacin no est estudiada o si dicha
interpretacin es inconsistente con la evidencia recabada, esto debe ser comunicado a
los potenciales usuarios para que sean cautelosos respecto de interpretaciones sin
fundamento.
4. Si un test es usado en alguna forma que no ha sido validada, es responsabilidad del
usuario justificar este nuevo uso y recabar nueva evidencia en caso de ser necesario.
5. La composicin de cualquier muestra de examinados a partir de la cual se obtenga
evidencia de validacin debe ser descrita en detalle, incluyendo los principales
aspectos sociodemogrficos y caractersticas de desarrollo.

6. Cuando la validacin descanse en parte en la adecuacin del contenido del test, los
procedimientos que se sigan para especificar y generar dichos contenidos deben ser
descritos y justificados en funcin del constructo que el test busca medir o el dominio que
busca representar.
7. Cuando la validacin descanse en parte en la opinin de jueces expertos u observadores,
los procedimientos para seleccionar dichos expertos y para elicitar sus juicios deben ser
descritos exhaustivamente. Se deben presentar tambin las calificaciones y experiencia de
dichos jueces, as como el entrenamiento que recibieron y el nivel de acuerdo en sus
juicios.
8. Si la justificacin para el uso de un test o para la interpretacin de sus puntajes depende
de premisas acerca de procesos psicolgicos u operaciones cognitivas que usan los
examinados, entonces se debe entregar evidencia emprica o terica que apoye dichas
premisas.
9. Si se seala que un test no se ve afectado por la prctica y el entrenamiento, entonces
esta condicin debe ser documentada.
10. Cuando se sugieran interpretaciones acerca del desempeo en itemes especficos, o de
un pequeo subgrupo de ellos, se debe entregar evidencia relevante para sustentar la
adecuacin de dicha interpretacin

11. Si la justificacin para el uso de un test o su interpretacin depende de premisas
acerca de las relaciones entre partes del test, debe haber evidencia disponible acerca
de la estructura interna del test.
12. Cuando se sugiera la interpretacin de subpuntajes o diferencias de puntajes, se
debe entregar evidencia que lo sustente. Cuando se desarrollen puntajes compuestos,
se debe entregar la justificacin de cmo se lleg a esta frmula.
13. Cuando la evidencia de validez incluya anlisis estadsticos de los resultados del
test, ya sea que incluyan o no otras variables de inters, se debe entregar informacin
respecto de las condiciones bajo las cuales se recab la evidencia, describindolas con
suficiente detalle como para que los usuarios puedan juzgar la relevancia de los
hallazgos estadsticos a la luz de condiciones locales.
14. Cuando la evidencia de validez incluya anlisis empricos de las respuestas junto
con otras variables de inters, se debe entregar la justificacin de la seleccin de
dichas variables.
15. Cuando se afirme que un determinado nivel de desempeo en el test predice un
buen o mal desempeo en el constructo medido, se debe entregar informacin acerca
de los niveles del constructo que se asocian con los niveles de puntaje en el test.

16. Cuando la validacin se basa en evidencia acerca de la relacin entre puntajes en
el test y otras variables criterio, se debe entregar informacin acerca de la adecuacin
y calidad tcnica de dichas variables.
17. Si los puntajes de un test se usan en conjunto con otras variables cuantitativas
para predecir alguna otra variable, se deben hacer anlisis de regresin (u otra tcnica
equivalente) que incluyan estas otras variables.
18. Cuando se hagan ajustes estadsticos, tanto los coeficientes ajustados como los no
ajustados, as como los procedimientos utilizados, deben ser reportados.
19. Cuando se recomienda el uso de un test para asignar personas a tratamientos
alternativos, y si los resultados de esos tratamientos pueden ser razonablemente
comparados en base a un criterio comn, se debe entregar evidencia que sustente
estos efectos diferenciales.
20. Cuando se use el metaanlisis como evidencia de la robustez de la relacin entre
los puntajes del test y variables criterio, las caractersticas de stos deben ser
comparables con aquellas que se reportan en el metaanlisis. Cualquier diferencia
importante debe ser explicitada.

21. Cualquier evidencia metaanaltica que se use para fundamentar el uso sugerido de
un test debe ser claramente descrita, incluyendo las opciones metodolgicas al
identificar y codificar los estudios y al examinar posibles efectos de variables
moderadoras.
22. Cuando se establece claramente o se seala en forma explcita que el uso
recomendado de un test determinar outcomes especficos, se debe fundamentar la
base que sustenta dicha determinacin.
23. Cuando se recomienda que el uso de un test, adems del fin especfico para el cual
fue elaborado puede generar otros beneficios indirectos, se debe presentar la
fundamentacin de estos otros beneficios.
24. Cuando resulten consecuencias inesperadas del uso de un test, se debe hacer el
esfuerzo de investigar si dichas consecuencias derivan de la sensibilidad del test a
caractersticas distintas de aquellas que se buscaba medir, o si el test fracasa en su
intento de representar el constructo de inters.

Edumetría, Análisis Itemes (JM)

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Edumetría, Análisis Itemes (JM)

Încărcat de

Drepturi de autor:

Formate disponibile

EDUMETRIA, ANALISIS DE ITEMES,

Origen del Enfoque.

Distribucin Normal versus distribucin

Comparacin entre el enfoque

Instrumentos con enfoque

Comparacin entre el enfoque

Instrumentos con enfoque

Amplio rango de dificultad de

Rango de dificultad estrecho.

Comparacin entre el enfoque

Instrumentos con enfoque

Se derivan diversos tipos de

No permite un juicio acerca del Permite informar sobre el nivel

Etapas del proceso de construccin de

Etapas del proceso de construccin de

Evaluacin de la validez de contenido de los itemes

Anlisis de temes en pruebas

Anlisis de temes en pruebas

Especificacin de dominios de aprendizaje para

Taxonoma de Bloom revisada*.

Taxonoma de Bloom revisada.

Dimensin de procesos cognitivos

Taxonoma de Bloom revisada:

Taxonoma de Bloom revisada:

Interpretar. Ej.: Parafrasear una definicin de

Taxonoma de Bloom revisada:

Taxonoma de Bloom revisada:

Taxonoma de Bloom revisada:

Taxonoma de Bloom revisada:

Taxonoma de Bloom revisada:

Taxonoma de Bloom revisada:

Taxonoma de Bloom revisada:

Taxonoma de Bloom revisada:

Taxonoma de Bloom revisada

Dimensin de procesos cognitivos

Puntos de corte: Puntaje de un test que separa a quienes

Criterios para Standard Setting

Errores en la clasificacin de los

Procedimientos para la implementacin

Mtodos basados en los estudiantes /

Es un estudiante o examinado (o grupo) real o ficticio

Ejemplos de Mtodos basados en Tests

Mtodo de Angoff (1971)

A menudo se emplea ms de una vuelta de

Multidimensionalidad. Se requiere que los examinados

Estndares de Rendimiento para

Mtodo de Bookmark (item mapping)

Bookmark: mapa de itemes

Escala de Puntajes IRT

ANLISIS DE ITEMES BASADO EN

Plan de anlisis de itemes

Aspectos que se evala en itemes

Comparacin de grupos extremos

Analizar la omisin segn la posicin del item en la prueba. Si se

Espacio para seleccin de itemes

Grado de Dificultad de los itemes

ILUSTRACIN CON ITEMES DE PRUEBAS

Ejemplo de item de Lenguaje

A) utiliza el deterioro de la lengua como argumento y lo valida a travs de ejemplos.

Ejemplo de resultados del item

Mean Score 45.459

Distribucin del grado de dificultad y

Tasa de Omisin segn la posicin

Relacin entre Omisin