Sunteți pe pagina 1din 46

Anlisis estadstico

en la elaboracin de
exmenes

EL OBJETIVO
Explicar los estndares de calidad en la
elaboracin de exmenes segn los
Estndares para la Evaluacin Educativa y
Psicolgica (AERA, APA, NCME; 2014).
Facilitar la comprensin de los requisitos
que ACLES exige en su solicitud en los
apartados 9 y 10: Caractersticas del
examen y Control de Calidad.

El taller - 1 parte
Trataremos la parte ms terica:
Evidencias de validez:
contenido, proceso de respuesta,
estructura interna, relacin con
otras variables y consecuencias
Fiabilidad

El taller - 2 parte
Trataremos una parte ms aplicada.
Exposicin de las fases del anlisis:
Pilotaje.
Post-convocatoria.
Descripcin de los conceptos estadsticos
basados en teora clsica de test.
Programas estadsticos que podemos
emplear.

El taller - 3 parte
En la ltima parte del taller
repasaremos juntos el modelo ACLES
(puntos 9 y 10) para resolver
posibles dudas:
Caractersticas del examen
Control de calidad

Primera parte

VALIDEZ
We have found the following adjectives attached to validity
in discussions of conceptualization and mesurement: a
priori, apparent, assumption, common-sense, conceptual,
concurrent, congruent, consensual, consequential,
construct, content, convergent, criterion related,
curricular, definitional, differential, discriminant, empirical,
face, factorial, incremental, instrumental, intrisic,
linguistic, logical, nomological, postdictive, practical,
pragmatic, predictive, rational, response, sampling, status,
subtantive, theorical, and trait.

(Adcock & Collier, p.530, 2001).

VALIDEZ
Grado en que la teora y los datos
disponibles apoyan la interpretacin
de las puntuaciones de un test para
un uso concreto. (pg.161, Medicin en Ciencias
Sociales y de la Salud).

Estndares para la
Evaluacin Educativa
Estndares de 2014
La validez puede estar basada en evidencias
segn
El contenido del test
El proceso de respuesta
La estructura interna
La relacin con otras variables
Las consecuencias de la evaluacin
La fiabilidad
La equidad

Contenido
mbito: temas, tareas, expresin, formato
de los tems, instrucciones para la
administracin y puntuacin del test.

Las pruebas son de tipo terico, lgico y


emprico.
Revisin bibliogrfica.
Opinin de las personas
interesadas:
Expertos del constructo a
evaluar.

Contenido
Consideraciones generales sobre
escritura de tems:
Definicin clara y precisa del constructo
a medir.
Nmero aproximado y formato de los
tems.
Confeccionar el doble o triple de tems.
Representacin relevante.

Contenido
tems de eleccin mltiple, las
alternativas:
Homogneas en longitud y relevancia.
Evitar negaciones dobles.
Evitar reiteraciones innecesarias.
Si se utilizan cifras, presentarlas
ordenadas.
Evitar usar todas las anteriores.
La ubicacin de la alternativa correcta
se ha de establecer al azar.

Proceso de respuesta
Para mejorar el proceso: conocer qu
factores influyen, cmo detectar posibles
procesos inadecuados, y cmo introducir
las correcciones que podamos.
Factores que influyen en el proceso de
respuesta:
Contenido de los tems
Instrucciones para contestar el
cuestionario
Longitud del cuestionario

Proceso de respuesta
Metodologa:
Observar que hacen las personas al
responder.
Preguntar a las personas.
Anlisis emprico de las respuestas:
Deteccin de patrones anmalos.

Resultados:
Mucha variabilidad en el proceso de respuesta,
conlleva una revisin del formato del test.

Estructura Interna
Mide nuestro test un constructo
coherente o se trata simplemente de un
conjunto de tems no relacionados?
Para estudiarla:
Estudios de dimensionalidad (AFE,
AFC).
Funcionamiento diferencial de los
tems (DIF).

Consecuencias de la
aplicacin del test
Demostrar que las consecuencias de
la avaluacin coinciden con las
consecuencies previstas
Indagar sobre la existencia de posibles
consecuencias no previstas
debidas a infrarepresentacin del
constructo
debidas a incluir aspectos
irrelevantes

Relacin con otras variables


El objetivo es establecer si las relaciones
observadas entre las puntuaciones en
el test y otras variables externas
relevantes son consistentes con la
interpretacin propuesta para las
puntuaciones.
Evidencia convergente, discriminante o
referida a un criterio.

Relacin con otras variables


Variables externas relevantes:
Otras medidas del mismo constructo
obtenidas con diferentes tests.
Medidas de constructos diferentes pero
que se insertan en el mismo modelo
terico.
Algn tipo de variable que
pretendamos predecir a partir de las
puntuaciones en el test.

FIABILIDAD
Grado en que una medida es
consistente en diferentes
aplicaciones del mismo instrumento
de medida.
(pg.161, Medicin en Ciencias Sociales y de la Salud).

FIABILIDAD
Confianza
Coherencia
Reproductibilidad
Seguridad
Precisin

Cmo estudiar la
fiabilidad?
Teora clsica de test.
Teora de respuesta al tem.
Teora de la generalizabilidad.

Estrategias
Estrategi
a
Test-retest

Aplicacion
es
Dos
aplicaciones

Paso de
tiempo entre
aplicaciones

Estadsticos

Correlacin:
Pearson
Spearman
Kappa de Cohen

T. Paralelas Una
aplicacin

No necesaria

Igual que en Testretest

Consistenci Una
a interna
aplicacin

No necesaria

Homogeneidad y
consistencia:
Spearman-Brown
Glutman-Flanegan
Alfa de Cronbach

Consistencia Interna

EQUIDAD
Ausencia de sesgo.
Tratamiento equitativo durante el proceso.
Igualdad en la exposicin de los
resultados.
Derechos y responsabilidades de los
examinados.
Background de los examinandos.
Atencin a los discapacitados.

Segunda parte

Pilotaje parte cualitativa


Qu vamos a evaluar? A quin vamos a
evaluar?
Tabla de especificaciones para la creacin de
tems. (Crear ms de los necesarios).
Tipologas
Nmero
Nivel
Revisin por parte de expertos que no han
elaborado los tems.

Pilotaje
No puede olvidarse que el objetivo
esencial es conseguir una muestra de
tems relevante para cada uno de los
componentes del constructo, asegurar
que cada componente est bien
representado por los tems elaborados y
en la proporcin adecuada en funcin de
su importancia dentro de la definicin
adoptada.
(Desarrollo y revisin de estudios instrumentales, Carretero-Dios y Perez)

Pilotaje recogida de datos


Cuntos alumnos necesito? (Muestra)
- Nmero de tems/ejercicios.
- Nmero de niveles implicados.
- Tiempo para llevarlo a cabo.
- Poblacin disponible.

Necesitamos crear paquetes?

Pilotaje recogida de datos


Caractersticas de los paquetes:
20 % tems de anclaje (comunes).
Misma distribucin de tems.
Tipologa.
Dificultad.

Pilotaje recogida de datos


Condiciones de aplicacin:
Instrucciones.
Condiciones del aula.
Recogida de datos.
Muestra:
Alumnos del nivel inmediatamente inferior y
superior.
300 alumnos o 5-10 alumnos por tem.

Pilotaje anlisis
cuantitativo

Control de calidad:
Anlisis descriptivo tem de anclaje por paquete.
Anlisis grfico del comportamiento.
Anlisis de tems: dificultad, discriminacin,
distractores.
Anlisis de validez y fiabilidad:
Evidencias de validez (basadas en las cinco
evidencias).
Fiabilidad (consistencia interna).

Dificultad
Es la proporcin de estudiantes que
contestan correctamente a la pregunta.
Por su interpretacion podra denominarse
ndice de xito.
Qu valores toma el ndice de dificultad?
Ejemplo:
Una muestra de 130 alumnos si un tem lo
responden correctamente 80. 0,6153

Dificultad
Valor
0.81 1.00
0.61 0.80
0.41 0.60
0.21 0.40
0.00 0.20

Calidad
Muy fcil
Fcil
Moderada
Difcil
Muy difcil

Discriminacin
Coeficiente de discriminacin.
Correlacin biserial.
ndice de discriminacin.
Dividir la muestra en 3 grupos:
27% (Pa), 46%, 27% (Pb).
Discriminacin= Pa Pb
(Pa: Proporcin de respuestas correctas del 27% de los alumnos
con mejor nota.)
(Pa: Proporcin de respuestas correctas del 27% de los alumnos con
peor nota.)

Discriminacin

Discriminacin
Valor
> 0.39
0.31
0.39
0.20
0.30
0.00
0.19

Calida Recomendacin
d
Excelen Conservar
te
Buena Posibilidades de
mejorar
Regular Necesita ser revisado
Tabla. Poder de dsicriminacin (valor D).
Ebel y Frisbie (1986)

Pobre

Descartar o revisar en
profundidad

Anlisis de distractores
Consiste en estudiar las respuestas a
las alternativas incorrectas.
Al aumentar el nmero de
alternativas, se reduce la
probabilidad de aciertos al azar. El
nmero ptimo de alternativas sera
3 (Grier, 1976).

Correlacin
Relacin entre dos variables
cuantitativas.
Toma valores entre -1 y +1:
Negativo: a mayor valor de una variable,
menor valor de la otra.
Positivo: a mayor valor de la variable,
mayor valor de la otra.

Correlacin

Correlacin

Post anlisis cuantitativo


Anlisis descriptivo (media, desviacin
estndar, cuartiles, grficos):
De los ejercicios.
Del global.
Anlisis de validez y fiabilidad:
Evidencias de validez (contenido, proceso
de respuesta, estructura interna,
consecuencias y relacin con otras
variables).
Fiabilidad (consistencia interna).

Programas informticos
Comerciales: SPSS, SAS, STATA
BILOG, WINSTEP, PARSCALE
Gratuitos:
TAP

(www.ohio.edu/people/brooksg/software.htm )
R (R-commander) www.rcommander.com

OpenOffice

Tercera parte

SOLICITUD PUNTO 9

SOLICITUD PUNTO 10

Muchas gracias por su atencin

Rebeca Garca-Rueda
Rebeca.Garcia@uab.es

S-ar putea să vă placă și