Documente Academic
Documente Profesional
Documente Cultură
Trujillo - Perú
¿QUÉ ES VALIDEZ? ¿QUÉ NECESITAN LAS PRUEBAS
PARA SER VÁLIDAS?
VALIDEZ
ESTIMACIÓN ACERCA DE QUÉ TAN BIEN UNA PRUEBA MIDE LO QUE
PRETENDE MEDIR EN UN DETERMINADO CONTEXTO.
ES LA DEMOSTRACIÓN EN QUE EL INSTRUMENTO DE MEDICIÓN CUMPLE EL
FIN POR EL QUE SE ELABORÓ (GREGORY, 2012).
ANSIEDAD DEPRESIÓN
ANSIEDAD ANSIEDAD
VALIDEZ
“Grado en que la evidencia y la teoría respaldan las interpretaciones
de los puntajes de las pruebas para los usos propuestos de las
pruebas (Standards for Educational and Psychological Testing, 2014)
una prueba puede ser confiable sin ser válida, pero no puede ser
válida sin ser confiable. La confiabilidad es una condición necesaria,
pero no suficiente, para la validez. (Gregory, 2012)
VALIDEZ
ES EL RESULTADO DE LAS EVIDENCIAS Y SUPUESTOS TEÓRICOS DE EVALUACIÓN
DE HIPÓTESIS. ESTAS EVIDENCIAS SE DAN POR LOS PUNTAJES PRODUCIDOS POR
UN TEST Y LAS INFERENCIAS EN TORNO A ELLOS. ENTONCES, NO SE PUEDE
RESUMIR EN SOLO INDICADOR.
11
VALIDEZ DE CONTENIDO
Observac/rec
Items Claridad Coherencia relevancia
omendac
CRITERIO DE EXPERTOS
VALIDEZ DE CRITERIO
¿EN QUÉ GRADO EL
CONCURRENTE INSTRUMENTO
COMPARADO CON OTROS
CRITERIOS EXTERNOS MIDE
LO MISMO?
PREDICTIVA
Luego de cierto tiempo
“Todas las medidas de criterio deben describirse de manera precisa y hacerse explícita la
fundamentación para elegirlas como criterios relacionados” (AERA, APA, 1985).
VALIDEZ DE CRITERIO: concurrente
Usualmente se usan en pruebas de diagnóstico.
Las correlaciones entre un nuevo instrumento y otros existentes se citan como
evidencia de validez concurrente (Gregory (20121).
Las pruebas existentes deben haberse validado con datos conductuales y deben
medir el mismo constructo.
VALIDEZ DE CONSTRUCTO
Grado en que el instrumento mide un constructo particular, o
concepto psicológico como la ansiedad, la motivación para el
logro, la extroversión introversión o el neuroticismo.
Es el tipo más general de validez, no se determina de una sola
manera o por una investigación. Involucra una red de
investigaciones y otros procedimientos diseñados para determinar
si un instrumento de evaluación que supuestamente mide una
determinada variable de personalidad en realidad lo hace (Gregory
2012).
VALIDEZ DE CONSTRUCTO
convergente
Evalúan lo mismo
discriminante
NO Evalúan lo mismo
VALIDEZ DE CONSTRUCTO
VALIDEZ DE CONTENIDO
También llamada por criterio de expertos.
Es el grado en que un conjunto de reactivos representan adecuadamente
un dominio de conductas (Nunnally, 1973; Lennon, 1956, citado en Sireci &
Faulkner, 2014).
Es la muestra representativa de un contenido teórico de conocimientos o
habilidades Observac/rec
Items Claridad Coherencia relevancia
omendac
SE SUGIERE UN NÚMERO NO MENOR A 10 JUECES (AIKEN
SUGERENCIAS SIRECI & Faulkner, 2014).
ES PREFERIBLE QUE SEAN NÚMEROS IMPAR.
GARANTIZA LA GERERALIZACION DE LOS RESULTADOS AL
UNIVERSO DE CONTENIDO QUE LA PRUEBA REPRESENTA.
n es el total de jueces, en este caso son 5
JUECES suma
items
1 2 3 4 5 total
1 0 1 2 3 0 6
2 1 2 3 1 2 9 suma total por
cada item en S
3 3 1 1 0 2 7
4 2 2 3 3 2 12
cantidad de valores con que se
cada puntaje dado por los jueces en Si evaluó cada item, en este caso
son 4 valores (0,1,2,3)
6
V= = 0.40
(5 4−1 )
JUECES suma
items 12
1 2 3 4 5 total V= = 0.80
(5 4−1 )
1 0 1 2 3 0 6
4 2 2 3 3 2 12
EJERCICIO
CON LA APLICACIÓN DE UN TEST DE 8 ITEMS A UNA MUESTRA PILOTO DE 8 SUJETOS, SE
OBTUVIERON LOS SIGUIENTES RESULTADOS:
Sujeto 1 3 2 1 1 2 2 1 3
sujeto2 1 1 1 3 1 1 3 3
sujeto3 2 2 1 3 2 2 3 2
sujeto4 2 1 1 3 2 2 3 1
Sujeto 5 2 1 2 3 2 2 3 1
Sujeto 6 2 1 1 2 2 1 3 3
Sujeto 7 2 1 2 2 2 2 3 2
Sujeto 8 2 1 1 2 2 2 3 1
PRIMER PASO
ELABORAR LA SABANA DE DATOS
Donde:
n= Número de sujetos
x= Puntuación total de ítems
y= Puntuación total de sujetos
SABANA DE DATOS SABANA DE DATOS PARA HALLAR I.D
SUJET ITEMS PUNTAJE
OS
TOTAL Item “a” P.T
SUJETOS
a b c d e f g h
x y xy 𝒙𝟐 𝒚𝟐
1 3 2 1 1 2 2 1 3 15
1 3 15
2 1 1 1 3 1 1 3 3 14 2 1 14
3 2 2 1 3 2 2 3 2 17 3 2 17
4 2 1 1 3 2 2 3 1 15 4 2 15
5 2 16
5 2 1 2 3 2 2 3 1 16
6 2 15
6 2 1 1 2 2 1 3 3 15
7 2 16
7 2 1 2 2 2 2 3 2 16
8 2 14
8 2 1 1 2 2 2 3 1 14 sumatorias
𝑥 = 𝑦 = 𝑥𝑦 = 𝒙𝟐 = 𝒚𝟐 =
HALLAR EL I.D DEL ITEM ITEM “a”
SUJETOS
Item “a” P.T
x y xy 𝒙𝟐 𝒚𝟐
1 3 15
2 1 14
3 2 17
4 2 15
5 2 16
6 2 15
7 2 16
8 2 14
sumatorias 𝑥 = 𝑦 = 𝑥𝑦 = 𝒙𝟐 = 𝒚𝟐 =
TRANSPONIENDO A LA FORMULA
Item “a” P.T
SUJETOS
x y xy 𝒙𝟐 𝒚𝟐
1 3 15 45 9 225
2 1 14 14 1 196
3 2 17 34 4 289
4 2 15 30 4 225
5 2 16 32 4 256
6 2 15 30 4 225
7 2 16 32 4 256
8 2 14 28 4 196
sumatorias
𝑥 = 16 𝑦 = 122 𝑥𝑦 = 245 𝒙𝟐 = 34 𝒚𝟐 = 1868
Sumatorias
8 SUJETOS 𝐱 = 𝟏𝟔 𝑦 = 122 𝑥𝑦 = 245 𝒙𝟐 = 34 𝒚𝟐 = 1868
RESULTADOS
ITEM´S I.D Pearson
a 0.26
b 0.45
c 0.45
d 0.23
e 0.49
f 0.45
g 0.10
h -0.15
TERCER PASO: EVALUACION DE LOS
ITEMS
Luego del análisis estadístico, se obtuvo un conjunto de
coeficientes de correlación, o de índices de
discriminación, las mismas que deben ser evaluadas de
manera cualitativa
CRITERIOS DE EVALUACIÓN
Un criterio básico para eliminar item´s es que el coeficiente hallado sea negativo.
Otro criterio para eliminación de ítem´s es que sean muy bajos, por ejemplo
inferior a 0.20
Se eliminan también los puntajes muy altos, pero si este es el único se aprueba.
Buscar siempre el término medio, si los resultados son iguales se lee los ítems y
optamos por el mas coherente.
Tomar en cuenta la tabla de especificaciones: si se observa que existen muchos
ítems para un mismo indicador, aun si todos tuvieran buenos índices, pueden ser
anulados algunos teniendo en cuenta la coherencia con las restricciones de la prueba. Si
se observa que se tienen pocos ítems y estos son insuficientes, para medir el indicador o
subindicador, pueden tomarse en cuenta algunos ítems con bajo coeficientes
TERCER PASO
ANALISIS DE LOS RESULTADOS OBTENIDOS.
Los ítems deben ordenarse en función a los indicadores de la prueba.
En la tabla 2, se muestra que para hallar la validez de contenido del Inventario de Estrés Cotidiano Infantil, se ha utilizado el coeficiente V de Aiken
(1980), y se han obtenido valores mayores a lo que indica Charter (2003) (V >= 0.70), Por lo tanto, como lo dicen los autores antes citados, todos
los reactivos tienen validez, ubicándose en la categoría de aceptable.
Tabla 3
Validez del constructo del Inventario de Estrés Cotidiano Infantil mediante el método Ítem-Test
ITEM r. CALIFICACIÓN
1 .35 Aceptable
2 .30 Aceptable
3 .18 No Aceptable
4 .51 Aceptable
5 .42 Aceptable
6 .33 Aceptable
7 .13 No Aceptable
8 .33 Aceptable
9 .40 Aceptable
16 .27 Aceptable
17 .30 Aceptable
18 .34 Aceptable
19 .22 Aceptable
20 .34 Aceptable
21 .32 Aceptable
22 .50 Aceptable
En la Tabla 3 de la validez del constructo, se puede apreciar que las puntuaciones de los ítems fluctúan entre 0,20 y 0,50, a lo cual, según
Kline (2005), los ítems cuentan con un nivel de validez aceptable debido a que las puntuaciones son mayores o iguales a 0.20; sin embargo,
los ítems 3,4 y 11 obtuvieron puntuaciones por debajo de lo esperado, ubicándose en una categoría de no aceptable.