Clase 8

Asignatura : Psicometría
Tema : Validez: Definición y tipos, factores que afectan la validez.

Validez de contenido: criterio de jueces.
Validez de constructo Correlación ítem test, inter escalas, y
correlación entre escalas.
Mg. Fernando Paredes Jara
Trujillo - Perú
¿QUÉ ES VALIDEZ? ¿QUÉ NECESITAN LAS PRUEBAS
PARA SER VÁLIDAS?
VALIDEZ
ESTIMACIÓN ACERCA DE QUÉ TAN BIEN UNA PRUEBA MIDE LO QUE
PRETENDE MEDIR EN UN DETERMINADO CONTEXTO.
ES LA DEMOSTRACIÓN EN QUE EL INSTRUMENTO DE MEDICIÓN CUMPLE EL
FIN POR EL QUE SE ELABORÓ (GREGORY, 2012).
ANSIEDAD DEPRESIÓN
ANSIEDAD ANSIEDAD
VALIDEZ
“Grado en que la evidencia y la teoría respaldan las interpretaciones
de los puntajes de las pruebas para los usos propuestos de las
pruebas (Standards for Educational and Psychological Testing, 2014)
una prueba puede ser confiable sin ser válida, pero no puede ser
válida sin ser confiable. La confiabilidad es una condición necesaria,
pero no suficiente, para la validez. (Gregory, 2012)
VALIDEZ
ES EL RESULTADO DE LAS EVIDENCIAS Y SUPUESTOS TEÓRICOS DE EVALUACIÓN
DE HIPÓTESIS. ESTAS EVIDENCIAS SE DAN POR LOS PUNTAJES PRODUCIDOS POR
UN TEST Y LAS INFERENCIAS EN TORNO A ELLOS. ENTONCES, NO SE PUEDE
RESUMIR EN SOLO INDICADOR.
LO QUE SE VALIDA NO ES EL INSTRUMENTO SINO LA

INTERPRETACION DE DATOS OBTENIDOS POR MEDIO DEL
TEST
11
TIPO DE VALIDEZ
CONTENIDO Muestra representativa de los contenidos.
CRITERIO Relación con otros test (criterios).

Concurrente y predictiva
CONSTRUCTO Relación con mediciones según hipótesis teóricas.

Convergente y discriminante
11
VALIDEZ DE CONTENIDO
Observac/rec
Items Claridad Coherencia relevancia
omendac
CRITERIO DE EXPERTOS
VALIDEZ DE CRITERIO
¿EN QUÉ GRADO EL
CONCURRENTE INSTRUMENTO
COMPARADO CON OTROS
CRITERIOS EXTERNOS MIDE
LO MISMO?
PREDICTIVA
Luego de cierto tiempo
“Todas las medidas de criterio deben describirse de manera precisa y hacerse explícita la
fundamentación para elegirlas como criterios relacionados” (AERA, APA, 1985).
VALIDEZ DE CRITERIO: concurrente
 Usualmente se usan en pruebas de diagnóstico.
 Las correlaciones entre un nuevo instrumento y otros existentes se citan como
evidencia de validez concurrente (Gregory (20121).
 Las pruebas existentes deben haberse validado con datos conductuales y deben
medir el mismo constructo.
VALIDEZ DE CONSTRUCTO
Grado en que el instrumento mide un constructo particular, o
concepto psicológico como la ansiedad, la motivación para el
logro, la extroversión introversión o el neuroticismo.
Es el tipo más general de validez, no se determina de una sola
manera o por una investigación. Involucra una red de
investigaciones y otros procedimientos diseñados para determinar
si un instrumento de evaluación que supuestamente mide una
determinada variable de personalidad en realidad lo hace (Gregory
2012).
convergente
Evalúan lo mismo
discriminante
NO Evalúan lo mismo
VALIDEZ DE CONTENIDO
 También llamada por criterio de expertos.
 Es el grado en que un conjunto de reactivos representan adecuadamente
un dominio de conductas (Nunnally, 1973; Lennon, 1956, citado en Sireci &
Faulkner, 2014).
 Es la muestra representativa de un contenido teórico de conocimientos o
habilidades Observac/rec
Items Claridad Coherencia relevancia
omendac
SE SUGIERE UN NÚMERO NO MENOR A 10 JUECES (AIKEN
SUGERENCIAS SIRECI & Faulkner, 2014).
ES PREFERIBLE QUE SEAN NÚMEROS IMPAR.
GARANTIZA LA GERERALIZACION DE LOS RESULTADOS AL
UNIVERSO DE CONTENIDO QUE LA PRUEBA REPRESENTA.
n es el total de jueces, en este caso son 5
JUECES suma
items
1 2 3 4 5 total
1 0 1 2 3 0 6
2 1 2 3 1 2 9 suma total por
cada item en S
3 3 1 1 0 2 7
4 2 2 3 3 2 12
cantidad de valores con que se
cada puntaje dado por los jueces en Si evaluó cada item, en este caso
son 4 valores (0,1,2,3)
6
V= = 0.40
(5 4−1 )
JUECES suma
items 12
1 2 3 4 5 total V= = 0.80
(5 4−1 )
1 0 1 2 3 0 6
4 2 2 3 3 2 12
EJERCICIO
CON LA APLICACIÓN DE UN TEST DE 8 ITEMS A UNA MUESTRA PILOTO DE 8 SUJETOS, SE
OBTUVIERON LOS SIGUIENTES RESULTADOS:
Item Item Item Item Item Item Item Item

1 2 3 4 5 6 7 8
Sujeto 1 3 2 1 1 2 2 1 3
sujeto2 1 1 1 3 1 1 3 3
sujeto3 2 2 1 3 2 2 3 2
sujeto4 2 1 1 3 2 2 3 1
Sujeto 5 2 1 2 3 2 2 3 1
Sujeto 6 2 1 1 2 2 1 3 3
Sujeto 7 2 1 2 2 2 2 3 2
Sujeto 8 2 1 1 2 2 2 3 1
PRIMER PASO
ELABORAR LA SABANA DE DATOS
SUJETOS ITEMS PUNTAJE

TOTAL
a b c d e f g h
1 3 2 1 1 2 2 1 3
2 1 1 1 3 1 1 3 3
3 2 2 1 3 2 2 3 2
4 2 1 1 3 2 2 3 1
5 2 1 2 3 2 2 3 1
6 2 1 1 2 2 1 3 3
7 2 1 2 2 2 2 3 2
8 2 1 1 2 2 2 3 1
SEGUNDO PASO
Vamos a correlacionar la puntuación obtenida en el ítem, con la suma total
de los ítems. Utilizaremos la formula r de Pearson
Donde:
n= Número de sujetos
x= Puntuación total de ítems
y= Puntuación total de sujetos
SABANA DE DATOS SABANA DE DATOS PARA HALLAR I.D
SUJET ITEMS PUNTAJE
OS
TOTAL Item “a” P.T
SUJETOS
a b c d e f g h
x y xy 𝒙𝟐 𝒚𝟐
1 3 2 1 1 2 2 1 3 15
1 3 15
2 1 1 1 3 1 1 3 3 14 2 1 14
3 2 2 1 3 2 2 3 2 17 3 2 17
4 2 1 1 3 2 2 3 1 15 4 2 15
5 2 16
5 2 1 2 3 2 2 3 1 16
6 2 15
6 2 1 1 2 2 1 3 3 15
7 2 16
7 2 1 2 2 2 2 3 2 16
8 2 14
8 2 1 1 2 2 2 3 1 14 sumatorias
෍𝑥 = ෍𝑦 = ෍ 𝑥𝑦 = ෍ 𝒙𝟐 = ෍ 𝒚𝟐 =
HALLAR EL I.D DEL ITEM ITEM “a”
SUJETOS
Item “a” P.T
1 3 15
2 1 14
3 2 17
4 2 15
5 2 16
6 2 15
7 2 16
8 2 14
sumatorias ෍𝑥 = ෍𝑦 = ෍ 𝑥𝑦 = ෍ 𝒙𝟐 = ෍ 𝒚𝟐 =
TRANSPONIENDO A LA FORMULA
Item “a” P.T
SUJETOS
1 3 15 45 9 225
2 1 14 14 1 196
3 2 17 34 4 289
4 2 15 30 4 225
5 2 16 32 4 256
6 2 15 30 4 225
7 2 16 32 4 256
8 2 14 28 4 196
sumatorias
෍ 𝑥 = 16 ෍ 𝑦 = 122 ෍ 𝑥𝑦 = 245 ෍ 𝒙𝟐 = 34 ෍ 𝒚𝟐 = 1868
Sumatorias
8 SUJETOS ෍ 𝐱 = 𝟏𝟔 ෍ 𝑦 = 122 ෍ 𝑥𝑦 = 245 ෍ 𝒙𝟐 = 34 ෍ 𝒚𝟐 = 1868
RESULTADOS
ITEM´S I.D Pearson
a 0.26
b 0.45
c 0.45
d 0.23
e 0.49
f 0.45
g 0.10
h -0.15
TERCER PASO: EVALUACION DE LOS
ITEMS
Luego del análisis estadístico, se obtuvo un conjunto de
coeficientes de correlación, o de índices de
discriminación, las mismas que deben ser evaluadas de
manera cualitativa
CRITERIOS DE EVALUACIÓN
 Un criterio básico para eliminar item´s es que el coeficiente hallado sea negativo.
 Otro criterio para eliminación de ítem´s es que sean muy bajos, por ejemplo
inferior a 0.20
 Se eliminan también los puntajes muy altos, pero si este es el único se aprueba.
 Buscar siempre el término medio, si los resultados son iguales se lee los ítems y
optamos por el mas coherente.
 Tomar en cuenta la tabla de especificaciones: si se observa que existen muchos
ítems para un mismo indicador, aun si todos tuvieran buenos índices, pueden ser
anulados algunos teniendo en cuenta la coherencia con las restricciones de la prueba. Si
se observa que se tienen pocos ítems y estos son insuficientes, para medir el indicador o
subindicador, pueden tomarse en cuenta algunos ítems con bajo coeficientes
TERCER PASO
ANALISIS DE LOS RESULTADOS OBTENIDOS.
Los ítems deben ordenarse en función a los indicadores de la prueba.
INDICADORES ITEM´S r EVALUACION

a 0.26 
I.1 b 0.45 
c 0.0 X
d 0.23 
I.2
e 0.01 X
I.3 f 0.45 
OJO: TENER
CUIDADO EN g 0.10 X
ELIMINAR EL
INDICADOR I.4
h -0.15 X
Trabajo individual
- Desarrollar las hojas de trabajo, de manera individual.
- Realizar la calificación, de acuerdo a lo desarrollado en clase.
- Presentar las tablas ( V Aiken y r de Pearson) con su respectiva interpretación,
según normas APA.
Ejemplos de presentación tablas
Tabla 2
Validez de contenido por medio de criterio de jueces
Ítems Jueces V general Calificació

n
1 2 3 4 5 6 7
1 .93 .93 1.00 .87 .93 1.00 .87 .93 Aceptado
2 .73 .73 .87 .87 .82 .87 .87 .82 Aceptado
3 1.00 1.00 1.00 .93 .98 1.00 .93 .98 Aceptado
4 .87 .87 .93 1.00 .93 .93 1.00 .93 Aceptado
5 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 Aceptado
6 .93 .93 1.00 1.00 .98 1.00 1.00 .98 Aceptado
7 .87 .87 .93 .80 .87 .93 .80 .87 Aceptado
8 .93 .93 .93 1.00 .96 .93 1.00 .95 Aceptado
9 .80 .80 .93 1.00 .91 .93 1.00 .91 Aceptado
En la tabla 2, se muestra que para hallar la validez de contenido del Inventario de Estrés Cotidiano Infantil, se ha utilizado el coeficiente V de Aiken
(1980), y se han obtenido valores mayores a lo que indica Charter (2003) (V >= 0.70), Por lo tanto, como lo dicen los autores antes citados, todos
los reactivos tienen validez, ubicándose en la categoría de aceptable.
Tabla 3
Validez del constructo del Inventario de Estrés Cotidiano Infantil mediante el método Ítem-Test
ITEM r. CALIFICACIÓN
1 .35 Aceptable
2 .30 Aceptable
3 .18 No Aceptable
4 .51 Aceptable
5 .42 Aceptable
6 .33 Aceptable
7 .13 No Aceptable
8 .33 Aceptable
9 .40 Aceptable
16 .27 Aceptable
17 .30 Aceptable
18 .34 Aceptable
19 .22 Aceptable
20 .34 Aceptable
21 .32 Aceptable
22 .50 Aceptable
En la Tabla 3 de la validez del constructo, se puede apreciar que las puntuaciones de los ítems fluctúan entre 0,20 y 0,50, a lo cual, según
Kline (2005), los ítems cuentan con un nivel de validez aceptable debido a que las puntuaciones son mayores o iguales a 0.20; sin embargo,
los ítems 3,4 y 11 obtuvieron puntuaciones por debajo de lo esperado, ubicándose en una categoría de no aceptable.

Clase 8

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Clase 8

Încărcat de

Drepturi de autor:

Formate disponibile

Asignatura : Psicometría

Tema : Validez: Definición y tipos, factores que afectan la validez.

Mg. Fernando Paredes Jara

LO QUE SE VALIDA NO ES EL INSTRUMENTO SINO LA

CRITERIO Relación con otros test (criterios).

CONSTRUCTO Relación con mediciones según hipótesis teóricas.

Item Item Item Item Item Item Item Item

SUJETOS ITEMS PUNTAJE

INDICADORES ITEM´S r EVALUACION

Ítems Jueces V general Calificació

2 .73 .73 .87 .87 .82 .87 .87 .82 Aceptado

3 1.00 1.00 1.00 .93 .98 1.00 .93 .98 Aceptado

4 .87 .87 .93 1.00 .93 .93 1.00 .93 Aceptado

5 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 Aceptado

6 .93 .93 1.00 1.00 .98 1.00 1.00 .98 Aceptado

7 .87 .87 .93 .80 .87 .93 .80 .87 Aceptado

8 .93 .93 .93 1.00 .96 .93 1.00 .95 Aceptado

9 .80 .80 .93 1.00 .91 .93 1.00 .91 Aceptado

S-ar putea să vă placă și