U3

Confiabilidad y validez
Tanto la validez como la confiabilidad permiten estimar la solidez psicométrica de los

instrumentos.
Confiabilidad (Hogan) (Mikulic)
Una prueba es confiable, es decir, consistente y precisa al margen de lo que mida exactamente.
Es decir, que la confiabilidad tiene que ver con que la prueba mida bien, mas alla de que mida.
Por ende una medición puede ser confiable sin ser válida, pero no puede ser válida sin ser
confiable. Permite evaluar si una misma técnica funcionara de igual forma bajo diferentes
condiciones.
Una prueba es confiable dependiendo de:
- Consistencia: siempre genera la misma puntuación o similar para un individuo
- Replicabilidad: la calificación puede ser replicada al menos con cierto margen de error
- Fiabilidad: podemos fiarnos o depender de que una prueba confiable genere en buena medida
la misma puntuación en un individuo.
Es importante distinguir distintos tipos de errores que se pueden llegar a dar:
-Errores contantes: es aquel que genera una puntuación sistemáticamente elevada o baja en una
persona al margen de la constancia que haya en la persona en el rasgo medido. Estos errores son
aleatorios, constantes y no sistematizados que o afectan a la confiabilidad. (ej: si a niño de
lengua materna español se le evalúa ingles obtendrá un puntaje inferior a sus capacidades de
forma constante). Puede afectar a todas las observaciones por igual y ser un error constante, o
afectar a cierto tipo de observaciones y ser un sesgo. Es difícil predecir y controlar ya que está
relacionado a factores casuales.
- Errores no sistemáticos: los errores que dan problemas de confiabilidad. Las principales
fuentes de error son:
. Calificación de prueba: surge de la falta de acuerdo entre calificadores en los criterios para
calificar las puntuaciones de las personas en las pruebas. Cuanto mas juicio (deliberación,
pensar sobre ello, cuanto más subjetivo) exija la calificación, mas será posible la falta de
confiabilidad. Para que esto no suceda se debe contar con criterios de calificación claros y
explícitos a fin de que se reduzca al mínimo las variaciones entre calificaciones.
.Contenido de la prueba: las variaciones del muestreo de los reactivos de una prueba pueden
generar un error no sistemático en las puntuaciones. Las puntuaciones aumentan o disminuyen
no por diferencias reales sino por cambios aleatorios en el conjunto de los reactivos que se
presentan a la prueba. Ejemplo: de 6 temas, un alumno estudia los primeros 3 y el otro los otros
3, la profesora pregunta sobre los primeros 4 temas, los dos estudiaron la misma cantidad pero
al primero le va mejor.
.Aplicación de una prueba: se da por las variaciones de las aplicaciones, por ejemplo el en cómo
se da la instrucción, los límites de tiempo, la luz, el ruido o las disposiciones físicas. Para esto,
la prueba debe contar con procedimientos estandarizados de aplicación donde deban ser
controladas todas las variables contaminantes.
.Condiciones personales: las condiciones de las personas varían de un día a otro.
La confiabilidad de la prueba puede formularse en tres marcos conceptuales: teoría clásica de la

prueba (TCP) teoría de la respuesta al ítem (TRI) o teoría de la generalizabilidad (TG)
En cuanto a la teoría clásica de la prueba los términos claves son: puntuación observada,
puntuación verdadera y puntuación de error. El puntaje que obtiene una persona en una prueba
incluye el puntaje real de la persona y un margen de error que puede aumentar o disminuir dicha
puntuación verdadera.
Puntaje real + margen de error = puntaje de prueba
 Puntuación observada: puntuación que obtiene la persona en la prueba, la natural de la

persona.
 Puntuación verdadera: puntuación que se obtendría si se eliminaran o suprimieran todas

las fuentes de inestabilidad. Es decir, son las puntuaciones reales. Es la puntuación
promedio obtenida de varias aplicaciones de la prueba en diferentes momentos y
condiciones.
 Puntuación de error: es la diferencia entre la puntuación observada y verdadera. Puede

ser positiva y negativa. Es la suma de todas las influencias no sistemáticas en la
puntuación verdadera.
Métodos para determinar la confiabilidad
 Test-re test: se obtiene aplicando la misma prueba a los mismos individuos en dos
ocasiones diferentes. El coeficiente de confiabilidad es la correlación. Si la correlación
entre los resultados de las diferentes aplicaciones es altamente positiva, el instrumento
es confiable. Evalúa los cambios en las condiciones personales, condiciones en las
aplicaciones y condiciones en los calificadores dependiendo si la prueba califica la
misma persona o proceso
Desventajas: no evalua los cambios en el contenido de la prueba, porque siempre es la

misma que se aplica. Preocupa el efecto de la primera prueba en la segunda, quizá el
examinado recuerde la primera y de las mismas respuestas en la segunda ocasión, o
también puede equivocarse en la primera y resolverlo en los días intermedios y asi
contestarlo bien en el segundo. El intervalo debe ser lo suficientemente largo para que
la primera prueba ejerza una influencia minima en la segunda, pero no debe ser tan
largo que el rasgo medido pudiera sufrir algún cambio verdadero entre las dos
evaluaciones. (LISRES)
 Confiabilidad entre calificadores: se evalua a quienes califican la prueba. Minimo dos
personas califican la prueba y se correlacionan las puntuaciones que asigno cada
calificador. Es importante cuando el juicio interviene en el proceso de calificación.
 Confiabilidad de la forma alterna o paralela o equivalente: exige que haya dos

fromas de la prueba que deben ser iguales o similares en la cantidad de reactivos,
limites de tiempo, contenido,etc. Se deben aplicarambas formas de la prueba a los
mismos examinados y sacar un coeficiente de correlacion entre las puntuaciones
obtenidas de las dos formas. Se pueden aplicar en sucesión inmediata ambas pruebas si
son breves y poco exigentes, sino se puede dejar un tiempo estipulado entre cada
aplicación de las formas. Si se deja ese tiempo no solo se medirá las variaciones en el
contenido sino también en las condiciones personales y de aplicación. No se utiliza
mucho ya que son pocas las pruebas que cuentan con formas alternas, además reduce
pero no elimina el efecto de la práctica y lleva tiempo.
 Consistencia interna: se utiliza cuando no interesa cuanto han cambiado los sujetos en
el tiempo, sino en saber si los ítems o las partes del cuestionario responden a las mismas
especificaciones y si los ítems son representativos del constructo a estudiar. Es
imprescindible que todas las partes del cuestionario representen al mismo dominio de
contenido, además de que los ítems estén bien construidos. Hay distintos métodos de
medir la consistencia interna:
-División por mitades: se realiza la aplicación de una sola prueba pero se califica a la
misma por dos mitades, como si cada mitad fuera una forma alterna de la prueba. Luego
se correlacionan los puntajes de ambas partes. Si el instrumento es confiable, las
puntuaciones de ambas mitades deben estar fuertemente correlacionadas. Un individuo
con baja puntuación en una mitad, tendrá que tener también baja la puntuación en la
otra mitad.
Normalmente la prueba no se divide exactamente en una primera y segunda mitad, ya

que en la segunda mitad los reactivos son mas difíciles y los examinados pueden estar
mas cansados al llegar a estas, además la mera correlacion entre las dos partes no da la
confiabilidad de la prueba entera. Para esto la confiabilidad non-par es una forma de
medir el instrumento el dos partes teniendo en cuenta lo anterior, se toman los reactivos
pares por un lado y los impares por el otro.
-Coeficiente de alfa de Cronbah o formulas de Kuder-Richardson: son procedimientos

estadísticos que evalúan la homogeneidad de la prueba. Cuanta mas correlacion mas
estable es. Se utiliza el alfa de Cronbach cuando los ítems son politomicos y los
Kuder.Richardson cuando los ítems son dicotómicos.
 Error en el estándar de medición: el error estándar de medición tiene una relación

inversa con la confiabilidad. un instrumento altamente confiable tiene un nivel de error
pequeño. Un instrumento con confiabilidad baja mide su objeto con un alto índice de
error. Por lo tanto, el mayor índice de error de medición, menor confiabilidad, y
viceversa. Es la diferencia de las puntuaciones observadas con respecto a las
puntuaciones verdaderas de las personas.
 Confiabilidad interjueces: se evalua la variación no sistemática solo de quienes

califican la prueba. Una prueba es calificada por al menos dos personas, y se
correlacionan los puntajes de ambos. Deben trabajar independientemente para no
influirse.
Por otro lado la teoría de respuesta al ítem (ICT) estudia la confiabilidad solo en base a la
consistencia interna, depende del funcionamiento de los reactivos dentro de la prueba. Se
considera que los reactivos operan de forma independiente. El error de estándar se llama
“precisión en la medición” y se determina para cada nivel de puntuación. Es decir que puede ser
menos en el casi de puntuaciones bajas y mayor en el caso de puntuaciones elevadas.
La teoria de generalizabilidad (TG) estudia simultáneamente muchas fuentes de inestabilidad.

Cada persona tiene una puntuación verdadera llamada “puntuación universal” o “puntuación de
dominio”. Esta puntuación es la promedio a lo largo de todas las ocasiones, formas y
calificadores. Esta teoría estudia estas variaciones y es el estudio de la varianza ya que permite
estudiar en simultaneo el efecto de varias variables independientes sobre una variable
dependiente y la interaccion de esas variables independientes. Esta teoría permite estimar varios
componentes de varianza de la puntuación verdadera, de la puntuación observada y de la
varianza de error.
Validez (Hogan) (Mikulic)
Se refiere a lo que mide una prueba, es decir si la prueba mide lo que dice medir, consigna el
uso particular para el que se planea usar el instrumento. Cada ítem debe ser representativo de la
prueba y esta ha de serlo, a su vez, del constructo que dice medir.
El termino subrepresentacion del constructo alude a que una prueba no capta aspectos
importantes del constructo, y la varianza irrelevante se refiere a la influencia de procesos ajenos
al constructo que ejerce en la puntuación de la prueba.
El aspecto básico consiste en ofrecer evidencia de que las puntuaciones en una prueba son
indicadores del rasgo o constructo de interés. La validez es la característica aislada mas
importante de una prueba, es la consideración fundamental al desarrollar y evaluar pruebas.
Para clasificar los tipos de evidencia de validez existe un esquema tradicional y un esquema
reciente.
Esquema tradicional Esquema reciente

Validez: Vlidez:
-contenido -contenido
-relacionada con el criterio -relacion con otras variables
.concurrente .convergente y discriminante
.predictiva . relación entre prueba y criterio
-de constructo -procesos de respuesta
-estructura interna
-consecuencias
 Validez aparente: la prueba “parece” medir su constructo meta. Nunca sustituirá la

validez empírica, no es posible tan solo ver una prueba y saber su grado de validez. Esto
se utiliza en el caso de que dos pruebas contengan una validez establecida en forma
empírica, es preferible utilizar la que tiene mejor validez aparente.
 Validez de contenido: pone el acento en el contenido que los compone, en qué medida
reflejan el constructo. tiene que ver con la relación entre el contenido de una prueba y
cierto campo de conocimiento o comportamiento definido, debe haber una
correspondencia entre el contenido de la prueba y el del campo de interés. Supone la
noción de muestreo, el contenido de la prueba ha de medir una muestra representativa
del área de la consucta que debe medir, es decir que abarca una muestra representativa
de todos los posibles contenidos del campo.
El método para corroborar esta validez es el análisis sistematico de los contenidos de la

prueba a través de diferentes jueces (varias personas puntuan y se correlacionan) o
también se pueden comparar los resultados con otra prueba la validada para saber si
correlacionan los resultados.
Los problemas con la validez de contenido: en términos conceptuales es

básico:especificar el contenido del campo, y luego revisar que tan bien corresponde la
prueba con este contenido. En la practica el proceso es mas complejo. Obtener una
especificación clara del campo de contenido resulta difícil, otra dificultad es al juzgar
que tan bien los reactivos de la prueba cubren los elementos de las especificaciones de
contenido.
 Validez de criterio: consiste en establecer el vinculo entre el desempeño en la prueba y

en algún otro criterio que se toma como indicador importante del constructo de interes,
es decir, establecer la relación entre el desempeño en la prueba y la posición en algún
otro constructo.
Hay dos criterios generales para la validez de criterio:
-validez predictiva: cuando la prueba busca pronosticar la condición de algún criterio a

futuro. ¿en que medida es posible anticipar un logro o comportamiento a futuro? Se
correlaciona el desempeño en la prueba con algún otro criterio externo establecido a
futuro. (ejemplo: aplico una prueba a un grado escolar, espero todo el año escolar y
correlaciono los puntajes del instrumento con las notas escolares obtenidas)
-validez concurrente: se revisa la concordancia entre el desempeño en la prueba y la

condición actual en alguna otra variable. No se deja pasar tiempo entre la aplicación del
instrumento y la correlacion con el criterio externo.
Los tres empleos comunes de la validez relacionada con el criterio suponen el uso de: -
un criterio externo y realista que defina el constructo de interés – contrastes del grupo –
otra prueba.
-criterio externo: criterio externo que ofrece una definición realista del constructo de
interes, define lo que en específico se quiere conocer. El coeficiente de validez es la
correlacion entre los criterios.
-grupos de contraste: se quiere demostrar que la prueba diferencia a un grupo de otro,

cuanto mejor sea la diferenciación entre grupos más valida será la prueba.
-correlación con otras pruebas: se utiliza cuando es probable que la nueva tenga mejores
normas o procedimientos de calificación más eficaces.
También dos conceptos a tener en cuenta en la validez de criterio son validez

convergente y validez discriminante:
-validez convergente: correlacion entre la prueba y algún criterio que se considera que
mide el mismo constructo de la prueba. Una misma dirección entre la prueba y el
recurso utilizado, hay convergencia entre ambos, una correlacion alta.
-validez discriminante: la prueba cuenta con una correlacion relativamente baja con
constructos distintos al que se intenta medir. Cuando se busca correlacionar el
instrumento con una prueba en la que creemos que los constructos dos diferentes.
Para analizar la validez convergente y discriminante se utiliza la matriz multirasgo-

multimetodo, cuando se intentan medir varios rasgos diferentes. La finalidad es
demostrar que las correlaciones dentro de un rasgo, pero que trascienden diferentes
métodos, son mas elevadas que las correlaciones dentro de los métodos que trascienden
diferentes rasgos.
-Matriz multirasgo: pruebas que poseen distintos rasgos, por lo tanto se espera que en
todas las dimensiones o rasgos se encuentre validez discriminante.
-Matriz multimetodo: se utiliza mas de instrumento y se espera encontrar correlacion

alta
 Validez de constructo: se refiere al grado en que puede afirmarse que se mide el

contructo o rasgo teorico. Centra su atención en la función que cumple la teorica
psicológica en la elaboración de la prueba y en la necesidad de formular hipótesis que
puedan ser comprobadas o refutadas en el proceso de validación, para lo cual requiere la
acumulación de diversas fuentes de información.
Los métodos para corroborar esta validez son:
-Análisis factorial: se evalua la correlacion de los ítems con las dimensiones de la

definición del constructo a estudiar. Forma de cotejar que los ítems del test se
relacionen con el constructo y la teoría. Se utiliza como herramienta la estadística.
Remite a reducir un numero de variables, ordenar los distintos ítems en distintos
factores. Su cantidad puede ser libre o regulada por el experimentador, y se tienen que
relacionar con las dimensiones teóricas de las que se parte en la conformación del
instrumento.
-Efecto de variables experimentales: Se produce en el sujeto una variable, un factor

(ejemplo: proyectar una película) y luego se aplica el instrumento que se busca validar.
El factor y el instrumento tienen que estar relacionados con el constructo que se quiere
validar (ejemplo: la emoción que provoca el film debe relacionarse con el constructo)
-Correlacion con otras pruebas: se correlaciona la técnica con otra prueba que mida el
mismo constructo.
 Validez ecológica: se garantiza la repsesentatividad de las características sociales de la

población de la que se extrajo los sujetos experimentales. Semejanza entre condiciones
de investigación y condiciones del mundo real.
 Coeficiente de validez: es la correlacion entre la puntuación de la prueba y la medida

de criterio. Los datos empleados al calcular cualquier coeficiente de validez también
pueden expresarse como tablas o graficos de espectancias que muestran la probabilidad
de que un individuo que obtiene cierta puntuación en la prueba obtenga un nivel
especificado de desempeño en la de criterio. Es escencial especificar la naturaleza del
grupo en el que se calculo el coeficiente de validez dado que la misma prueba puede
medir diferentes funciones cuando se aplica a individuos que difieren en características
importantes.
 Validez de la prueba y teoría de la decisión: una característica de la teoría de decisión

es que las pruebas se evalúan en términos de su eficacia en una situación particular. La
evaluación no solo toma en consideración la validez de la prueba para predecir un
criterio particular, sino también otros parámetros como la tasa base y la razón de
selección. La teoría de la decisión no introduce al proceso de decisión el problema de
los valores, solamente lo explicito. Los sistemas de valores siempre han estado
presentes en las decisiones. La teoría de la decosion ha permitido centrar la atención en
la complejidad de los factores que determinan la contribución de determinado
instrumento a una situación particular. El coeficiente de validez por si mismo no puede
indicar si se debe usar o no una prueba, ya que solo uno de sus factores puede ser
considerados al evaluar el impacto de la prueba sobre la eficacia del proceso total de la
toma de decisiones.

U3

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

U3

Încărcat de

Drepturi de autor:

Formate disponibile

Confiabilidad y validez

Tanto la validez como la confiabilidad permiten estimar la solidez psicométrica de los

Confiabilidad (Hogan) (Mikulic)

Una prueba es confiable dependiendo de:

- Consistencia: siempre genera la misma puntuación o similar para un individuo

Es importante distinguir distintos tipos de errores que se pueden llegar a dar:

.Condiciones personales: las condiciones de las personas varían de un día a otro.

La confiabilidad de la prueba puede formularse en tres marcos conceptuales: teoría clásica de la

Puntaje real + margen de error = puntaje de prueba

 Puntuación observada: puntuación que obtiene la persona en la prueba, la natural de la

 Puntuación verdadera: puntuación que se obtendría si se eliminaran o suprimieran todas

 Puntuación de error: es la diferencia entre la puntuación observada y verdadera. Puede

Métodos para determinar la confiabilidad

Desventajas: no evalua los cambios en el contenido de la prueba, porque siempre es la

 Confiabilidad de la forma alterna o paralela o equivalente: exige que haya dos

Normalmente la prueba no se divide exactamente en una primera y segunda mitad, ya

-Coeficiente de alfa de Cronbah o formulas de Kuder-Richardson: son procedimientos

 Error en el estándar de medición: el error estándar de medición tiene una relación

 Confiabilidad interjueces: se evalua la variación no sistemática solo de quienes

La teoria de generalizabilidad (TG) estudia simultáneamente muchas fuentes de inestabilidad.

Validez (Hogan) (Mikulic)

Esquema tradicional Esquema reciente

 Validez aparente: la prueba “parece” medir su constructo meta. Nunca sustituirá la

El método para corroborar esta validez es el análisis sistematico de los contenidos de la

Los problemas con la validez de contenido: en términos conceptuales es

 Validez de criterio: consiste en establecer el vinculo entre el desempeño en la prueba y

Hay dos criterios generales para la validez de criterio:

-validez predictiva: cuando la prueba busca pronosticar la condición de algún criterio a

-validez concurrente: se revisa la concordancia entre el desempeño en la prueba y la

-grupos de contraste: se quiere demostrar que la prueba diferencia a un grupo de otro,

También dos conceptos a tener en cuenta en la validez de criterio son validez

Para analizar la validez convergente y discriminante se utiliza la matriz multirasgo-

-Matriz multimetodo: se utiliza mas de instrumento y se espera encontrar correlacion

 Validez de constructo: se refiere al grado en que puede afirmarse que se mide el

Los métodos para corroborar esta validez son:

-Análisis factorial: se evalua la correlacion de los ítems con las dimensiones de la

-Efecto de variables experimentales: Se produce en el sujeto una variable, un factor

 Validez ecológica: se garantiza la repsesentatividad de las características sociales de la

 Coeficiente de validez: es la correlacion entre la puntuación de la prueba y la medida

 Validez de la prueba y teoría de la decisión: una característica de la teoría de decisión

S-ar putea să vă placă și