Sunteți pe pagina 1din 75

FUNDAMENTOS

PSICOMÉTRICOS

CONFIABILIDAD Y VALIDEZ

Natalia Acevedo Mesa


Esp. en Evaluación y Medición en Psicología
CONFIABILIDAD
CONCEPTO DE CONFIABILIDAD

“Un coeficiente de confiabilidad es un índice de confianza, una proporción que indica la


razón entre la varianza de la puntuación verdadera en una prueba y la varianza total”
(Cohen, R. Swerdlik, M 2006).

Grado en que un instrumento produce resultados consistentes y coherentes. Es decir en


que su aplicación repetida al mismo sujeto u objeto produce resultados iguales. (Kerlinger,
2002).

La confiabilidad de un test es la precisión con que el test mide lo que mide, en una
población determinada y en las condiciones normales de aplicación. (Anastasi, 1982)
FUENTES DE VARIANZA DEL ERROR

Se refiere al componente mismo de la puntuación en la prueba que no tiene nada que ver
con la aptitud de quien responde.

OTRAS FUENTES
CONTRUCCIÓN ADMINISTRACIÓN
DE ERROR
ESTABILIDAD EN LA MEDIDA

Al medir un atributo psicológico


con un instrumento, éste será
confiable si al evaluar a los mismos
sujetos con el mismo instrumento
o con uno equivalente, las medidas
obtenidas en la segunda aplicación
son muy similares a las obtenidas
en la primera, esto es, son estables
a través del tiempo, lo cual
indicaría que los errores de
medición serían mínimos y, por lo
tanto, la confiabilidad sería
aceptable; las diferencias
encontradas entre una medición y
otra se atribuirían a los errores
aleatorios asociados al proceso de
medición y no al instrumento.
(Muñiz, 2003)
COEFICIENTE DE CONFIABILIDAD

Es un índice de confianza, una proporción que indica la


razón entre la varianza de la puntuación verdadera en una
prueba y la varianza total.

Varianza: La varianza de la muestra es una medición de la dispersión sobre la


medida obtenida al calcular la suma de las desviaciones de la media elevadas
al cuadrado y dividiéndoles entre el tamaño de la muestra menos 1.

La varianza indica qué tan extendida está la distribución de las observaciones.


EJEMPLO
SUJETO RESULTADO X X2
1 4,0 -2,2 4,84
2 4,5 -1,7 2,89
3 5,0 -1,2 1,44
4 5,0 -1,2 1,44
5 6,0 -0,2 0,04
6 6,5 0,3 0,09
7 7,0 0,8 0,64
8 7,5 1,3 1,69
9 8,0 1,8 3,24
10 8,5 2,3 5,29

MEDIA 6,2 ∑ (X-X) 21,6


VARIANZA 21,6-9
2,4
EJERCICIO
Recuerde la puntuación del
examen más reciente que
haya tomado.

¿Qué porcentaje de esa


puntuación considera usted
que representa su capacidad
“verdadera” y qué porcentaje,
el error?

¿Cuáles fueron los tipos de


error implicados?
ESTIMACIONES DE CONFIABILIDAD
Valores esperados entre -1 y 1

CONSISTENCIA
INTERNA

PARALELAS
TEST-RETEST MITADES
TEST – RETEST

Es una estimación de la confiabilidad obtenida al correlacionar pares de


puntuaciones de las mismas personas en dos aplicaciones diferentes de
la misma prueba.

Tener en cuenta:

 Estabilidad del atributo.


 Aprendizaje y experiencia.
 Tiempo (puede ser una causa de la varianza de error)
EJEMPLO
A un grupo de 10 estudiantes se le aplica un cuestionario de hábitos de
estudio. Transcurridos dos meses, se vuelve a aplicar el mismo test a
las mismas personas bajo las mismas condiciones. Sus puntuaciones
directas en las dos aplicaciones fueron las siguientes:

r = 0,87
FORMAS PARALELAS O FORMAS ALTERNAS

Formas paralelas:
Para cada forma de la prueba, las medias y las varianzas de las
puntuaciones observada son iguales.

Formas alternas:
Son versiones diferentes de una prueba que se han construido para que
sean paralelas.
DIVIDIR EN MITADES
Correlacionar dos pares de puntuaciones obtenidas de mitades
equivalentes de una sola prueba aplicada una sola vez.

Pasos:

1. Dividir la prueba en mitades equivalentes.


2. Calcular una r de Pearson entre las puntuaciones en las mitades de
la prueba.
3. Ajustar la confiabilidad de una mitad de la prueba usando la fórmula
de Spearman-Brown
MEDIDA DE CONFIABILIDAD ENTRE
EVALUADORES

La confiabilidad entre evaluadores es el grado de acuerdo


o consistencia que existe entre dos o más evaluadores.
CONSISTENCIA INTERNA
Se refiere a que los reactivos de un instrumento dado son consistentes
entre sí en la forma en que evalúan el atributo propuesto.

Grado en que los ítems que hacen parte de una escala se


correlacionan entre ellos, la magnitud en que miden el mismo
constructo. Si los puntos que componen una escala teóricamente
miden el mismo constructo deben mostrar una alta correlación, es
decir, la escala debe mostrar un alto grado de homogeneidad.

Se mide la consistencia interna de los reactivos


individuales por medio del coeficiente Alfa de
Cronbach, que se considera como la media de todas
las correlaciones que pudieran obtenerse al dividir la
prueba en todas las posibles mitades.
ESTIMADORES DE CONSISTENCIA INTERNA

Homogeneidad de la
Consistencia entre
prueba: Las pruebas
reactivos: Grado de
son homogéneas
correlación entre todas
cuando contienen
las preguntas de una
reactivos que midan un
escala.
solo rasgo.
HOMOGENEIDAD vs HETEROGENEIDAD

Homogeneidad: Un Heterogeneidad: Una


solo rasgo prueba mide factores
diferentes
¿Nivel de medición? ¿Nivel de medición?
HOMOGENEIDAD vs HETEROGENEIDAD

Aunque una prueba homogénea sea deseable


debido a que se presenta fácilmente a una clara
interpretación, a menudo es una herramienta
insuficiente para medir variables
psicológicas multifacéticas como inteligencia o
personalidad
KUDER – RICHARSON

KR-20
Estadística utilizada para determinar la consistencia entre
reactivos de tipo dicotómicos, sobre todo aquellos que
pueden ser calificados como correctos o incorrectos.
ALFA DE CRONBACH

«La medida de todas las correlaciones posibles al dividir


en mitades, corregida con la fórmula de Spearman
Brown»

Ampliamente utilizada
Utilizada en pruebas Valores entre 0 (No
porque solo requiere
con reactivos similares) y 1
una aplicación de la
politómicos. (Idénticos)
prueba.
IMPORTANTE

«Las medidas de confiabilidad son estimaciones y las

estimaciones están sujetas a error. La cantidad precisa

de error inherente a la estimación de la confiabilidad

variará con la muestra de evaluados, de quienes fueron

extraídos los datos »


RESUMEN

TABLA
5-4
CONSIDERACIONES DE LA NATURALEZA
DE LA PRUEBA

1 2 3

Restricción
Homogeneidad Dinámica
de rango

Inflación
Heterogeneidad Constante
de rango
CONSIDERACIONES DE LA NATURALEZA
DE LA PRUEBA
4 5

Velocidad
(Ejecución máxima) Criterio

Poder
(Ejecución típica)
MODELOS PSICOMÉTRICOS
• Teoría de la puntuación verdadera
TCT • X=V+e
• Modelo lineal y adictivo

• Teoría del rasgo latente


TRI • Reactivos individuales darán cuenta de
la cantidad del rasgo.

• Las puntuaciones obtenidas por una


TG persona varían de una prueba a otra
debido a variables en la situación de
aplicación
TCT
TEORÍA CLÁSICA DE LOS TEST

El psicólogo debe
garantizar que el
instrumento que
utilice mida con
precisión y poco
error.

El modelo lineal
El error está
clásico fue
mezclado con la
propuesto
verdadera
originalmente
puntuación.
por Spearman.
Modelo lineal
aditivo

Puntuación
Error de medida
verdadera
MODELO LINEAL CLÁSICO.

Consiste en asumir que la puntuación que una persona obtiene


en un test, que denominamos su puntuación empírica, y que
suele designarse con la letra X, está formada por dos
componentes, por un lado la puntuación verdadera de esa
persona en ese test (V), sea la que sea, y por otro un error (e),
que puede ser debido a muchas causas que se nos escapan y
que no controlamos.

Lo dicho puede expresarse formalmente así: X = V + e


ERROR ESTANDAR DE MEDIDA

Es la herramienta que se usa para estimar o inferir la

distancia hasta la cual una puntuación observada se

desvía de una puntuación verdadera. El error estándar

de una medición se puede definir como la desviación

estándar de una distribución que, en teoría, se comporta

normalmente, formada por las puntuaciones de prueba

obtenidas por una persona en pruebas equivalentes.


VALIDEZ
«Una prueba puede ser
confiable sin ser valida.
Sin embargo, para que
la medida sea valida,
necesita primero ser
confiable»
Validez

El estudio de validez de un instrumento se refiere a validar los


datos proporcionados por éste: el grado de adecuación,
significación y utilidad de las inferencias especificas que pueden
derivarse a partir de las puntuaciones de las pruebas. (Martínez,
1996)

«Lo significativo o relevante de la puntuación obtenida en una


prueba, es decir, lo que en verdad significa o representa la
puntuación» (Cohen, 2000)

No se valida el instrumento, sino la interpretación de los datos


obtenidos por un procedimiento especifico.
Para tener en cuenta …

La validez de una prueba concierne a lo que ésta mide, su eficacia


y lo que se puede inferir de los puntajes obtenidos en la prueba.

La validez aplicada a una prueba, es un juicio o una estimación


acerca de qué tan bien una prueba mide lo que pretende medir en
un determinado contexto. Ninguna prueba ni técnica de medición
es «universalmente valida» para todo tiempo, para todo uso, ni
con todo tipo de población.

La validez de una prueba disminuye debido a cambios en la


cultura o en la época, esa validez debe ser probada de nuevo en
diferentes periodos.
Percepción Trinitaria

Validez Aparente

Validez
Validez de Validez de
relacionada con
contenido constructo
el criterio
Validez Aparente

Es un juicio concerniente a cuán relevantes parecen ser


los reactivos de la prueba.

Si una prueba definitivamente parece medir lo que


pretende medir.

Los juicios son considerados desde quien responde la


prueba.
Validez de Contenido
Representatividad o adecuación muestral del contenido del
instrumento de medición, es decir, es una clara descripción del
dominio de conductas de interés (Linehan, 1980).

«Va encaminada a comprobar que la prueba recoge una muestra


representativa de los contenidos correspondientes al campo
evaluado» (Muñiz, 1998)

¿El contenido de este instrumento de medición es representativa


del contenido o del universo de contenido de la propiedad que se
va a medir? (Martínez, 1996)

Pertinencia, Claridad, Relevancia y Suficiencia.


Razón de Validez de Contenido
(C.H Lawshe)
• Juicio de expertos: Cada evaluador debe responder a la siguiente
pregunta para cada uno de los reactivos

• Esencial
• Útil pero no esencial
• No necesaria
Validez de Contenido
Validez de Contenido
Validez de Contenido
Validez Relacionada
con un Criterio

Validez Validez
Concurrente Predictiva
Validez Relacionada con un Criterio
Es un juicio de cuán adecuadamente puede ser utilizada la
puntuación de una prueba para inferir la posición más probable de
un individuo con respecto a cierta medida de interés.

Se utiliza para estimar a futuro una conducta, a la que se llama


criterio; una vez determinado el criterio, se elaboran los reactivos
que estarán correlacionados con él.

La validez referida al criterio se caracteriza por la predicción


relacionada con un criterio externo y porque recurre a la
comprobación del instrumento de medición, ya sea en el
momento presente o en el futuro, y lo compara con un resultado o
medida.
Validez Relacionada con un Criterio

Criterio: Es el modelo contra el cual se compara y evalúa


una prueba o la puntuación de una prueba.

Relevante: pertinente o aplicable al tema de


interés.

Válido para el propósito para el que


esta siendo usada.
Libre de contaminación
Validez Relacionada con un Criterio

Validez Concurrente: Grado en el que las puntuaciones de


una prueba pueden servir para estimar la posición actual de
un individuo frente a un criterio.
Validez Predictiva: Índice del grado en que la puntuación
de una prueba predice alguna medida de criterio. Por
ejemplo las medidas de la relación entre las pruebas de
admisión a la universidad y los promedios de calificación
de un estudiante universitario de primer año, son evidencia
de la validez predictiva de las pruebas de admisión.
Validez de Constructo

“Es un juicio acerca de lo apropiado de las inferencias realizadas a


partir de las puntuaciones o calificaciones obtenidas en la pruebas,
respecto a posiciones individuales en una variable llamada
constructo” Cohen.

Constructo: son rasgos inobservables, supuestos a los que un


desarrollador de pruebas puede recurrir para describir el
comportamiento de la prueba o el desempeño de un criterio
evaluado. Si la prueba es una medida válida del constructo,
quienes obtuvieron puntajes altos y quienes obtuvieron puntajes
bajos se comportarán como lo predice la teoría.
Validez de Constructo

Debe explicar el modelo teórico empírico que subyace a la


variable de interés.

«Trata de asegurar que las variables o constructos medidos,


además de su capacidad predictiva, tienen entidad y rigor, y se
encuentra insertas dentro de un marco teórico coherente».
(Muñiz, 1998)
Evidencias de la Validez de Constructo
 Homogeneidad.

 Cambios del atributo de acuerdo a factores como edad,


cultura, nivel educativo.

 Los resultados de las pruebas varían por aprendizaje del


atributo.

 Las calificaciones de las pruebas se correlacionan con otros


instrumentos que cubran la manifestación del constructo en
cuestión.
Evidencias de la Validez de Constructo
Evidencia Convergente: Si las calificaciones de una prueba
pasan por validez de constructo tenderán a correlacionarse de
forma elevada en la dirección predicha, con las calificaciones de
pruebas anteriores, más establecidas y ya validadas, diseñadas
para medir el mismo constructo (o uno similar)
Evidencias de la Validez de Constructo
Evidencia Discriminante: Un coeficiente de validez que
muestra poca relación entre las calificaciones de la prueba y/u
otras variables con las que las puntuaciones en la prueba que
se está sometiendo a validez de constructo no debería
correlacionarse desde el punto de vista teórico.
Análisis Factorial

“El análisis factorial se realiza ya sea en una base exploratoria o en una


base confirmatoria. El análisis exploratorio implica de manera
característica la estimación o extracción de factores, la decisión de
cuántos factores conservar y la rotación de estos a una orientación
interpretable. Por el contrario, el análisis factorial confirmatorio plantea
la hipótesis de una estructura factorial en forma explícita y se prueba su
ajuste con la estructura de la covarianza observada en las variables
medidas” (p. 180)
TALLER DE
REPASO
• El Eating Disorder Inventory (EDI) fue creado por David Garner en 1983.
Esta es una escala de auto-reporte que mide características psicológicas
y sintomatología asociada a anorexia y bulimia nerviosa. La actual
versión (EDI-2) en su traducción al español consiste en 91 reactivos con
un formato de respuestas en una escala tipo Likert de seis puntos:
“siempre”, “casi siempre”, “frecuentemente”, “en ocasiones”, “rara vez”
o “nunca” que permiten puntuar en 8 escalas principales (obsesión por
las delgadez (DT); bulimia (B); insatisfacción corporal (BD); ineficacia (I);
perfeccionismo (P); desconfianza interpersonal (ID); conciencia
introceptiva (IA) y miedo a la madurez (MF)) y 3 adicionales (ascetismo
(A), impulsividad (IR) e inseguridad social (SI)) (10). De acuerdo a los
resultados del análisis factorial aporta una solución de 8
factores que explican un porcentaje bajo de la varianza
(38.45%).

• La característica psicométrica que se está evaluando es


• De acuerdo a los resultados se puede determinar que el porcentaje de
error corresponde a
Se realizó en primera instancia una aplicación piloto a 50 sujetos, 19
hombres y 31 mujeres, con una media de edad de 12.44 años (D.E.=1.26),
con el fin de adaptar el lenguaje de las preguntas al contexto cultural. En
esta fase piloto se evaluó la equivalencia de contenido y semántica. El
procedimiento descrito es
Las correlaciones ítem-total corregidas son todas positivas y
moderadamente altas, salvo el caso del ítem FIT01 (.1719). En coherencia
con ello, el alfa resultante de la eliminación de cada ítem es siempre
inferior al alfa total, salvo de nuevo en el caso del ítem FIT01, que se
incrementa levemente (.912). El procedimiento mencionado hace
referencia a la estimación de
La escala de resiliencia (RS) fue diseñada por Wagnild y Young en 1987 y
evalúa el grado de resiliencia individual y la perspectiva de resiliencia
como una característica de personalidad positiva que favorece la
adaptación (Wagnild y Young, 1993). Consta de un total de 25 ítems
escritos de forma positiva, que se valoran del 1 (en desacuerdo) al 7
(totalmente de acuerdo), donde los resultados varían entre los 25 y 175
puntos. Según Wagnild y Young (1993), se consideran altas las
puntuaciones en la escala cuando se obtienen puntuaciones iguales o
superiores a 147 puntos. El procedimiento que debe utilizarse para la
estimación de consistencia interna es
Las puntuaciones totales del Pencrisal, en la muestra de 715 participantes
analizada, se distribuyen con media 27,48 (IC 95%: 27,00–27,95) y
desviación típica 6,49 para un rango de puntuaciones: 12–44. La
distribución de estos valores presenta una muy ligera desviación del
modelo normal de la campana de Gauss con p<,050 pero tolerable
(p=,039>,001 en el test KS). Se ha construido un baremo en percentiles
para la población general, dado que no existen diferencias significativas
ni por sexos ni por edad, y cada uno de los factores. El procedimiento
descrito es
El PENCRISAL se configura como una prueba difícil en cuanto a su nivel
de ejecución. Esto es algo necesario en este tipo de pruebas ya que sólo
de esta manera podemos demostrar el efecto de la intervención, sin
necesidad de diseñar otro instrumento paralelo para este propósito. De
acuerdo a la información anterior, los ítems de la prueba tienen efecto
________________________________ por lo cual, se esperaría una
consistencia interna ______________________________
Se seleccionó una submuestra aleatoria de 130 casos, a quienes se les
aplicó de nuevo la prueba entre 4 y 5 semanas después de la primera
aplicación. Los resultados demuestran una buena estabilidad con
coeficiente de Pearson elevados y significativos tanto en la puntuación
total (r=,786; p<,001) como para cada una de las subescalas. De acuerdo a
la información anterior, la característica psicometría evaluada es
“Como evidencias de validez convergente se correlacionaron las
puntuaciones obtenidas del BFCP y del NEO PI R, encontrando en todos
los casos correlaciones altas y significativas que indican alto ajuste
emocional” De acuerdo a la información anterior, el proceso corresponde
a la validez _____________________________ y tuvo como objetivo
evidenciar ___________________________________________________
Después de seleccionar la escala, se procedió a la adaptación cultural de
la prueba, se eligió un grupo piloto con 20 personas de la comunidad, con
el fin de evaluar la comprensión de los enunciados e identificar si la
prueba lograba evaluar todas las estrategias de afrontamiento que
usualmente las personas emplean para hacer frente al estrés. De este
estudio se identificó que las estrategias definidas como espera,
conformismo y refrenar el afrontamiento no estaban representadas en el
instrumento. Por otro lado, el grupo de investigadores realizó un análisis
teórico de la escala, y expresó la necesidad de especificar las dimensiones
cognitiva, comportamental y emocional de la estrategia que tenía definida
la prueba como evitación, y diferenciar en la estrategia definida en la
prueba como expresión emocional abierta, la reacción agresiva y la
reacción depresiva.
Dado que estos cambios implicaban modificar la estructura del
instrumento, se consideró que el procedimiento conducía a una
modificación de la escala. Se especificaron los componentes y se
construyeron nuevos enunciados, los cuales fueron identificados en un
manuscrito el cual fue enviado a cinco jurados expertos, psicólogos
residentes en Colombia con trayectoria clínica e investigativa, los cuales
conocían y habían empleado el instrumento.

S-ar putea să vă placă și