Manualdepsicopatologa Amparobellochvol1

FUNDAMENTOS
PSICOMÉTRICOS
CONFIABILIDAD Y VALIDEZ
Natalia Acevedo Mesa

Esp. en Evaluación y Medición en Psicología
CONFIABILIDAD
CONCEPTO DE CONFIABILIDAD
“Un coeficiente de confiabilidad es un índice de confianza, una proporción que indica la

razón entre la varianza de la puntuación verdadera en una prueba y la varianza total”
(Cohen, R. Swerdlik, M 2006).
Grado en que un instrumento produce resultados consistentes y coherentes. Es decir en

que su aplicación repetida al mismo sujeto u objeto produce resultados iguales. (Kerlinger,
2002).
La confiabilidad de un test es la precisión con que el test mide lo que mide, en una
población determinada y en las condiciones normales de aplicación. (Anastasi, 1982)
FUENTES DE VARIANZA DEL ERROR
Se refiere al componente mismo de la puntuación en la prueba que no tiene nada que ver
con la aptitud de quien responde.
OTRAS FUENTES
CONTRUCCIÓN ADMINISTRACIÓN
DE ERROR
ESTABILIDAD EN LA MEDIDA
Al medir un atributo psicológico

con un instrumento, éste será
confiable si al evaluar a los mismos
sujetos con el mismo instrumento
o con uno equivalente, las medidas
obtenidas en la segunda aplicación
son muy similares a las obtenidas
en la primera, esto es, son estables
a través del tiempo, lo cual
indicaría que los errores de
medición serían mínimos y, por lo
tanto, la confiabilidad sería
aceptable; las diferencias
encontradas entre una medición y
otra se atribuirían a los errores
aleatorios asociados al proceso de
medición y no al instrumento.
(Muñiz, 2003)
COEFICIENTE DE CONFIABILIDAD
Es un índice de confianza, una proporción que indica la

razón entre la varianza de la puntuación verdadera en una
prueba y la varianza total.
Varianza: La varianza de la muestra es una medición de la dispersión sobre la

medida obtenida al calcular la suma de las desviaciones de la media elevadas
al cuadrado y dividiéndoles entre el tamaño de la muestra menos 1.
La varianza indica qué tan extendida está la distribución de las observaciones.

EJEMPLO
SUJETO RESULTADO X X2
1 4,0 -2,2 4,84
2 4,5 -1,7 2,89
3 5,0 -1,2 1,44
4 5,0 -1,2 1,44
5 6,0 -0,2 0,04
6 6,5 0,3 0,09
7 7,0 0,8 0,64
8 7,5 1,3 1,69
9 8,0 1,8 3,24
10 8,5 2,3 5,29
MEDIA 6,2 ∑ (X-X) 21,6

VARIANZA 21,6-9
2,4
EJERCICIO
Recuerde la puntuación del
examen más reciente que
haya tomado.
¿Qué porcentaje de esa

puntuación considera usted
que representa su capacidad
“verdadera” y qué porcentaje,
el error?
¿Cuáles fueron los tipos de

error implicados?
ESTIMACIONES DE CONFIABILIDAD
Valores esperados entre -1 y 1
CONSISTENCIA
INTERNA
PARALELAS
TEST-RETEST MITADES
TEST – RETEST
Es una estimación de la confiabilidad obtenida al correlacionar pares de

puntuaciones de las mismas personas en dos aplicaciones diferentes de
la misma prueba.
Tener en cuenta:
 Estabilidad del atributo.

 Aprendizaje y experiencia.
 Tiempo (puede ser una causa de la varianza de error)
EJEMPLO
A un grupo de 10 estudiantes se le aplica un cuestionario de hábitos de
estudio. Transcurridos dos meses, se vuelve a aplicar el mismo test a
las mismas personas bajo las mismas condiciones. Sus puntuaciones
directas en las dos aplicaciones fueron las siguientes:
r = 0,87
FORMAS PARALELAS O FORMAS ALTERNAS
Formas paralelas:
Para cada forma de la prueba, las medias y las varianzas de las
puntuaciones observada son iguales.
Formas alternas:
Son versiones diferentes de una prueba que se han construido para que
sean paralelas.
DIVIDIR EN MITADES
Correlacionar dos pares de puntuaciones obtenidas de mitades
equivalentes de una sola prueba aplicada una sola vez.
Pasos:
1. Dividir la prueba en mitades equivalentes.

2. Calcular una r de Pearson entre las puntuaciones en las mitades de
la prueba.
3. Ajustar la confiabilidad de una mitad de la prueba usando la fórmula
de Spearman-Brown
MEDIDA DE CONFIABILIDAD ENTRE
EVALUADORES
La confiabilidad entre evaluadores es el grado de acuerdo

o consistencia que existe entre dos o más evaluadores.
CONSISTENCIA INTERNA
Se refiere a que los reactivos de un instrumento dado son consistentes
entre sí en la forma en que evalúan el atributo propuesto.
Grado en que los ítems que hacen parte de una escala se

correlacionan entre ellos, la magnitud en que miden el mismo
constructo. Si los puntos que componen una escala teóricamente
miden el mismo constructo deben mostrar una alta correlación, es
decir, la escala debe mostrar un alto grado de homogeneidad.
Se mide la consistencia interna de los reactivos

individuales por medio del coeficiente Alfa de
Cronbach, que se considera como la media de todas
las correlaciones que pudieran obtenerse al dividir la
prueba en todas las posibles mitades.
ESTIMADORES DE CONSISTENCIA INTERNA
Homogeneidad de la
Consistencia entre
prueba: Las pruebas
reactivos: Grado de
son homogéneas
correlación entre todas
cuando contienen
las preguntas de una
reactivos que midan un
escala.
solo rasgo.
HOMOGENEIDAD vs HETEROGENEIDAD
Homogeneidad: Un Heterogeneidad: Una

solo rasgo prueba mide factores
diferentes
¿Nivel de medición? ¿Nivel de medición?
HOMOGENEIDAD vs HETEROGENEIDAD
Aunque una prueba homogénea sea deseable

debido a que se presenta fácilmente a una clara
interpretación, a menudo es una herramienta
insuficiente para medir variables
psicológicas multifacéticas como inteligencia o
personalidad
KUDER – RICHARSON
KR-20
Estadística utilizada para determinar la consistencia entre
reactivos de tipo dicotómicos, sobre todo aquellos que
pueden ser calificados como correctos o incorrectos.
ALFA DE CRONBACH
«La medida de todas las correlaciones posibles al dividir

en mitades, corregida con la fórmula de Spearman
Brown»
Ampliamente utilizada
Utilizada en pruebas Valores entre 0 (No
porque solo requiere
con reactivos similares) y 1
una aplicación de la
politómicos. (Idénticos)
prueba.
IMPORTANTE
«Las medidas de confiabilidad son estimaciones y las
estimaciones están sujetas a error. La cantidad precisa
de error inherente a la estimación de la confiabilidad
variará con la muestra de evaluados, de quienes fueron
extraídos los datos »

RESUMEN
TABLA
5-4
CONSIDERACIONES DE LA NATURALEZA
DE LA PRUEBA
1 2 3
Restricción
Homogeneidad Dinámica
de rango
Inflación
Heterogeneidad Constante
de rango
CONSIDERACIONES DE LA NATURALEZA
DE LA PRUEBA
4 5
Velocidad
(Ejecución máxima) Criterio
Poder
(Ejecución típica)
MODELOS PSICOMÉTRICOS
• Teoría de la puntuación verdadera
TCT • X=V+e
• Modelo lineal y adictivo
• Teoría del rasgo latente

TRI • Reactivos individuales darán cuenta de
la cantidad del rasgo.
• Las puntuaciones obtenidas por una

TG persona varían de una prueba a otra
debido a variables en la situación de
aplicación
TCT
TEORÍA CLÁSICA DE LOS TEST
El psicólogo debe
garantizar que el
instrumento que
utilice mida con
precisión y poco
error.
El modelo lineal
El error está
clásico fue
mezclado con la
propuesto
verdadera
originalmente
puntuación.
por Spearman.
Modelo lineal
aditivo
Puntuación
Error de medida
verdadera
MODELO LINEAL CLÁSICO.
Consiste en asumir que la puntuación que una persona obtiene

en un test, que denominamos su puntuación empírica, y que
suele designarse con la letra X, está formada por dos
componentes, por un lado la puntuación verdadera de esa
persona en ese test (V), sea la que sea, y por otro un error (e),
que puede ser debido a muchas causas que se nos escapan y
que no controlamos.
Lo dicho puede expresarse formalmente así: X = V + e

ERROR ESTANDAR DE MEDIDA
Es la herramienta que se usa para estimar o inferir la
distancia hasta la cual una puntuación observada se
desvía de una puntuación verdadera. El error estándar
de una medición se puede definir como la desviación
estándar de una distribución que, en teoría, se comporta
normalmente, formada por las puntuaciones de prueba
obtenidas por una persona en pruebas equivalentes.

VALIDEZ
«Una prueba puede ser
confiable sin ser valida.
Sin embargo, para que
la medida sea valida,
necesita primero ser
confiable»
Validez
El estudio de validez de un instrumento se refiere a validar los

datos proporcionados por éste: el grado de adecuación,
significación y utilidad de las inferencias especificas que pueden
derivarse a partir de las puntuaciones de las pruebas. (Martínez,
1996)
«Lo significativo o relevante de la puntuación obtenida en una

prueba, es decir, lo que en verdad significa o representa la
puntuación» (Cohen, 2000)
No se valida el instrumento, sino la interpretación de los datos

obtenidos por un procedimiento especifico.
Para tener en cuenta …
La validez de una prueba concierne a lo que ésta mide, su eficacia

y lo que se puede inferir de los puntajes obtenidos en la prueba.
La validez aplicada a una prueba, es un juicio o una estimación

acerca de qué tan bien una prueba mide lo que pretende medir en
un determinado contexto. Ninguna prueba ni técnica de medición
es «universalmente valida» para todo tiempo, para todo uso, ni
con todo tipo de población.
La validez de una prueba disminuye debido a cambios en la

cultura o en la época, esa validez debe ser probada de nuevo en
diferentes periodos.
Percepción Trinitaria
Validez Aparente
Validez
Validez de Validez de
relacionada con
contenido constructo
el criterio
Validez Aparente
Es un juicio concerniente a cuán relevantes parecen ser

los reactivos de la prueba.
Si una prueba definitivamente parece medir lo que

pretende medir.
Los juicios son considerados desde quien responde la

prueba.
Validez de Contenido
Representatividad o adecuación muestral del contenido del
instrumento de medición, es decir, es una clara descripción del
dominio de conductas de interés (Linehan, 1980).
«Va encaminada a comprobar que la prueba recoge una muestra

representativa de los contenidos correspondientes al campo
evaluado» (Muñiz, 1998)
¿El contenido de este instrumento de medición es representativa

del contenido o del universo de contenido de la propiedad que se
va a medir? (Martínez, 1996)
Pertinencia, Claridad, Relevancia y Suficiencia.

Razón de Validez de Contenido
(C.H Lawshe)
• Juicio de expertos: Cada evaluador debe responder a la siguiente
pregunta para cada uno de los reactivos
• Esencial
• Útil pero no esencial
• No necesaria
Validez Relacionada
con un Criterio
Validez Validez
Concurrente Predictiva
Validez Relacionada con un Criterio
Es un juicio de cuán adecuadamente puede ser utilizada la
puntuación de una prueba para inferir la posición más probable de
un individuo con respecto a cierta medida de interés.
Se utiliza para estimar a futuro una conducta, a la que se llama

criterio; una vez determinado el criterio, se elaboran los reactivos
que estarán correlacionados con él.
La validez referida al criterio se caracteriza por la predicción

relacionada con un criterio externo y porque recurre a la
comprobación del instrumento de medición, ya sea en el
momento presente o en el futuro, y lo compara con un resultado o
medida.
Criterio: Es el modelo contra el cual se compara y evalúa

una prueba o la puntuación de una prueba.
Relevante: pertinente o aplicable al tema de

interés.
Válido para el propósito para el que

esta siendo usada.
Libre de contaminación
Validez Concurrente: Grado en el que las puntuaciones de

una prueba pueden servir para estimar la posición actual de
un individuo frente a un criterio.
Validez Predictiva: Índice del grado en que la puntuación
de una prueba predice alguna medida de criterio. Por
ejemplo las medidas de la relación entre las pruebas de
admisión a la universidad y los promedios de calificación
de un estudiante universitario de primer año, son evidencia
de la validez predictiva de las pruebas de admisión.
Validez de Constructo
“Es un juicio acerca de lo apropiado de las inferencias realizadas a

partir de las puntuaciones o calificaciones obtenidas en la pruebas,
respecto a posiciones individuales en una variable llamada
constructo” Cohen.
Constructo: son rasgos inobservables, supuestos a los que un

desarrollador de pruebas puede recurrir para describir el
comportamiento de la prueba o el desempeño de un criterio
evaluado. Si la prueba es una medida válida del constructo,
quienes obtuvieron puntajes altos y quienes obtuvieron puntajes
bajos se comportarán como lo predice la teoría.
Validez de Constructo
Debe explicar el modelo teórico empírico que subyace a la

variable de interés.
«Trata de asegurar que las variables o constructos medidos,

además de su capacidad predictiva, tienen entidad y rigor, y se
encuentra insertas dentro de un marco teórico coherente».
(Muñiz, 1998)
Evidencias de la Validez de Constructo
 Homogeneidad.
 Cambios del atributo de acuerdo a factores como edad,

cultura, nivel educativo.
 Los resultados de las pruebas varían por aprendizaje del

atributo.
 Las calificaciones de las pruebas se correlacionan con otros

instrumentos que cubran la manifestación del constructo en
cuestión.
Evidencia Convergente: Si las calificaciones de una prueba
pasan por validez de constructo tenderán a correlacionarse de
forma elevada en la dirección predicha, con las calificaciones de
pruebas anteriores, más establecidas y ya validadas, diseñadas
para medir el mismo constructo (o uno similar)
Evidencia Discriminante: Un coeficiente de validez que
muestra poca relación entre las calificaciones de la prueba y/u
otras variables con las que las puntuaciones en la prueba que
se está sometiendo a validez de constructo no debería
correlacionarse desde el punto de vista teórico.
Análisis Factorial
“El análisis factorial se realiza ya sea en una base exploratoria o en una

base confirmatoria. El análisis exploratorio implica de manera
característica la estimación o extracción de factores, la decisión de
cuántos factores conservar y la rotación de estos a una orientación
interpretable. Por el contrario, el análisis factorial confirmatorio plantea
la hipótesis de una estructura factorial en forma explícita y se prueba su
ajuste con la estructura de la covarianza observada en las variables
medidas” (p. 180)
TALLER DE
REPASO
• El Eating Disorder Inventory (EDI) fue creado por David Garner en 1983.
Esta es una escala de auto-reporte que mide características psicológicas
y sintomatología asociada a anorexia y bulimia nerviosa. La actual
versión (EDI-2) en su traducción al español consiste en 91 reactivos con
un formato de respuestas en una escala tipo Likert de seis puntos:
“siempre”, “casi siempre”, “frecuentemente”, “en ocasiones”, “rara vez”
o “nunca” que permiten puntuar en 8 escalas principales (obsesión por
las delgadez (DT); bulimia (B); insatisfacción corporal (BD); ineficacia (I);
perfeccionismo (P); desconfianza interpersonal (ID); conciencia
introceptiva (IA) y miedo a la madurez (MF)) y 3 adicionales (ascetismo
(A), impulsividad (IR) e inseguridad social (SI)) (10). De acuerdo a los
resultados del análisis factorial aporta una solución de 8
factores que explican un porcentaje bajo de la varianza
(38.45%).
• La característica psicométrica que se está evaluando es

• De acuerdo a los resultados se puede determinar que el porcentaje de
error corresponde a
Se realizó en primera instancia una aplicación piloto a 50 sujetos, 19
hombres y 31 mujeres, con una media de edad de 12.44 años (D.E.=1.26),
con el fin de adaptar el lenguaje de las preguntas al contexto cultural. En
esta fase piloto se evaluó la equivalencia de contenido y semántica. El
procedimiento descrito es
Las correlaciones ítem-total corregidas son todas positivas y
moderadamente altas, salvo el caso del ítem FIT01 (.1719). En coherencia
con ello, el alfa resultante de la eliminación de cada ítem es siempre
inferior al alfa total, salvo de nuevo en el caso del ítem FIT01, que se
incrementa levemente (.912). El procedimiento mencionado hace
referencia a la estimación de
La escala de resiliencia (RS) fue diseñada por Wagnild y Young en 1987 y
evalúa el grado de resiliencia individual y la perspectiva de resiliencia
como una característica de personalidad positiva que favorece la
adaptación (Wagnild y Young, 1993). Consta de un total de 25 ítems
escritos de forma positiva, que se valoran del 1 (en desacuerdo) al 7
(totalmente de acuerdo), donde los resultados varían entre los 25 y 175
puntos. Según Wagnild y Young (1993), se consideran altas las
puntuaciones en la escala cuando se obtienen puntuaciones iguales o
superiores a 147 puntos. El procedimiento que debe utilizarse para la
estimación de consistencia interna es
Las puntuaciones totales del Pencrisal, en la muestra de 715 participantes
analizada, se distribuyen con media 27,48 (IC 95%: 27,00–27,95) y
desviación típica 6,49 para un rango de puntuaciones: 12–44. La
distribución de estos valores presenta una muy ligera desviación del
modelo normal de la campana de Gauss con p<,050 pero tolerable
(p=,039>,001 en el test KS). Se ha construido un baremo en percentiles
para la población general, dado que no existen diferencias significativas
ni por sexos ni por edad, y cada uno de los factores. El procedimiento
descrito es
El PENCRISAL se configura como una prueba difícil en cuanto a su nivel
de ejecución. Esto es algo necesario en este tipo de pruebas ya que sólo
de esta manera podemos demostrar el efecto de la intervención, sin
necesidad de diseñar otro instrumento paralelo para este propósito. De
acuerdo a la información anterior, los ítems de la prueba tienen efecto
________________________________ por lo cual, se esperaría una
consistencia interna ______________________________
Se seleccionó una submuestra aleatoria de 130 casos, a quienes se les
aplicó de nuevo la prueba entre 4 y 5 semanas después de la primera
aplicación. Los resultados demuestran una buena estabilidad con
coeficiente de Pearson elevados y significativos tanto en la puntuación
total (r=,786; p<,001) como para cada una de las subescalas. De acuerdo a
la información anterior, la característica psicometría evaluada es
“Como evidencias de validez convergente se correlacionaron las
puntuaciones obtenidas del BFCP y del NEO PI R, encontrando en todos
los casos correlaciones altas y significativas que indican alto ajuste
emocional” De acuerdo a la información anterior, el proceso corresponde
a la validez _____________________________ y tuvo como objetivo
evidenciar ___________________________________________________
Después de seleccionar la escala, se procedió a la adaptación cultural de
la prueba, se eligió un grupo piloto con 20 personas de la comunidad, con
el fin de evaluar la comprensión de los enunciados e identificar si la
prueba lograba evaluar todas las estrategias de afrontamiento que
usualmente las personas emplean para hacer frente al estrés. De este
estudio se identificó que las estrategias definidas como espera,
conformismo y refrenar el afrontamiento no estaban representadas en el
instrumento. Por otro lado, el grupo de investigadores realizó un análisis
teórico de la escala, y expresó la necesidad de especificar las dimensiones
cognitiva, comportamental y emocional de la estrategia que tenía definida
la prueba como evitación, y diferenciar en la estrategia definida en la
prueba como expresión emocional abierta, la reacción agresiva y la
reacción depresiva.
Dado que estos cambios implicaban modificar la estructura del
instrumento, se consideró que el procedimiento conducía a una
modificación de la escala. Se especificaron los componentes y se
construyeron nuevos enunciados, los cuales fueron identificados en un
manuscrito el cual fue enviado a cinco jurados expertos, psicólogos
residentes en Colombia con trayectoria clínica e investigativa, los cuales
conocían y habían empleado el instrumento.

Manualdepsicopatologa Amparobellochvol1

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Manualdepsicopatologa Amparobellochvol1

Încărcat de

Drepturi de autor:

Formate disponibile

FUNDAMENTOS

Natalia Acevedo Mesa

“Un coeficiente de confiabilidad es un índice de confianza, una proporción que indica la

Grado en que un instrumento produce resultados consistentes y coherentes. Es decir en

Al medir un atributo psicológico

Es un índice de confianza, una proporción que indica la

Varianza: La varianza de la muestra es una medición de la dispersión sobre la

La varianza indica qué tan extendida está la distribución de las observaciones.

MEDIA 6,2 ∑ (X-X) 21,6

¿Qué porcentaje de esa

¿Cuáles fueron los tipos de

Es una estimación de la confiabilidad obtenida al correlacionar pares de

 Estabilidad del atributo.

1. Dividir la prueba en mitades equivalentes.

La confiabilidad entre evaluadores es el grado de acuerdo

Grado en que los ítems que hacen parte de una escala se

Se mide la consistencia interna de los reactivos

Homogeneidad: Un Heterogeneidad: Una

Aunque una prueba homogénea sea deseable

«La medida de todas las correlaciones posibles al dividir

«Las medidas de confiabilidad son estimaciones y las

estimaciones están sujetas a error. La cantidad precisa

de error inherente a la estimación de la confiabilidad

variará con la muestra de evaluados, de quienes fueron

extraídos los datos »

• Teoría del rasgo latente

• Las puntuaciones obtenidas por una

Consiste en asumir que la puntuación que una persona obtiene

Lo dicho puede expresarse formalmente así: X = V + e

Es la herramienta que se usa para estimar o inferir la

distancia hasta la cual una puntuación observada se

desvía de una puntuación verdadera. El error estándar

de una medición se puede definir como la desviación

estándar de una distribución que, en teoría, se comporta

normalmente, formada por las puntuaciones de prueba

obtenidas por una persona en pruebas equivalentes.

El estudio de validez de un instrumento se refiere a validar los

«Lo significativo o relevante de la puntuación obtenida en una

No se valida el instrumento, sino la interpretación de los datos

La validez de una prueba concierne a lo que ésta mide, su eficacia

La validez aplicada a una prueba, es un juicio o una estimación

La validez de una prueba disminuye debido a cambios en la

Es un juicio concerniente a cuán relevantes parecen ser

Si una prueba definitivamente parece medir lo que

Los juicios son considerados desde quien responde la

«Va encaminada a comprobar que la prueba recoge una muestra

¿El contenido de este instrumento de medición es representativa

Pertinencia, Claridad, Relevancia y Suficiencia.

Se utiliza para estimar a futuro una conducta, a la que se llama

La validez referida al criterio se caracteriza por la predicción

Criterio: Es el modelo contra el cual se compara y evalúa

Relevante: pertinente o aplicable al tema de

Válido para el propósito para el que

Validez Concurrente: Grado en el que las puntuaciones de

“Es un juicio acerca de lo apropiado de las inferencias realizadas a

Constructo: son rasgos inobservables, supuestos a los que un

Debe explicar el modelo teórico empírico que subyace a la

«Trata de asegurar que las variables o constructos medidos,

 Cambios del atributo de acuerdo a factores como edad,

 Los resultados de las pruebas varían por aprendizaje del

 Las calificaciones de las pruebas se correlacionan con otros

“El análisis factorial se realiza ya sea en una base exploratoria o en una

• La característica psicométrica que se está evaluando es