Sunteți pe pagina 1din 12

Suscríbete a DeepL Pro para poder editar este documento.

Entra en www.DeepL.com/pro para más información.

Capítulo 30 Fiabilidad y Validez en Neuropsicología

Elisabeth M.S. Sherman, Brian L. Brooks, Grant L. Iverson, Daniel J. Slick y Esther Strauss

Resumen En la actualidad existen literalmente cientos de pruebas neuropsicológicas diseñadas


para evaluar las capacidades cognitivas de niños, adolescentes, adultos y adultos mayores. Dada
esta vasta biblioteca de instrumentos, ¿cómo deciden los usuarios de la prueba qué pruebas
neuropsicológicas elegir? Como la mayoría de las decisiones, la elección de una prueba se basa en
una cuidadosa ponderación del equilibrio relativo de fortalezas y debilidades. Dos fuentes críticas
de información para tomar esa decisión son evidencia de la confiabilidad y validez de una prueba.
Examinarlos cuidadosamente ayudará al usuario a tomar una decisión informada sobre si la
prueba es apropiada para un propósito en particular, un examinando en particular y un entorno en
particular. Esto parece una tarea sencilla para la mayoría de los neuropsicólogos, quienes
típicamente han cubierto los conceptos básicos de confiabilidad y validez durante el
entrenamiento de pregrado o postgrado. Sin embargo, un error común es hacer una pregunta de
todo o nada, como "¿es fiable esta prueba? La fiabilidad y la validez a menudo parecen
engañosamente simples, pero siguen siendo temas complejos que hay que dominar. El objetivo de
este capítulo es facilitar el proceso de evaluación de la fiabilidad y validez de las pruebas para uso
clínico. Proporcionaremos una visión general de la fiabilidad, incluyendo diferentes tipos de
fiabilidad, métodos para determinar la fiabilidad, factores que afectan a la fiabilidad y límites a la
fiabilidad. También cubriremos conceptos básicos relacionados con la validez, incluyendo tipos
específicos de evidencia que contribuyen a la validez, formas de evaluar la validez, y pautas
básicas para interpretar la validez. Haremos esto mientras mantenemos el contexto enfocado
tanto como sea posible en la práctica clínica diaria.

Puntos clave y resumen del capítulo

Comprender los conceptos de fiabilidad y validez es un requisito previo para el uso cualificado de
las pruebas en entornos clínicos y de investigación.

La fiabilidad se refiere a la consistencia de la medición, y no es una propiedad de "todo o nada" de


las pruebas. Más bien, la confiabilidad se refiere a los resultados de las pruebas, determinados a
través de la evaluación de diferentes tipos de evidencia de confiabilidad (por ejemplo, interna, de
prueba y repetición, de forma alternativa e interrating).

La determinación de la fiabilidad de la puntuación de una prueba es un proceso continuo basado


en la información recopilada en individuos sanos y en poblaciones clínicas.

Del mismo modo, la validez no es una propiedad de "todo o nada" de una prueba. La validez es
una propiedad del significado que se le da a la puntuación de un examen en el contexto específico
del uso del examen. Es decir, los resultados de las pruebas tienen diferentes grados de validez,
para usos específicos, con poblaciones específicas.

En el modelo tripartito de validez, hay tres amplias categorías de pruebas de validez a considerar:
relacionadas con el contenido, relacionadas con la construcción y relacionadas con los criterios.
Dentro de estas amplias categorías, hay muchas maneras de estimar la validez de los resultados de
las pruebas.

Al igual que la fiabilidad, la determinación de la validez de la puntuación de una prueba es un


proceso continuo basado en la evidencia recopilada en individuos sanos y en poblaciones clínicas.

La selección de las pruebas neuropsicológicas requiere un proceso cuidadoso y reflexivo que


implica examinar múltiples fuentes de evidencia psicométrica.

Fiabilidad en Neuropsicología

La fiabilidad se refiere a la consistencia de la medición de una puntuación dada. La fiabilidad no es


una construcción psicométrica unitaria. En cambio, se determina mediante la evaluación de
diferentes tipos de pruebas de fiabilidad (véase la Fig. 30.1), aplicadas en diferentes contextos
clínicos, a diversos grupos. La fiabilidad no se refiere simplemente a los resultados de las pruebas.
La fiabilidad también se relaciona con las inferencias clínicas derivadas de las pruebas (cf. Franzen
1989, 2000). Los tipos de confiabilidad incluyen la consistencia entre los ítems de la prueba
(confiabilidad interna o consistencia interna), consistencia a lo largo del tiempo (confiabilidad de
prueba-prueba o estabilidad de prueba), consistencia entre formas alternativas (confiabilidad de
forma alternativa), y consistencia entre calificadores (confiabilidad entre calificadores). Todos
estos diferentes tipos de confiabilidad contribuyen a una evaluación general de la confiabilidad de
una prueba en particular, que es simplemente una estimación del grado en que una prueba está
libre de errores de medición. Por error de medición nos referimos a "fluctuación en las
puntuaciones que resulta de factores relacionados con el proceso de medición que son
irrelevantes para lo que se está midiendo"; por lo tanto, la fiabilidad es una propiedad de las
puntuaciones de las pruebas, no de las pruebas (Urbina 2004). Por lo tanto, los coeficientes de
fiabilidad se sitúan entre perfectamente fiables (r = 1,00) y completamente poco fiables (r = 0,00).

Fiabilidad interna

La fiabilidad interna, un concepto central en la teoría de exámenes clásica, refleja hasta qué punto
los elementos individuales dentro de un examen miden el mismo dominio o construcción
cognitiva. Por ejemplo, la fiabilidad interna de la subprueba WAIS-IV Information es una
estimación de la medida en que todos los elementos de esta subprueba miden el fondo de
conocimientos de una persona. Tiene un alto coeficiente (r = 0,93) porque tiene una buena
cohesión de elementos y un contenido común. Por el contrario, una consistencia interna baja
generalmente significa que una prueba está compuesta de elementos que no miden el mismo
constructo, o que son más heterogéneos que los de las pruebas con una consistencia interna alta.
Las pruebas de CI son una clase de pruebas que típicamente están diseñadas para tener puntajes
con una confiabilidad interna muy alta (por ejemplo, para el WAIS-IV: r = 0.94 para Vocabulario, r =
0.90 para Razonamiento de Matriz; Wechsler et al. 2008), mientras que los instrumentos
diseñados para muestrear una variedad de dominios de contenido sobre pocos ítems tendrán una
confiabilidad interna menor (por ejemplo, Mini Mental State Exam; MMSE, r = 0.31-.96; Strauss et
al. 2006). En la Fig. 30.2 se presentan las estimaciones de confiabilidad interna para la muestra de
estandarización y las muestras clínicas para el WAIS-IV.

La fiabilidad interna suele evaluarse con una estimación de la correlación media entre los
elementos de la prueba. Esto incluye la mitad dividida o el coeficiente de fiabilidad de Spearman-
Brown, el coeficiente alfa (el alfa de Cronbach) y el coeficiente de fiabilidad de Kuder-Richardson.
Las descripciones de estos diferentes métodos se presentan en la Tabla 30.1.

Es importante recordar que no existe una única estimación de consistencia interna para una
puntuación determinada, y mucho menos para una prueba determinada. Al igual que otros tipos
de fiabilidad, la fiabilidad interna varía con las características de la muestra. Esta es la razón por la
que la fuerza de las correlaciones entre los ítems dentro de una prueba puede variar según los
diferentes grupos de edad y los diferentes grupos clínicos. Por ejemplo, para las subpruebas del
Índice de Comprensión Verbal del WISC-IV (Similitudes, Vocabulario y Comprensión), hay una
tendencia hacia un aumento general en las correlaciones de la mitad dividida con el aumento de la
edad (ver Fig. 30.3).

Se espera una mayor variabilidad en la fiabilidad de la consistencia interna en todas las pruebas
cuando se miden capacidades cognitivas más variables o menos estables, como la memoria y el
funcionamiento ejecutivo. Por ejemplo, en la Fig. 30.4 se presenta la variabilidad en la fiabilidad de
la consistencia interna a través de diferentes pruebas del Sistema de Función Ejecutiva de Delis-
Kaplan (D-KEFS; Delis et al. 2001), por grupo de edad.

La consistencia interna se informa para la mayoría de los tipos de pruebas cognitivas y


prácticamente todas las medidas de autoinforme. En la Tabla 30.2 se presentan ejemplos de
estimaciones de fiabilidad para el Inventario de Neurocomportamiento de Ruff (Ruff y Hibbard
2003) para grupos normativos y clínicos. Este ejemplo ilustra el principio básico de que, en
igualdad de condiciones, una escala con más elementos como una puntuación compuesta (es
decir, Dominio cognitivo) tiende a tener mayor consistencia interna que una escala con pocos
elementos, como una puntuación de subescala (es decir, Atención y concentración, Funciones
ejecutivas, Aprendizaje y memoria, o Habla y lenguaje).

Fiabilidad de la prueba y del ensayo

La fiabilidad de la prueba de repetición proporciona una estimación de la correlación entre las


puntuaciones de una prueba administrada dos veces en un intervalo de tiempo determinado. Un
puntaje de prueba con una alta confiabilidad de prueba y repetición mostraría pocos cambios con
el tiempo. Las pruebas de CI son un ejemplo de pruebas diseñadas a priori para capturar
estimaciones estables de los niveles de habilidad de un individuo; éstas típicamente tienen altas
correlaciones entre prueba y prueba. Las pruebas que miden las capacidades dinámicas (es decir,
cambiantes), como la atención o el estado de ánimo, pueden tener una fiabilidad menor que las
pruebas que miden dominios que son más parecidos a los rasgos y más estables. Esto se ilustra en
la Fig. 30.5. En la mayoría de los contextos neuropsicológicos, la evaluación de las funciones
estables y cambiantes es igualmente importante. El tamaño de los coeficientes de repetición de la
prueba depende de las características del sujeto, así como de la duración del intervalo de tiempo
entre la prueba y la repetición de la prueba. Por ejemplo, el coeficiente de prueba-prueba para la
secuenciación de números de letras es de 0,48 para los de 16-29 años de edad frente a 0,77 para
los de 55-74 años de edad en la muestra normativa. Otras subpruebas muestran pocas diferencias
a través de la edad (por ejemplo, Memoria Lógica 1). El intervalo entre la prueba y el ensayo
dependerá de una serie de factores, entre los que se incluyen la situación clínica particular, las
preguntas de la investigación y la disponibilidad de datos relevantes para el nuevo ensayo. A
través de las pruebas, no existe un intervalo de tiempo estándar para determinar los coeficientes
de fiabilidad de las pruebas de retorno. Esto complica las comparaciones de puntajes entre las
pruebas. Los períodos de prueba para diferentes pruebas van desde días (p.ej., Prueba Completa
de Trail Making Test, Reynolds 2002) hasta meses (p.ej., Prueba de Ritmo Auditivo
de Serie , Sjögrenet al. 2000) y años (p.ej., Pruebas de Habilidades Cognitivas
Woodcock-Johnson III, WJIIICOG, McGrew y Woodcock 2001). Muchas pruebas estandarizadas
proporcionan información de confiabilidad para intervalos que van de 2 a 12 semanas, aunque
algunas pruebas proporcionan estimaciones de confiabilidad en intervalos más largos. En
particular, el intervalo de 6 meses para la batería de evaluación neuropsicológica (White and Stern
2003) y los intervalos de 1, 3 y 10 años para el WJIII-COG son especialmente dignos de mención.
En la mayoría de los casos, cuanto más corto sea el intervalo de tiempo entre la prueba y la nueva
prueba, mayor será el coeficiente de fiabilidad de la nueva prueba. Sin embargo, el grado en que el
intervalo de tiempo afecte el coeficiente de prueba-revisión dependerá del tipo de habilidad
evaluada (es decir, estable vs. más variable) y del tipo de individuo evaluado, porque algunos
grupos son intrínsecamente más variables que otros. Las fluctuaciones en la puntuación a lo largo
del tiempo pueden depender de las características del sujeto, incluyendo la edad (por ejemplo,
preescolares vs. adultos) y el estado neurológico (por ejemplo, cerebro lesionado vs. sano). Debido
a que esto no necesariamente puede ocurrir en los patrones esperados a través de la edad o la
demografía, las estimaciones de confiabilidad deben ser proporcionadas idealmente tanto para un
rango de individuos normales como para un rango de poblaciones clínicas.

Fiabilidad de los formularios alternativos

Las formas alternativas están diseñadas para eliminar los efectos confusos de la práctica cuando
un examen debe administrarse más de una vez. Sin embargo, los formularios alternativos pueden
introducir otro tipo de variación de error, llamado error de muestreo de contenido, además del
error de muestreo de tiempo que se acumula cuando una prueba se administra repetidamente a
lo largo del tiempo (ver Lineweaver y Chelune 2003). Por lo tanto, las pruebas con formas
alternativas deben emplear estándares psicométricos rigurosos para evitar la introducción de
nuevas fuentes de error (ver Tabla 30.3). Por ejemplo, la batería de evaluación neuropsicológica
(Stern y White 2003) fue diseñada para tener dos formas alternativas paralelas. Se realizó un
estudio de generalizabilidad para evaluar las dos formas alternativas. De los 36 resultados de las
pruebas primarias generadas por la batería NAB, sólo 5 cayeron por debajo del nivel que se
consideraría de muy buena fiabilidad (White y Stern 2003). Sin embargo, aunque se pueden
diseñar formas alternativas psicométricamente equivalentes para eliminar los efectos de la
práctica, la exposición previa a estímulos y procedimientos similares puede mejorar las
puntuaciones de las pruebas de nuevo debido a la familiaridad con el formato y el aprendizaje de
los procedimientos a pesar del uso de un conjunto diferente de elementos. Por lo tanto, es posible
que las puntuaciones medias sean más altas cuando se vuelve a realizar la prueba con una forma
alternativa, aunque el examinando no haya estado expuesto previamente al contenido real de los
elementos de la prueba. Vea la Tabla 30.3 para los factores relevantes para construir buenas
formas de prueba alternativas.

Fiabilidad del Interrater

La fiabilidad entre calificadores se refiere al grado de consenso entre los diferentes calificadores
en la puntuación de los ítems. Los manuales de pruebas proporcionan instrucciones específicas y
detalladas sobre cómo administrar y calificar las pruebas de acuerdo con los procedimientos
estándar para reducir las posibilidades de introducir errores adicionales debido a los diferentes
examinadores y calificadores. Sin embargo, en las pruebas administradas de manera individual se
mantiene cierto grado de varianza entre los examinadores, especialmente cuando las
puntuaciones implican un cierto grado de juicio en el procedimiento de puntuación. Aunque
muchos exámenes se administran y califican de manera directa, de manera que una respuesta
incorrecta es inequívocamente incorrecta (por ejemplo, el símbolo de dígito de Wechsler), hay
otros exámenes que tienen un componente subjetivo que requiere instrucciones detalladas de
calificación debido a la posibilidad de que el examinador varíe (por ejemplo, los subtests verbales
de Wechsler, la figura del complejo de Rey-Osterrieth, la fluidez verbal). Cuando éste es el caso, se
necesita una estimación de la consistencia de las puntuaciones entre los examinadores como
prueba adicional de la fiabilidad de la prueba. Ver Tabla 30.4 para ejemplos de métodos
estadísticos para evaluar la confiabilidad del interrater.

Evaluación de la fiabilidad de una prueba

Como ya hemos comentado, las pruebas no pueden describirse simplemente como "fiables" o
"poco fiables". Más bien, se puede decir que los resultados de las pruebas poseen diferentes tipos
y grados de confiabilidad. La importancia relativa de un tipo de fiabilidad sobre otro dependerá de
cómo se utilice la puntuación de la prueba, con quién y con qué propósito. Por ejemplo, una
prueba de atención exigente puede ser altamente confiable en adultos que funcionan
normalmente, pero produce resultados poco confiables en niños pequeños o en individuos con
enfermedades neurológicas graves. Es importante destacar que una alta fiabilidad no se traduce
necesariamente en una alta validez; algunas construcciones que pueden ser medidas con un alto
grado de precisión pueden ser de poca utilidad clínicamente. Cuando se enfrenta a la hora de
decidir entre pruebas con una fiabilidad variable, normalmente es preferible elegir una prueba
que tenga una fiabilidad ligeramente inferior si esa prueba tiene una validez superior (Nunnally y
Bernstein 1994). Dados los diferentes tipos de fiabilidad, ¿cuál es la más importante a la hora de
elegir una prueba? Algunos han argumentado que la fiabilidad interna es el tipo de fiabilidad más
importante; por lo tanto, si el alfa es bajo (independientemente de otros niveles de pruebas de
fiabilidad), una puntuación de prueba no debería considerarse fiable. Algunas pruebas arrojan
resultados con valores alfa relativamente más bajos, pero poseen una alta fiabilidad de las
pruebas de repetición. Algunos ejemplos son las pruebas que se componen de elementos
heterogéneos que producen puntuaciones estables en la repetición de la prueba, como ciertos
instrumentos de detección de la demencia. Por lo tanto, la consistencia interna no es
necesariamente el índice primario de fiabilidad, sino que debe evaluarse en el contexto más
amplio de la fiabilidad de los ensayos y entre evaluadores (Cicchetti 1994). ¿Qué hay de la
fiabilidad de las pruebas y pruebas? ¿Es necesario considerar si la prueba sólo se utilizará una vez y
no es probable que se vuelva a realizar en el futuro? Los coeficientes de estabilidad son esenciales
para evaluar la utilidad de una prueba porque proporcionan una medida del grado en que las
puntuaciones de la prueba son replicables y estables. Por ejemplo, un clínico debe estar
razonablemente seguro de que el coeficiente intelectual o la puntuación de memoria obtenida
ahora es una buena estimación del funcionamiento de esa persona en el futuro, si esa puntuación
se va a utilizar para la planificación educativa, o para hacer un diagnóstico con respecto a una
afección permanente como la discapacidad cognitiva o la demencia. Las puntuaciones de las
pruebas tendrán una utilidad clínica limitada si no se puede confiar en que proporcionen una
estimación razonable del funcionamiento de una persona en el futuro. En general, la selección de
pruebas -e igualmente importante, la selección de las puntuaciones de las pruebas- requiere que
el clínico utilice un enfoque informado y pragmático (en lugar de dogmático) para evaluar la
fiabilidad de las pruebas para la toma de decisiones clínicas (ver Tabla 30.5). Si el objetivo es medir
una construcción específica, estrechamente definida, entonces la consideración más importante
puede ser una alta confiabilidad interna. La alta fiabilidad de las pruebas de repetición de pruebas
suele ser un requisito de la mayoría de las situaciones clínicas, pero puede considerarse menos
importante si la prueba está diseñada específicamente para medir las variables de estado que
fluctúan. Por ejemplo, si una escala de síntomas de depresión está compuesta enteramente por
elementos extremadamente estables que son completamente resistentes al cambio, no será
sensible a los efectos relacionados con el tratamiento y sería una mala elección para determinar si
un paciente se ha beneficiado de un régimen de medicamentos antidepresivos. Una forma de
evitar el problema de la baja fiabilidad de las pruebas de repetición puede ser utilizar múltiples
medidas del constructo específico y buscar evidencia convergente para apoyar las inferencias
clínicas. Al final, cuando los resultados de las pruebas tienen menor confiabilidad en un dominio
que en otro, como por ejemplo una alta consistencia interna pero una baja confiabilidad en las
pruebas de repetición, por lo general no existen pautas claras sobre cómo interpretar los
resultados de las pruebas, o si la prueba es apropiada para el uso específico de la prueba. Depende
del usuario considerar toda la evidencia disponible y hacer una interpretación informada de las
posibles fortalezas y debilidades de la prueba y sus resultados (ver Tabla 30.5 para ejemplos).

Límites a la confiabilidad, efectos en la práctica y efectos de la exposición previa

Aunque es posible tener un puntaje de prueba confiable que no es válido para algún propósito, no
es posible tener un puntaje de prueba válido que sea altamente poco confiable. A pesar de esta
afirmación, también es concebible que haya algunos dominios neuropsicológicos que son muy
difíciles de medir de forma altamente fiable. Por lo tanto, aunque se supone que la fiabilidad
cuestionable es siempre una función de la construcción de pruebas deficientes, la fiabilidad puede
depender de la naturaleza del proceso cognitivo medido y de la naturaleza de la población
evaluada. Por ejemplo, muchas de las puntuaciones de las pruebas de funcionamiento ejecutivo
tienen una fiabilidad relativamente modesta, lo que sugiere que esta capacidad es difícil de
evaluar de forma fiable. Otras pruebas que miden dominios como el tiempo de reacción o la
velocidad de procesamiento pueden producir coeficientes bajos en grupos con alta variabilidad de
respuesta, como los preescolares, los ancianos o los individuos con trastornos cerebrales. Por
último, al igual que la validez, la fiabilidad es una cuestión de grado y no de propiedad de todo o
nada. Por lo tanto, la fiabilidad nunca es realmente definitiva. Los resultados de las pruebas deben
ser reevaluados continuamente desde el punto de vista de la confiabilidad a medida que las
poblaciones y los contextos de las pruebas cambian con el tiempo. Una de las influencias más
significativas en las puntuaciones de las pruebas que se vuelven a administrar después de un
período de tiempo es el efecto de la práctica. Re-administración de una prueba se espera que
produzca un mejor rendimiento en la repetición de la prueba, y este es el caso en la mayoría de los
casos. Por ejemplo, los efectos medios de la práctica en el WISC-IV FSIQ oscilan entre 4,2 y 8,3
puntos de índice (Tabla 4.4; Wechsler 2004) y en el WAIS-IV FSIQ entre 3,5 y 4,9 puntos de índice
(Tabla 4.5; Wechsler et al. 2008). Sin embargo, no todas las personas necesariamente muestran un
efecto positivo de la práctica en la repetición de la prueba. Un examinando puede acercarse a
pruebas con las que él o ella tuvo dificultad previamente con una ansiedad aumentada que lleva a
una disminución en el desempeño. El tamaño del coeficiente de fiabilidad de una nueva prueba no
indica la magnitud de los efectos de la práctica. Un puntaje de prueba puede tener un alto
coeficiente de estabilidad, pero tiene un promedio de repetición de la prueba que es varios puntos
más alto que los puntajes de la línea de base. Por ejemplo, el índice de memoria auditiva WMS-IV
tiene una estimación de fiabilidad de prueba y repetición de prueba de 0,81, pero tiene un efecto
de práctica de 11,5 puntos en un breve intervalo de repetición de la prueba en adultos sanos
(Wechsler et al. 2009). En general, se deben responder dos preguntas principales para interpretar
correctamente las puntuaciones en una situación de repetición de la prueba: (1) ¿Cuál es la
magnitud del efecto típico esperado de la práctica, y (2) se espera que el efecto de la práctica sea
consistente entre los individuos en el grupo del cual se origina el examinando? El problema
práctico para los médicos es que, mientras que la mayoría de los manuales de prueba
proporcionan alguna información sobre los efectos medios en la práctica entre los grupos, hay
información limitada en los manuales de prueba para determinar la probabilidad de que ocurra un
efecto conocido en la práctica para un paciente individual. Esto se debe a que la mayoría de los
efectos de la práctica se estiman en sujetos sanos, no en sujetos clínicos, y se promedian para un
grupo con poca información proporcionada con respecto a la distribución de los efectos de la
práctica entre los individuos. Por lo tanto, cuando se considera un grupo grande de sujetos
evaluados dos veces, es probable que algunos se desempeñen peor, otros de manera similar,
algunos mejor y otros mucho mejor en la segunda prueba. El efecto medio de la práctica que se
encuentra en un manual de pruebas sólo puede aplicarse a una proporción desconocida de la
muestra en sí. Los coeficientes de fiabilidad no proporcionan información sobre qué individuos
mantienen su lugar relativo en la distribución desde la línea de base hasta la repetición de la
prueba y qué individuos se enfrentan a aumentos o disminuciones de puntuación en la repetición
de la prueba. Ciertos subgrupos pueden beneficiarse más de la exposición previa que otros (por
ejemplo, individuos con inteligencia superior al promedio; Rapport et al. 1997), o algunos
subgrupos pueden demostrar puntuaciones más estables o efectos de práctica consistentes que
otros. Esto hace que la distribución de la puntuación cambie en la repetición de la prueba, lo que
atenuará la correlación. En estos casos, la prueba, la correlación de la nueva prueba puede variar
significativamente entre subgrupos y la correlación para toda la muestra no será la mejor
estimación de la confiabilidad para los subgrupos, sobreestimando la confiabilidad para algunos y
subestimando la confiabilidad para otros. A pesar de todas estas advertencias, los efectos de la
práctica, siempre y cuando sean relativamente sistemáticos y se evalúen con precisión, no
necesariamente hacen que una prueba sea inutilizable para la práctica clínica. Idealmente, las
puntuaciones de cambio pueden ser evaluadas contra una distribución de frecuencia acumulativa
de las puntuaciones de la diferencia entre pruebas y pruebas para determinar con qué frecuencia
se produce una determinada diferencia entre pruebas y pruebas en la muestra normativa (véase
Brooks et al. 2009). Prácticamente hablando, para la mayoría de las pruebas disponibles, la
puntuación de diferencia promedio será la única información disponible sobre los efectos
esperados de la práctica en personas sanas. Para complicar aún más esta situación es el hecho de
que la mayoría de los coeficientes de estabilidad y efectos prácticos que se proporcionan en los
manuales de prueba se basan en una sola muestra de adultos sanos que se vuelven a examinar
durante un intervalo relativamente breve. Esto contrasta con el escenario clínico típico de un
paciente de un grupo clínico específico probado durante intervalos de tiempo más largos. Como se
ha indicado anteriormente, la fiabilidad de la prueba y del test no debe considerarse una
propiedad psicométrica inmutable de una prueba, y esto también es cierto en el caso de los
efectos de la práctica. Se necesita investigación sobre las propiedades psicométricas de las
pruebas en sujetos clínicos que se prueban en intervalos de repetición clínicamente relevantes.
Considere la siguiente situación clínica como ejemplo. Un hombre de 34 años que sufrió una lesión
cerebral traumática moderada es evaluado con el WMS-III un año después de la lesión y luego de
nuevo un año después. En el manual de pruebas, el efecto promedio de la práctica de la
subprueba WMS-III Logical Memory I en jóvenes de 16-54 años de edad evaluados entre 2 y 12
semanas de diferencia es de 1 ,9 puntos de escala (Psychological Corporation 2002). Si este
paciente no muestra un aumento de 1,9 puntos en las puntuaciones, ¿se debe a que hubo un
intervalo de tiempo más largo entre el punto de partida y la repetición de la prueba en
comparación con la muestra normativa, o a que el paciente tuvo dificultades para recordar la
información y, por lo tanto, no se benefició de la reexposición a los mismos elementos de la
prueba debido a su lesión cerebral? Estas son preguntas que actualmente no están bien
contestadas por los datos disponibles sobre los efectos de la práctica para la mayoría de las
pruebas neuropsicológicas. También es esencial tener en cuenta que la naturaleza real del ensayo
puede cambiar con la exposición. Por ejemplo, las pruebas que se basan en un "efecto de
novedad" y/o requieren la deducción de una estrategia o solución de problemas (por ejemplo,
Wisconsin Card Sorting Test, Heaton et al. 1993; Tower of London, Culbertson y Zillmer 2005)
pueden no realizarse de la misma manera una vez que el examinando se haya familiarizado
previamente con el paradigma de las pruebas. Los efectos de la práctica y otros efectos de
la exposición previa pueden estancarse después de varias exposiciones, y son una razón para
incluir un mínimo de exposiciones de prueba al diseñar investigaciones que impliquen la
administración repetida de pruebas cognitivas o psicológicas. Por el contrario, otras pruebas
pueden no ser aptas para ser administradas varias veces en el mismo paciente. Por último, debe
tenerse en cuenta que otros factores, además de la exposición previa, pueden afectar a la
fiabilidad de las pruebas de repetición. La variabilidad en las puntuaciones de una misma medida a
lo largo del tiempo puede estar relacionada con variables situacionales como el estado del
examinando, el estado del examinador, la identidad del examinador (mismo vs. diferente en la
repetición de la prueba) o las condiciones ambientales. Con todas las diferentes fuentes de error
que pueden confundir potencialmente la medición en la repetición de la prueba, es muy notable
que varias pruebas tengan fuertes coeficientes de confiabilidad de la prueba y la repetición de la
prueba.

Validez en Neuropsicología

La validez de la prueba puede definirse en su nivel más básico como el grado en que una prueba
mide realmente lo que se pretende medir. De acuerdo con el concepto de fiabilidad, un punto
importante que debe hacerse aquí es que no se puede decir que una prueba tenga un solo nivel de
validez. Más bien, se puede decir que posee varios tipos y niveles de validez a través de un
espectro de usos y poblaciones. Es decir, la validez no es una propiedad de una prueba, sino más
bien, la validez es una propiedad del significado que se le da a la puntuación de una prueba en el
contexto específico del uso de la prueba (cf. Franzen 1989, 2000). Este es un concepto clave: al
igual que la fiabilidad, la validez se refiere a los resultados de las pruebas, no a las pruebas (Urbina
2004). Como resultado, puede haber factores únicos que pueden afectar la validez a nivel de la
evaluación individual, tales como desviaciones de la administración estándar, entornos de prueba
inusuales y cooperación variable o deficiente de los examinandos. El conocimiento práctico de los
modelos de validez y de las características de validez de los resultados de las pruebas es un
requisito fundamental para un uso responsable y competente de las mismas. Desde una
perspectiva práctica, un conocimiento práctico de la validez permite a los médicos elegir qué
pruebas son apropiadas para diferentes usos. Por ejemplo, algunas puntuaciones de las pruebas
no logran alcanzar los estándares para el diagnóstico clínico de pacientes individuales, pero serían
perfectamente apropiadas para la investigación con datos de grupo.

Modelos de validez

Desde Cronbach y Meehl (1955), se han propuesto varios modelos de validez. El más frecuente es
el modelo tripartito tradicional (véase la Fig. 30.6), en el que la validez se divide en tres
componentes básicos: relacionada con el contenido, relacionada con los criterios y con la validez
del constructo (por ejemplo, Anastasi y Urbina 1997; Mitrushina et al. 2005; Nunnally y Bernstein
1994; Sattler 2001). Otros subtipos de validez, incluyendo validez convergente, divergente,
predictiva, de tratamiento, clínica y facial, se subsumen dentro de estos tres dominios. Por
ejemplo, la validez convergente y divergente se tratan con mayor frecuencia como subconjuntos
de la validez de constructo (Sattler 2001), y la validez concurrente y predictiva como subconjuntos
de la validez de criterio (por ejemplo, Mitrushina et al. 2005). La validez concurrente y la predictiva
difieren en términos de un gradiente temporal. La validez concurrente es relevante para las
pruebas utilizadas para identificar diagnósticos o condiciones existentes, mientras que la validez
predictiva se aplica al determinar si una prueba predice resultados futuros (Urbina 2004). Aunque
la validez facial es menos estudiada, la medida en que los examinados creen que una prueba mide
lo que parece medir puede afectar la motivación, la auto-revelación y el esfuerzo; en
consecuencia, la validez facial puede ser vista como una variable moderadora que afecta la validez
concurrente y predictiva que puede ser operacionalizada y medida (Bornstein 1996; Nevo 1985).
Enfrentar la validez es importante porque fomenta la relación entre el examinador y el
examinando, así como la apertura y la aceptación de los resultados de las pruebas y sus
implicaciones (Urbina 2004). Una vez más, todas estas etiquetas para distintas categorías de
validez son formas de proporcionar diferentes tipos de pruebas de validez para las puntuaciones
de las pruebas, no diferentes tipos de validez per se. Por último, la validez es una cuestión de
grado y no de propiedad de todo o nada. Por lo tanto, la validez nunca se finaliza porque las
puntuaciones de las pruebas deben ser reevaluadas continuamente a medida que las poblaciones
y los contextos de las pruebas cambian con el tiempo (Nunnally y Bernstein 1994).

Cómo evaluar la validez de una prueba

Existen diferentes tipos y grados de validez vinculados a las diferentes puntuaciones de las
pruebas neuropsicológicas, y existen numerosas características que los neuropsicólogos pueden
buscar cuando evalúan una prueba y revisan los manuales de las pruebas. No todos tendrán
pruebas suficientes para satisfacer todos los aspectos de la validez, pero los médicos deben tener
un conocimiento suficientemente amplio de las medidas neuropsicológicas para poder seleccionar
una prueba sobre otra (y una puntuación sobre otra dentro de la misma prueba), basándose en la
calidad de las pruebas de validación disponibles. Las tablas 30.6-30.8 presentan fuentes de
evidencia y técnicas para evaluar críticamente la validez de las puntuaciones de las pruebas
neuropsicológicas, extraídas de fuentes clave como Urbina (2004), la Asociación Americana de
Investigación Educativa, la Asociación Americana de Psicología y el Consejo Nacional de Medición
de la Educación (1999), Messick (1996), y Yun y Ulrich (2002). Nótese que hay superposición
entre las fuentes de evidencia presentadas en las Tablas 30.6-30.8. Por ejemplo, las correlaciones
entre una puntuación de CI específica y otra puntuación de CI pueden proporcionar
simultáneamente pruebas de validez relacionadas con la construcción y los criterios.

Pruebas de validez relacionadas con el contenido

Las pruebas de validez relacionadas con el contenido proporcionan información sobre si los
elementos de prueba miden realmente el constructo que se pretende medir. Las fuentes de
información basadas en el contenido para determinar esto podrían incluir si los ítems de la prueba
fueron generados con base en un modelo teórico para el constructo en cuestión y si ese modelo
teórico refleja la investigación empírica actual sobre el constructo. Además, es importante
determinar si el constructo ha sido adecuadamente operacionalizado en los ítems de la prueba, y
si los desarrolladores de la prueba definieron adecuadamente el constructo específico a ser
medido por la prueba. Una de las formas en que esto se logra es cuando un desarrollador de
pruebas lleva a cabo una revisión sistemática de la literatura antes de generar los ítems de la
prueba, y empleando expertos en el campo para generar ítems y/o revisar el contenido de los
ítems, idealmente después del consenso. El objetivo es refinar el conjunto de elementos y, al
mismo tiempo, equilibrar la necesidad de un conjunto suficientemente amplio de elementos
capaces de captar una gama de funciones en todo el grupo destinatario y mantener una buena
validez aparente. La Tabla 30.6 enumera algunas preguntas básicas para ayudar a determinar si
una prueba tiene suficiente evidencia de la validez relacionada con el contenido. Pocas pruebas
satisfacen cada condición de la Tabla 30.6, pero una buena prueba debe tener suficiente evidencia
que satisfaga un número de puntos en la tabla.

Pruebas de validez relacionadas con el constructo

Las pruebas de validez relacionadas con el constructo se superponen con las pruebas de validez
relacionadas con el contenido, ya que ambas se refieren a lo que está siendo medido por la prueba
en sí misma (a diferencia de lo que la prueba podría predecir o tener utilidad para la clínica). En el
cuadro 30.7 se muestran ejemplos concretos de la forma en que pueden evaluarse las pruebas de
validez del constructo para una prueba. Al igual que con la evidencia relacionada con el contenido,
la presencia de un modelo teórico o antecedentes teóricos respaldados por evidencia empírica es
importante en el contenido de los ítems de la prueba, la estructura de la prueba y el formato de la
prueba, pero igualmente importante es si ese constructo fue medido de manera confiable. Por lo
tanto, el examen de las pruebas de fiabilidad es crucial para determinar la validez del constructo.
Al mismo tiempo, una prueba que mide un pozo de construcción específico debe superponerse
con otras pruebas que miden una construcción similar, y mostrar alguna diferenciación en
términos de pruebas que miden diferentes construcciones. Métodos tales como la matriz
multitrayecto/multi-método, el análisis factorial y el modelado de ecuaciones estructurales son
formas de evaluar la validez del constructo de los ensayos. Estos métodos responden a preguntas
específicas como, ¿existe suficiente evidencia empírica para agrupar los ítems de la prueba
jerárquicamente en niveles específicos, tales como subescalas, puntajes de índices para dominios
específicos y compuestos globales? Un método común para presentar evidencia de validez es a
través de intercorrelaciones entre pruebas que se cree que miden construcciones similares y
disímiles. Siendo realistas, muchas pruebas no producen matrices de correlación claras con altas
correlaciones con pruebas similares y bajas correlaciones con pruebas diferentes. Cuando se
presentan grandes cantidades de correlaciones entre las medidas, tiende a haber relaciones
esperadas e inesperadas entre las variables, y las relaciones disociables entre las pruebas pueden
no ocurrir de una manera clara. Algunas de las variaciones superpuestas a considerar pueden
deberse a factores globales tales como la inteligencia innata subyacente, o al hecho de que la
mayoría de las pruebas neuropsicológicas requieren múltiples habilidades básicas.

Pruebas de validez relacionadas con el criterio

El contenido y la validez del constructo tienen como objetivo aumentar nuestra comprensión del
constructo psicológico que se está midiendo y cómo encaja el desempeño de una persona dentro
de ese marco de referencia. Otra pregunta se refiere a "¿cuáles son los criterios que se relacionan
con la puntuación del examen? ”. En su sentido más básico, las pruebas de validez relacionadas
con los criterios se refieren a la sensibilidad y utilidad de la prueba (véase el cuadro 30.8). Para los
neuropsicólogos clínicos, este es el aspecto más importante de la validez. La sensibilidad clínica de
las pruebas puede evaluarse examinando si las puntuaciones siguen una curva de desarrollo
esperada a través de la edad, o si muestran diferencias de género esperadas, o si son sensibles a
las diferencias demográficas esperadas a través de las personas examinadas, tales como la etnia, el
idioma o el estatus socioeconómico . Paradójicamente, cuando una prueba arroja
resultados diferentes entre los grupos demográficos, puede tener un sesgo o error inherente,
pero una prueba que no muestra la capacidad de detectar diferencias conocidas puede ser
insensible a las diferencias individuales reales entre las personas examinadas. También es crucial si
la prueba es capaz de detectar cambios en el desempeño después del tratamiento o intervención
(capacidad de respuesta), y si es sensible al curso natural esperado de las condiciones
neurológicas, médicas o psiquiátricas (por ejemplo, fluctuantes, en declive o estables). Las
estadísticas de precisión de clasificación relacionadas con los resultados de las pruebas también se
utilizan para determinar la validez de los resultados de las pruebas. Aunque una discusión
detallada está más allá del alcance de este capítulo, esto se relaciona con la suficiencia de las
estadísticas, tales como el poder predictivo positivo y negativo para predecir la presencia o
ausencia de diagnósticos o condiciones específicos basados en los puntajes de las pruebas.
Idealmente, las puntuaciones de las pruebas bien validadas también han sido probadas a través de
estudios metaanalíticos para determinar los tamaños de los efectos que describen la sensibilidad
de diferentes pruebas neuropsicológicas en diferentes contextos y con diferentes grupos. Sin
embargo, los estudios de este tipo son escasos en el campo de la neuropsicología.

4. Conclusiones

El objetivo de este capítulo era ayudar a los médicos e investigadores a evaluar la fiabilidad y
validez de las pruebas para uso clínico. Discutimos diferentes tipos de confiabilidad, factores que
afectan la confiabilidad y límites a la confiabilidad. La fiabilidad se refiere a la consistencia de la
medición de una puntuación dada. No es una propiedad de "todo o nada" de una prueba. Más
bien, la confiabilidad se refiere a los resultados de las pruebas, determinados a través de la
evaluación de diferentes tipos de evidencia de confiabilidad (por ejemplo, interna, de prueba y
repetición, de forma alternativa e interrating). La determinación de la fiabilidad de la puntuación
de una prueba es un proceso continuo basado en la información recopilada tanto en individuos
sanos como en poblaciones clínicas. Del mismo modo, la validez no es una propiedad de "todo o
nada" de una prueba. La validez es una propiedad del significado que se le da a la puntuación de
un examen en el contexto específico del uso del examen. Es decir, los resultados de las pruebas
tienen diferentes grados de validez, para usos específicos, con poblaciones específicas. Hay tres
amplias categorías de pruebas de validez a considerar (modelo tripartito): relacionadas con el
contenido, relacionadas con la construcción y relacionadas con los criterios. Dentro de estas
amplias categorías, hay muchas maneras de estimar la validez de los resultados de las pruebas. Al
igual que la fiabilidad, la determinación de la validez de la puntuación de una prueba es un
proceso continuo basado en la información recopilada tanto en individuos sanos como en
poblaciones clínicas. La selección de las medidas neuropsicológicas requiere un proceso cuidadoso
y reflexivo que implica examinar múltiples fuentes de evidencia psicométrica. El proceso depende
en gran medida de la capacidad de los editores de pruebas para incluir información completa en
los manuales de pruebas que los médicos necesitan para seleccionar y administrar las pruebas,
pero es igualmente importante que los médicos revisen cuidadosamente los manuales de pruebas
y examinen la información que se está presentando. Al final, la evaluación de la fiabilidad y validez
de las pruebas neuropsicológicas es un proceso gradual que implica numerosos estudios a lo largo
de períodos de tiempo prolongados. Quizás uno de los componentes más importantes
de la confiabilidad y validez son las inferencias clínicas derivadas de las pruebas (ver Franzen 1989,
2000; Strauss et al. 2006). Nuestro campo ha recorrido un largo camino, pero todavía queda
mucho por hacer en este ámbito.

S-ar putea să vă placă și