Documente Academic
Documente Profesional
Documente Cultură
Elisabeth M.S. Sherman, Brian L. Brooks, Grant L. Iverson, Daniel J. Slick y Esther Strauss
Comprender los conceptos de fiabilidad y validez es un requisito previo para el uso cualificado de
las pruebas en entornos clínicos y de investigación.
Del mismo modo, la validez no es una propiedad de "todo o nada" de una prueba. La validez es
una propiedad del significado que se le da a la puntuación de un examen en el contexto específico
del uso del examen. Es decir, los resultados de las pruebas tienen diferentes grados de validez,
para usos específicos, con poblaciones específicas.
En el modelo tripartito de validez, hay tres amplias categorías de pruebas de validez a considerar:
relacionadas con el contenido, relacionadas con la construcción y relacionadas con los criterios.
Dentro de estas amplias categorías, hay muchas maneras de estimar la validez de los resultados de
las pruebas.
Fiabilidad en Neuropsicología
Fiabilidad interna
La fiabilidad interna, un concepto central en la teoría de exámenes clásica, refleja hasta qué punto
los elementos individuales dentro de un examen miden el mismo dominio o construcción
cognitiva. Por ejemplo, la fiabilidad interna de la subprueba WAIS-IV Information es una
estimación de la medida en que todos los elementos de esta subprueba miden el fondo de
conocimientos de una persona. Tiene un alto coeficiente (r = 0,93) porque tiene una buena
cohesión de elementos y un contenido común. Por el contrario, una consistencia interna baja
generalmente significa que una prueba está compuesta de elementos que no miden el mismo
constructo, o que son más heterogéneos que los de las pruebas con una consistencia interna alta.
Las pruebas de CI son una clase de pruebas que típicamente están diseñadas para tener puntajes
con una confiabilidad interna muy alta (por ejemplo, para el WAIS-IV: r = 0.94 para Vocabulario, r =
0.90 para Razonamiento de Matriz; Wechsler et al. 2008), mientras que los instrumentos
diseñados para muestrear una variedad de dominios de contenido sobre pocos ítems tendrán una
confiabilidad interna menor (por ejemplo, Mini Mental State Exam; MMSE, r = 0.31-.96; Strauss et
al. 2006). En la Fig. 30.2 se presentan las estimaciones de confiabilidad interna para la muestra de
estandarización y las muestras clínicas para el WAIS-IV.
La fiabilidad interna suele evaluarse con una estimación de la correlación media entre los
elementos de la prueba. Esto incluye la mitad dividida o el coeficiente de fiabilidad de Spearman-
Brown, el coeficiente alfa (el alfa de Cronbach) y el coeficiente de fiabilidad de Kuder-Richardson.
Las descripciones de estos diferentes métodos se presentan en la Tabla 30.1.
Es importante recordar que no existe una única estimación de consistencia interna para una
puntuación determinada, y mucho menos para una prueba determinada. Al igual que otros tipos
de fiabilidad, la fiabilidad interna varía con las características de la muestra. Esta es la razón por la
que la fuerza de las correlaciones entre los ítems dentro de una prueba puede variar según los
diferentes grupos de edad y los diferentes grupos clínicos. Por ejemplo, para las subpruebas del
Índice de Comprensión Verbal del WISC-IV (Similitudes, Vocabulario y Comprensión), hay una
tendencia hacia un aumento general en las correlaciones de la mitad dividida con el aumento de la
edad (ver Fig. 30.3).
Se espera una mayor variabilidad en la fiabilidad de la consistencia interna en todas las pruebas
cuando se miden capacidades cognitivas más variables o menos estables, como la memoria y el
funcionamiento ejecutivo. Por ejemplo, en la Fig. 30.4 se presenta la variabilidad en la fiabilidad de
la consistencia interna a través de diferentes pruebas del Sistema de Función Ejecutiva de Delis-
Kaplan (D-KEFS; Delis et al. 2001), por grupo de edad.
Las formas alternativas están diseñadas para eliminar los efectos confusos de la práctica cuando
un examen debe administrarse más de una vez. Sin embargo, los formularios alternativos pueden
introducir otro tipo de variación de error, llamado error de muestreo de contenido, además del
error de muestreo de tiempo que se acumula cuando una prueba se administra repetidamente a
lo largo del tiempo (ver Lineweaver y Chelune 2003). Por lo tanto, las pruebas con formas
alternativas deben emplear estándares psicométricos rigurosos para evitar la introducción de
nuevas fuentes de error (ver Tabla 30.3). Por ejemplo, la batería de evaluación neuropsicológica
(Stern y White 2003) fue diseñada para tener dos formas alternativas paralelas. Se realizó un
estudio de generalizabilidad para evaluar las dos formas alternativas. De los 36 resultados de las
pruebas primarias generadas por la batería NAB, sólo 5 cayeron por debajo del nivel que se
consideraría de muy buena fiabilidad (White y Stern 2003). Sin embargo, aunque se pueden
diseñar formas alternativas psicométricamente equivalentes para eliminar los efectos de la
práctica, la exposición previa a estímulos y procedimientos similares puede mejorar las
puntuaciones de las pruebas de nuevo debido a la familiaridad con el formato y el aprendizaje de
los procedimientos a pesar del uso de un conjunto diferente de elementos. Por lo tanto, es posible
que las puntuaciones medias sean más altas cuando se vuelve a realizar la prueba con una forma
alternativa, aunque el examinando no haya estado expuesto previamente al contenido real de los
elementos de la prueba. Vea la Tabla 30.3 para los factores relevantes para construir buenas
formas de prueba alternativas.
La fiabilidad entre calificadores se refiere al grado de consenso entre los diferentes calificadores
en la puntuación de los ítems. Los manuales de pruebas proporcionan instrucciones específicas y
detalladas sobre cómo administrar y calificar las pruebas de acuerdo con los procedimientos
estándar para reducir las posibilidades de introducir errores adicionales debido a los diferentes
examinadores y calificadores. Sin embargo, en las pruebas administradas de manera individual se
mantiene cierto grado de varianza entre los examinadores, especialmente cuando las
puntuaciones implican un cierto grado de juicio en el procedimiento de puntuación. Aunque
muchos exámenes se administran y califican de manera directa, de manera que una respuesta
incorrecta es inequívocamente incorrecta (por ejemplo, el símbolo de dígito de Wechsler), hay
otros exámenes que tienen un componente subjetivo que requiere instrucciones detalladas de
calificación debido a la posibilidad de que el examinador varíe (por ejemplo, los subtests verbales
de Wechsler, la figura del complejo de Rey-Osterrieth, la fluidez verbal). Cuando éste es el caso, se
necesita una estimación de la consistencia de las puntuaciones entre los examinadores como
prueba adicional de la fiabilidad de la prueba. Ver Tabla 30.4 para ejemplos de métodos
estadísticos para evaluar la confiabilidad del interrater.
Como ya hemos comentado, las pruebas no pueden describirse simplemente como "fiables" o
"poco fiables". Más bien, se puede decir que los resultados de las pruebas poseen diferentes tipos
y grados de confiabilidad. La importancia relativa de un tipo de fiabilidad sobre otro dependerá de
cómo se utilice la puntuación de la prueba, con quién y con qué propósito. Por ejemplo, una
prueba de atención exigente puede ser altamente confiable en adultos que funcionan
normalmente, pero produce resultados poco confiables en niños pequeños o en individuos con
enfermedades neurológicas graves. Es importante destacar que una alta fiabilidad no se traduce
necesariamente en una alta validez; algunas construcciones que pueden ser medidas con un alto
grado de precisión pueden ser de poca utilidad clínicamente. Cuando se enfrenta a la hora de
decidir entre pruebas con una fiabilidad variable, normalmente es preferible elegir una prueba
que tenga una fiabilidad ligeramente inferior si esa prueba tiene una validez superior (Nunnally y
Bernstein 1994). Dados los diferentes tipos de fiabilidad, ¿cuál es la más importante a la hora de
elegir una prueba? Algunos han argumentado que la fiabilidad interna es el tipo de fiabilidad más
importante; por lo tanto, si el alfa es bajo (independientemente de otros niveles de pruebas de
fiabilidad), una puntuación de prueba no debería considerarse fiable. Algunas pruebas arrojan
resultados con valores alfa relativamente más bajos, pero poseen una alta fiabilidad de las
pruebas de repetición. Algunos ejemplos son las pruebas que se componen de elementos
heterogéneos que producen puntuaciones estables en la repetición de la prueba, como ciertos
instrumentos de detección de la demencia. Por lo tanto, la consistencia interna no es
necesariamente el índice primario de fiabilidad, sino que debe evaluarse en el contexto más
amplio de la fiabilidad de los ensayos y entre evaluadores (Cicchetti 1994). ¿Qué hay de la
fiabilidad de las pruebas y pruebas? ¿Es necesario considerar si la prueba sólo se utilizará una vez y
no es probable que se vuelva a realizar en el futuro? Los coeficientes de estabilidad son esenciales
para evaluar la utilidad de una prueba porque proporcionan una medida del grado en que las
puntuaciones de la prueba son replicables y estables. Por ejemplo, un clínico debe estar
razonablemente seguro de que el coeficiente intelectual o la puntuación de memoria obtenida
ahora es una buena estimación del funcionamiento de esa persona en el futuro, si esa puntuación
se va a utilizar para la planificación educativa, o para hacer un diagnóstico con respecto a una
afección permanente como la discapacidad cognitiva o la demencia. Las puntuaciones de las
pruebas tendrán una utilidad clínica limitada si no se puede confiar en que proporcionen una
estimación razonable del funcionamiento de una persona en el futuro. En general, la selección de
pruebas -e igualmente importante, la selección de las puntuaciones de las pruebas- requiere que
el clínico utilice un enfoque informado y pragmático (en lugar de dogmático) para evaluar la
fiabilidad de las pruebas para la toma de decisiones clínicas (ver Tabla 30.5). Si el objetivo es medir
una construcción específica, estrechamente definida, entonces la consideración más importante
puede ser una alta confiabilidad interna. La alta fiabilidad de las pruebas de repetición de pruebas
suele ser un requisito de la mayoría de las situaciones clínicas, pero puede considerarse menos
importante si la prueba está diseñada específicamente para medir las variables de estado que
fluctúan. Por ejemplo, si una escala de síntomas de depresión está compuesta enteramente por
elementos extremadamente estables que son completamente resistentes al cambio, no será
sensible a los efectos relacionados con el tratamiento y sería una mala elección para determinar si
un paciente se ha beneficiado de un régimen de medicamentos antidepresivos. Una forma de
evitar el problema de la baja fiabilidad de las pruebas de repetición puede ser utilizar múltiples
medidas del constructo específico y buscar evidencia convergente para apoyar las inferencias
clínicas. Al final, cuando los resultados de las pruebas tienen menor confiabilidad en un dominio
que en otro, como por ejemplo una alta consistencia interna pero una baja confiabilidad en las
pruebas de repetición, por lo general no existen pautas claras sobre cómo interpretar los
resultados de las pruebas, o si la prueba es apropiada para el uso específico de la prueba. Depende
del usuario considerar toda la evidencia disponible y hacer una interpretación informada de las
posibles fortalezas y debilidades de la prueba y sus resultados (ver Tabla 30.5 para ejemplos).
Aunque es posible tener un puntaje de prueba confiable que no es válido para algún propósito, no
es posible tener un puntaje de prueba válido que sea altamente poco confiable. A pesar de esta
afirmación, también es concebible que haya algunos dominios neuropsicológicos que son muy
difíciles de medir de forma altamente fiable. Por lo tanto, aunque se supone que la fiabilidad
cuestionable es siempre una función de la construcción de pruebas deficientes, la fiabilidad puede
depender de la naturaleza del proceso cognitivo medido y de la naturaleza de la población
evaluada. Por ejemplo, muchas de las puntuaciones de las pruebas de funcionamiento ejecutivo
tienen una fiabilidad relativamente modesta, lo que sugiere que esta capacidad es difícil de
evaluar de forma fiable. Otras pruebas que miden dominios como el tiempo de reacción o la
velocidad de procesamiento pueden producir coeficientes bajos en grupos con alta variabilidad de
respuesta, como los preescolares, los ancianos o los individuos con trastornos cerebrales. Por
último, al igual que la validez, la fiabilidad es una cuestión de grado y no de propiedad de todo o
nada. Por lo tanto, la fiabilidad nunca es realmente definitiva. Los resultados de las pruebas deben
ser reevaluados continuamente desde el punto de vista de la confiabilidad a medida que las
poblaciones y los contextos de las pruebas cambian con el tiempo. Una de las influencias más
significativas en las puntuaciones de las pruebas que se vuelven a administrar después de un
período de tiempo es el efecto de la práctica. Re-administración de una prueba se espera que
produzca un mejor rendimiento en la repetición de la prueba, y este es el caso en la mayoría de los
casos. Por ejemplo, los efectos medios de la práctica en el WISC-IV FSIQ oscilan entre 4,2 y 8,3
puntos de índice (Tabla 4.4; Wechsler 2004) y en el WAIS-IV FSIQ entre 3,5 y 4,9 puntos de índice
(Tabla 4.5; Wechsler et al. 2008). Sin embargo, no todas las personas necesariamente muestran un
efecto positivo de la práctica en la repetición de la prueba. Un examinando puede acercarse a
pruebas con las que él o ella tuvo dificultad previamente con una ansiedad aumentada que lleva a
una disminución en el desempeño. El tamaño del coeficiente de fiabilidad de una nueva prueba no
indica la magnitud de los efectos de la práctica. Un puntaje de prueba puede tener un alto
coeficiente de estabilidad, pero tiene un promedio de repetición de la prueba que es varios puntos
más alto que los puntajes de la línea de base. Por ejemplo, el índice de memoria auditiva WMS-IV
tiene una estimación de fiabilidad de prueba y repetición de prueba de 0,81, pero tiene un efecto
de práctica de 11,5 puntos en un breve intervalo de repetición de la prueba en adultos sanos
(Wechsler et al. 2009). En general, se deben responder dos preguntas principales para interpretar
correctamente las puntuaciones en una situación de repetición de la prueba: (1) ¿Cuál es la
magnitud del efecto típico esperado de la práctica, y (2) se espera que el efecto de la práctica sea
consistente entre los individuos en el grupo del cual se origina el examinando? El problema
práctico para los médicos es que, mientras que la mayoría de los manuales de prueba
proporcionan alguna información sobre los efectos medios en la práctica entre los grupos, hay
información limitada en los manuales de prueba para determinar la probabilidad de que ocurra un
efecto conocido en la práctica para un paciente individual. Esto se debe a que la mayoría de los
efectos de la práctica se estiman en sujetos sanos, no en sujetos clínicos, y se promedian para un
grupo con poca información proporcionada con respecto a la distribución de los efectos de la
práctica entre los individuos. Por lo tanto, cuando se considera un grupo grande de sujetos
evaluados dos veces, es probable que algunos se desempeñen peor, otros de manera similar,
algunos mejor y otros mucho mejor en la segunda prueba. El efecto medio de la práctica que se
encuentra en un manual de pruebas sólo puede aplicarse a una proporción desconocida de la
muestra en sí. Los coeficientes de fiabilidad no proporcionan información sobre qué individuos
mantienen su lugar relativo en la distribución desde la línea de base hasta la repetición de la
prueba y qué individuos se enfrentan a aumentos o disminuciones de puntuación en la repetición
de la prueba. Ciertos subgrupos pueden beneficiarse más de la exposición previa que otros (por
ejemplo, individuos con inteligencia superior al promedio; Rapport et al. 1997), o algunos
subgrupos pueden demostrar puntuaciones más estables o efectos de práctica consistentes que
otros. Esto hace que la distribución de la puntuación cambie en la repetición de la prueba, lo que
atenuará la correlación. En estos casos, la prueba, la correlación de la nueva prueba puede variar
significativamente entre subgrupos y la correlación para toda la muestra no será la mejor
estimación de la confiabilidad para los subgrupos, sobreestimando la confiabilidad para algunos y
subestimando la confiabilidad para otros. A pesar de todas estas advertencias, los efectos de la
práctica, siempre y cuando sean relativamente sistemáticos y se evalúen con precisión, no
necesariamente hacen que una prueba sea inutilizable para la práctica clínica. Idealmente, las
puntuaciones de cambio pueden ser evaluadas contra una distribución de frecuencia acumulativa
de las puntuaciones de la diferencia entre pruebas y pruebas para determinar con qué frecuencia
se produce una determinada diferencia entre pruebas y pruebas en la muestra normativa (véase
Brooks et al. 2009). Prácticamente hablando, para la mayoría de las pruebas disponibles, la
puntuación de diferencia promedio será la única información disponible sobre los efectos
esperados de la práctica en personas sanas. Para complicar aún más esta situación es el hecho de
que la mayoría de los coeficientes de estabilidad y efectos prácticos que se proporcionan en los
manuales de prueba se basan en una sola muestra de adultos sanos que se vuelven a examinar
durante un intervalo relativamente breve. Esto contrasta con el escenario clínico típico de un
paciente de un grupo clínico específico probado durante intervalos de tiempo más largos. Como se
ha indicado anteriormente, la fiabilidad de la prueba y del test no debe considerarse una
propiedad psicométrica inmutable de una prueba, y esto también es cierto en el caso de los
efectos de la práctica. Se necesita investigación sobre las propiedades psicométricas de las
pruebas en sujetos clínicos que se prueban en intervalos de repetición clínicamente relevantes.
Considere la siguiente situación clínica como ejemplo. Un hombre de 34 años que sufrió una lesión
cerebral traumática moderada es evaluado con el WMS-III un año después de la lesión y luego de
nuevo un año después. En el manual de pruebas, el efecto promedio de la práctica de la
subprueba WMS-III Logical Memory I en jóvenes de 16-54 años de edad evaluados entre 2 y 12
semanas de diferencia es de 1 ,9 puntos de escala (Psychological Corporation 2002). Si este
paciente no muestra un aumento de 1,9 puntos en las puntuaciones, ¿se debe a que hubo un
intervalo de tiempo más largo entre el punto de partida y la repetición de la prueba en
comparación con la muestra normativa, o a que el paciente tuvo dificultades para recordar la
información y, por lo tanto, no se benefició de la reexposición a los mismos elementos de la
prueba debido a su lesión cerebral? Estas son preguntas que actualmente no están bien
contestadas por los datos disponibles sobre los efectos de la práctica para la mayoría de las
pruebas neuropsicológicas. También es esencial tener en cuenta que la naturaleza real del ensayo
puede cambiar con la exposición. Por ejemplo, las pruebas que se basan en un "efecto de
novedad" y/o requieren la deducción de una estrategia o solución de problemas (por ejemplo,
Wisconsin Card Sorting Test, Heaton et al. 1993; Tower of London, Culbertson y Zillmer 2005)
pueden no realizarse de la misma manera una vez que el examinando se haya familiarizado
previamente con el paradigma de las pruebas. Los efectos de la práctica y otros efectos de
la exposición previa pueden estancarse después de varias exposiciones, y son una razón para
incluir un mínimo de exposiciones de prueba al diseñar investigaciones que impliquen la
administración repetida de pruebas cognitivas o psicológicas. Por el contrario, otras pruebas
pueden no ser aptas para ser administradas varias veces en el mismo paciente. Por último, debe
tenerse en cuenta que otros factores, además de la exposición previa, pueden afectar a la
fiabilidad de las pruebas de repetición. La variabilidad en las puntuaciones de una misma medida a
lo largo del tiempo puede estar relacionada con variables situacionales como el estado del
examinando, el estado del examinador, la identidad del examinador (mismo vs. diferente en la
repetición de la prueba) o las condiciones ambientales. Con todas las diferentes fuentes de error
que pueden confundir potencialmente la medición en la repetición de la prueba, es muy notable
que varias pruebas tengan fuertes coeficientes de confiabilidad de la prueba y la repetición de la
prueba.
Validez en Neuropsicología
La validez de la prueba puede definirse en su nivel más básico como el grado en que una prueba
mide realmente lo que se pretende medir. De acuerdo con el concepto de fiabilidad, un punto
importante que debe hacerse aquí es que no se puede decir que una prueba tenga un solo nivel de
validez. Más bien, se puede decir que posee varios tipos y niveles de validez a través de un
espectro de usos y poblaciones. Es decir, la validez no es una propiedad de una prueba, sino más
bien, la validez es una propiedad del significado que se le da a la puntuación de una prueba en el
contexto específico del uso de la prueba (cf. Franzen 1989, 2000). Este es un concepto clave: al
igual que la fiabilidad, la validez se refiere a los resultados de las pruebas, no a las pruebas (Urbina
2004). Como resultado, puede haber factores únicos que pueden afectar la validez a nivel de la
evaluación individual, tales como desviaciones de la administración estándar, entornos de prueba
inusuales y cooperación variable o deficiente de los examinandos. El conocimiento práctico de los
modelos de validez y de las características de validez de los resultados de las pruebas es un
requisito fundamental para un uso responsable y competente de las mismas. Desde una
perspectiva práctica, un conocimiento práctico de la validez permite a los médicos elegir qué
pruebas son apropiadas para diferentes usos. Por ejemplo, algunas puntuaciones de las pruebas
no logran alcanzar los estándares para el diagnóstico clínico de pacientes individuales, pero serían
perfectamente apropiadas para la investigación con datos de grupo.
Modelos de validez
Desde Cronbach y Meehl (1955), se han propuesto varios modelos de validez. El más frecuente es
el modelo tripartito tradicional (véase la Fig. 30.6), en el que la validez se divide en tres
componentes básicos: relacionada con el contenido, relacionada con los criterios y con la validez
del constructo (por ejemplo, Anastasi y Urbina 1997; Mitrushina et al. 2005; Nunnally y Bernstein
1994; Sattler 2001). Otros subtipos de validez, incluyendo validez convergente, divergente,
predictiva, de tratamiento, clínica y facial, se subsumen dentro de estos tres dominios. Por
ejemplo, la validez convergente y divergente se tratan con mayor frecuencia como subconjuntos
de la validez de constructo (Sattler 2001), y la validez concurrente y predictiva como subconjuntos
de la validez de criterio (por ejemplo, Mitrushina et al. 2005). La validez concurrente y la predictiva
difieren en términos de un gradiente temporal. La validez concurrente es relevante para las
pruebas utilizadas para identificar diagnósticos o condiciones existentes, mientras que la validez
predictiva se aplica al determinar si una prueba predice resultados futuros (Urbina 2004). Aunque
la validez facial es menos estudiada, la medida en que los examinados creen que una prueba mide
lo que parece medir puede afectar la motivación, la auto-revelación y el esfuerzo; en
consecuencia, la validez facial puede ser vista como una variable moderadora que afecta la validez
concurrente y predictiva que puede ser operacionalizada y medida (Bornstein 1996; Nevo 1985).
Enfrentar la validez es importante porque fomenta la relación entre el examinador y el
examinando, así como la apertura y la aceptación de los resultados de las pruebas y sus
implicaciones (Urbina 2004). Una vez más, todas estas etiquetas para distintas categorías de
validez son formas de proporcionar diferentes tipos de pruebas de validez para las puntuaciones
de las pruebas, no diferentes tipos de validez per se. Por último, la validez es una cuestión de
grado y no de propiedad de todo o nada. Por lo tanto, la validez nunca se finaliza porque las
puntuaciones de las pruebas deben ser reevaluadas continuamente a medida que las poblaciones
y los contextos de las pruebas cambian con el tiempo (Nunnally y Bernstein 1994).
Existen diferentes tipos y grados de validez vinculados a las diferentes puntuaciones de las
pruebas neuropsicológicas, y existen numerosas características que los neuropsicólogos pueden
buscar cuando evalúan una prueba y revisan los manuales de las pruebas. No todos tendrán
pruebas suficientes para satisfacer todos los aspectos de la validez, pero los médicos deben tener
un conocimiento suficientemente amplio de las medidas neuropsicológicas para poder seleccionar
una prueba sobre otra (y una puntuación sobre otra dentro de la misma prueba), basándose en la
calidad de las pruebas de validación disponibles. Las tablas 30.6-30.8 presentan fuentes de
evidencia y técnicas para evaluar críticamente la validez de las puntuaciones de las pruebas
neuropsicológicas, extraídas de fuentes clave como Urbina (2004), la Asociación Americana de
Investigación Educativa, la Asociación Americana de Psicología y el Consejo Nacional de Medición
de la Educación (1999), Messick (1996), y Yun y Ulrich (2002). Nótese que hay superposición
entre las fuentes de evidencia presentadas en las Tablas 30.6-30.8. Por ejemplo, las correlaciones
entre una puntuación de CI específica y otra puntuación de CI pueden proporcionar
simultáneamente pruebas de validez relacionadas con la construcción y los criterios.
Las pruebas de validez relacionadas con el contenido proporcionan información sobre si los
elementos de prueba miden realmente el constructo que se pretende medir. Las fuentes de
información basadas en el contenido para determinar esto podrían incluir si los ítems de la prueba
fueron generados con base en un modelo teórico para el constructo en cuestión y si ese modelo
teórico refleja la investigación empírica actual sobre el constructo. Además, es importante
determinar si el constructo ha sido adecuadamente operacionalizado en los ítems de la prueba, y
si los desarrolladores de la prueba definieron adecuadamente el constructo específico a ser
medido por la prueba. Una de las formas en que esto se logra es cuando un desarrollador de
pruebas lleva a cabo una revisión sistemática de la literatura antes de generar los ítems de la
prueba, y empleando expertos en el campo para generar ítems y/o revisar el contenido de los
ítems, idealmente después del consenso. El objetivo es refinar el conjunto de elementos y, al
mismo tiempo, equilibrar la necesidad de un conjunto suficientemente amplio de elementos
capaces de captar una gama de funciones en todo el grupo destinatario y mantener una buena
validez aparente. La Tabla 30.6 enumera algunas preguntas básicas para ayudar a determinar si
una prueba tiene suficiente evidencia de la validez relacionada con el contenido. Pocas pruebas
satisfacen cada condición de la Tabla 30.6, pero una buena prueba debe tener suficiente evidencia
que satisfaga un número de puntos en la tabla.
Las pruebas de validez relacionadas con el constructo se superponen con las pruebas de validez
relacionadas con el contenido, ya que ambas se refieren a lo que está siendo medido por la prueba
en sí misma (a diferencia de lo que la prueba podría predecir o tener utilidad para la clínica). En el
cuadro 30.7 se muestran ejemplos concretos de la forma en que pueden evaluarse las pruebas de
validez del constructo para una prueba. Al igual que con la evidencia relacionada con el contenido,
la presencia de un modelo teórico o antecedentes teóricos respaldados por evidencia empírica es
importante en el contenido de los ítems de la prueba, la estructura de la prueba y el formato de la
prueba, pero igualmente importante es si ese constructo fue medido de manera confiable. Por lo
tanto, el examen de las pruebas de fiabilidad es crucial para determinar la validez del constructo.
Al mismo tiempo, una prueba que mide un pozo de construcción específico debe superponerse
con otras pruebas que miden una construcción similar, y mostrar alguna diferenciación en
términos de pruebas que miden diferentes construcciones. Métodos tales como la matriz
multitrayecto/multi-método, el análisis factorial y el modelado de ecuaciones estructurales son
formas de evaluar la validez del constructo de los ensayos. Estos métodos responden a preguntas
específicas como, ¿existe suficiente evidencia empírica para agrupar los ítems de la prueba
jerárquicamente en niveles específicos, tales como subescalas, puntajes de índices para dominios
específicos y compuestos globales? Un método común para presentar evidencia de validez es a
través de intercorrelaciones entre pruebas que se cree que miden construcciones similares y
disímiles. Siendo realistas, muchas pruebas no producen matrices de correlación claras con altas
correlaciones con pruebas similares y bajas correlaciones con pruebas diferentes. Cuando se
presentan grandes cantidades de correlaciones entre las medidas, tiende a haber relaciones
esperadas e inesperadas entre las variables, y las relaciones disociables entre las pruebas pueden
no ocurrir de una manera clara. Algunas de las variaciones superpuestas a considerar pueden
deberse a factores globales tales como la inteligencia innata subyacente, o al hecho de que la
mayoría de las pruebas neuropsicológicas requieren múltiples habilidades básicas.
El contenido y la validez del constructo tienen como objetivo aumentar nuestra comprensión del
constructo psicológico que se está midiendo y cómo encaja el desempeño de una persona dentro
de ese marco de referencia. Otra pregunta se refiere a "¿cuáles son los criterios que se relacionan
con la puntuación del examen? ”. En su sentido más básico, las pruebas de validez relacionadas
con los criterios se refieren a la sensibilidad y utilidad de la prueba (véase el cuadro 30.8). Para los
neuropsicólogos clínicos, este es el aspecto más importante de la validez. La sensibilidad clínica de
las pruebas puede evaluarse examinando si las puntuaciones siguen una curva de desarrollo
esperada a través de la edad, o si muestran diferencias de género esperadas, o si son sensibles a
las diferencias demográficas esperadas a través de las personas examinadas, tales como la etnia, el
idioma o el estatus socioeconómico . Paradójicamente, cuando una prueba arroja
resultados diferentes entre los grupos demográficos, puede tener un sesgo o error inherente,
pero una prueba que no muestra la capacidad de detectar diferencias conocidas puede ser
insensible a las diferencias individuales reales entre las personas examinadas. También es crucial si
la prueba es capaz de detectar cambios en el desempeño después del tratamiento o intervención
(capacidad de respuesta), y si es sensible al curso natural esperado de las condiciones
neurológicas, médicas o psiquiátricas (por ejemplo, fluctuantes, en declive o estables). Las
estadísticas de precisión de clasificación relacionadas con los resultados de las pruebas también se
utilizan para determinar la validez de los resultados de las pruebas. Aunque una discusión
detallada está más allá del alcance de este capítulo, esto se relaciona con la suficiencia de las
estadísticas, tales como el poder predictivo positivo y negativo para predecir la presencia o
ausencia de diagnósticos o condiciones específicos basados en los puntajes de las pruebas.
Idealmente, las puntuaciones de las pruebas bien validadas también han sido probadas a través de
estudios metaanalíticos para determinar los tamaños de los efectos que describen la sensibilidad
de diferentes pruebas neuropsicológicas en diferentes contextos y con diferentes grupos. Sin
embargo, los estudios de este tipo son escasos en el campo de la neuropsicología.
4. Conclusiones
El objetivo de este capítulo era ayudar a los médicos e investigadores a evaluar la fiabilidad y
validez de las pruebas para uso clínico. Discutimos diferentes tipos de confiabilidad, factores que
afectan la confiabilidad y límites a la confiabilidad. La fiabilidad se refiere a la consistencia de la
medición de una puntuación dada. No es una propiedad de "todo o nada" de una prueba. Más
bien, la confiabilidad se refiere a los resultados de las pruebas, determinados a través de la
evaluación de diferentes tipos de evidencia de confiabilidad (por ejemplo, interna, de prueba y
repetición, de forma alternativa e interrating). La determinación de la fiabilidad de la puntuación
de una prueba es un proceso continuo basado en la información recopilada tanto en individuos
sanos como en poblaciones clínicas. Del mismo modo, la validez no es una propiedad de "todo o
nada" de una prueba. La validez es una propiedad del significado que se le da a la puntuación de
un examen en el contexto específico del uso del examen. Es decir, los resultados de las pruebas
tienen diferentes grados de validez, para usos específicos, con poblaciones específicas. Hay tres
amplias categorías de pruebas de validez a considerar (modelo tripartito): relacionadas con el
contenido, relacionadas con la construcción y relacionadas con los criterios. Dentro de estas
amplias categorías, hay muchas maneras de estimar la validez de los resultados de las pruebas. Al
igual que la fiabilidad, la determinación de la validez de la puntuación de una prueba es un
proceso continuo basado en la información recopilada tanto en individuos sanos como en
poblaciones clínicas. La selección de las medidas neuropsicológicas requiere un proceso cuidadoso
y reflexivo que implica examinar múltiples fuentes de evidencia psicométrica. El proceso depende
en gran medida de la capacidad de los editores de pruebas para incluir información completa en
los manuales de pruebas que los médicos necesitan para seleccionar y administrar las pruebas,
pero es igualmente importante que los médicos revisen cuidadosamente los manuales de pruebas
y examinen la información que se está presentando. Al final, la evaluación de la fiabilidad y validez
de las pruebas neuropsicológicas es un proceso gradual que implica numerosos estudios a lo largo
de períodos de tiempo prolongados. Quizás uno de los componentes más importantes
de la confiabilidad y validez son las inferencias clínicas derivadas de las pruebas (ver Franzen 1989,
2000; Strauss et al. 2006). Nuestro campo ha recorrido un largo camino, pero todavía queda
mucho por hacer en este ámbito.