Sunteți pe pagina 1din 20

El diagnstico de las pruebas: el uso y el mal uso de diagnstico y

pruebas de deteccin.
ABSTRACTO
Las pruebas se pueden utilizar para el diagnstico (es decir, para
confirmar o descartar la presencia de una enfermedad en personas con
sospecha de ella) o como un instrumento de deteccin (determinacin de que
en un gran grupo de personas tiene la condicin y, a menudo, cuando esas
personas no son conscientes de ella o no estn dispuestos a admitir a l). Los
exmenes que pueden ser tiles para el diagnstico y precisa en realidad
puede hacer ms dao que bien cuando se usa como instrumento de
cribado. La razn es que la proporcin de falsos negativos puede ser alto
cuando la prevalencia es alta, y la proporcin de falsos positivos tiende a ser
alto cuando la prevalencia de la enfermedad es baja (la situacin habitual con
las pruebas de deteccin). Mi primer objetivo de este artculo es discutir los
efectos de la tasa base, o prevalencia, de un trastorno en la exactitud de los
resultados de las pruebas. Mi segundo objetivo es revisar algunas de las
muchas estadsticas de eficiencia de diagnstico que se pueden derivar de una
tabla 2 x 2, incluida la tasa correcta clasificacin, kappa, phi, el ndice de
probabilidad (odd ratio), valor predictivo positivo y negativo y algunas
variantes de ellos, y los cocientes de probabilidad. En la ltima parte de este
artculo, se revisan las recientes normas para la informacin de las directrices
precisin diagnstica (Bossuyt et al., 2003) para informar de los resultados de
las pruebas de diagnstico y extenderlos a cubrir los tipos de pruebas
utilizadas por los psiclogos.
En los ltimos aos, las pruebas de diagnstico y deteccin tienen sido
objeto de numerosos artculos en la prensa popular. Por una parte, algunos
gobiernos y agencias de recoleccin de sangre han sido criticadas y
demandadas por la no adecuada deteccin de sangre y productos de sangre
para el VIH y la hepatitis. Por otra parte, meta-anlisis recientes han puesto en
duda la utilidad de tanto el autoexamen de mama (Baxter y el Grupo
Canadiense Vigor el cuidado preventivo de la Salud, 2001) y la mamografa
(Olsen y Gotzsche, 2001) en las mujeres ms jvenes para la prevencin de
cncer de mama, y una decisin judicial ha prohibido el polgrafo o detector de
mentiras, como prueba en causas penales (Comit a revisar la evidencia
cientfica sobre el polgrafo, 2003; Estados Unidos v Scheffer, 1998). Estos
informes han generado una gran incertidumbre y confusin, y dan lugar a
cuatro preguntas: (a) Cul es la diferencia entre diagnstico y pruebas de
deteccin ?, (b) En qu circunstancias son cada uno de ellos de utilidad ?, (c)
Cundo pueden hacer ms dao que bien ?, y (d) Cul debera ser el criterio
mnimo para comunicacin de los estudios acerca de las pruebas?
Los exmenes de diagnstico y de deteccin son similares en que son
utilizados para detectar la presencia o ausencia de algn atributo en gente. En
algunos casos, la pregunta es determinar cunto del atributo tiene una persona
(por ejemplo, pruebas de aptitud e inteligencia, exmenes de admisin de
universidad y graduados), mientras que, en el mbito clnico, las personas son
a menudo ya sea ignorantes de lo que padecen (por ejemplo, la tuberculosis o
la enfermedad de Tay-Sachs) o pueden no estar dispuestos a admitir su
presencia (por ejemplo, el uso de drogas ilcitas o tener secretos transmitidos a

gobiernos extranjeros). La diferencia entre ellos depende de la forma en que se


usan y no la forma en que se desarrollan. Las pruebas de diagnstico de tics se
utilizan cuando la persona que se sospecha que tiene el atributo, y el propsito
es confirmarlo o descartarlo, mientras que las pruebas de deteccin, como su
nombre lo indica, se dan ms en trminos generales, principalmente para
grandes grupos de personas asintomticas de donde el objetivo es determinar
que cual (si existe) de ellos tienen la atributo en cuestin.
Los grupos que reciben pruebas de deteccin pueden oscilar desde
cualquiera en la poblacin (por ejemplo, la deteccin en masa) a un enfoque
ms individualizado de hallar gente de alto riesgo (Nielsen & Lang, 1999).
Ambas pruebas pueden usar una variedad de formatos exmenes de sangre,
orina, y otros componentes del cuerpo; rayos X, cuestionarios de papel y lpiz,
mediciones de funcionamientos psicolgico, rasgos de la voz; y muchas otras.
Algunas pruebas de deteccin se han vuelto tan tiles que son aplicadas
rutinariamente, tales como evaluar la presencia de fenilcetonuria (PKU) en los
recin nacidos. Si no se detecta, la ausencia de la enzima que procesa el
aminocido fenilcetonuria puede llevar a retardos mentales severos,
convulsiones e hiperactividad. Sin embargo, si el infante es puesto a una dieta
restringida de fenilcetonuria, entonces un desarrollo normal es posible.
En este artculo, me centro sobre todo en situaciones en las cuales hay
un resultado dicotmico, tales como la presencia o ausencia de una
condicin. Asumo que las pruebas que resultan en nmeros reales han sido
dicotomizadas en presencia o ausencia, aunque yo tambin abordo
brevemente el uso de mltiples puntos de corte
LA VALIDACION DE UNA PRUEBA
Para determinar cundo las pruebas de diagnstico y deteccin son y no
son tiles, es necesario entender cmo se estn desarrollando y validando. El
punto de partida habitual es montar dos grupos de personas, uno de los cuales
se sabe que tienen cierto atributo y el otro compuesto por gente de quienes se
sabe no lo tienen. Esto plantea dos cuestiones que son dos lados opuestos de
una misma moneda. Cmo podemos formas esos grupos si an no hemos
desarrollado la prueba, y como desarrollar una nueva prueba si ya tenemos
una para formar los grupos? Hay un nmero de razones para reemplazar las
pruebas existentes con nuevas, incluyendo los bajos costos o malestar, mejor
exactitud y ms oportuno. Por ejemplo, el tratamiento para detectar TB son los
rayos X en el pecho. Sin embargo, sufre de un numero de defectos. Expone a la
persona a radiacin ionizada y requiere equipamiento carsimo y tcnicos y
radilogos altamente pagados para el uso e interpretacin de las imgenes.
Consecuentemente, ha sido reemplazada por la prueba tuberculina de piel para
propsitos de deteccin, a pesar del hecho de que subsecuentes
procedimientos algunas veces arrojan resultados falsos positivos por razones
que discutir luego. El tratamiento para el diagnstico del Alzheimer es una
biopsia de cerebro. Sin embargo, esto puede ser efectuado nicamente luego
de que el paciente ha muerto, ha habido considerables esfuerzos para
desarrollar pruebas que puedan ser usadas mientras las personas estn an
con vida, variando desde imgenes del cerebro a pruebas psicolgicas (por
ejemplo., Chen et al., 2000)

Hay algunos casos en los que no hay pruebas existentes y el


investigador debe recurrir a inducir el atributo experimentalmente. Por
ejemplo, si el propsito es desarrollar una prueba de deteccin para drogas
ilcitas, el investigador puede dar a algunas personas cierta cantidad de
substancias y a otros placebos para determinar si el nuevo ensayo puede
diferenciar entre esos grupos. Muchos estudios que intentan validar el polgrafo
usa el paradigma de decirle a los participantes de un grupo que asumirn el rol
de alguien que ha robado algo, y para motivarlos, pueden ganarse un dinero
extra si engaan al operador del polgrafo (ejemplo, Raskin & Hare, 1978). En
el rea de las pruebas de personalidad, las escalas para detectar falsos
enfermos, o falsas personas en buen estado se validad frecuentemente
dicindoles a los encuestados que deben responder como si tuvieran un
problema psicolgico serio o estuvieran en perfecta condicin mental
(ejemplo., Bury & Bagby, 2002).
PROPIEDADES DE UNA PRUEBA
Para volver a la lnea de la historia, una vez que los dos grupos han sido
formados, a ambos se les entrega una prueba para ser validada, resultando en
una situacin mostrada en la Tabla 1. La cual es que, hay 4 posibles resultados:
Las personas que de hecho poseen el atributo fueron correctamente
detectadas por la nueva prueba (Celda A, verdaderos positivos) o errados
(Celda C, falsos negativos), mientras que personas quienes no posean el
atributo fueron errneamente etiquetados como que si lo poseen (Celda B,
falsos positivos) o correctamente etiquetados como que no lo poseen (Celda D,
verdaderos negativos). Por ejemplo, yo use datos de un estudio de Rice y
Harriss (1995) validando una prueba de propensin a la violencia, la Gua de
Estimacin de Riesgo de Violencia (GERV = VRAG en ingls). Su muestra
consista de hombres quienes haban cometido un violento crimen y fueron
seguidos para determinar quines cometeran otro violento crimen dentro de 3
aos y medio. Por razones que explico en las siguientes secciones, yo hago un
poco de violencia yo mismo con sus datos y asumo que fueron 200 hombres, la
mitad de ellos quienes cometieron un crimen violento dentro del tiempo
enmarcado y la mitad de ellos quienes no lo hicieron. Usando un punto de corte
optimo en el GERV uno puede llenar las celdas como se expresa en la Tabla 2.
NDICE BASADO EN COLUMNAS
Un numero de atributos de la prueba, colectivamente conocido como
estadsticas de eficiencia diagnostica, pueden ser derivadas de estos nmeros.
Los primeros tres sensibilidad, especificidad y el ndice de probabilidad- son
condicionantes en la poblacin. Por la tabla de 2 x 2 con las que trabajo, por
tradicin, tienen los atributos de la poblacin en columnas y los resultados de
las pruebas en filas, esos tres ndices son usualmente conocidos como basados
en columnas. La sensibilidad de una prueba es definida como la proporcin de
personas quienes tienen el atributo quienes son detectadas por la prueba. En
la tabla 2, esto sera

TABLA 1
CLASIFICACION DE RESULTADOS DE UN ESTUDIO VALIDO DE UNA

Resultado de la
nueva evaluacin
Presente
Ausente
Total Columna

PRUEBA DE DIAGNOSTICO
Criterio de referencia (gold standard)
Presente
Ausente
Total de la fila
Verdadero positivo
Falso positivo
A
B
A+B
C
D
C+D
Falso negativo
Verdadero negativo
A+C
B+D
N= A+B+C+D

TABLA 2
RESULTADOS HIPOTETICOS DE UNA PRUEBA DE INCLINACION A
LA VIOLENCIA
Resultados de Gua de Estimacin de
Cometieron un acto violento
Si
No
Total de la fila
Riesgo de Violencia
Violento
81
40
121
A
B
No violento
C
D
79
19
60
Total Columna
100
100
200
Nota. Data modificada de Rice and Harris (1995). Prevalencia = 100/200
= .500; sensibilidad = 81/100 = .810; especificidad = 60/100 = .600; Valor
predictivo positivo (VPP) = 81/121 = .669; valor predictivo negativo (VPN) =
60/79 = .759; VPP Gradual = .669 .50 = .169; VPN Gradual = .759 .50 = .
259; VPP Calidad = (.669 .50)/(1 .50) = .338; VPN Calidad = (.759 .50)/(1
.50) = .518; ndice de probabilidad+ = .810/(1 .600) = 2.025; ndice de
probabilidad = .600/(1 .810) = 3.158; kappa = (141 100)/(200 100) = .
410; ndice de probabilidades (odds ratio) = (81)(60)/(40)(19) = 6.395; phi =
[(81)(60) (40)(19)]/![(100)(100)(121)(79)] = .419; Probabilidades previo a la
prueba+ (pretest odds+) = .50/(1 .50) =1.000; pretest odds = (1 .50)/.50
= 1.000; posttest odds+ = 1.000 2.025 =2.025; Probabilidades luego de la
prueba (posttest odds) = 1.000 3.158 = 3.158.
Sensibilidad =

A
A+C

81
81 + 19

= .810.

(1)

Esto significa que 81% de las personas que luego cometieron un acto de
violencia fueron correctamente escogidos por el GERV.
La especificidad de una prueba es la proporcin de personas sin el atributo que
son correctamente etiquetadas por la prueba, o
Especificidad =

D
B+D

60
40 + 60

= .600.

(2)

As que el 60% de la gente no violenta fueron precisamente identificadas


como tales por la prueba. Uno puede combinar la sensibilidad y la especificidad
en un nico numero llamado el ndice de probabilidad (LR+), el cual es definido
como
LR+ =

Sensibilidad

1-Especificidad

Taza de Verdaderos Positivos

(3)

Taza de Falsos Positivos

El LR+ es otro ndice de precisin de las pruebas y nos dice cules son las
probabilidades (odds) de que el resultado de una prueba positivo haya venido
de una persona que posee el atributo. Cuando la LR+ es 1, la prueba es
inservible y no contribuye en hacer un diagnstico. Para el GERV la LR+ es .81/
(1-.60)=2.025, lo que significa que un resultado de prueba positivo tiene el
doble de posibilidad para aquellos que son violentos como para los que no. La
frmula de equivalencia para un resultado de prueba negativo es
LR- =

Especificidad
1-Sensibilidad

Taza de Verdaderos Negativos

(4)

Taza de Falsos Negativos

Lo que es .60/(1 - .81) = 3.158, lo que indica que un puntaje menor al


punto de corte es tres veces ms posible de haber venido de una persona que
no es violenta.
Una ventaja de LR+ y LR- es que cuando son usadas conjunto a escalas
que tienen un resultado continuo, pueden ser calculadas para un numero con
diferentes puntos de corte. Esto corresponde ms exactamente al como
usamos dichas pruebas; mientras ms alto el puntaje ms probable es que el
resultado haya venido de una persona con el desorden. Luego discutir como la
LR+ y la LR- pueden ser usadas para reflejar la probabilidad de tener un rasgo.
Sensibilidad, especificidad y las LRs son generalmente vistas como
propiedades fijas de la prueba (Sackett, GHaynes, Guyatt & Tugwell, 1991;
Streiner & Norman, 1996). Esto es, que mientras se use una prueba con un
grupo similares de gente, stos atributos no debiesen cambiar. Sin embargo, si
la prueba es usada en gente quienes tienen diferentes cantidades del rasgo en
cuestin, entonces la sensibilidad y la especificidad tendrn que ser
recalculadas; por ejemplo, una prueba vlida para pacientes con depresin
severa muy probablemente tendr diferentes propiedades cuando se use con
pacientes con distimia (depresin persistente)
NDICES BASADOS EN FILAS
Una vez que una prueba ha sido validada y puesto en uso general, es
generalmente utilizada por s misma, y no vamos a tener ningn otro resultado
de prueba contra el que podamos evaluar. Eso significa que debemos tomar un
desvo de preocuparnos acerca de la sensibilidad y especificidad esto es, la
proporcin de aquellos quienes tienen y quienes no tienen la condicin y estn
correctamente clasificados - a la proporcin de aquellas personas quienes son
etiquetadas por la prueba como que tienen o no tienen el rasgo y que de hecho
lo tienen y no lo tienen. En otras palabras, estamos interesados en las
proporciones a travs de las dos filas de la tabla ms que de las dos columnas

(nuevamente, por tradicin, los ndices basados en filas se refieren a los


resultados). A estas dos pruebas de atributos se les refieren como el valor
predictivo positivo y el valor predictivo negativo (VPP y VPN). Ellas se definen
en las siguientes dos ecuaciones usando la informacin de la Tabla 2:

Valor predictivo positivo (VPP) =


y
Valor predictivo negativo (VPN) =

A
A+B

81
=
81+40

.669.

(5)

D
C+D

60
=
19+60

.759.

(6)

En otras palabras, de aquellos quienes se les predijo que cometeran un


acto violento de acuerdo a su puntaje en el GERV (Gua de estimacin de
Riesgo de Violencia = VRAG en ingls = Violence Risk Assay Guide), 67% de
hecho cometieron un acto violento, y aquellos quienes fueron etiquetados
como no violentos, 76% fueron de hecho no violentos. Nuevamente, el GERV
demuestra que funciona muy bien.
NDICES BASADOS EN TABLAS
Tambin es posible derivar un largo nmero de ndices basados en tablas
como un todo. Aunque estos varias en relacin a la magnitud y sus valores
mnimos y mximos, Kraemer et al. (1999) mostro como muchos de stos
estn de hecho relacionados unos con otros. Quizs el ms simple es el
promedio (hit rate), el cual tambin es referido como a la clasificacin correcta
general (OCC en ingls = Overall Correct Classification). Esto es solamente la
proporcin de decisiones correctas, o (A+D)/N, lo cual para la Tabla 2 sera (81
+ 60)/200 = .71. El mayor problema con el OCC es que no cuenta con las
concordancias que puedan darse por azar. Esto es, incluso si el diagnostico se
hace lanzando una moneda, algunas veces ser correcto, y el fallar en tomar
esto en consideracin incrementar la aparente exactitud de la prueba. La
estadstica ms ampliamente utilizada que corrige las concordancias del azar
es la Cohen Kappa (; Cohen, 1960), la cual es

No Ne

(7)

=
N - Ne
Donde No es el numero correcto de concordancias, Ne, es el nmero
de concordancias esperadas por azar, y N es el tamao total de la muestra.
Con la data que tenemos esto se resuelve
=

(81+60) - (60.5 + 39.5)


200 (60.5 39.5)

= 141
100
200
100

.410.

(8
)

Lo cual es considerablemente menor que el .71 encontrado cuando no


haba corregido la probabilidad de concordancia
Otra manera de escribir la frmula para , a la cual Kraemer et al. (1999)
se refiri como la Kappa ponderada (Weighted Kappa) o k, es
k=

(AD BC)
(A + B) (B + D) K + (C + D) (A + C) K

(9)

Donde K = (1 K). Cuando la sensibilidad y la especificidad son


igualmente importantes, K = K = y = k. Cuando la nica preocupacin es
la sensibilidad, K = 1, y K = 0 cuando la nica preocupacin es la especificidad.
Una estadstica ms familiar para los psiclogos es el coeficiente Phi (Phi
coefficient ()), definido como
=

AD BC
[(A + B) (C + D) (A + C) (B + C)] ^1/2 (elevado a un medio)

(10)

Y esto usando la informacin previa


=

(81) (60) (40) (19)

= .
419.

(11)

(100) x 100 x 121 x 79) ^1/2 (elevado a un


medio)

El uso de es justificado por una variedad de razones. Es la correlacin


de Pearson para informacin dicotmica y es consecuentemente un efecto
legtimo que indica el tamao de la fuerza de asociacin; a causa de esto, ^2
(elevado al cuadrado) se relacin a la proporcin de variante explicadas por
(R^2) (elevado al cuadrado) en ecuaciones regresivas (Kraemer et al., 1999); y
N^2 (elevado al cuadrado) es igual a la familiar x^2. Una ventaja de la ms
complicada ecuacin de k (ecuacin 9) es que puede ser usada para mostrar
la relacin entre y :

= k=0 k=1

(12)

Aunque relativamente rara vez se encuentra en diarios psicolgicos, lo


que se refiere a probabilidad relativa o ndices de probabilidad (OR = odds
ratio) (Otra vez con, probabilidad = odd)

OR = AD = (81) (60) = 6.395.


BC
(40) (19)

(13)

Es frecuentemente utilizado en diarios mdicos. Sus principales


desventajas son que su lmite superior no tiene fronteras (esto es, ya sea bien
Celda B o C tiene un valor de cero, el lmite superior es infinito) y que muchas

personas malinterpretan las probabilidades relativas (relative odds) como si


fuese riesgo relativo (Streiner, 1998). Por estas y otras razones, Sacketts,
Deeks, y Altman (1996) no recomendaron su uso. Una razn para su
continuacin, sin embargo, es que entra en el clculo con la LR, como discutir
luego un poco.

LOS EFECTOS DE PREVALENCIA EN LAS PROPIEDADES DE UNA PRUEBA


Como Meehl y Rosen (1995) sealaron cerca de medio siglo atrs, Poder
predictivo positivo y poder predictivo negativo no son como sensibilidad y
especificidad en el hecho de que no son propiedades fijas de una prueba. Ms
bien, son muy dependientes de la prevalencia o taza base de la condicin a ser
testeada en una poblacin [usando la notacin en la Tabla 1, la prevalencia es
(A + C)/N]. Esto tiene consecuencias directas en relacin al uso que se le da a
cada prueba. En este ejemplo, como en muchos estudios de validacin, la
prevalencia es 50%; esto significa, la mitad de las personas tuvieron la
condicin (en este caso violencia) y la otra mitad no. Esto se hace debido a que
las pruebas estadsticas son ms eficientes en estas circunstancias. Sin
embargo, si la prueba es usada para propsitos de deteccin, la prevalencia
sera menor y con muchas condiciones (ejemplo., VIH/SIDA o esquizofrenia)
considerablemente menores que 50%. Cmo podra una prueba
desempearse bajo estas circunstancias?
Hay dos formas equivalentes para determinar esto: usando formula y
reescribiendo la tabla. La frmula, conocida colectivamente como el teorema
de Bayes, fue llamada as por el reverendo Thomas Bayes y publicada
primeramente en 1763, 2 aos luego de su muerte. Para el Poder predictivo
positivo (PPP) esto es

Donde P(Dx|T+) es la probabilidad de tener el diagnostico (Dx) dado que


la persona tiene un resultado positivo (T+ = del ingls Test); P(Dx) es la
probabilidad del diagnstico en el grupo siendo testeado (es decir, su
prevalencia en la taza base; =
= 1 P(Dx); P(T+|Dx) es la probabilidad de
un resultado positivo en la prueba siendo que la persona tiene el diagnostico
(es decir, la sensibilidad); y
es la probabilidad de un resultado
positivo dado que la persona no tiene el diagnostico (es decir., la especificidad)
Una forma equivalente de escribir la formula usando las definiciones
para cada termino es:
Prevalencia x Sensibilidad

PPP
=

(Prevalencia x Sensibilidad) + [(1 Prevalencia) x (1Especificidad)]

De forma similar, la frmula del Poder Predictivo negativo es (NPP en


ingls)

Donde
es la probabilidad de que una persona no tenga el
diagnostico dado que el resultado sea negativo (T-)
es la probabilidad
de que el resultado sea negativo dado que la persona no tenga el diagnostico
(es decir., especificidad); y P(T-|Dx) es la probabilidad de que un resultado sea
negativo dado que el diagnostico este presente (es decir., 1- Sensibilidad), o

NPP=
(1- Prevalencia) x Especificidad
[(1- Prevalencia) x Especificidad] + [Prevalencia x (1- Sensibilidad)]
(17)

Usando la formula, es posible determina como el GERV funcionar en


otras situaciones (ignorando el hecho de que las caractersticas de la muestra
cambian, la informacin de la sensibilidad y especifidad pudiesen no
mantenerse). Por ejemplo, luego de la cantidad de veces de porte de arma de
nios en colegios, disparando e incluso a veces matando compaeros y
profesores, hubo un llamado a detectar la inclinacin de violencia de todos los
estudiantes. Asumamos que la directiva de un colegio decide usar el GERV para
este propsito, y tambin asumamos que la prevalencia de violencia es (un
muy inflado estimado de) 5% [es decir., P(Dx) =.05]. Manteniendo los mismos
valores para la sensibilidad y especificidad, el PPP es

PPP = P(Dx|T+) =

.05 x .81
(.05 x .81) + (.95 x .40)

= .096.

(18)

En otras palabras, todos los resultados del GERV que dicen violentos,
solo 9.6% vienen de nios quienes son probables de, de hecho, volverse
violentos; el otro 90.4% serian falsos positivos de gente que no haran nada
violento. Esta es una ley universal e inmutables de las pruebas: Mientras baje
la prevalencia, tambin disminuye el Poder predictivo positivo, mientras que la
proporcin de falsos positivos incrementa. Si la actual prevalencia es 1% en vez
de 5%, el PPP es 2% lo que significara que el 98% de los resultados positivos
son incorrectos y son de hechos falsos positivos. Puede utilizarse la prueba
para identificar gente no violenta? Para esto, tenemos que usar el NPP (Poder
predictivo negativo):

Cuando la prevalencia es baja, el valor predictivo negativo ser alto; por


lo tanto, la prueba puede ser usada para descartar una condicin. En este caso,
sobre el 98% de los estudiantes no violentos son identificados por la prueba. Yo
noto, sin embargo, que una probabilidad del .984 es solamente marginalmente
ms alta que la taza de no violencia, la cual es .950. Luego, discutir formas de
cuantificar el aumento en informacin entregada por resultados de pruebas
positivos y negativos.

TABLA 3
RESULTADOS HIPOTETICOS CUANDO LA PREVALENCIA ES 5%
Resultados de la Guia de Estimacion de
Cometi un acto violento
Si
No
Total de fila
Riesgo de Violencia
Violento
405
3800
4205
A
B
No violento
C
D
5795
95
5700
Total de columna
500
9500
10000
Nota. Prevalencia = 500/10,000 = .050; sensibilidad = 405/500 = .810;
especificidad= 5700/9500 = .600; poder predictivo positivo (PPP) = 405/4,205
= .096; poder predictivo negativo (NPP) = 5,700/5,795 = .984; poder predictivo
positivo incremental = .096 .05 = .046; poder predictivo negativo
incremental = .984 .95 = .034; poder predictivo positivo calidad = (.096 .
05)/(1 .05) = .049; poder predictivo negativo calidad= (.984 .95)/(1 .95)
= .672; ndice de probabilidad+ = .810/(1 .600) = 2.025; ndice de
probabilidad = .600/(1 .810) = 3.158; kappa = (6105 5,715.5)/(10,000
5,715.5) = .091; ndice de probabilidad (odd ratio) = (405)(5,700)/(3,800)(95)
= 6.395; phi = [(405)(5,700) (3,800)(95)]/! [(500)(9,500)(4,205)(5,795)] = .
181; probabilidades pretest+ = .05/(1 .05) = .053; probabilidades pretest =
(1 .05)/.05 = 19.000; probabilidades posttest+ = .053 2.025 = .107;
probabilidades posttest = 19.000 3.158 = 60.000.
El mtodo alternativo de derivar estas figuras es rehacer la tabla,
manteniendo los mismos nmeros para la sensibilidad y la especificidad, pero
haciendo que el total de las columnas refleje un 5% de prevalencia. Para
mantener los nmeros completos, asumamos que 10.000 personas han sido
evaluadas, aunque como se mencion en la nota a pie de pgina 2, cualquier
numero puede ser usado con idnticos resultados. En la tabla 3, empezamos
usando 500 y 9.500 como totales de columnas. Multiplicamos 500 veces la
sensibilidad para Celda A y 9.500 veces la especificidad para la Celda D.
Restando, obtenemos las Celdas B y C y sumando, los totales de fila. Usando la
ecuacin 3, el Poder predictivo positivo es 405/4,205 = .096, y usando la
ecuacin 4, el Valor predictivo negativo es 5,700/5,795 = .984. lo cual son las
mismas figuras calculadas usando el teorema de Bayes

Sin introducirnos en los clculos, puedo establecer otra ley para los
resultados universal e inmutable: Asumiendo que una prueba es
razonablemente precisa, entonces cuando la prevalencia de una condicin es
alta, (a) el valor predictivo positivo es tambin alto y (b) el valor predictivo
negativo es bajo. Entonces, deduzco y resumo dos reglas
1- Cuando la prevalencia es baja, una prueba es lo mejor para
descartar una condicin, pero no para incluir
2- Cuando la prevalencia de una condicin es alta, una prueba es lo
mejor para incluir, pero no para descartar.
Yo aado una tercera regla:
3- Las pruebas funcionan mejor cuando la prevalencia es 50%
Los LRs (ndices de probabilidad = likelihood ratio en ingls) pueden
tambin ser usados para calcular el PPP y PPN usando la siguiente formula
Probabilidades post test (odds) = Probabilidades pre test (odds) x LR,
(LR = ndice de probabilidad)

(20)
Donde, para resultados positivos

Probabilidades Pre test+


(odds) =

PPP =

Prevalencia
1 - Prevalencia

(21)

Probabilidades Post test+ (odds)


Probabilidades Post test+ (odds) + 1

Mientras que para resultados negativos


Probabilidades Pre test+
1- Prevalencia

(odds) =

(22)

(23)

Prevalencia
(24)

PPN =

Probabilidades Post test- (odds)


Probabilidades Post test- (odds) + 1

Nuevamente asumiendo una prevalencia del 5% entonces para detectar


la presencia de violencia, las probabilidades post test+ (odds) son 0.0053 x
2.025 = 0.107 por la ecuacin 20, y el PPP es 0.107/1.107 = 0.097, el cual es el
mismo valor obtenido usando el teorema de Bayes. Para detectar la ausencia
de violencia, las probabilidades del pre test- (odds) son (1 - .05)/.05 = 19.000
por la ecuacin 23. En ecuacin 4 encontramos un LR- de 3.158; por lo tanto,
las probabilidades post test- (odds) son 19.000 x3.158 = 60.000 y el PPN

(ecuacin 24) es 60.000/61.000 = .984, lo que concuerda con el numero


derivado de la ecuacin 6.
La tabla 4 resume los efectos de la prevalencia en la variacin
estadstica mencionada en este artculo, El lector puede ver la magnitud de los
efectos aplicando las ecuaciones a los nmeros en Tablas 2 y 3.

TABLA 4
ESTADISTICAS AFFECTADAS Y NO AFECTADAS POR LA
PREVALENCIA
Afectadas por la prevalencia
No afectadas por la prevalencia
PPP
Sensibilidad
NPP
Especificidad
PPP Incremental
Indice de Probabilidad (Odds ratio)
NPP Incremental
LR+ (ndice de probabilidad)
PPP Calidad
LR- (ndice de probabilidad)
NPP Calidad
[Nota de Leandro: Ambos son ndices de
Kappa ()
probabilidad pero en ingls son diferentes
Phi ()
Odds Ratio
Probabilidades Pre Test (+ o -) (odds) Likelihood Ratio + o -]
Probabilidades Post Test (+ o -) (odds)
Nota. PPP= Poder predictivo positivo; NPP= Poder predictivo negativo; LR+=
Indice de probabilidad de un resultado positivo; LR-= Resultado negativo

VALIDACIN INCREMENTAL
En el ejemplo en el cual la prevalencia de violencia fue 5%, encontramos
que el GERV con mucha precisin detecto 98,4% de los nios que no seran
violentos. A primera vista, esto lo hara ver como una buena prueba para
descartar inclinacin a la violencia. Sin embargo, tenemos que tener en mente
que, si no ussemos la prueba y simplemente dijsemos que todos eran no
violentos, estaramos en lo correcto el 95% de las veces (es decir, el ndice de
no ocurrencia de violencia, o 1-prevalencia). Es por esto que, no es suficiente
observar el PPN (o el PPP) sino que ms bien el incremento en los valores
predictivos sobre lo que se espera con las tazas bases. Gibertini, Branderburg,
y Retzlaff (1986) se refirieron a esto como el Poder predictivo positivo
incremental o IPPP, y el Poder predictivo negativo incremental o INPP (siglas en
ingls)

Cuando el IPPP o INPP es igual a cero, el PPP o NPP es exactamente igual


a las expectativas de azar. La dificultad con estos ndices, sin embargo, es que
son difciles de interpretar. Una variacin de estos, propuesta por Kraemer
(1992), re-escala el IPPP e INPP dividindolos por el rango mximo posible, el
cual es 1- P(Dx) para la ecuacin 25 y 1para ecuacin 26. La ventaja es
que el ndice es nuevamente cero cuando la prueba no agrega nada, pero
asume un valor mximo de 1.00 cuando no hay errores diagnsticos. Para este
ejemplo, entonces, la calidad del NPP de Kraemer es

Lo que significa que hay un 67% de incremento en el valor diagnostico


utilizando la prueba. Como Hsu (2002) seal, esto es similar la correccin de
azar en la kappa de Cohen.
Aunque estas ecuaciones cuantifican la cantidad de informacin
adicional al usar la prueba, no (y no pueden) consignar el problema de
compensacin de costo social. Por un lado, positivo, podemos estar ms
seguros de que estos estudiantes etiquetados por el test como no violentos, de
hecho, no cometern un acto de violencia. Por el lado negativo, (a) no estamos
100% seguros de ello; (b) hay un peligro de que la prueba haya sido
malinterpretada para etiquetar a aquellos con altos puntajes como violentos, a
pesar del muy alto ndice de falsos positivos; y (c) hay un costo real monetario
en administrar y puntuar la prueba, lo que muy probablemente significara que
recursos de otros programas se desven para los costos que requiere la prueba.
DETECTANDO POR CONDICIONES DE PREVALENCIA BAJA
Como se ha visto anteriormente, el principal problema con las pruebas
de deteccin es que si la prevalencia de la enfermedad es baja, la mayora de
los resultados positivos sern de hecho falsos positivos. Suponiendo que los
resultados de la GERV son vlidos, entonces puede ser una prueba til para
evaluar la propensin a la violencia de los grupos especficos. Esto de hecho es
su verdadero propsito; Rice y Harris (1995) pretenden que sea utilizado con
los presos que tienen un historial de violencia, y la proporcin de los que
continuaran cometiendo actos de violencia es ms o menos 30%. Sin embargo,
cuando se utiliza para detectar la violencia en los grupos en los que la
expectativa es baja, entonces es probable que hace ms dao que bien al
etiquetar falsamente a un gran nmero de personas no violentas. Una vez ms,
esto es cierto para todas las pruebas de deteccin y es una de las bases de las
objeciones de detecci masiva de drogas ilcitas entre los candidatos
potenciales o tratando de determinar que se ha revelado informacin secreta
por medio de un examen de polgrafo a todos los empleados. Hay veces, sin
embargo, en que es necesario detectar condiciones bajas de prevalencias,
como la fenilcetonuria en los recin nacidos o el VIH o la hepatitis C en la
sangre, y cuando el costo de los casos de desaparecidos es alta. En estas
circunstancias, las pruebas de diagnstico se utilizan a menudo de forma
secuencial. La primera prueba tiene una alta sensibilidad y utiliza un punto de
corte para asegurar que muy pocos casos se pierden, a pesar de que esto se

traduce en un gran nmero de falsos positivos. Sin embargo, la prevalencia de


la enfermedad en esta muestra tamizada posterior est ms cercano al ideal
del 50% por lo que una segunda prueba, con una alta especificidad y un
conjunto de puntos de corte para eliminar los falsos positivos, tiene un mejor
rendimiento. Aun as, existe una probabilidad de casos falsos positivos
restante, con todos los problemas resultantes de etiquetado y quizs
intervenciones innecesarias (por ejemplo, Bergman y Stamm, 1967).
USANDO PRUEBAS DE DETECCION PARA DETECCION TEMPRANO
La mayor razon para la existencia de pruebas de deteccion es para
detectar desordenes antes de que signos clinicos se presenten. La hipotesis
mostrada en la Figura 1, es que una temprana deteccion puede llevar a una
temprana intervencion, de este modo, previniendo que el desorden evolucione.
Si un tumor cancerigeno en un seno se diagnostica tempranamente o un
agrandamiento de prostata se detecta antes de que se vuelva cancerigeno, por
ejemplo, la esperanza es una cirugia conservativa prevenga problemas que se
desarrollaran luego. De forma similar, la deteccion en nios quienes
previamente no habian sido diagnosticado con TOC (trastorno obsesivo
compulsivo; por ejemplo., Bamber, Tamplin, Park, Kyte, & Goodyer, 2002)
pueden activar un programa de terapia para intervenir antes de que el
problema se vuelva mas serio. Sin embargo, el uso de pruebas de deteccion
para la deteccion temprana, depende de dos suposiciones: (a) que la historia
natural del desorden sea que esos problemas previamente no detectados de
hecho se vuelvan mayores si no se detectan y (b) que un tratamiento existe y
es efectivo
Sin deteccion temprana
Comienzo del desorden

Signos clinicos aparecen

Funcionamiento Normal____________Etapa Pre-Clinica_______________Desorden


Funcionando
Progresion del desorden
Con deteccion temprana
Comienzo del desorden

Deteccion

Tratamiento

Funcionamiento Normal_________Etapa PreClinica_________________Funcionamiento Normal


Progresion del desorden
Figura 1. Progresion hipotetica de un desorden SIN (arriba) y CON (abajo)
deteccin

Uno de los problemas destacados por Olsen y Gotzsche (2001) en su


revisin de la mamografa se llama el sesgo de longitud. Esto se refiere a la
posibilidad de que las pruebas de deteccin pueden detectar formas de
progresin lenta de la enfermedad, que tienen un mejor pronstico, en lugar de
las formas ms graves que se desarrollan ms tarde y son recogidos una vez
que aparecen los sntomas clnicos (Kramer y Brawley, 2000). Es decir, se
supone que el trastorno no es una entidad unitaria que, una vez iniciado,
inevitablemente, conduce al mismo punto final. Usando el ejemplo del TOC,
puede ser que el tipo de trastorno detectado de casos en la infancia puede
evolucionar a una obsesin "normal" y la compulsin y no en el desorden ms
paralizante que se ve ms adelante en la vida. En otras palabras, algunos de
los falsos positivos no son simplemente un subconjunto aleatorio de personas
sin el trastorno, sino que representan un grupo que se asemeja a los
verdaderos positivos de una manera que "engaa" a la prueba. El resultado de
la deteccin temprana, entonces, puede conducir a un nmero de personas
que reciben tratamiento innecesario (o que tienen biopsias innecesarias, en el
caso de la mamografa) sin afectar de ninguna manera la historia natural de la
forma ms grave de la enfermedad. El segundo problema con las pruebas de
deteccin se conoce como el sesgo de tiempo de espera (o cambio de tiempo
cero) (Feinleib y Zelen, 1969). Esto ocurre cuando la prueba de deteccin es
capaz de detectar las formas tempranas de la enfermedad, pero los
tratamientos no son capaces de influir en el resultado. Esto da lugar a dos
fenmenos. En primer lugar, da la impresin errnea en trastornos que
amenazan la vida de las personas que sobreviven ms tiempo porque hay un
mayor intervalo entre la deteccin y la muerte. Sin embargo, esto se debe
nicamente al segundo fenmeno que las personas son conscientes de su
trastorno por ms tiempo. La conclusin es que a menos que los psiclogos
estn seguros de que los trastornos que se detectan temprano (a) son de
hecho los precursores de la forma ms grave observadas una vez que los
sntomas clnicos se manifiestan, y (b) se puede tratar con eficacia, los
programas de deteccion de masa pueden hacer ms dao que bien .
REPORTANDO ESTUDIOS DE PRUEBAS DE DIAGNOSTICO
Los exmenes de diagnstico y deteccin pueden tener un gran impacto
en la vida de las personas que son evaluados. Pueden influir en si bien a una
persona se le ofrece un puesto de trabajo; que tratamientos necesitar, en caso
de necesitarlos, un paciente recibe; y si un padre puede tener la custodia, o
incluso el acceso, a sus hijos. A pesar de esto, la calidad de los artculos que
informan sobre el desarrollo y la validez de estas pruebas es, en el mejor de los
casos, mediocre (Reid, Lachs, y Feinstein, 1995). En un intento de remediar
esta situacin, se han producido algunos artculos, sobre todo en la literatura
mdica, que se refiri a los criterios para el establecimiento y la informacin
sobre la validez de las pruebas de diagnstico (por ejemplo, Guyatt, Tugwell,
Feeny, Haynes, y Drummond, 1986; Jaeschke, Guyatt, y Sackett, 1994a, 1994b;
Riegelman, 2000). Estos fueron reunidos por un grupo de editores (de nuevo,
principalmente mdicos) de revistas e investigadores en los Estandares para la
Declaracion de informacin de Precisin Diagnstica (STARD en ingls =
Standards for Reporting of Diagnostic Accuracy) (Bossuyt et al., 2003). STARD
consiste en una lista de 25 elementos con el mensaje implcito de que los

artculos que no cumplan con estos criterios no sern publicados en las revistas
que se suscriben a la misma.
En trminos generales, los principios caen dentro de seis categoras:
1. Identificacin del artculo.
2. Descripcin de los participantes.
3. Descripcin del ndice de la prueba diagnstica y la referencia o
tratamiento.
4. Una indicacin de cmo se administraron las pruebas.
5. Presentacin de informes de los resultados.
6. Una discusin de la utilizacin de la prueba. Lo que sigue es un
resumen de la declaracin STARD, que he modificado para hacerlo ms
aplicable a todo el espectro de las pruebas diagnsticas utilizadas por los
psiclogos.
1. Identificacin del artculo: El artculo debe indicar claramente el
propsito del estudio, tales como la determinacin de la validez de la prueba, o
ver lo bien que funciona con un grupo especfico de pacientes, o la
comparacin de una serie de pruebas similares. El simplemente usar trminos
como valor diagnstico o utilidad clnica en el resumen rara vez es suficiente,
ya que no se da informacin suficiente para ayudar a los lectores a determinar
si el artculo puede ser til para sus propsitos. Las directrices tambin dicen
las palabras claves Sensibilidad y Especificidad sean utilizadas para ayudar en
las bsquedas electrnicas en Medline; Yo aadira eficacia diagnstica de esto
para la base de datos PsycINFO.
2. Descripcin de los participantes: Como se ha sealado en muchos
textos y artculos sobre la teora psicomtrica (por ejemplo, Nunnally, 1970;
Streiner y Norman, 1995), uno no valida una prueba sino ms bien un uso que
se hace de la prueba. Esto significa que una prueba que es vlida por un grupo
de personas o en una configuracin puede no ser necesariamente vlido con
otras personas o en diferentes contextos. En consecuencia, el estudio debe
describir quien fue incluido en el estudio y quien fue excluido, cmo se contrat
a la gente (por ejemplo, Eran pacientes que acuden a un centro de
asesoramiento, transferidos debido a un problema especfico o los resultados
de una prueba anterior, los estudiantes de una clase de introduccin a la
psicologa, etc.), si los participantes eran todas las personas que cumplieron
con los criterios o un subconjunto de ellos, la presencia de trastornos
comrbidos, y datos demogrficos. Idealmente, una tabla o diagrama de flujo
se mostrar el nmero de participantes fueron reclutados y el nmero
disminuido en cada etapa, ya que no cumplan con los criterios de inclusin o
no pudieron completar la prueba. Esta informacin es necesaria para que el
lector pueda determinar la naturaleza de las personas para las que ha sido
validado la prueba y la generalizacin de los resultados
3. Descripcin de la prueba diagnstica del ndice y la referencia
o prueba de oro: La evaluacin de una nueva prueba es altamente
dependiente de la precisin del mejor tratamiento. En muchos casos, sin
embargo, la referencia tiene propiedades ms similares a la pirita ("oro de los
tontos") que el oro real. Por ejemplo, el Diagnostic Interview Schedule (Robins,
Helzer, Croughan, y Ratcliff, 1981) fue validada por comparacin con
diagnsticos psiquitricos (por ejemplo, Helzer et al., 1985), sin embargo,
sabemos que la fiabilidad y la validez de diagnsticos clnicos asignados es

relativamente pobre (por ejemplo, Miller, Dasher, Collins, Griffiths, y Brown,


2001). Este error de clasificacin impone un lmite superior en las propiedades
psicomtricas de la nueva prueba, que slo en parte se pueden corregir para la
estadistica (Fleiss, 1981). En otras situaciones, la referencia puede consistir en
una escala continua como el Inventario de depresin de Beck (Beck, Steer, Ball,
y Ranieri, 1996), que se dicotomiz entonces para formar grupos "deprimidos"
y no deprimidos" En tales casos, la racionalizacin para el punto de corte
(puntos de cortes) o categoras debe ser justificada y debe verificarse si stos
se determinaron antes o despus de que se recogieron los datos. Si el punto de
corte se estableci despus de los hechos (por ejemplo, una fraccin de
mediana o tercil superior e inferior), puede inflar artificialmente la validez de la
nueva prueba mientras que disminuye la probabilidad de que otro estudio ser
capaz de reproducir los resultados.
4. Una indicacin de cmo se administraron las pruebas y se
puntuaron: Debe ser una descripcin clara de cmo se administraron tanto la
nueva prueba y como sta se administr y puntu. Esto puede ser un problema
incluso para las escalas auto-administradas. Por ejemplo, una escala reciente
de calidad de vida de una persona con epilepsia desarrollada (Ronen, Streiner,
Rosenbaum, y la Red Peditrica de Epilepsia Canadiense, 2003) est destinada
a ser utilizada por nios a partir de 6 aos de edad. En el rango de edad ms
baja, sin embargo, algunos nios necesitan ayuda para leer y tal vez la
comprensin de los elementos. La descripcin de la escala debe indicar (a) si
ayuda puede ser dada y (b) si es as, si esto puede consistir en la simple
lectura del artculo en voz alta al nio o si se permite el parafraseo. Si bien la
nueva o la escala de referencia debe ser administrado por un examinador, el
artculo debe describir lo que la experiencia requiera (por ejemplo, un grado
avanzado en psicologa, un conocimiento de trasfondo en salud mental, o
ninguna experiencia) y qu tipo de formacin, en su caso, necesita ser hecha.
Del mismo modo, si la puntuacin consiste en algo ms que la suma del valor
en puntos de cada tema y requiere que el examinador haga un juicio acerca de
la respuesta o comportamiento, como por ejemplo con varias escalas de
inteligencia o la Brief Psychiatric Rating Scale (Overall y Gorham, 1962), esto
se debe describir ya sea en el artculo o un manual con suficiente detalle para
permitir que otros utilicen la escala. Para algunos tipos de escalas,
especialmente los de auto-informe, los encuestados pueden omitir algunos
artculos o aprobar dos o ms opciones.
El artculo debe describir cmo se manejan los datos que faltan: toda la
escala reducida a partir del anlisis, o la puntuacin final dada como un
porcentaje de preguntas contestadas, o los elementos que faltan reemplazados
por la media, y as sucesivamente. Por ltimo, si el resultado de la prueba
requiere la interpretacin clnica en lugar de mirar hacia arriba en el marcador
en una tabla, el estudio debe minimizar la contaminacin de criterios cegando
a los mdicos a los resultados de la otra prueba. En la revisin de Meyer (2002)
de 43 estudios que compararon los diagnsticos del Diagnostic Interview
Schedule (Robins et al., 1981) y la Entrevista Diagnstica Internacional
Compuesta (Robins et al., 1988), l encontr una relacin directa entre los
kappa de medias ponderadas (s) de acuerdo y el grado de contaminacin de
criterios. Cuando la contaminacin es alta, era igual a .68, cayendo a .51 con
moderadamente alta contaminacin, la contaminacin con .39 moderadamente
baja, y .25 cuando era baja. Debe tenerse en cuenta, sin embargo, que la

contaminacin de criterios puede tambin ocurrir cuando ambas pruebas son


medidas de auto-informe. Los encuestados pueden responder a la segunda
escala no slo sobre la base de las preguntas en s mismas, sino tambin
influenciado por su recuerdo de cmo respondieron a elementos similares en la
primera prueba para parecer consistente. Esta es una de las razones de que
Campbell y Fiske (1959), en su artculo seminal en la matriz de los ms rasgos
multi mtodo, recomendaron la validacin de un ensayo con un criterio que es
"mximamente diferente" en trminos de formato, tales como una escala de
auto informe contra una tarea de rendimiento o una escala completa del
observador.
5. Informe de los resultados: Tal vez la primera regla de los
resultados de cierre sea hazlo bien, Kessel y Zimmerman (1993) revisaron 26
estudios en destacadas publicaciones que informaron sobre los resultados de
rendimiento de la prueba de diagnstico. De ellos, 9 (34,6%) tenan por lo
menos un error en el clculo de las estadsticas de eficiencia de diagnstico, y
3 (11,5%) utilizaron las definiciones convencionales (es decir, errneas) de los
trminos. Debido a esto, se recomienda que el artculo deba tener una tabla de
2 2, al igual que la Tabla 2 de este artculo, dando los nmeros reales para
que otros puedan verificar la exactitud de los clculos. Otros requisitos
mnimos de informacin para la fiabilidad de las escalas auto administradas
incluiran la fiabilidad prueba-prueba rehecha y el intervalo entre las dos
administraciones de prueba. Las pruebas que requieren un examinador deben
informar de la fiabilidad de ste. Algunas entrevistas estructuradas y semi
estructuradas informan de la fiabilidad de la puntuacin en el que el segundo
anotador ve la entrevista, ya sea a travs de un espejo unidireccional o por
medio de una cinta de vdeo (por ejemplo, Hesselbrock, Stabenau, Hesselbrock,
Mirkin, y Meyer, 1982). Aunque es necesario establecer entre fiabilidadpuntuador, no es un sustituto de dos administraciones separados. Con muchos
instrumentos, caractersticas del entrevistador pueden afectar a las respuestas
que se dan (por ejemplo, Finkel, Guterbock, y Borg, 1991).
Por otra parte, debido a la frecuente complicacin de saltar patrones, las
sentencias dictadas por el examinador durante el transcurso de la entrevista
pueden determinar si ciertas preguntas o incluso secciones enteras se dan o
no. Las medidas de consistencia interna, tales como alfa de Cronbach o la
correlacin entre punto medio, deben ser reportadas para las escalas en las
que esto es una propiedad deseable. Algunas pruebas, sin embargo, consisten
en elementos que no se espera que tengan una alta consistencia interna y
estos ndices de las pruebas no deben ser calculados (Streiner, 2003). La
ltima serie de recomendaciones de la Asociacin de Psicologa Americana en
relacin con el informe de los resultados estadsticos afirma que, adems de
las estimaciones puntuales de un parmetro como un coeficiente de fiabilidad,
artculos debiese, asimismo, reportar los intervalos de confianza (Wilkinson y el
Grupo de Trabajo sobre la inferencia estadstica, 1999). Cuando los estudios de
validez incluyen la comparacin de dos o ms grupos, rara vez es suficiente
para informar de los resultados de una prueba o anlisis de la varianza t. Los
resultados del estudio pueden ser estadsticamente significativo, pero
clnicamente trivial, sobre todo cuando el tamao de la muestra es grande. Es
mejor informar de los resultados de una manera que refleja la utilidad clnica
de la escala, tales como la cantidad de varianza explicada por las tasas por el
mismo, superposicin grupal o clasificacin errnea.

6. La discusin de la utilizacin de la prueba: Las pruebas de


diagnstico se utilizan de muchas maneras diferentes. Algunos pueden ser
tiles para la toma de decisiones clnicas, mientras que otros debido a la
naturaleza de la prueba en s, o las de baja fiabilidad, podrn utilizarse
nicamente con fines de investigacin. Las pruebas de validez pueden mostrar
que algunas pruebas pueden ser lo suficientemente preciso para colocar a las
personas dentro de los grupos amplios, pero no mostrar suficiente sensibilidad
al cambio para realizar un seguimiento de mejora o deterioro para las personas
individuales. Otros atributos de la prueba, tales como la cantidad de tiempo
que se necesita para administrarlo o el nivel de habilidad requerido por el
examinador, puede hacer algunas pruebas adecuadas slo para fines de
investigacin o para un uso ocasional, mientras que otros se pueden dar a los
pacientes cada sesin para medir el progreso (o la falta de este). El artculo
debe sealar cmo se utilizara la prueba en la prctica, con el reconocimiento
de que esto puede cambiar a medida que ms estudios se realizan con l.
DISCUSION
Cuando se utilizan correctamente, las pruebas diagnsticas y de
deteccin pueden ser herramientas poderosas para el psiclogo. Hay poca
duda de que han sido de gran utilidad en reas tales como la identificacin de
los nios con problemas intelectuales, as como aquellos que podran
beneficiarse de programas educativos enriquecidos, ayudar en el diagnstico
de problemas psicolgicos y de comportamiento, ayudando a las personas a
tomar decisiones vocacionales, la prediccin de quin tendr xito como un
voluntario del Cuerpo de Paz, y una gama de otros. Sin embargo, esto
presupone que las pruebas en s han sido desarrolladas con la suficiente
preocupacin por los problemas de fiabilidad y validez, y que slo se utilizan
para los fines que se pretenden (o en reas en las que se ha demostrado a
travs de estudios posteriores que puedan ser utilizados vlidamente).
Hay literalmente miles de pruebas que han sido desarrollados (por
ejemplo, Goldman, Mitchell, y Egelson, 1997), y puede decirse que pocos de
ellos cumplir con todos, o la mayora, de los criterios STARD en informar de
fiabilidad y validez. Incluso con bien desarrolladas y ampliamente utilizadas
pruebas tales como el Inventario de Personalidad Multifsico de Minnesota-2
(Greene, 2000) o el Inventario-III Millon Clinical multiaxial (Millon, Millon, y
Davis, 1994), la validez es un proceso incremental. Con el tiempo, las pruebas
se utilizan con diferentes poblaciones (por ejemplo, minoras tnicas o aquellos
de otras culturas) y en formas no previstas por los desarrolladores originales.
Esto no es solo de esperar, sino que se desea, ya que ampla la utilidad
potencial de los instrumentos. Sin embargo, antes de que se lleven a cabo
estos estudios de validez e idealmente se repliquen, las decisiones clnicas
basadas en la balanza deben ser muy provisional.
En su artculo, me he centrado en otra forma en que muchas pruebas se
han utilizado en formas que no son validadas: sacarlos de la clnica, donde se
utilizan de forma individual, en la comunidad, en los que se utilizan para la
deteccin de casos o de deteccin masiva. Esto es a menudo una proposicin
muy dudosa, ya que como los lectores han visto. Las escalas que se comportan
bien con personas para las cuales existe una fuerte sospecha de que han de
poseer cierto rasgo a medir (es decir, la prevalencia es cercana al 50%)
tendrn casi siempre un mal desempeo en tratar de identificar a las personas

cuando la prevalencia es baja. De hecho, Cadman et al. (1984) mostraron que


incluso una prueba bien desarrollada diseada para fines de deteccin malidentific demasiados nios en jardn como para ser clnicamente til. Esto no
es una crtica de la prueba tanto como lo es para el uso que se le d. Esta es
una leccin que se enseaba hace casi 50 aos (Meehl y Rosen, 1955), pero
una que requiere de repeticin continua.

S-ar putea să vă placă și