Documente Academic
Documente Profesional
Documente Cultură
pruebas de deteccin.
ABSTRACTO
Las pruebas se pueden utilizar para el diagnstico (es decir, para
confirmar o descartar la presencia de una enfermedad en personas con
sospecha de ella) o como un instrumento de deteccin (determinacin de que
en un gran grupo de personas tiene la condicin y, a menudo, cuando esas
personas no son conscientes de ella o no estn dispuestos a admitir a l). Los
exmenes que pueden ser tiles para el diagnstico y precisa en realidad
puede hacer ms dao que bien cuando se usa como instrumento de
cribado. La razn es que la proporcin de falsos negativos puede ser alto
cuando la prevalencia es alta, y la proporcin de falsos positivos tiende a ser
alto cuando la prevalencia de la enfermedad es baja (la situacin habitual con
las pruebas de deteccin). Mi primer objetivo de este artculo es discutir los
efectos de la tasa base, o prevalencia, de un trastorno en la exactitud de los
resultados de las pruebas. Mi segundo objetivo es revisar algunas de las
muchas estadsticas de eficiencia de diagnstico que se pueden derivar de una
tabla 2 x 2, incluida la tasa correcta clasificacin, kappa, phi, el ndice de
probabilidad (odd ratio), valor predictivo positivo y negativo y algunas
variantes de ellos, y los cocientes de probabilidad. En la ltima parte de este
artculo, se revisan las recientes normas para la informacin de las directrices
precisin diagnstica (Bossuyt et al., 2003) para informar de los resultados de
las pruebas de diagnstico y extenderlos a cubrir los tipos de pruebas
utilizadas por los psiclogos.
En los ltimos aos, las pruebas de diagnstico y deteccin tienen sido
objeto de numerosos artculos en la prensa popular. Por una parte, algunos
gobiernos y agencias de recoleccin de sangre han sido criticadas y
demandadas por la no adecuada deteccin de sangre y productos de sangre
para el VIH y la hepatitis. Por otra parte, meta-anlisis recientes han puesto en
duda la utilidad de tanto el autoexamen de mama (Baxter y el Grupo
Canadiense Vigor el cuidado preventivo de la Salud, 2001) y la mamografa
(Olsen y Gotzsche, 2001) en las mujeres ms jvenes para la prevencin de
cncer de mama, y una decisin judicial ha prohibido el polgrafo o detector de
mentiras, como prueba en causas penales (Comit a revisar la evidencia
cientfica sobre el polgrafo, 2003; Estados Unidos v Scheffer, 1998). Estos
informes han generado una gran incertidumbre y confusin, y dan lugar a
cuatro preguntas: (a) Cul es la diferencia entre diagnstico y pruebas de
deteccin ?, (b) En qu circunstancias son cada uno de ellos de utilidad ?, (c)
Cundo pueden hacer ms dao que bien ?, y (d) Cul debera ser el criterio
mnimo para comunicacin de los estudios acerca de las pruebas?
Los exmenes de diagnstico y de deteccin son similares en que son
utilizados para detectar la presencia o ausencia de algn atributo en gente. En
algunos casos, la pregunta es determinar cunto del atributo tiene una persona
(por ejemplo, pruebas de aptitud e inteligencia, exmenes de admisin de
universidad y graduados), mientras que, en el mbito clnico, las personas son
a menudo ya sea ignorantes de lo que padecen (por ejemplo, la tuberculosis o
la enfermedad de Tay-Sachs) o pueden no estar dispuestos a admitir su
presencia (por ejemplo, el uso de drogas ilcitas o tener secretos transmitidos a
TABLA 1
CLASIFICACION DE RESULTADOS DE UN ESTUDIO VALIDO DE UNA
Resultado de la
nueva evaluacin
Presente
Ausente
Total Columna
PRUEBA DE DIAGNOSTICO
Criterio de referencia (gold standard)
Presente
Ausente
Total de la fila
Verdadero positivo
Falso positivo
A
B
A+B
C
D
C+D
Falso negativo
Verdadero negativo
A+C
B+D
N= A+B+C+D
TABLA 2
RESULTADOS HIPOTETICOS DE UNA PRUEBA DE INCLINACION A
LA VIOLENCIA
Resultados de Gua de Estimacin de
Cometieron un acto violento
Si
No
Total de la fila
Riesgo de Violencia
Violento
81
40
121
A
B
No violento
C
D
79
19
60
Total Columna
100
100
200
Nota. Data modificada de Rice and Harris (1995). Prevalencia = 100/200
= .500; sensibilidad = 81/100 = .810; especificidad = 60/100 = .600; Valor
predictivo positivo (VPP) = 81/121 = .669; valor predictivo negativo (VPN) =
60/79 = .759; VPP Gradual = .669 .50 = .169; VPN Gradual = .759 .50 = .
259; VPP Calidad = (.669 .50)/(1 .50) = .338; VPN Calidad = (.759 .50)/(1
.50) = .518; ndice de probabilidad+ = .810/(1 .600) = 2.025; ndice de
probabilidad = .600/(1 .810) = 3.158; kappa = (141 100)/(200 100) = .
410; ndice de probabilidades (odds ratio) = (81)(60)/(40)(19) = 6.395; phi =
[(81)(60) (40)(19)]/![(100)(100)(121)(79)] = .419; Probabilidades previo a la
prueba+ (pretest odds+) = .50/(1 .50) =1.000; pretest odds = (1 .50)/.50
= 1.000; posttest odds+ = 1.000 2.025 =2.025; Probabilidades luego de la
prueba (posttest odds) = 1.000 3.158 = 3.158.
Sensibilidad =
A
A+C
81
81 + 19
= .810.
(1)
Esto significa que 81% de las personas que luego cometieron un acto de
violencia fueron correctamente escogidos por el GERV.
La especificidad de una prueba es la proporcin de personas sin el atributo que
son correctamente etiquetadas por la prueba, o
Especificidad =
D
B+D
60
40 + 60
= .600.
(2)
Sensibilidad
1-Especificidad
(3)
El LR+ es otro ndice de precisin de las pruebas y nos dice cules son las
probabilidades (odds) de que el resultado de una prueba positivo haya venido
de una persona que posee el atributo. Cuando la LR+ es 1, la prueba es
inservible y no contribuye en hacer un diagnstico. Para el GERV la LR+ es .81/
(1-.60)=2.025, lo que significa que un resultado de prueba positivo tiene el
doble de posibilidad para aquellos que son violentos como para los que no. La
frmula de equivalencia para un resultado de prueba negativo es
LR- =
Especificidad
1-Sensibilidad
(4)
A
A+B
81
=
81+40
.669.
(5)
D
C+D
60
=
19+60
.759.
(6)
No Ne
(7)
=
N - Ne
Donde No es el numero correcto de concordancias, Ne, es el nmero
de concordancias esperadas por azar, y N es el tamao total de la muestra.
Con la data que tenemos esto se resuelve
=
= 141
100
200
100
.410.
(8
)
(AD BC)
(A + B) (B + D) K + (C + D) (A + C) K
(9)
AD BC
[(A + B) (C + D) (A + C) (B + C)] ^1/2 (elevado a un medio)
(10)
= .
419.
(11)
= k=0 k=1
(12)
(13)
PPP
=
Donde
es la probabilidad de que una persona no tenga el
diagnostico dado que el resultado sea negativo (T-)
es la probabilidad
de que el resultado sea negativo dado que la persona no tenga el diagnostico
(es decir., especificidad); y P(T-|Dx) es la probabilidad de que un resultado sea
negativo dado que el diagnostico este presente (es decir., 1- Sensibilidad), o
NPP=
(1- Prevalencia) x Especificidad
[(1- Prevalencia) x Especificidad] + [Prevalencia x (1- Sensibilidad)]
(17)
PPP = P(Dx|T+) =
.05 x .81
(.05 x .81) + (.95 x .40)
= .096.
(18)
En otras palabras, todos los resultados del GERV que dicen violentos,
solo 9.6% vienen de nios quienes son probables de, de hecho, volverse
violentos; el otro 90.4% serian falsos positivos de gente que no haran nada
violento. Esta es una ley universal e inmutables de las pruebas: Mientras baje
la prevalencia, tambin disminuye el Poder predictivo positivo, mientras que la
proporcin de falsos positivos incrementa. Si la actual prevalencia es 1% en vez
de 5%, el PPP es 2% lo que significara que el 98% de los resultados positivos
son incorrectos y son de hechos falsos positivos. Puede utilizarse la prueba
para identificar gente no violenta? Para esto, tenemos que usar el NPP (Poder
predictivo negativo):
TABLA 3
RESULTADOS HIPOTETICOS CUANDO LA PREVALENCIA ES 5%
Resultados de la Guia de Estimacion de
Cometi un acto violento
Si
No
Total de fila
Riesgo de Violencia
Violento
405
3800
4205
A
B
No violento
C
D
5795
95
5700
Total de columna
500
9500
10000
Nota. Prevalencia = 500/10,000 = .050; sensibilidad = 405/500 = .810;
especificidad= 5700/9500 = .600; poder predictivo positivo (PPP) = 405/4,205
= .096; poder predictivo negativo (NPP) = 5,700/5,795 = .984; poder predictivo
positivo incremental = .096 .05 = .046; poder predictivo negativo
incremental = .984 .95 = .034; poder predictivo positivo calidad = (.096 .
05)/(1 .05) = .049; poder predictivo negativo calidad= (.984 .95)/(1 .95)
= .672; ndice de probabilidad+ = .810/(1 .600) = 2.025; ndice de
probabilidad = .600/(1 .810) = 3.158; kappa = (6105 5,715.5)/(10,000
5,715.5) = .091; ndice de probabilidad (odd ratio) = (405)(5,700)/(3,800)(95)
= 6.395; phi = [(405)(5,700) (3,800)(95)]/! [(500)(9,500)(4,205)(5,795)] = .
181; probabilidades pretest+ = .05/(1 .05) = .053; probabilidades pretest =
(1 .05)/.05 = 19.000; probabilidades posttest+ = .053 2.025 = .107;
probabilidades posttest = 19.000 3.158 = 60.000.
El mtodo alternativo de derivar estas figuras es rehacer la tabla,
manteniendo los mismos nmeros para la sensibilidad y la especificidad, pero
haciendo que el total de las columnas refleje un 5% de prevalencia. Para
mantener los nmeros completos, asumamos que 10.000 personas han sido
evaluadas, aunque como se mencion en la nota a pie de pgina 2, cualquier
numero puede ser usado con idnticos resultados. En la tabla 3, empezamos
usando 500 y 9.500 como totales de columnas. Multiplicamos 500 veces la
sensibilidad para Celda A y 9.500 veces la especificidad para la Celda D.
Restando, obtenemos las Celdas B y C y sumando, los totales de fila. Usando la
ecuacin 3, el Poder predictivo positivo es 405/4,205 = .096, y usando la
ecuacin 4, el Valor predictivo negativo es 5,700/5,795 = .984. lo cual son las
mismas figuras calculadas usando el teorema de Bayes
Sin introducirnos en los clculos, puedo establecer otra ley para los
resultados universal e inmutable: Asumiendo que una prueba es
razonablemente precisa, entonces cuando la prevalencia de una condicin es
alta, (a) el valor predictivo positivo es tambin alto y (b) el valor predictivo
negativo es bajo. Entonces, deduzco y resumo dos reglas
1- Cuando la prevalencia es baja, una prueba es lo mejor para
descartar una condicin, pero no para incluir
2- Cuando la prevalencia de una condicin es alta, una prueba es lo
mejor para incluir, pero no para descartar.
Yo aado una tercera regla:
3- Las pruebas funcionan mejor cuando la prevalencia es 50%
Los LRs (ndices de probabilidad = likelihood ratio en ingls) pueden
tambin ser usados para calcular el PPP y PPN usando la siguiente formula
Probabilidades post test (odds) = Probabilidades pre test (odds) x LR,
(LR = ndice de probabilidad)
(20)
Donde, para resultados positivos
PPP =
Prevalencia
1 - Prevalencia
(21)
(odds) =
(22)
(23)
Prevalencia
(24)
PPN =
TABLA 4
ESTADISTICAS AFFECTADAS Y NO AFECTADAS POR LA
PREVALENCIA
Afectadas por la prevalencia
No afectadas por la prevalencia
PPP
Sensibilidad
NPP
Especificidad
PPP Incremental
Indice de Probabilidad (Odds ratio)
NPP Incremental
LR+ (ndice de probabilidad)
PPP Calidad
LR- (ndice de probabilidad)
NPP Calidad
[Nota de Leandro: Ambos son ndices de
Kappa ()
probabilidad pero en ingls son diferentes
Phi ()
Odds Ratio
Probabilidades Pre Test (+ o -) (odds) Likelihood Ratio + o -]
Probabilidades Post Test (+ o -) (odds)
Nota. PPP= Poder predictivo positivo; NPP= Poder predictivo negativo; LR+=
Indice de probabilidad de un resultado positivo; LR-= Resultado negativo
VALIDACIN INCREMENTAL
En el ejemplo en el cual la prevalencia de violencia fue 5%, encontramos
que el GERV con mucha precisin detecto 98,4% de los nios que no seran
violentos. A primera vista, esto lo hara ver como una buena prueba para
descartar inclinacin a la violencia. Sin embargo, tenemos que tener en mente
que, si no ussemos la prueba y simplemente dijsemos que todos eran no
violentos, estaramos en lo correcto el 95% de las veces (es decir, el ndice de
no ocurrencia de violencia, o 1-prevalencia). Es por esto que, no es suficiente
observar el PPN (o el PPP) sino que ms bien el incremento en los valores
predictivos sobre lo que se espera con las tazas bases. Gibertini, Branderburg,
y Retzlaff (1986) se refirieron a esto como el Poder predictivo positivo
incremental o IPPP, y el Poder predictivo negativo incremental o INPP (siglas en
ingls)
Deteccion
Tratamiento
artculos que no cumplan con estos criterios no sern publicados en las revistas
que se suscriben a la misma.
En trminos generales, los principios caen dentro de seis categoras:
1. Identificacin del artculo.
2. Descripcin de los participantes.
3. Descripcin del ndice de la prueba diagnstica y la referencia o
tratamiento.
4. Una indicacin de cmo se administraron las pruebas.
5. Presentacin de informes de los resultados.
6. Una discusin de la utilizacin de la prueba. Lo que sigue es un
resumen de la declaracin STARD, que he modificado para hacerlo ms
aplicable a todo el espectro de las pruebas diagnsticas utilizadas por los
psiclogos.
1. Identificacin del artculo: El artculo debe indicar claramente el
propsito del estudio, tales como la determinacin de la validez de la prueba, o
ver lo bien que funciona con un grupo especfico de pacientes, o la
comparacin de una serie de pruebas similares. El simplemente usar trminos
como valor diagnstico o utilidad clnica en el resumen rara vez es suficiente,
ya que no se da informacin suficiente para ayudar a los lectores a determinar
si el artculo puede ser til para sus propsitos. Las directrices tambin dicen
las palabras claves Sensibilidad y Especificidad sean utilizadas para ayudar en
las bsquedas electrnicas en Medline; Yo aadira eficacia diagnstica de esto
para la base de datos PsycINFO.
2. Descripcin de los participantes: Como se ha sealado en muchos
textos y artculos sobre la teora psicomtrica (por ejemplo, Nunnally, 1970;
Streiner y Norman, 1995), uno no valida una prueba sino ms bien un uso que
se hace de la prueba. Esto significa que una prueba que es vlida por un grupo
de personas o en una configuracin puede no ser necesariamente vlido con
otras personas o en diferentes contextos. En consecuencia, el estudio debe
describir quien fue incluido en el estudio y quien fue excluido, cmo se contrat
a la gente (por ejemplo, Eran pacientes que acuden a un centro de
asesoramiento, transferidos debido a un problema especfico o los resultados
de una prueba anterior, los estudiantes de una clase de introduccin a la
psicologa, etc.), si los participantes eran todas las personas que cumplieron
con los criterios o un subconjunto de ellos, la presencia de trastornos
comrbidos, y datos demogrficos. Idealmente, una tabla o diagrama de flujo
se mostrar el nmero de participantes fueron reclutados y el nmero
disminuido en cada etapa, ya que no cumplan con los criterios de inclusin o
no pudieron completar la prueba. Esta informacin es necesaria para que el
lector pueda determinar la naturaleza de las personas para las que ha sido
validado la prueba y la generalizacin de los resultados
3. Descripcin de la prueba diagnstica del ndice y la referencia
o prueba de oro: La evaluacin de una nueva prueba es altamente
dependiente de la precisin del mejor tratamiento. En muchos casos, sin
embargo, la referencia tiene propiedades ms similares a la pirita ("oro de los
tontos") que el oro real. Por ejemplo, el Diagnostic Interview Schedule (Robins,
Helzer, Croughan, y Ratcliff, 1981) fue validada por comparacin con
diagnsticos psiquitricos (por ejemplo, Helzer et al., 1985), sin embargo,
sabemos que la fiabilidad y la validez de diagnsticos clnicos asignados es