Sunteți pe pagina 1din 7

Notas de estadística: Pruebas de diagnóstico 1: sensibilidad y especificidad

BMJ 1994 ; 308 doi: https://doi.org/10.1136/bmj.308.6943.1552 (Publicado el 11 de junio de 1994)Cite esto


como: BMJ 1994; 308: 1552
 Artículo
 Contenido relacionado
 Métrica
 Respuestas
1. DG Altman ,
2. JM Bland
Afiliaciones de autor
La prueba de diagnóstico más simple es aquella en la que los resultados de una investigación, como un
examen de rayos X o una biopsia, se usan para clasificar a los pacientes en dos grupos según la presencia o
ausencia de un síntoma o signo. Por ejemplo, la tabla muestra la relación entre los resultados de una prueba,
una exploración hepática y el diagnóstico correcto basado en la necropsia, la biopsia o la inspección
quirúrgica. 1 ¿Qué tan bueno es el examen del hígado al momento del diagnóstico de una patología anormal?
Relación entre los resultados de la exploración hepática y el diagnóstico correcto1
 Ver ventana emergente
 Ver en línea
Un enfoque es calcular las proporciones de pacientes con exploraciones hepáticas normales y anormales que
son "diagnosticadas" correctamente por el escáner. Los términos positivo y negativo se usan para referirse a
la presencia o ausencia de la afección de interés, aquí patología anormal. Por lo tanto, hay 258 verdaderos
positivos y 86 verdaderos negativos. Las proporciones de estos dos grupos que se diagnosticaron
correctamente mediante el examen fueron 231/258 = 0,90 y 54/86 = 0,63 respectivamente. Estas dos
proporciones tienen nombres confusamente similares.

La sensibilidad es la proporción de verdaderos positivos que se identifican correctamente mediante la


prueba.

La especificidad es la proporción de negativos verdaderos que se identifican correctamente por la prueba.

Por lo tanto, podemos decir que, de acuerdo con la muestra estudiada, esperaríamos que el 90% de los
pacientes con patología anormal tuvieran exploraciones hepáticas anormales (positivas), mientras que el
63% de aquellos con patología normal tuvieran exploraciones hepáticas normales (negativas).

La sensibilidad y la especificidad son proporciones, por lo que los intervalos de confianza pueden calcularse
utilizando métodos estándar para las proporciones. 2
La sensibilidad y la especificidad son un enfoque para cuantificar la capacidad de diagnóstico de la
prueba. En la práctica clínica, sin embargo, el resultado de la prueba es todo lo que se conoce, por lo que
queremos saber qué tan buena es la prueba para predecir anormalidades. En otras palabras, ¿qué proporción
de pacientes con resultados de pruebas anormales son verdaderamente anormales? Esta pregunta se aborda
en una nota posterior.

Referencias
1. ↵
1. Tambor DE ,
2. Christacapoulos JS
. Gammagrafía hepática en la toma de decisiones clínicas . J Nucl Med 1972 ; 13 : 908 - 15.
Resumen / GRATIS Texto completoGoogle Scholar
2. ↵
1. Gardner MJ ,
2. Altman DG
3. Gardner MJ ,
4. Altman DG
. Cálculo de intervalos de confianza para las proporciones y sus
diferencias .En: Gardner MJ , Altman DG eds. Estadísticas con confianza . Londres : BMJ Publishing
Group , 1989 : 28 - 33

Notas de estadística: Pruebas de diagnóstico 2: valores predictivos


BMJ 1994 ; 309 doi: https://doi.org/10.1136/bmj.309.6947.102 (Publicado el 9 de julio de 1994)Cite esto
como: BMJ 1994; 309: 102
 Artículo
 Contenido relacionado
 Métrica
 Respuestas
1. Douglas G. Altman , director del Departamento de Ciencias de la Salud Pública, Facultad de Medicina del Hospital St
George's, Londres SW17 0RE a ,
2. J Martin Bland , lector de estadísticas médicas a
Afiliaciones de autor
El objetivo de una prueba de diagnóstico es usarla para hacer un diagnóstico, por lo que necesitamos saber la
probabilidad de que la prueba proporcione el diagnóstico correcto. La sensibilidad y la especificidad 1 no nos
dan esta información. En cambio, debemos aproximarnos a los datos desde la dirección de los resultados de
la prueba, utilizando valores predictivos.
El valor predictivo positivo es la proporción de pacientes con resultados positivos que son diagnosticados
correctamente.

El valor predictivo negativo es la proporción de pacientes con resultados negativos que son diagnosticados
correctamente.

Usando los mismos datos que en la nota anterior, 1 sabemos que 231 de 263 pacientes con exploraciones
hepáticas anormales tenían una patología anormal, dando una proporción de diagnósticos correctos de
231/263 = 0,88. Del mismo modo, entre los 81 pacientes con exploraciones hepáticas normales, la
proporción de diagnósticos correctos fue 54/81 = 0,59. Sin embargo, estas proporciones son de validez
limitada. Los valores predictivos de una prueba en la práctica clínica dependen de forma crítica de la
prevalencia de la anomalía en los pacientes sometidos a prueba; esto bien puede diferir de la prevalencia en
un estudio publicado que evalúa la utilidad de la prueba.
Este es el cuarto de una serie de notas ocasionales sobre estadísticas médicas.

En el estudio de gammagrafía hepática, la prevalencia de anomalía fue de 0,75. Si la misma prueba se usó en
un entorno clínico diferente donde la prevalencia de la anomalía fue de 0,25, tendríamos un valor predictivo
positivo de 0,45 y un valor predictivo negativo de 0,95. Cuanto más rara sea la anomalía, más seguro
podemos estar de que una prueba negativa indique que no hay anormalidad, y menos seguro de que un
resultado positivo realmente indique una anomalía. Los valores predictivos observados en un estudio no se
aplican universalmente.

Los valores predictivos positivos y negativos (VPP y VPN) se pueden calcular para cualquier prevalencia de
la siguiente manera:

sensibilidad × prevalencia

PPV = ------------------------------------------------ --------------- sensibilidad × prevalencia + (1 - especificidad)


× (1 - prevalencia) especificidad × (1 - prevalencia)

NPV = ------------------------------------------------ --------------- (1 - sensibilidad) × prevalencia + especificidad


× (1 - prevalencia)
Si la prevalencia de la enfermedad es muy baja, el valor predictivo positivo no será cercano a 1, incluso si la
sensibilidad y la especificidad son altas. Por lo tanto, al evaluar a la población general, es inevitable que
muchas personas con resultados positivos en las pruebas sean falsos positivos.

La prevalencia puede interpretarse como la probabilidad antes de la prueba de que el sujeto tenga la
enfermedad, conocida como la probabilidad previa de enfermedad. Los valores predictivos positivos y
negativos son las estimaciones revisadas de la misma probabilidad para aquellos sujetos que son positivos y
negativos en la prueba, y se conocen como probabilidades posteriores. La diferencia entre las probabilidades
anteriores y posteriores es una forma de evaluar la utilidad de la prueba.

Para cualquier resultado de prueba, podemos comparar la probabilidad de obtener ese resultado si el paciente
realmente tenía la condición de interés con la probabilidad correspondiente si él o ella estaban sanos. La
razón de estas probabilidades se llama razón de verosimilitud, calculada como sensibilidad / (1 -
especificidad).

El cociente de probabilidad indica el valor de la prueba para aumentar la certeza sobre un diagnóstico
positivo. Para los datos del examen hepático, la prevalencia de patología anormal fue de 0,75, por lo que las
probabilidades de enfermedad antes de la prueba fueron de 0,75 / (1 -0,75) = 3,0. La sensibilidad fue 0.895 y
la especificidad fue 0.628. Las probabilidades después de la prueba de la enfermedad dada una prueba
positiva es 0.878 / (1 -0.878) = 7.22, y la razón de verosimilitud es 0.895 / (1 - 0.628) = 2.41. Las
probabilidades después de la prueba de tener la enfermedad son las probabilidades previas a la prueba
multiplicadas por la razón de verosimilitud.

Una alta razón de probabilidad puede mostrar que la prueba es útil, pero no necesariamente se deduce que
una prueba positiva sea un buen indicador de la presencia de la enfermedad.

Referencias
1. 1. ↵
1. Altman DG ,
2. Bland JM.
Pruebas diagnósticas 1: sensibilidad y especificidad . BMJ 1994 ; 000 : 00000 .

Notas de estadística: Pruebas de diagnóstico 3: diagramas de características de


funcionamiento del receptor
BMJ 1994 ; 309 doi: https://doi.org/10.1136/bmj.309.6948.188 (Publicado el 16 de julio de 1994)Cite esto
como: BMJ 1994; 309: 188
 Artículo
 Contenido relacionado
 Métrica
 Respuestas
1. DG Altman ,
2. JM Bland
Afiliaciones de autor
Anteriormente hemos considerado el diagnóstico basado en pruebas que dan una respuesta de sí o
no. 1 , 2Muchas pruebas de diagnóstico, sin embargo, son cuantitativas, especialmente en química clínica. El
mismo enfoque estadístico solo se puede usar si podemos seleccionar un punto de corte para distinguir
"normal" de "anormal", lo cual no es un problema trivial. En primer lugar, podemos investigar hasta qué
punto los resultados de las pruebas difieren entre las personas que tienen o no tienen el diagnóstico de
interés. El diagrama de característica operativa del receptor (ROC) es una forma de hacerlo. Estas parcelas
se desarrollaron en la década de 1950 para evaluar la detección de señales de radar. Solo recientemente se
han vuelto comúnmente utilizados en medicina.
Suponemos que los valores altos son más probables entre los denominados "anormales". La
Figura 1 muestra los valores de un índice de reacciones de linfocitos de células epidérmicas mixtas en
receptores de trasplante de médula ósea que desarrollaron o no enfermedad de injerto contra huésped. 3 La
utilidad de la prueba para predecir la enfermedad de injerto contra huésped se relacionará claramente con el
grado de no superposición entre las dos distribuciones.

FIGURA 1
(izquierda) - Distribución de los valores de un índice de reacciones de linfocitos de células epidérmicas mixtas en pacientes
que desarrollaron o no injertos contra enfermedad del huésped 3
 Descargar figura

 Abrir en una pestaña nueva

 Descargar powerpoint
Se obtiene un diagrama característico operativo del receptor calculando la sensibilidad y la especificidad de
cada valor de datos observado y graficando la sensibilidad frente a 1 - especificidad, como en la
Figura 2 . Una prueba que discrimina perfectamente entre los dos grupos arrojaría una "curva" que
coincidiría con los lados izquierdo y superior de la trama. Una prueba que es completamente inútil daría una
línea recta desde la esquina inferior izquierda hasta la esquina superior derecha. En la práctica, casi siempre
hay cierta superposición de los valores en los dos grupos, por lo que la curva se encontrará en algún lugar
entre estos extremos.

FIGURA 2
(arriba) - Curva característica operativa del receptor para los datos mostrados en la figura 1
 Descargar figura

 Abrir en una pestaña nueva


 Descargar powerpoint
Una evaluación global de la ejecución de la prueba (a veces llamada precisión diagnóstica 4 ) viene dada por
el área bajo la curva característica operativa del receptor. Esta área es igual a la probabilidad de que una
persona al azar con la enfermedad tenga un valor de medición más alto que una persona al azar sin la
enfermedad. (Esta probabilidad es la mitad para una prueba no informativa, equivalente a arrojar una
moneda).
Ninguna prueba será clínicamente útil si no puede discriminar, 4 por lo que una evaluación global del poder
discriminatorio es un paso importante. Una vez determinado que una prueba proporciona una buena
discriminación, se puede elegir el mejor punto de corte para el uso clínico. Esto requiere la elección de un
punto particular y, por lo tanto, es una evaluación local. El enfoque simple de minimizar los "errores"
(equivalentes a maximizar la suma de la sensibilidad y la especificidad) no es necesariamente el mejor. Se
deben considerar los costos (no solo financieros) de diagnósticos falsos negativos y falsos positivos y la
prevalencia de la enfermedad en los sujetos que se evalúan. 4 Por ejemplo, cuando se selecciona a la
población general para el cáncer, se elige el punto de corte para asegurar que la mayoría de los casos se
detecten (alta sensibilidad) a costa de muchos falsos positivos (baja especificidad), que luego podrían
eliminarse mediante una prueba adicional.
Un diagrama característico operativo del receptor es particularmente útil cuando se comparan dos o más
medidas. Una prueba con una curva que se encuentra totalmente por encima de la curva de otro será
claramente mejor. Los métodos para comparar las áreas bajo dos curvas para los datos apareados y no
apareados son revisados por Zweing y Campbell, 4 quienes dan una evaluación completa de este método.

Referencias
1. 1. ↵
1. Altman DG ,
2. Bland M
Pruebas diagnósticas 1: sensibilidad y especificidad. BMJ 1994 ; 308 : 1552 .
GRATIS texto completoGoogle Scholar

Pruebas diagnósticas 4: razones de verosimilitud


BMJ 2004 ; 329 doi: https://doi.org/10.1136/bmj.329.7458.168 (Publicado el 15 de julio de 2004)Citar esto
como: BMJ 2004; 329: 168
 Artículo
 Contenido relacionado
 Métrica
 Respuestas
1. Jonathan J Deeks ( Jon.Deeks@cancer.org.uk ) , bioestadístico senior de investigación 1 ,
2. Douglas G. Altman , profesor de estadística en medicina 2
Afiliaciones de autor
1. Correspondencia a: Sr. Deeks
Las propiedades de una prueba de diagnóstico o detección a menudo se describen utilizando sensibilidad y
especificidad o valores predictivos, como se describe en Notas anteriores. 1 2 Las razones de verosimilitud son
estadísticas alternativas para resumir la precisión del diagnóstico, que tienen varias propiedades
particularmente potentes que las hacen más útiles clínicamente que otras estadísticas. 3
Cada resultado de la prueba tiene su propia razón de verosimilitud, que resume cuántas veces más (o menos)
pacientes con la enfermedad probablemente tendrán ese resultado particular que los pacientes sin la
enfermedad. Más formalmente, es la relación entre la probabilidad del resultado de la prueba específica en
personas que sí la tienen y la probabilidad en personas que no la tienen.

Un cociente de probabilidad mayor que 1 indica que el resultado de la prueba se asocia con la presencia de
la enfermedad, mientras que un cociente de probabilidad menor a 1 indica que el resultado de la prueba se
asocia con la ausencia de enfermedad. Las razones de probabilidad adicionales son de 1 cuanto mayor sea la
evidencia de la presencia o ausencia de enfermedad. Los cocientes de verosimilitud por encima de 10 y por
debajo de 0.1 se consideran como evidencia sólida para establecer o descartar diagnósticos, respectivamente,
en la mayoría de los casos. 4 Cuando las pruebas informan que los resultados son positivos o negativos, los
dos cocientes de probabilidad se denominan razón de probabilidad positiva y razón de probabilidad
negativa.
La tabla muestra los resultados de un estudio sobre el valor de un historial de tabaquismo en el diagnóstico
de la enfermedad obstructiva de las vías respiratorias. 5El historial de tabaquismo se clasificó en cuatro
grupos según los años del paquete ahumado (paquetes por día x años ahumados). La razón de verosimilitud
para cada categoría se calcula dividiendo el porcentaje de pacientes con enfermedad obstructiva de las vías
respiratorias en esa categoría por el porcentaje sin la enfermedad en esa categoría. Por ejemplo, entre los
pacientes con la enfermedad, el 28% tenía más de 40 años de consumo de tabaco en comparación con solo el
1,4% de los pacientes sin la enfermedad. La razón de verosimilitud es por lo tanto 28.4 / 1.4 = 20.3. Un
historial de tabaquismo de más de 40 años es altamente predictivo de un diagnóstico de enfermedad
obstructiva de las vías respiratorias ya que el índice de probabilidad es sustancialmente mayor que 10.
Aunque nunca fumar o fumar menos de 20 años empaquetados ambos apuntan a no tener enfermedad
obstructiva de las vías respiratorias, su probabilidad las proporciones no son lo suficientemente pequeñas
como para descartar la enfermedad con confianza.
Las razones de verosimilitud son proporciones de probabilidades, y se pueden tratar de la misma manera que las razones de
riesgo a los efectos del cálculo de los intervalos de confianza6
 Ver ventana emergente
 Ver en línea
Cálculo de probabilidades posteriores a la prueba utilizando razones de verosimilitud
Probabilidad previa = p 1 = 0.1
odds de pretest = p 1 / (1- p 1 ) = 0.1 / 0.9 = 0.11
probabilidades después de la prueba = probabilidades de la prueba previa × razón de verosimilitud

Probabilidades después de la prueba = o 2 = 0.11 × 20.43 = 2.27


Probabilidad posterior a la prueba = o 2 / (1+ o 2 ) = 2.27 / 3.37 = 0.69
Las razones de verosimilitud son razones de probabilidades, y se pueden tratar de la misma manera que las
razones de riesgo para calcular los intervalos de confianza. 6
Para una prueba con solo dos resultados, los cocientes de probabilidad se pueden calcular directamente a
partir de sensibilidades y especificidades. 1Por ejemplo, si el hábito de fumar está dicotomizado como arriba
o por debajo de los 40 años del paquete, la sensibilidad es del 28.4% (42/148) y la especificidad del 98.6%
(142/144). La razón de probabilidad positiva es la proporción con enfermedad obstructiva de las vías
respiratorias que fuma más de 40 paquetes de años (sensibilidad) dividida por la proporción sin enfermedad
que fuma más de 40 paquetes por año (1 especificidad), 28.4 / 1.4 = 20.3, como antes. La razón de
probabilidad negativa es la proporción con enfermedad que fuma menos de 40 paquetes por año (1-
sensibilidad) dividida por la proporción sin enfermedad que fuma menos de 40 paquetes por año
(especificidad), 71.6 / 98.6 = 0.73. Sin embargo, a diferencia de la sensibilidad y la especificidad, el cálculo
de los cocientes de probabilidad no requiere la dicotomización de los resultados de la prueba. Forzar la
dicotomización en los resultados de pruebas de múltiples categorías puede descartar información de
diagnóstico útil.
Los cocientes de verosimilitud se pueden usar para ayudar a adaptar los resultados de un estudio a sus
pacientes. Para hacer esto, utilizan una relación matemática conocida como el teorema de Bayes que
describe cómo un hallazgo de diagnóstico cambia nuestro conocimiento de la probabilidad de
anormalidad. 3 Las probabilidades posteriores a la prueba de que el paciente tiene la enfermedad se estiman
multiplicando las probabilidades de la prueba por la razón de verosimilitud. El uso de probabilidades en
lugar de riesgos hace que el cálculo sea ligeramente complejo (recuadro), pero se puede usar un nomograma
para evitar tener que hacer conversiones entre probabilidades y probabilidades ( figura ). 7 Tanto la figura
como el recuadro ilustran cómo una probabilidad previa de enfermedad obstructiva de las vías respiratorias
de 0.1 (basada, por ejemplo, en las características de presentación) se actualiza a una probabilidad de 0.7 con
el conocimiento de que el paciente había fumado durante más de 40 años.
Uso del nomograma de Fagan para calcular las probabilidades posteriores a la prueba 7
En la práctica clínica es esencial saber cómo un resultado de prueba particular predice el riesgo de
anormalidad. Las sensibilidades y especificidades 1 no hacen esto: describen cómo la anormalidad (o la
normalidad) predice resultados de pruebas particulares. Los valores predictivos 2 dan probabilidades de
anormalidad para resultados de pruebas particulares, pero dependen de la prevalencia de anormalidad en la
muestra del estudio y rara vez pueden generalizarse más allá del estudio (excepto cuando el estudio se basa
en una muestra aleatoria adecuada, como a veces es el caso para estudios de cribado poblacional). Las
razones de verosimilitud proporcionan una solución, ya que se pueden usar para calcular la probabilidad de
anormalidad, mientras se adaptan para variar las probabilidades previas de la posibilidad de anormalidad en
diferentes contextos.

Referencias
1. 1. ↵
1. Altman DG ,
2. Bland JM
. Pruebas diagnósticas 1: sensibilidad y especificidad. BMJ 1994 ; 308 : 1552 .