Sunteți pe pagina 1din 6

Epidemiología para principiantes, 2a edición, BMJ Publishing Group, LEGIS 2004.

Error y sesgo en la medición

Los estudios epidemiológicos miden características de poblaciones. El parámetro de interés puede ser la tasa de una
enfermedad, la prevalencia de una exposición o, con mayor frecuencia, alguna medida de la asociación entre una exposición y
ciertas enfermedades. Casi siempre, estos estudios están expuestos al sesgo, debido a que se efectúan en seres humanos, con
todas las limitaciones prácticas y éticas concomitantes.

Sesgo es la tendencia sistemática a subestimar o sobreestimar el parámetro de interés a causa de una deficiencia en el diseño o
ejecución de un estudio. Aunque se han identificado múltiples fuentes de sesgo en los estudios epidemiológicos, sólo
consideraremos las dos clases más importantes.

Sesgo de selección

El sesgo de selección ocurre cuando los individuos que se estudian no son representativos de la población objetivo de la cual se
extraerán las conclusiones. Supongamos que un investigador desea estimar la prevalencia del consumo excesivo de alcohol
(más de 21 unidades por semana) en adultos residentes en una ciudad. Para hacerlo, podría seleccionar una muestra al azar de
todos los adultos registrados con médicos del lugar, para enviarles luego un cuestionario acerca de sus hábitos de beber. Con
este diseño, una fuente de error sería la exclusión de la muestra de aquellos residentes que no están registrados con un médico.
Estas personas no incluidas podrían tener patrones de bebida diferentes a los de aquéllos seleccionados para el estudio.
Además, no necesariamente todas las personas seleccionadas completarán y enviarán los cuestionarios, y quienes no
respondan podrían tener hábitos de bebida diferentes de quienes sí se tomaron la molestia de responder. Ambos descuidos son
fuentes potenciales de sesgo en la selección.

La manera en que se definen los casos también puede originar sesgo de selección. Un estudio que investigó el riesgo de
osteoartritis de cadera de acuerdo al grado de actividad física, identificó los casos de acuerdo al registro de admisiones al
hospital para reemplazo de cadera. Acá existe la posibilidad de sesgo ya que las personas que tienen trabajos físicamente
exigentes podrían estar más incapacitados para un nivel específico de artritis, y por lo tanto, buscar tratamiento más
rápidamente.

Cuando se define la muestra del estudio, siempre se debe considerar la posibilidad de sesgo de selección. Incluso, cuando las
respuestas de los participantes son incompletas, es necesario cuantificar la magnitud del sesgo. Los problemas de la respuesta
incompleta a encuestas se examinan más detenidamente en el capítulo 5.

Sesgo en la información

La segunda clase importante de sesgo proviene de errores en la medición de la exposición o la enfermedad. En un estudio para
estimar el riesgo relativo de malformaciones congénitas asociadas con la exposición materna a solventes orgánicos tales como
disolvente de pinturas, se interrogó a las madres de lactantes con malformaciones acerca de su contacto con tales sustancias
durante el embarazo, y sus respuestas fueron comparadas con aquéllas de las madres control con hijos normales. Con este
diseño, existía el riesgo que las madres “caso”, intensamente motivadas para averiguar por qué sus hijos habían nacido con una
anormalidad, recordaran la exposición del pasado más detalladamente que las controles. En tal caso, se provocaría un sesgo por
la tendencia a exagerar la estimación del riesgo.

Habitualmente no es posible eliminar por completo el sesgo de los estudios epidemiológicos. El objetivo, por lo tanto, debe ser
mantenerlo en un mínimo, identificar los sesgos que no se puedan evitar, evaluar su impacto potencial y considerarlo cuando se
interpreten los resultados. En este sentido, el lema del epidemiólogo bien podría ser “manos sucias, mente limpia” (manus
sordidae, mens pura).

Errores en la medición

Tal como señalábamos arriba, los errores en la medición de la magnitud de la exposición o de la enfermedad, pueden constituir
una fuente importante de sesgo en los estudios epidemiológicos. Por lo tanto, al diseñar una investigación, es importante estimar
la calidad de las mediciones. Una técnica ideal de encuesta debe ser válida (es decir, que mida adecuadamente lo que pretende
medir). Algunas veces se dispone de un estándar confiable frente al cual es posible evaluar la validez de la metodología de una
encuesta. Por ejemplo, la validez de un esfingomanómetro puede verificarse comparando sus lecturas con los valores de las
presiones intrarteriales, y la validez del diagnóstico de cáncer de seno por mamografía puede probarse (si la mujer acepta)
mediante biopsia. Sin embargo, lo usual es que no exista un estándar de referencia. La validez de un cuestionario para el
diagnóstico de angina no puede conocerse del todo: los expertos difieren en su opinión clínica, e incluso los arteriogramas
pueden conducir a conclusiones erróneas. Durante la necropsia, el patólogo puede describir las alteraciones, pero éstas pueden
no explicar los síntomas del paciente o su estado funcional. A menudo es imposible validar completamente las mediciones de
enfermedades en vida, por lo que en la práctica, debe evaluarse indirectamente la validez. Las estrategias más empleadas son
dos.

Es posible comparar una técnica que haya sido simplificada y estandarizada para su uso en encuestas con la mejor evaluación
clínica convencional. Por ejemplo, se puede comparar un cuestionario psiquiátrico autoadministrado con la opinión de la mayoría
de miembros de un panel de psiquiatras. De manera alternativa, una medida puede ser validada por su habilidad para predecir
una enfermedad futura. Sin embargo, la validación por la capacidad predictiva exige el estudio de múltiples temas.
Análisis de la validez

Cuando se usa una técnica o prueba piloto para dicotomizar a los individuos (por ejemplo, dividirlos entre casos y no casos,
expuestos y no expuestos), su validez se analiza mediante la clasificación de los sujetos como positivos o negativos, primero por
el método en prueba y segundo de acuerdo a la prueba de referencia estándar. A continuación, los hallazgos pueden expresarse
en una tabla de probabilidades como se muestra en la tabla 1.

A partir de esta tabla pueden obtenerse cuatro importantes definiciones de funciones de probabilidad:

Sensibilidad. Una prueba sensible detecta una alta proporción de casos verdaderos, y esta cualidad se expresa por a/(a+c).

Especificidad. Una prueba específica tiene escasos falsos positivos, y esta cualidad se expresa por d/(b+d).

Error sistemático. En las tasas epidemiológicas es de particular importancia que la prueba proporcione el número correcto del
total de casos. Este se mide por la razón del número total de positivos de la prueba piloto y la prueba de referencia, o (a+b)/
(a+c).

Valor predictivo. Es la proporción de los resultados positivos que son verdaderamente positivos. Es importante en el tamizaje, y
será discutido con detalle en el capítulo 10.

Debe advertirse que tanto el error sistemático como el valor predictivo dependen de la frecuencia relativa de los verdaderos
positivos y verdaderos negativos en la muestra del estudio (es decir, la prevalencia de la enfermedad o de la exposición que se
está midiendo).

¿Sensible o específico? Un asunto de elección

Si los criterios de evaluación del resultado positivo de una prueba son estrictos, entonces habrá pocos falsos positivos, pero la
prueba será poco sensible. Al contrario, si los criterios son más flexibles, habrá pocos falsos negativos pero la prueba será
menos específica. En una investigación de cáncer de seno se compararon diferentes criterios diagnósticos con los resultados de
una prueba de referencia (biopsia). La palpación clínica realizada por un médico dio como resultado falsos positivos
(especificidad del 93%), pero falló en la detección de la mitad de los casos (sensibilidad del 50%). A continuación, los criterios
para el diagnóstico de un “caso” fueron ampliados para incluir todos los resultados positivos identificados bien fuera por la
palpación ejecutada por un médico, por una enfermera, o por una mamografía: el resultado obtenido reveló entonces que pocos
casos pasaron inadvertidos (sensibilidad del 94%), pero la especificidad cayó al 86%.

Mediante la elección de la prueba adecuada y los puntos de corte correctos, es posible obtener el equilibrio entre sensibilidad y
especificidad que resulte óptimo para un estudio particular. En un estudio para prevalencia, esto podría ser cuando los falsos
positivos equilibran los falsos negativos. En un estudio para comparar tasas en diferentes poblaciones, las tasas absolutas
pierden importancia, y el interés recae en evitar el sesgo sistemático en las comparaciones: puede ser preferible una prueba
específica, incluso a expensas de alguna pérdida en la sensibilidad.

Reproducibilidad

Cuando no existe una pauta estándar satisfactoria que permita comparar la validez de una técnica de medición, es de gran
ayuda examinar su reproducibilidad. Los resultados consistentes no implican necesariamente que la técnica sea válida: una
prueba de laboratorio puede arrojar de manera persistente resultados falsos positivos, o bien, un cuestionario psiquiátrico muy
reproducible puede ser una medida poco sensible, por ejemplo, del “estrés”. Sin embargo, la escasa reproducibilidad indica ya
sea pobre validez, o bien que la característica que se está midiendo, cambia con el tiempo. En cualquiera de estas
circunstancias, los resultados se deben interpretar con precaución.

La reproducibilidad puede comprobarse dentro de los mismos observadores (esto es, el mismo observador realiza la medición en
dos ocasiones separadas) y también entre observadores (comparando mediciones hechas por diferentes observadores en el
mismo individuo o muestra). La verificación de la reproducibilidad puede llegar a constituir un estudio por sí mismo, una muestra
de personas a quienes se les toma un segundo examen o una muestra de radiografías, de exámenes de sangre y otras, que
puedan ser examinadas por duplicado. Incluso, muestras pequeñas son valiosas, si se cumplen los siguientes criterios: (1) son
representativas y (2) las pruebas en duplicado son verdaderamente independientes. Si el examen es realizado “fuera de línea”
(tal vez como parte de un estudio piloto), entonces es necesario asegurarse que tanto los participantes como los observadores y
las condiciones de operación representen de manera acertada el estudio principal. Es mucho más fácil probar la reproducibilidad
cuando el material puede ser transportado y almacenado, por ejemplo, muestras de plasma congelado, cortes histológicos y
diversas clases de fotografías. Sin embargo, tales pruebas pueden omitir una fuente importante de variación en el observador, a
saber, las técnicas para obtener muestras y registros.

Causas de variación en mediciones duplicadas

A menudo se ha descubierto, en mediciones duplicadas realizadas en forma independiente en los mismos individuos, que éstas
varían más de lo que cabría suponer. Para interpretar los resultados, y buscar cómo remediarlos, es útil descomponer la
variabilidad total en sus cuatro componentes:

Variación dentro del observador. El descubrir la inconsistencia propia puede ser traumático; ésta pone en evidencia la
ausencia de criterios claros de medicion e interpretación, en particular cuando se considera el área gris entre lo “normal” y lo
“anormal”. Esta variación es en su mayor parte aleatoria, lo que significa que es no es posible predecir su dirección.

Variación entre observadores. Incluye el primer componente (la inestabilidad entre observadores individuales), pero le agrega
un componente adicional sistemático debido a diferencias individuales en técnicas y criterios. Desafortunadamente, éste puede
ser grande en relación a la diferencia real que se espera identificar entre los grupos. Puede ser posible evitar este problema, ya
sea disponiendo de un observador único o, si es posible transportar el material, enviándolo para un examen central.

Alternativamente, es posible neutralizar el sesgo dentro de un estudio mediante la asignación aleatoria de los participantes a los
observadores. Cada observador debe estar identificado con un código en la encuesta de registro; el análisis de los resultados por
observador señalará luego los problemas importantes, y tal vez permita alguna corrección estadística del sesgo.

Variación aleatoria por individuo. Cuando en la misma persona se miden repetidamente variables fisiológicas como la presión
arterial, éstas tienden a exhibir una distribución normal alrededor de la media del sujeto. Sin embargo, las encuestas
comúnmente tienen que arreglárselas con una sola medición, y la imprecisión no será advertida a menos que se haya estudiado
la magnitud de la variación individual. Cuando se consideran nuevamente personas que tuvieron en la valoración inicial
resultados extremos, la variación individual aleatoria tiene algunas implicaciones importantes para el tamizaje y la práctica
clínica. Gracias a una peculiaridad estadística, este grupo parece entonces mejorar, ya que sus miembros incluyen aquellos
cuyos valores promedio son normales pero que, debido al azar, tuvieron unos valores mayores en el primer examen: en
promedio, con el seguimiento los valores tienden a caer (regresión a la media). La dimensión de este efecto depende de la
magnitud de la variación individual aleatoria. Los errores de interpretación pueden evitarse mediante la repetición de exámenes
para establecer una línea de base adecuada o, (en un estudio de intervención), incluir un grupo control.

Variación individual con sesgo (sistemática). La presión arterial se ve tan afectada por la temperatura de la sala de examen
como por otros factores emocionales, más difícil de estandarizar. Las encuestas para detectar diabetes señalan una prevalencia
mucho más alta en la tarde que en la mañana, y el cuestionario estándar de bronquitis posiblemente obtiene respuestas más
positivas en invierno que en verano. De este modo, las condiciones y el momento de una investigación pueden tener un efecto
importante sobre el verdadero estado de salud de un individuo y sobre sus respuestas. Hasta donde sea posible, los estudios
deberían diseñarse de modo que puedan controlar esto, por ejemplo, realizando las pruebas para la diabetes a una sola hora del
día. Por otra parte, puede medirse y considerarse para el análisis, una variable como la temperatura de una sala.

Análisis de la reproducibilidad

La reproducibilidad de mediciones de variables numéricas continuas, tales como la presión arterial, puede resumirse mediante la
desviación estándar de mediciones repetidas, o por su coeficiente de variación (desvación estándar, promedio). Cuando se han
realizado pares de mediciones, bien sea por el mismo observador en dos ocasiones diferentes o por dos observadores
diferentes, un gráfico de dispersión mostrará convenientemente la magnitud y el patrón de variación del observador. También
puede ser de ayuda graficar cada par de medidas contra su media. Así podrá mostrarse claramente si un par de mediciones es
sistemáticamente mayor que el otro, y si la reproducibilidad varía de acuerdo al verdadero valor de la variable que está siendo
medida. Puede suceder, por ejemplo, que el error de medición sea mayor en el rango superior de la presión arterial.

En el caso de atributos cualitativos, tales como signos y síntomas clínicos, los resultados se presentan inicialmente como una
tabla de probabilidades (tabla 2):
El nivel total de concordancia se puede representar mediante la proporción del total de celdas a y d. Desafortunadamente, esta
medición depende más de la prevalencia de la enfermedad que de la reproducibilidad del método. Esto ocurre porque en la
práctica es más fácil estar de acuerdo sobre una negativa clara; los desacuerdos dependen de la prevalencia de los difíciles
casos limítrofes entre lo normal y lo anormal. Por el contrario, la reproducibilidad se resume comúnmente por el indicador
estadístico k el cual mide el nivel de concordancia sobre y por encima de lo que cabría esperar a partir de la prevalencia del
atributo.

Análisis de la validez

Cuando se usa una técnica o prueba piloto para dicotomizar a los individuos (por ejemplo, dividirlos entre casos y no casos,
expuestos y no expuestos), su validez se analiza mediante la clasificación de los sujetos como positivos o negativos, primero por
el método en prueba y segundo de acuerdo a la prueba de referencia estándar. A continuación, los hallazgos pueden expresarse
en una tabla de probabilidades como se muestra en la tabla 1.

A partir de esta tabla pueden obtenerse cuatro importantes definiciones de funciones de probabilidad:

Sensibilidad. Una prueba sensible detecta una alta proporción de casos verdaderos, y esta cualidad se expresa por a/(a+c).

Especificidad. Una prueba específica tiene escasos falsos positivos, y esta cualidad se expresa por d/(b+d).

Error sistemático. En las tasas epidemiológicas es de particular importancia que la prueba proporcione el número correcto del
total de casos. Este se mide por la razón del número total de positivos de la prueba piloto y la prueba de referencia, o (a+b)/
(a+c).

Valor predictivo. Es la proporción de los resultados positivos que son verdaderamente positivos. Es importante en el tamizaje, y
será discutido con detalle en el capítulo 10.

Debe advertirse que tanto el error sistemático como el valor predictivo dependen de la frecuencia relativa de los verdaderos
positivos y verdaderos negativos en la muestra del estudio (es decir, la prevalencia de la enfermedad o de la exposición que se
está midiendo).

¿Sensible o específico? Un asunto de elección

Si los criterios de evaluación del resultado positivo de una prueba son estrictos, entonces habrá pocos falsos positivos, pero la
prueba será poco sensible. Al contrario, si los criterios son más flexibles, habrá pocos falsos negativos pero la prueba será
menos específica. En una investigación de cáncer de seno se compararon diferentes criterios diagnósticos con los resultados de
una prueba de referencia (biopsia). La palpación clínica realizada por un médico dio como resultado falsos positivos
(especificidad del 93%), pero falló en la detección de la mitad de los casos (sensibilidad del 50%). A continuación, los criterios
para el diagnóstico de un “caso” fueron ampliados para incluir todos los resultados positivos identificados bien fuera por la
palpación ejecutada por un médico, por una enfermera, o por una mamografía: el resultado obtenido reveló entonces que pocos
casos pasaron inadvertidos (sensibilidad del 94%), pero la especificidad cayó al 86%.

Mediante la elección de la prueba adecuada y los puntos de corte correctos, es posible obtener el equilibrio entre sensibilidad y
especificidad que resulte óptimo para un estudio particular. En un estudio para prevalencia, esto podría ser cuando los falsos
positivos equilibran los falsos negativos. En un estudio para comparar tasas en diferentes poblaciones, las tasas absolutas
pierden importancia, y el interés recae en evitar el sesgo sistemático en las comparaciones: puede ser preferible una prueba
específica, incluso a expensas de alguna pérdida en la sensibilidad.

Reproducibilidad

Cuando no existe una pauta estándar satisfactoria que permita comparar la validez de una técnica de medición, es de gran
ayuda examinar su reproducibilidad. Los resultados consistentes no implican necesariamente que la técnica sea válida: una
prueba de laboratorio puede arrojar de manera persistente resultados falsos positivos, o bien, un cuestionario psiquiátrico muy
reproducible puede ser una medida poco sensible, por ejemplo, del “estrés”. Sin embargo, la escasa reproducibilidad indica ya
sea pobre validez, o bien que la característica que se está midiendo, cambia con el tiempo. En cualquiera de estas
circunstancias, los resultados se deben interpretar con precaución.

La reproducibilidad puede comprobarse dentro de los mismos observadores (esto es, el mismo observador realiza la medición en
dos ocasiones separadas) y también entre observadores (comparando mediciones hechas por diferentes observadores en el
mismo individuo o muestra). La verificación de la reproducibilidad puede llegar a constituir un estudio por sí mismo, una muestra
de personas a quienes se les toma un segundo examen o una muestra de radiografías, de exámenes de sangre y otras, que
puedan ser examinadas por duplicado. Incluso, muestras pequeñas son valiosas, si se cumplen los siguientes criterios: (1) son
representativas y (2) las pruebas en duplicado son verdaderamente independientes. Si el examen es realizado “fuera de línea”
(tal vez como parte de un estudio piloto), entonces es necesario asegurarse que tanto los participantes como los observadores y
las condiciones de operación representen de manera acertada el estudio principal. Es mucho más fácil probar la reproducibilidad
cuando el material puede ser transportado y almacenado, por ejemplo, muestras de plasma congelado, cortes histológicos y
diversas clases de fotografías. Sin embargo, tales pruebas pueden omitir una fuente importante de variación en el observador, a
saber, las técnicas para obtener muestras y registros.

Causas de variación en mediciones duplicadas

A menudo se ha descubierto, en mediciones duplicadas realizadas en forma independiente en los mismos individuos, que éstas
varían más de lo que cabría suponer. Para interpretar los resultados, y buscar cómo remediarlos, es útil descomponer la
variabilidad total en sus cuatro componentes:

Variación dentro del observador. El descubrir la inconsistencia propia puede ser traumático; ésta pone en evidencia la
ausencia de criterios claros de medicion e interpretación, en particular cuando se considera el área gris entre lo “normal” y lo
“anormal”. Esta variación es en su mayor parte aleatoria, lo que significa que es no es posible predecir su dirección.

Variación entre observadores. Incluye el primer componente (la inestabilidad entre observadores individuales), pero le agrega
un componente adicional sistemático debido a diferencias individuales en técnicas y criterios. Desafortunadamente, éste puede
ser grande en relación a la diferencia real que se espera identificar entre los grupos. Puede ser posible evitar este problema, ya
sea disponiendo de un observador único o, si es posible transportar el material, enviándolo para un examen central.

Alternativamente, es posible neutralizar el sesgo dentro de un estudio mediante la asignación aleatoria de los participantes a los
observadores. Cada observador debe estar identificado con un código en la encuesta de registro; el análisis de los resultados por
observador señalará luego los problemas importantes, y tal vez permita alguna corrección estadística del sesgo.

Variación aleatoria por individuo. Cuando en la misma persona se miden repetidamente variables fisiológicas como la presión
arterial, éstas tienden a exhibir una distribución normal alrededor de la media del sujeto. Sin embargo, las encuestas
comúnmente tienen que arreglárselas con una sola medición, y la imprecisión no será advertida a menos que se haya estudiado
la magnitud de la variación individual. Cuando se consideran nuevamente personas que tuvieron en la valoración inicial
resultados extremos, la variación individual aleatoria tiene algunas implicaciones importantes para el tamizaje y la práctica
clínica. Gracias a una peculiaridad estadística, este grupo parece entonces mejorar, ya que sus miembros incluyen aquellos
cuyos valores promedio son normales pero que, debido al azar, tuvieron unos valores mayores en el primer examen: en
promedio, con el seguimiento los valores tienden a caer (regresión a la media). La dimensión de este efecto depende de la
magnitud de la variación individual aleatoria. Los errores de interpretación pueden evitarse mediante la repetición de exámenes
para establecer una línea de base adecuada o, (en un estudio de intervención), incluir un grupo control.

Variación individual con sesgo (sistemática). La presión arterial se ve tan afectada por la temperatura de la sala de examen
como por otros factores emocionales, más difícil de estandarizar. Las encuestas para detectar diabetes señalan una prevalencia
mucho más alta en la tarde que en la mañana, y el cuestionario estándar de bronquitis posiblemente obtiene respuestas más
positivas en invierno que en verano. De este modo, las condiciones y el momento de una investigación pueden tener un efecto
importante sobre el verdadero estado de salud de un individuo y sobre sus respuestas. Hasta donde sea posible, los estudios
deberían diseñarse de modo que puedan controlar esto, por ejemplo, realizando las pruebas para la diabetes a una sola hora del
día. Por otra parte, puede medirse y considerarse para el análisis, una variable como la temperatura de una sala.

Análisis de la reproducibilidad

La reproducibilidad de mediciones de variables numéricas continuas, tales como la presión arterial, puede resumirse mediante la
desviación estándar de mediciones repetidas, o por su coeficiente de variación (desvación estándar, promedio). Cuando se han
realizado pares de mediciones, bien sea por el mismo observador en dos ocasiones diferentes o por dos observadores
diferentes, un gráfico de dispersión mostrará convenientemente la magnitud y el patrón de variación del observador. También
puede ser de ayuda graficar cada par de medidas contra su media. Así podrá mostrarse claramente si un par de mediciones es
sistemáticamente mayor que el otro, y si la reproducibilidad varía de acuerdo al verdadero valor de la variable que está siendo
medida. Puede suceder, por ejemplo, que el error de medición sea mayor en el rango superior de la presión arterial.

En el caso de atributos cualitativos, tales como signos y síntomas clínicos, los resultados se presentan inicialmente como una
tabla de probabilidades (tabla 2):
El nivel total de concordancia se puede representar mediante la proporción del total de celdas a y d. Desafortunadamente, esta
medición depende más de la prevalencia de la enfermedad que de la reproducibilidad del método. Esto ocurre porque en la
práctica es más fácil estar de acuerdo sobre una negativa clara; los desacuerdos dependen de la prevalencia de los difíciles
casos limítrofes entre lo normal y lo anormal. Por el contrario, la reproducibilidad se resume comúnmente por el indicador
estadístico k el cual mide el nivel de concordancia sobre y por encima de lo que cabría esperar a partir de la prevalencia del
atributo.