Sunteți pe pagina 1din 40

NOTAS

BIOESTADISTICAS

SOCIEDAD CIENTFICA DE ESTUDIANTES


DE MEDICINA AGUSTINOS

SOCIEMA

MISIN

La Sociedad Cientfica de Estudiantes de Medicina Agustinos


SOCIEMA tiene como fin generar y difundir conocimientos cientficos
relacionados al proceso salud-enfermedad promoviendo soluciones a
los diversos problemas de salud de la regin y del pas, a travs de la
investigacin desde pregrado; as como educacin mdica continua
permanente de nuestros miembros contribuyendo al desarrollo
institucional universitario y social.

VISIN

Ser un centro de investigacin de referencia en el mbito cientfico y


acadmico de la salud que aporta sustantivamente al desarrollo de la
medicina y en la formulacin de polticas de salud ptimas a nivel
regional y nacional.

La publicacin, principal indicador de la actividad cientfica; constituye el


objetivo final de la investigacin, razn de ser de las sociedades cientficas.

RECOPILADO POR:
Cender Udai
Quispe Juli
Freddy Ivan
Grande Quispe
SOCIEMA
INDICE

Introduccin.............I

Qu es el anlisis por intencin de tratar?......1

Medidas del efecto de un tratamiento (I): reduccin absoluta del riesgo, reduccin relativa del

riesgo y riesgo relativo.....3

El ndice kappa ....... 5

Medidas del efecto de un tratamiento (II): odds ratio y nmero necesario para tratar....8

Estimacin: intervalos de confianza............11

ndices de rendimiento de las pruebas diagnsticas........13

Contraste de hiptesis: el valor p.........15

Desviacin estndar y error estndar...........17

Revisiones sistemticas y metaanlisis............20

El control de la confusin en estudios observacionales: el ndice de propensin........23

Anlisis del tiempo hasta un evento (supervivencia)...........26

Inferencia estadstica bayesiana...................................29

Sesgos en los estudios sobre pruebas diagnsticas..................32


SOCIEMA

INTRODUCCION

En el Per la inversin y desarrollo de la investigacin cientfica no ha sido una prioridad y se ha postergado


por diversos gobiernos. A pesar que nuestro pas, experiment un importante desarrollo econmico en
los ltimos aos caracterizado por ser una economa de subsistencia, muy dependiente de la exportacin
de materias primas; la inversin en salud, educacin y ciencia han sido mnimas por lo que todava
persisten brechas en distintos sectores de la sociedad que generan injusticias e inequidades. Los pases
desarrollados poseen un alto nivel de actividad cientfica y tecnolgica, as como logros consolidados en
el bienestar de sus poblaciones, y continan invirtiendo fuertemente en investigacin. La primera potencia
del mundo, Estados Unidos invierte 2,7 % de su Producto Bruto Interno (PBI), Japn destina 3,4% del PBI,
Alemania 2,6%, Francia 2,1% y Reino Unido 1,8%, otros como Israel, que es el pas que ms invierte en el
mundo, el 4.6% del PBI, Suecia invierte 2,7%%, Finlandia 3,5%, Corea del Sur 3,5% Taiwn 2,7% y Singapur
2,6%, En Amrica Latina, Brasil es el que ms invierte, el 1% de su PBI, Chile con O,7%, y el Per solo
invierte el 0,15% de su PBI, uno de los indicadores ms bajos de Amrica y del mundo. Situacin que
debera tomarse en cuenta seriamente ya que ningn pas ha salido del subdesarrollo sin inversin en
investigacin cientfica y tecnolgica.

Todo esto influye en una severa crisis universitaria, que conlleva al obsoleto equipamiento de laboratorios
para investigacin, insuficiente poltica de transferencia tecnolgica, la limitada existencia de convenios
interinstitucionales, la carencia de recursos humanos calificados, poca tradicin y motivacin para
publicar. Haciendo que la investigacin sea nula o escasa en la gran mayora de las Universidades e
Institutos dedicados a ella. A pesar de este contexto desfavorable o tal vez motivados por el mismo, en las
ltimas dcadas ha surgido en diferentes partes de Latinoamrica un inters creciente en estudiantes de
medicina por realizar investigacin; probablemente el reconocimiento de las mltiples limitaciones haya
fomentado la creacin de redes de colaboracin entre los mismos y consecuente creacin de sociedades
o asociaciones cientficas de estudiantes de medicina (SOCEM o ACEM), fenmeno del cual no fue
excepcin el Per. La SOCIEDAD CIENTFICA DE ESTUDIANTES DE MEDICINA AGUSTINOS-SOCIEMA con

I
otras ms de 30 sociedades conforman la SOCIEDAD CIENTFICA MEDICO ESTUDIANTIL PERUANA-
SOCIMEP, que tiene como principal objetivo promover el desarrollo de la investigacin cientfica en el
pregrado de las facultades de medicina.

La investigacin es uno de los ejes de la formacin mdica, porque adems de estar estrechamente ligada
al avance de la ciencia mdica, como tal, refuerza el conocimiento del mtodo cientfico el cual es esencial
para la evolucin del conocimiento mdico. Ya que siempre ante un paciente se recoge informacin vlida
para formar un marco terico y planteamiento del problema (historia clnica), se identifican las variables,
se organiza dicha informacin y formulan una o varias hiptesis (impresin diagnstica). Luego se realiza
el estudio adecuado y obtienen datos que acepta o rechaza la hiptesis (diagnostico) que permite una
adecuada intervencin (aplicacin teraputica) y seguimiento del paciente. Finalmente se realiza el
anlisis estadstico y la discusin (anlisis de resultados clnicos), y se elabora un informe final (epicrisis).
As la investigacin y la prctica mdica, son dos caras de la misma moneda; para que se pueda alcanzar
todo su potencial es indispensable tener un continuo conocimiento una de la otra. Por ello la investigacin
precisa ser algo ms que un simple curso curricular o extracurricular para el estudiante de medicina. Debe
ser el punto de partida, camino y modus vivendi de la carrera mdica. Ms que una obligacin, debe
sentirse como necesidad y an ms, como una pasin, pues siempre hay algo que aprender, algo que
descubrir, algo por conocer: Algo que investigar.

Por ltimo, vale la pena destacar que la intencin de este pequeo manual no es competir con los
excelentes libros que existen sobre metodologa de la investigacin clnica y medicina basada en
evidencias, entre otros. Lo que pretende es transmitir, un conocimiento de los fundamentos en
investigacin clnica y dar una perspectiva al estudiante, o al mdico recin egresado sobre algunos
recursos tiles que le permitan enfrentar los desafos en los inicios de su labor de investigacin clnica, as
como generar la suficiente motivacin para que desarrolle apropiada y sostenidamente su formacin.

Atentamente

Cender Udai, Quispe Juli


Presidente de SOCIEMA 2014-2015

II
notas BIOESTADISTICAS
Qu es el anlisis por intencin de tratar?
Vctor Abraira
Jefe de Unidad de Bioestadstica Clnica. Hospital Ramn y Cajal. Madrid.

Presentacin de la seccin
Tratamiento 1
En este nmero, iniciamos una serie que denominaremos No-
tas estadsticas, cuyo objetivo fundamental es difundir los as- Grupo 1 Resultado
pectos necesarios para entender la investigacin que se publica
en las revistas clnicas. En principio su periodicidad ser de un
artculo al trimestre, pero es posible que, en un futuro cercano, Poblacin
pueda aumentar a uno al mes. Abrimos con la serie un buzn
del lector para aquellos que estn interesados en solicitar te- Grupo 2 Resultado
mas metodolgicos y estadsticos para la serie.
Tratamiento 2

En el diseo ms caracterstico del ensayo clnico aleatoriza- Figura 1. Esquema de un ensayo clnico aleatorizado de dos ramas paralelas.
do (fig. 1), un paciente puede participar en l si cumple cier-
tos criterios de inclusin. Una vez verificado que los cumple,
es asignado aleatoriamente a uno de los dos grupos de trata- el denominado anlisis por intencin de tratar (AIT), que, se-
miento. A los pacientes asignados a un grupo se les adminis- gn la definicin ms ampliamente aceptada3 de un grupo
tra el tratamiento experimental, y a los asignados al otro, un de trabajo de la Asociacin Estadstica de los EE.UU., con-
tratamiento de control. Un tiempo despus, y sin que los ob- siste en incluir (en el anlisis) a todos los pacientes en los
servadores ni los pacientes sepan qu tratamiento ha recibi- grupos en los que fueron aleatoriamente asignados, inde-
do cada paciente (doble ciego o enmascaramiento), se observa pendientemente de que cumplieran, o no, los criterios de
en todos los pacientes la variable (o variables) respuesta. entrada, independientemente del tratamiento que realmen-
Este ideal de diseo, cuya necesidad no fue fcil de te recibieran e independientemente de que abandonaran el
aceptar, ya que tanto la asignacin del tratamiento al azar tratamiento o se desviaran del protocolo.
como el enmascaramiento repugnan a lo que en principio Esta idea de que un paciente que fue asignado al grupo
se entiende por buena prctica clnica (Altman1 recuerda que recibe el tratamiento A, pero que por cualquier razn
que, en un artculo publicado en Lancet en 1937, Bradford realmente recibe el tratamiento B, deba ser considerado, a
Hill recomendaba la asignacin alternativa a cada grupo, efectos del anlisis, como del grupo A parece difcil de en-
frente a la aleatoria), tiene por objetivo procurar que ini- tender y quiz por ello, y a pesar de ser la estrategia reco-
cialmente los dos grupos sean iguales en todo, excepto en mendada, por ejemplo, por el Nordic Council on Medici-
el tratamiento recibido, para que as, si al final hay dife- nes y la Food and Drug Administration3, a pesar de apa-
rencias entre ellos, stas puedan ser atribuidas al efecto del recer como ndice de calidad en la guas de lectura crtica4,
tratamiento (o, dicho en lenguaje ms tcnico, evitar el se usa poco. En una revisin5 de ensayos clnicos publica-
sesgo de seleccin2) y procurar que las preferencias de los dos en los aos 1990-1991 en revistas de ginecologa y
investigadores y los pacientes no influyan en los resultados obstetricia, se encontr que declaraban usar el AIT el 12%
(sesgo de averiguacin2). Sin embargo, en la prctica es de los ensayos; en otra posterior6, realizada sobre ensayos
dudoso que este ideal se alcance, pues casi siempre hay al- clnicos publicados en 1997 en British Medical Journal,
gn paciente que no satisface los criterios de entrada, no Lancet, JAMA y New England Journal of Medicine, la propor-
completa el tratamiento al que fue asignado tal como se cin fue del 48%; adems, los autores de ambas revisiones
describe en el protocolo del estudio, o no permanece en el resaltan que, entre quienes lo usan, el AIT es descrito y
estudio hasta el final, lo que impide recoger todos sus datos. aplicado, a menudo, inadecuadamente y que los diferen-
El modo generalmente recomendado de evitar los sesgos tes investigadores parecen interpretarlo de forma distinta.
que pueden introducir estas desviaciones del protocolo es Conviene, por tanto, precisar qu se pretende con el
AIT y los distintos aspectos a tener en cuenta en su reali-
Correspondencia: Vctor Abraira. zacin y en la lectura de artculos sobre ensayos clnicos
Unidad de Bioestadstica Clnica. Hospital Ramn y Cajal. aleatorizados. Con el AIT se pretenden dos cosas. En pri-
Ctra. Colmenar, km 9,100. 28034 Madrid.
Correo electnico: victor.abraira@hrc.es mer lugar, se trata de conseguir que las condiciones inicia-
les de los dos grupos sean tan iguales como sea posible (es-
ta es la razn de la asignacin aleatoria y la esencia del di-

1
que se pierden algunos datos. La inclusin de estos pacien-
Puntos clave tes es el principal problema del AIT, porque implica asignar
un valor a estas respuestas desconocidas o perdidas. Hay va-
El anlisis por intencin de tratar debe contemplarse rios mtodos para ello, desde sofisticados mtodos estads-
ms como una estrategia global de diseo, ejecucin ticos hasta el denominado anlisis de sensibilidad, que con-
y anlisis de los ensayos clnicos, que nicamente siste en asignar a todos los pacientes perdidos del grupo ex-
perimental la peor de las respuestas, y a los del grupo
como una alternativa de anlisis. Es la estrategia
control, la mejor, y evaluar cunto cambia el resultado del
recomendada, sobre todo en los ensayos pragmticos. ensayo con estas asignaciones. El verdadero resultado esta-
El anlisis por intencin de tratar da una ra entre este extremo conservador y el otro extremo del
estimacin del beneficio de un tratamiento ms anlisis, sin incluir las prdidas.
A pesar de la recomendacin general de usar el AIT en la
cercana a la prctica diaria (efectividad). bibliografa sobre diseo de ensayos clnicos aleatorizados,
El anlisis por intencin de tratar es inadecuado no faltan las crticas; hay quien argumenta3 que permitir la
en los ensayos de equivalencia. inclusin en el anlisis de pacientes que no cumplen el pro-
tocolo es una manera de alentar cierta relajacin del rigor, ya
El anlisis por intencin de tratar se usa poco, que se podra pensar: no importa si el paciente cumple o
y con frecuencia se describe y aplica no el tratamiento previsto, vamos a hacer el AIT!. Aunque
inadecuadamente. tambin se puede argumentar en sentido contrario3 que
plantear el AIT tiende a mejorar la calidad del diseo y eje-
cucin del ensayo clnico para no tener que enfrentarse des-
seo de un ensayo clnico), y con el AIT se persigue no pus a las dificultades que este anlisis comporta. Por ello,
perder esa igualdad por acontecimientos no intencionados diversos autores3,6 defienden que se debe contemplar el AIT
que ocurren despus de la asignacin aleatoria. Un ejem- ms como una estrategia global de diseo, ejecucin y an-
plo clsico es un ensayo7 que compara un tratamiento qui- lisis que como una alternativa de anlisis.
rrgico con otro mdico. Algunos pacientes asignados al Otra crtica3 surge en el contexto de los ensayos de equi-
grupo quirrgico murieron antes de poder ser interveni- valencia, es decir, en los ensayos diseados para probar la
dos. Si estas muertes no se atribuyen a la ciruga, sta hiptesis de que un tratamiento tiene el mismo efecto que
muestra una menor mortalidad, pero la diferencia desapa- otro, ms barato o con menores efectos adversos (en un
rece aplicando AIT. En segundo lugar, al aplicar el AIT y ensayo convencional, la hiptesis a prueba es que un tra-
analizar a los pacientes inadecuadamente incluidos y los tamiento tiene ms efecto que otro, p. ej., el placebo). En
que no cumplen el tratamiento, se pretende hacer que las estos ensayos, el AIT aumenta la probabilidad de concluir
condiciones del ensayo clnico sean ms parecidas a las de errneamente que no existe diferencia entre los tratamien-
la prctica diaria, en la que tambin hay pacientes mal tos y, por tanto, no sera la estrategia recomendable.
diagnosticados y que no cumplen o cumplen parcialmen- Por ltimo, hay que tener en cuenta que unos ensayos
te el tratamiento. Es decir, el AIT permitira obtener del tienen un objetivo fundamentalmente pragmtico6 (efecti-
ensayo clnico informacin sobre la efectividad del trata- vidad), de ayuda a la toma de decisiones sobre prescrip-
miento (efecto en condiciones reales) en lugar de sobre la cin de tratamientos a los pacientes, mientras que otros
eficacia (efecto en condiciones ideales). poseen un objetivo fundamentalmente explicativo6 (efica-
cia), de aportar conocimiento sobre la accin de un fr-
Los aspectos que deben cubrirse en el AIT son los siguientes: maco. En estos ltimos el AIT podra no ser adecuado.
Inclusiones inadecuadas. El AIT implica incluir en el anli-
sis a los pacientes que se incluyeron en el ensayo sin cum- BIBLIOGRAFA
plir los criterios de entrada en el estudio. En la revisin de 1. Altman DG. Statistics in medical journals: developments in the
Hollis y Campbell6 slo un 5% de los ensayos que afirma- 1980s. Stat Med 1991; 10: 1897-1913.
ban aplicar el AIT declaraban incluir a estos pacientes, 2. Jadad AR. Randomised controlled trials. Londres: Br Med J Books, 1998.
mientras que el 16% declaraban excluirlos, y el resto no 3. Lewis JA, Machin D. Intention to treatwho should use ITT? Br J
Cancer 1993; 68: 647-650.
deca nada al respecto. La no inclusin de estos pacientes 4. Guyatt GH, Sackett DL, Cook DJ. Users guides to the medical li-
slo podra estar justificada6 si el incumplimiento de los terature. II. How to use an article about therapy or prevention. A.
criterios fuera idntico en ambos grupos. Are the results of the study valid? Evidence-Based Medicine Wor-
king Group. JAMA 1993; 270: 2598-2601.
Los pacientes que no reciben completo el tratamiento al que 5. Schulz KF, Grimes MF, Altman DG, Hayes RJ. Blinding and exclusions af-
ter allocation in randomised controlled trials: survey of published parallel
fueron asignados, incluso que no lo empiezan, o que reci- group trials in obstetrics and gynaecology. Br Med J 1996; 312: 742-744.
ben el otro, o que cambian de tratamiento durante el en- 6. Hollis S, Campbell F. What is meant by intention to treat analysis?
sayo, tambin deben ser incluidos en el grupo al que fue- Survey of published randomised controlled trials. Br Med J 1999;
319: 670-674.
ron aleatoriamente asignados.
7. European Coronary Surgery Study Group. Coronary-artery bypass
Resultado desconocido, bien porque algunos pacientes surgery in stable angina pectoris: survival at two years. Lancet
abandonan el ensayo y no se sabe su resultado, o bien por- 1979; i: 889-893.

2
notas BIOESTADISTICAS
Medidas del efecto de un tratamiento (I):
reduccin absoluta del riesgo, reduccin
relativa del riesgo y riesgo relativo
V. Abraira
Unidad de Bioestadstica Clnica. Hospital Ramn y Cajal. Madrid.

Aunque el procedimiento para evaluar el efecto de un trata- ese grupo. Para evaluar el efecto de un tratamiento hay que
miento est muy protocolizado (el ensayo clnico aleatoriza- comparar el riesgo en el grupo tratado con el riesgo en el
do)1, la manera de expresar ese efecto no lo est tanto. En la grupo control. Se trata, por tanto, de comparar dos nme-
literatura clnica y epidemiolgica se usan distintos ndices2 ros. Por ejemplo, el resultado de un estudio para estimar el
y algunos trabajos3-5 indican que el grado en el que los m- efecto de un tratamiento para una cardiopata puede ser la
dicos estn dispuestos a prescribir un tratamiento depende proporcin de pacientes tratados que mueren (variable bi-
en gran medida de qu ndice se use para representar su efi- naria) en un perodo de tiempo determinado; si de un gru-
cacia. Por ejemplo, en el estudio de Bobbio et al4 se presen- po de 200 pacientes tratados han muerto 20, el riesgo de
t a un conjunto de mdicos generales los resultados de un muerte estimado en ese grupo es 20/200 = 0,10, que tam-
ensayo clnico de cuatro maneras distintas (reduccin abso- bin se expresa como 10%. Si el grupo control estuviera for-
luta del riesgo, reduccin relativa del riesgo, diferencia de mado por 100 pacientes y de ellos hubieran muerto 15 (es
las proporciones de pacientes libres del evento y nmero ne- decir, un riesgo de 0,15) para evaluar el tratamiento hay que
cesario a tratar para prevenir un evento) y se les pidi que, comparar 0,10 con 0,15. Naturalmente, el que estos nme-
teniendo en cuenta esa informacin, marcaran en una esca- ros sean distintos indica que el tratamiento tiene efecto. Hay
la de 0 a 100 cun dispuestos estaran a prescribir el trata- que resaltar que la comparacin, ms sencilla, de los nme-
miento a un paciente con el problema del ensayo clnico ros de pacientes que mueren en cada grupo, 20 y 15 en es-
(hipercolesterolemia); las respuestas varan desde una media te ejemplo, nos puede llevar a confusin si los grupos tienen,
de 24 para la presentacin como reduccin absoluta del como en el ejemplo, distinto tamao.
riesgo hasta una media de 77 para la reduccin relativa del Una primera fuente de confusin proviene, quizs,
riesgo. Puesto que todos ellos son ndices correctos y legti- de que estos mismos datos se pueden expresar, en lugar de
mos para presentar los resultados, merece la pena intentar por los riesgos de muerte, por las probabilidades de supervi-
familiarizarse un poco ms con ellos y sus relaciones. vencia de 0,90 y 0,85, respectivamente. Aade confusin la
Lo ms frecuente es que el resultado se represente en ca- variabilidad puramente terminolgica, pues a estos nmeros
da paciente mediante una variable binaria (variable del tipo se les puede denominar, al menos, como riesgo, proporcin,
s o no, que representa un evento que puede ocurrir o no frecuencia relativa, probabilidad y tasa, aunque estos trmi-
ocurrir). Variables de este tipo pueden ser: recidiva del cn- nos no son exactamente sinnimos. Otra fuente de confu-
cer, ocurrencia de un infarto, muerte, curacin, etc. Incluso sin, tambin terminolgica, proviene de que a veces se es-
cuando se trata con variables que en principio son continuas tudian eventos adversos (muerte, enfermedad) y otras even-
como, por ejemplo, concentracin de colesterol en sangre, o tos beneficiosos (sobrevivir, curar) y para ambos se usa el
presin arterial, es habitual transformarlas en binarias: hi- trmino riesgo, que hace pensar slo en eventos adversos.
percolesterolemia o normocolesterolemia, hipertensin o Por ltimo, pero no menos importante, otra fuente de
normotensin. En un ensayo clnico, el resultado observable confusin viene de que dos nmeros X e Y pueden ser
en cada paciente es que dicho paciente presente, o no, el comparados al menos de siete maneras distintas: ofrecien-
evento en estudio; el resultado para un grupo de pacientes do los dos nmeros, o sus diferencias absolutas X-Y o Y-X,
es la proporcin de pacientes en los que el evento ocurre. Es- o sus cocientes X/Y o Y/X, o sus diferencias relativas
ta proporcin estima la probabilidad, o riesgo, del evento en (X-Y)/Y o (Y-X)/X. Y todas ellas, y algunas ms, se usan en
la literatura mdica.
Los nombres que reciben los distintos ndices son:
Correspondencia: Dr. V. Abraira.
Unidad de Bioestadstica Clnica.
Hospital Ramn y Cajal. Ctra. Colmenar, km 9,100. 28034 Madrid. Reduccin absoluta del riesgo (RAR). Es la diferencia entre
Correo electrnico: victor.abraira@hrc.es el riesgo del grupo control y el riesgo del grupo tratado. En
el ejemplo anterior, RAR = 0,15 0,10 = 0,05; es decir, el

3
el grupo con dao, y (0,098 0,040)/0,098 = 0,592 o 59,2%
Puntos clave en el grupo sin dao cardaco al comienzo del estudio; mien-
tras que la RAR es ms del doble en el grupo con dao
Para expresar el efecto de un tratamiento hay dis- (0,137 en el grupo con dao y 0,058 en el grupo sin dao).
Es decir, como el riesgo de eventos adversos sin tratamiento
tintos ndices, todos ellos correctos y legtimos.
es bajo en los pacientes que al comienzo del estudio no tie-
El efecto del tratamiento percibido por los mdi- nen dao cardaco, una pequea reduccin de ese riesgo da
cos depende del ndice con el que se exprese. lugar a la misma RRR que una reduccin mayor en el grupo
Por tanto, es necesario familiarizarse con los de pacientes que tienen un riesgo basal tambin mayor.
distintos ndices y sus relaciones. Una manera Riesgo relativo (RR). Es el cociente entre el riesgo del gru-
po tratado y el riesgo del grupo control. En el ejemplo ini-
de hacerlo es calcular todos ellos para los datos cial, 0,10/0,15 = 0,667, aunque con frecuencia, para evi-
de los ensayos clnicos que se lean. tar RR menores que 1, se define como el cociente entre el
riesgo del grupo de mayor riesgo y el de menor; en nues-
tro ejemplo, RR = 0,15/0,10 = 1,5, que indica que el ries-
tratamiento reduce el riesgo de muerte en 0,05 o 5%. Di- go de muerte es 1,5 veces mayor en el grupo control que
cho de otra manera, por cada 100 pacientes que sigan ese en el tratado. Ntese que el RR contiene la misma infor-
tratamiento se evitarn 5 muertes con respecto a las que se macin que la RRR, porque, denominando Rt y Rc a los
hubieran producido si se hubiera empleado el tratamiento riesgos del grupo tratado y del grupo control, respectiva-
del grupo control (dependiendo del ensayo, puede ser pla- mente, estn relacionados por la expresin:
cebo u otro tratamiento activo). Por tanto, es un ndice que
expresa las consecuencias de dar el tratamiento, por ello a Rc Rt R
veces se le denomina tambin reduccin atribuible del RRR = = 1 t = 1 RR
Rc Rc
riesgo, o abreviadamente riesgo atribuible. Su principal
inconveniente es que se expresa con un nmero pequeo,
que quizs explique por qu en los trabajos citados3-5 es el Para el ejemplo, RRR = 0,333 = 1 0,667.
ndice con el que los mdicos perciben que el efecto es me- Hay todava otros ndices como la odds ratio (OR) para
nor. A veces se habla2,6 de diferencia absoluta de riesgo la que no hay un trmino aceptado en castellano, lo cual
(DAR) y se hace la diferencia al revs: diferencia entre el aumenta la confusin, as como el nmero necesario para
riesgo del grupo tratado y el riesgo del grupo control, lo tratar (NNT), que sern objeto de otra Nota estadstica. No
que da lugar a un cambio en el signo, es decir, la DAR es se incluyen en sta para evitar que alcance la dosis txica.
negativa si el tratamiento reduce el riesgo y positiva si lo
aumenta. En el ejemplo, DAR = 0,05.
Reduccin relativa del riesgo (RRR). Tambin llamado frac- BIBLIOGRAFA
cin atribuible. Es el cociente entre la reduccin absoluta 1. Jadad AR. Randomised controlled trials. Londres: Br. Med. J. Books,
del riesgo y el riesgo en el grupo control. Tambin se usa la 1998.
2. Abraira V. Medidas de asociacin en la investigacin clnica: aplica-
diferencia relativa de riesgo (DRR)6, definida como el co- cin a un estudio hipottico de asociacin entre hipertensin y con-
ciente entre la diferencia absoluta y el riesgo en el grupo con- sumo de sal. Clin Invest Arterioscler 1994; 6: 190-193.
trol. En el ejemplo, RRR = 0,05/0,15 = 0,333 o 33,3% (o 3. Naylor CD, Chen E, Strauss B. Measured enthusiasm: does the met-
DRR = 0,333). Es decir, la reduccin del riesgo de 0,05 re- hod of reporting trial results alter perceptions of therapeutic effecti-
veness? Ann Intern Med 1992; 117: 916-921.
presenta una reduccin del 33,3% con respecto al riesgo del 4. Bobbio M, Demichelis B, Giustetto G. Completeness of reporting
grupo control, lo que ilustra del beneficio del tratamiento en trial results: effect on physicians willingness to prescribe. Lancet
trminos relativos. sta es su principal ventaja, pero tambin 1994; 343: 1209-1211.
su inconveniente, pues al eliminar la magnitud del riesgo sin 5. Meneu Ricardo R, Peir S, Mrquez Caldern S. Influencia de la pre-
sentacin de los resultados de los ensayos clnicos en la intencin de
tratamiento (riesgo basal) puede dar lugar a sobrestimacio- prescribir: relativizando el riesgo relativo. Aten Primaria 1998; 21:
nes o subestimaciones del impacto del tratamiento si el ries- 446-450.
go sin tratamiento fuera muy bajo o muy alto, respectiva- 6. Feinstein AR. Invidious comparisons and unmet clinical challenges.
Am J Med 1992; 92: 117-120.
mente. Para ilustrar esto fijmonos, por ejemplo, en el estu- 7. Veterans Administration Cooperative Study Group on Antihyperten-
dio del Grupo Cooperativo de Hipertensin de la sive Agents. Effects of treatment on morbidity in hypertension. 3. In-
Administracin de Veteranos (de los EE.UU.)7. En l se fluence of age, diastolic pressure, and prior cardiovascular disease;
further analysis of side effects. Circulation 1972; 45: 991-1004.
compar un tratamiento antihipertensivo con placebo. A los
3 aos de tratamiento, entre los pacientes que tenan dao
cardaco en el momento de comenzar el estudio, se encontr
que la proporcin de pacientes con eventos adversos fue del Nota: En el apartado de software de la pgina web de la Unidad de Bioesta-
dstica Clnica del Hospital Ramn y Cajal (http://www.hrc.es/bioest.html)
22,2% en el grupo control y del 8,5% en el tratado, mientras est disponible una calculadora que a partir de los datos crudos de un en-
que en los pacientes sin dao estas proporciones fueron del sayo clnico, expresados en una tabla 2 2, se pueden calcular todos estos
ndices y sus intervalos de confianza. Un buen ejercicio para familiarizarse
9,8% y el 4,0%, respectivamente. La RRR es casi la misma en con ellos y sus relaciones es calcularlos todos con los datos de los ensayos
ambos grupos: (0,222 0,085)/0,222 = 0,617 o 61,7%, en clnicos que se lean. Esta calculadora intenta facilitarlo.

4
notas BIOESTADISTICAS
El ndice kappa
V. Abraira
Unidad de Bioestadstica Clnica. Hospital Ramn y Cajal. Madrid.

La medicin es una actividad omnipresente tanto en la Tabla 1.


prctica como en la investigacin clnica. Como ejemplos
Radilogo A
se pueden citar desde actividades relativamente simples,
como registrar la presin arterial mediante un esfigmoma- Radilogo B Neumona No neumona Total
nmetro, hasta actividades ms complejas, como determi- Neumona 4 6 r=a+b 10
nar la carga viral mediante una sofisticada tcnica de labo- a b
ratorio, pasando por la evaluacin de la calidad de vida c d
No 10 80 s = c+ d 90
mediante un cuestionario diseado al efecto. Estos proce- Total 14 t = a + c u = b + d 86 N = a + b + c + d 100
sos de medicin estn siempre amenazados por diversos
errores que condicionan la calidad tanto de la investiga-
cin como de las decisiones clnicas que se apoyan en di- resaltar que en clnica el trmino instrumento de medida se
chas mediciones1. Por ello es aconsejable que el clnico co- suele usar en sentido amplio; aqu no es slo el aparato de
nozca algunos fundamentos de la teora de la medida, en rayos usado para obtener la imagen, sino el conjunto forma-
particular los ndices usados en la evaluacin de los erro- do por el aparato y el observador que la interpreta.
res de medicin2. El procedimiento para evaluar la reproducibilidad de
Bsicamente hay que considerar dos tipos de errores: un instrumento consiste en comparar entre s distintas
el error debido a la precisin limitada del instrumento, medidas de un mismo objeto y evaluar su grado de
que atenta a la reproducibilidad de la medicin introdu- acuerdo (cuanto ms se parezcan estas medidas entre s,
ciendo un error aleatorio, y el debido a la validez, tam- ms preciso es el instrumento). En el ejemplo anterior
bin limitada, que introduce un error sistemtico. De habra que comparar los resultados de la evaluacin de
modo esquemtico se puede decir que la validez tiene una serie de radiografas por el mismo radilogo en dos
que ver con la cuestin de si el instrumento mide lo que instantes de tiempo (concordancia interna) o por dos ra-
debe medir, mientras que la precisin tiene que ver con dilogos diferentes (concordancia externa). La manera
cunto se aproxima la medida al valor real de la magni- de expresar los resultados de esta comparacin depende
tud. En ambos casos es siempre una cuestin de grado, del tipo de variable implicada; en el caso de una varia-
pues no existen instrumentos infinitamente precisos y ble binaria (tipo s o no; p. ej., enfermo o no enfermo)
vlidos: hay slo instrumentos ms precisos y/o vlidos el ndice ms sencillo es la proporcin de acuerdos ob-
que otros. servados. Supongamos que en un estudio para evaluar la
En cuanto a la reproducibilidad, llamada tambin concor- concordancia entre dos radilogos que interpretan ra-
dancia, se distingue entre la reproducibilidad del mismo ins- diografas de trax, clasificando cada una como neumo-
trumento en dos instantes de tiempo diferentes y se habla de na s o no, ofrece los resultados de la tabla 1. La pro-
concordancia o consistencia interna o intraobservador (p. ej., porcin de acuerdo observado es Po = (80 + 4)/100 =
un radilogo clasifica igual la misma radiografa estudiada 0,84. Este ndice es muy intuitivo y fcilmente interpre-
hoy y 2 meses despus?), y la reproducibilidad del mismo table: tomar valores entre 0 (total desacuerdo) y 1 (m-
instrumento usado en diferentes condiciones (p. ej., dos ra- ximo acuerdo). Sin embargo, como indicador de repro-
dilogos diferentes clasifican del mismo modo la misma ra- ducibilidad tiene el inconveniente de que, aun en el ca-
diografa?), se habla entonces de concordancia o consistencia so de que los dos observadores clasifiquen con criterios
externa o interobservador. Este ejemplo es til tambin para independientes (p. ej., un radilogo con todo su leal sa-
ber y entender y el otro tirando un dado al aire), se pro-
ducira un cierto grado de acuerdo por azar. Puede ha-
Correspondencia: Dr. V. Abraira. ber coincidencia en el resultado sin que exista nada ms
Unidad de Bioestadstica Clnica. Hospital Ramn y Cajal.
Ctra. Colmenar, km 9,100. 28034 Madrid. que el puro azar, no el mismo criterio en la decisin. Es
Correo electrnico: victor.abraira@hrc.es deseable que un ndice de concordancia tenga en cuen-
ta este hecho y que, de algn modo, indique el grado de

5
O Pe Po 1
Puntos clave
El ndice kappa () se usa para evaluar la con-
cordancia o reproducibilidad de instrumentos de Concordancia por azar Concordancia ms all del azar
medida cuyo resultado es categrico (2 o ms
categoras).
El ndice kappa () representa la proporcin de
acuerdos observados ms all del azar respec- O 1
to del mximo acuerdo posible ms all del azar.

En la interpretacin del ndice kappa () hay que Figura 1. Representacin grfica del ndice kappa.
tener en cuenta que el ndice depende del
acuerdo observado, pero tambin de la preva-
lencia del carcter estudiado y de la simetra de Desde la propuesta inicial de Cohen3 el ndice ha si-
los totales marginales. do progresivamente generalizado a clasificaciones multi-
nomiales (con ms de dos categoras), ordinales, a ms de
dos observadores, a diseos incompletos y a todas estas si-
tuaciones combinadas6, generalizaciones que suponen
acuerdo que existe por encima del esperado por azar. En una mayor complejidad en el clculo pero que mantienen
este sentido Cohen3 propuso el denominado ndice kap- la misma interpretacin. Esta interpretacin est dificulta-
pa (), que defini como: da por algunos efectos poco intuitivos. En primer lugar, el
ndice depende de la prevalencia del carcter observa-
PoPe do7: cuanto ms cerca est de 0 o de 1, menor es el ndice
=
1Pe para igual proporcin de acuerdos observados. En se-
gundo lugar, depende de la simetra de los totales margi-
siendo Po la proporcin de acuerdos observados y Pe la nales7: en igualdad de acuerdos observados, cuanto menor
proporcin de acuerdos esperados en la hiptesis de inde- sea la diferencia entre las prevalencias observadas por ca-
pendencia entre los observadores, es decir, de acuerdos da observador, menor es el ndice . El pequeo valor de
por azar. A partir de la tabla 1, Po = (a + d)/N y Pe = (rt + para los datos de la tabla 1 se matiza a la luz de estos
su)/N2. La interpretacin de este ndice se facilita median- efectos: estamos en la peor de las situaciones posibles: ba-
te su representacin grfica4. En la figura 1 se observa que ja prevalencia y similar para ambos observadores (0,14 pa-
el ndice representa la proporcin de concordancia ob- ra el radilogo A y 0,10 para el B).
servada ms all del azar, respecto de la mxima concor- En un interesante artculo* recientemente publicado en
dancia posible ms all del azar. esta Revista8, se estudia la concordancia en el diagnstico
En el ejemplo: de nevus melanocticos entre atencin primaria (AP) y
atencin especializada (AE), y se encuentra un ndice
14 10 + 86 90 muy bajo, inferior al hallado en estudios similares, segn
Pe = = 0,788 los propios autores comentan. Aunque no se dan detalles
1002 de cmo se ha calculado el ndice, la distribucin de los
diagnsticos alternativos (hay 25 juicios clnicos distintos
y por lo tanto en AP y 12 en AE) indica que en este estudio estn pre-
sentes tanto el primer efecto comentado antes (prevalen-
0,84 0,788 cias cercanas a 0, o incluso 0 si se han considerado todos
= = 0,245 los juicios clnicos para estimar el ndice ) como el se-
1 0,788 gundo (prevalencias similares); en consecuencia, el ndice
estar fuertemente penalizado y podra ser sta la cau-
es decir, el grado de acuerdo, una vez corregido el debido sa de su bajo valor.
al azar, es mucho ms modesto (24,5%) que lo que indi-
caba el 84% de acuerdo crudo. Landis y Koch5 propu- Tabla 2.
sieron, y desde entonces ha sido ampliamente usada, la es-
cala de valoracin del ndice que figura en la tabla 2. Kappa () Grado de acuerdo
< 0,00 Sin acuerdo
0,00-0,20 Insignificante
*En la pgina 270 de este nmero, el autor del artculo al que se 0,21-0,40 Mediano
hace referencia contesta en una Carta al director a los comenta- 0,41-0,60 Moderado
0,61-0,80 Sustancial
rios del Dr. Abraira. Asimismo, en la pgina 272 la Dra. Prez ana-
0,81-1,00 Casi perfecto
liza la situacin desde la seccin El rincn del autor y del lector.

6
V. Abraira. El ndice kappa

BIBLIOGRAFA 5. Landis JR, Koch GG. The measurement of observer agreement for ca-
tegorical data. Biometrics 1977; 33: 159-174.
1. Sackett DL. A primer on the precision and accuracy of the clinical 6. Abraira V, Prez de Vargas A. Generalization of the kappa coefficient
examination. JAMA 1992; 267: 2638-2644. for ordinal categorical data, multiple observers and incomplete de-
2. Abraira V. Errores en las mediciones y clasificaciones clnicas: preci- signs. Qestii 1999; 23: 561-571.
sin y validez. URL: http://www.hrc.es/bioest/Intro_errores.html [l- 7. Feinstein AR, Cicchetti DV. High agreement but low kappa: I. The
timo acceso: 29 de enero de 2001]. problems of two paradoxes. J Clin Epidemiol. 1990; 43: 543-549.
3. Cohen J. A coefficient of agreement for nominal scales. Educ Psychol 8. Rodrguez Caravaca G, Villar del Campo C, Gonzlez Mosque-
Meas 1960; 20: 37-46. ra M, car Corral E, Gonzlez Pieiro B, Lpez Bran E. Con-
4. Sackett DL, Hayes RJ, Guyatt G, Tugwell P. Epidemiologa clnica. cordancia diagnstica entre atencin primaria y atencin espe-
Ciencia bsica para la medicina clnica (2. ed.). Buenos Aires: Edi- cializada al evaluar nevus melanocticos. SEMERGEN 2000; 26:
torial Mdica Panamericana, 1994. 428-431.

7
notas BIOESTADISTICAS
Medidas del efecto de un tratamiento (II):
odds ratio y nmero necesario para tratar
V. Abraira
Unidad de Bioestadstica Clnica. Hospital Ramn y Cajal. Madrid.

En una nota previa1 se comentaron algunos ndices de aso- ballo mientras que las otras cinco sextas partes no apues-
ciacin ente variables que tambin se usan en los ensayos tan por l), que en ingls se denomina odds y para el que
clnicos para expresar el efecto de un tratamiento, cuando no hay una traduccin espaola comnmente aceptada;
el resultado en cada paciente se representa mediante una aunque los apostadores en el juego de la pelota lo llaman
variable binaria; al final de ella se anunciaba que haba momio, el diccionario de la RAE no recoge esta acepcin
otros ndices y a estos otros se va a dedicar esta segunda que, adems, es casi desconocida fuera de los frontones. Es
parte. decir, el odds es el cociente entre la probabilidad de que el
En primer lugar, el odds ratio (OR) que, a pesar de las episodio de inters ocurra y la probabilidad de que no
frecuentes quejas2,3 sobre lo poco intuitivo que es y en ocurra y habitualmente se estima por el cociente entre el
consecuencia lo proclive que resulta a posibles malas in- nmero de veces que ha ocurrido el acontecimiento y
terpretaciones, es uno de los ndices ms usados. Por el nmero de veces que no ha ocurrido.
ejemplo, en los originales publicados en esta revista en Volvamos al ejemplo de la nota anterior1 cuyos resulta-
2001 (hasta abril) es el nico ndice de asociacin que apa- dos figuran en la tabla 1. A partir de la tabla, podemos es-
rece4. En la nota previa1 se deca que cuando el resultado timar la probabilidad de que un paciente del grupo trata-
en cada paciente se representa mediante una variable bi- do muera por el cociente 20/200 = 0,10 (10%) y el odds
naria, es decir un episodio que puede ocurrir o no, el re- correspondiente por el cociente 20/180. Del mismo modo,
sultado para un grupo de pacientes es la proporcin de pa- la probabilidad de que un paciente del grupo control mue-
cientes en los que el episodio ocurre. Esta proporcin es- ra se puede estimar por el cociente 15/100 = 0,15 (15%) y
tima la probabilidad, o riesgo, del episodio en ese grupo. el odds por 15/85. Si queremos comparar ambos grupos
Todos los ndices revisados entonces se basan en compa- (tratado y control), lo podemos hacer con el cociente en-
rar el riesgo en el grupo tratado con el riesgo en el grupo tre ambas probabilidades, o riesgo relativo (RR) (RR =
control. 0,10/0,15 = 0,667), o por el cociente entre ambos odds, u
Sin embargo, hay otra manera de representar la proba- odds ratio (momio relativo, si aceptramos la terminologa
bilidad, que proviene del mundo del juego. Por ejemplo, del frontn):
la probabilidad de que al tirar un dado salga un dos es 1/6:
el dado tiene seis caras, todas con igual probabilidad de sa- 20/180 20 85
lir, y slo una de ellas tiene el dos; obviamente la probabi- OR = = = 0,63
15/85 15 180
lidad de que no salga es 5/6, en consecuencia el dos saldr
en una proporcin de (1/6)/(5/6) = 1/5 o, dicho de otra
manera, la probabilidad de que salga un dos es 1/5 de la Si no hay efecto del tratamiento, la probabilidad de que
probabilidad de que no salga. Cuando los apostadores de el acontecimiento ocurra es la misma en ambos grupos, el
las pelculas dicen, por ejemplo, que las apuestas a tal ca- odds tambin es igual y en consecuencia el OR es 1. Cuan-
ballo estn 1 a 5 se refieren a este cociente (quieren decir to mayor sea el efecto del tratamiento, ms distintos son
que una sexta parte de los jugadores apuestan por ese ca- los odds y, por tanto, ms se alejar el OR de 1 (en el sen-
tido de mayor o menor que 1). En este sentido, se com-
porta del mismo modo que el RR. El RR, sin embargo, es
ms simple que el OR, por qu, entonces, la popularidad
Correspondencia: Dr. V. Abraira. de ste? Hay tres motivos para ello, en primer lugar el OR
Unidad de Bioestadstica Clnica. se puede estimar tambin en los estudios de casos y con-
Hospital Ramn y Cajal.
Ctra. Colmenar, km 9,100. 28034 Madrid. troles en los que no es posible estimar el RR, en segundo
Correo electrnico: victor.abraira@hrc.es lugar, el OR permite, mediante la regresin logstica5, ajus-
tar la relacin en estudio por el efecto de otras variables

8
V. Abraira. Medidas de efecto de un tratamiento (II).
odds ratio y nmero necesario para tratar

(sta es la razn por la que Snchez-Seco et al4 lo usan) y,


en ltimo lugar, en aquellas situaciones, muy frecuentes en
epidemiologa comunitaria pero bastante menos en epide-
Puntos clave
miologa clnica, en las que el riesgo es muy pequeo en
El odds ratio es uno de los ndices ms usados,
ambos grupos, el OR y el RR son muy parecidos.
El ltimo ndice que vamos a revisar es el nmero necesa- a pesar de ser el menos intuitivo. Su principal
rio para tratar (NNT), que es tambin el ltimo ndice pro- ventaja es que permite, mediante la regresin
puesto6, con un uso creciente pero del que tambin apare- logstica, ajustar la relacin en estudio por el
cen quejas sobre su mal uso7. Representa el nmero de pa- efecto de otras variables.
cientes que deberan recibir el tratamiento experimental, en
lugar del tratamiento control, para que un paciente adicio- El nmero necesario a tratar expresa el efecto
nal obtenga el beneficio (o, de forma equivalente, evite el del tratamiento de un modo que permite fcil-
perjuicio si el episodio en estudio es adverso). Hay que no- mente comparar sus ventajas con sus inconve-
tar la importancia de la palabra adicional en la definicin. nientes (efectos adversos, costes, etc.), muy
El NNT se calcula como el inverso de la reduccin absoluta
cercano por lo tanto a la toma de decisiones cl-
del riesgo (RAR). En el ejemplo, el riesgo en el grupo con-
trol es 0,15; en el grupo tratado es 0,10; por tanto, la re- nicas.
duccin absoluta del riesgo es 0,05, lo que quiere decir que Existe evidencia emprica que sugiere que los
por cada 100 pacientes que sigan ese tratamiento se evitarn ndices relativos (odds ratio y riesgo relativo)
5 muertes con respecto a las que se habran producido si se tienden a ser ms parecidos entre diferentes
hubiera empleado el tratamiento del grupo control, por tan-
to, para evitar una muerte se necesitarn tratar 100/5 o equi-
ensayos del mismo tratamiento que los ndices
valentemente NNT = 1/0,05 = 20. Obviamente, cuanto ma- absolutos (reduccin absoluta del riesgo y n-
yor sea el efecto del tratamiento menor ser el NNT, un tra- mero necesario a tratar).
tamiento con el que necesitamos tratar a 5 pacientes para
salvar una vida es, en principio, mejor que otro con el que
necesitemos tratar a 20. La principal ventaja de este ndice
es que expresa el efecto del tratamiento en unos trminos En la primera columna de la tabla 3 figuran todos los n-
que permiten fcilmente comparar sus ventajas con sus in- dices calculados para los datos de la tabla 1. Se insiste en
convenientes (efectos adversos, costes, etc.), de un modo, que todos ellos estn calculados con los mismos datos, por
por tanto, muy cercano a la toma de decisiones clnicas. Hay tanto, todos reflejan el mismo efecto del tratamiento, aun-
que tener en cuenta que si el tratamiento no tuviera efecto que como unos estn basados en diferencias y otros en co-
RAR = 0 entonces NNT sera infinito, lo que dara lugar a al- cientes, la relacin entre ellos no se mantiene entre distin-
gn problema8, sobre todo en el clculo e interpretacin de tos estudios, es decir dos ensayos diferentes pueden dar
su intervalo de confianza. lugar al mismo RR pero diferente NNT. Sirvan de ejemplo
Del mismo modo, para evaluar efectos adversos se pue- los resultados representados en la tabla 2, en los que los
de definir el nmero necesario para perjudicar, represen- riesgos son menores en ambos grupos (0,06 en el control
tado por sus siglas en ingls NNH, aunque ya se ha sea- y 0,04 en el tratado), los ndices calculados para estos da-
lado8 que esta terminologa es confusa y que sera preferi- tos figuran en la columna 2 de la tabla 3. Obsrvese que
ble usar el nmero necesario a tratar para producir un aunque los RR son iguales para los datos de ambas tablas,
beneficio (NNTB) y nmero necesario a tratar para produ- los dems son distintos, y los NNT, muy distintos.
cir un perjuicio (NNTH). Existe evidencia emprica proveniente de cientos de me-
taanlisis que sugiere que los ndices relativos (OR y RR)
tienden a ser ms parecidos entre diferentes ensayos del
Tabla 1. Resultados de un hipottico ensayo clnico mismo tratamiento que los ndices absolutos (RAR y
Fallecidos NNT)9 o, dicho de otra manera, los ndices relativos ser-
Grupo S No Total an caractersticos del tratamiento, mientras que los abso-
Tratado 20 180 200
Control 15 85 100 Tabla 3. ndices del efecto del tratamiento calculados para los
Total 35 265 300 datos de las tablas 1 y 2
Tabla 1 Tabla 2
Tabla 2. Resultados de otro hipottico ensayo clnico RAR 0,05 0,02
RRR 0,333 0,333
Fallecidos
RR 0,667 0,667
Grupo S No Total OR 0,63 0,653
Tratado 20 480 500 NNT 20 50
Control 30 470 500 RAR: reduccin absoluta del riesgo; RRR: reduccin relativa del riesgo; RR: riesgo re-
Total 50 950 1.000 lativo; OR: odds ratio; NNT: nmero necesario para tratar.

9
3. Altman DG, Deeks JJ, Sackett DL. Odds ratios should be avoided
lutos dependeran del tratamiento y tambin del riesgo ba- when events are common [carta]. Br Med J 1998; 317: 1318.
sal. Para decidir si el resultado de un ensayo, expresado 4. Snchez-Seco Higuera P, Delgado Delgado P, Retuerta Ameztoy P, L-
con un ndice absoluto como el NNT, es aplicable en nues- pez-Doriga de la Vega A, Viejo Martnez S, Daz Garca RM. Preva-
lencia de factores de riesgo cardiovascular en la poblacin anciana de
tro medio, hay que evaluar si el riesgo basal del ensayo es la zona bsica de salud de Horche (Guadalajara). SEMERGEN 2001;
similar al de nuestro medio y, en caso contrario, adaptar el 27: 118-122.
ndice a nuestro riesgo basal. Del mismo modo, en un me- 5. Abraira V, Prez de Vargas A. Mtodos multivariantes en Bioestads-
taanlisis, el clculo de un NNT global puede ser poco in- tica. Madrid: Centro de Estudios Ramn Areces, 1996.
6. Laupacis A, Sackett DL, Roberts RS. An assessment of clinically use-
formativo7 si en los ensayos individuales hay heterogenei- ful measures of the consequences of treatment. N Engl J Med 1988;
dad en los riesgos basales. 318: 1728-1733.
7. Smeeth L, Haines A, Ebrahim S. Numbers needed to treat derived
from meta-analyses-sometimes informative, usually misleading. Br
Med J 1999; 318: 1548-1551.
BIBLIOGRAFA 8. Altman DG. Confidence intervals for the number needed to treat. Br
1. Abraira V. Medidas del efecto de un tratamiento (I): reduccin abso- Med J 1998; 317: 1309-1312.
luta del riesgo, reduccin relativa del riesgo y riesgo relativo. SE- 9. Deeks JJ, Altman DG, Dooley G, Sackett DL. Choosing an appro-
MERGEN 2000; 26: 535-536. priate dichotomous effect measure for meta-analysis: empirical evi-
2. Sackett DL, Deeks JJ, Altman DG. Down with odds ratios! Evidence- dence of the appropriateness of the odds ratio and relative risk [re-
Based Med 1996; 1: 164-166. sumen]. Control Clin Trials 1997; 18: S84-S85.

10
notas BIOESTADISTICAS
Estimacin: intervalos de confianza
V. Abraira
Unidad de Bioestadstica Clnica. Hospital Ramn y Cajal. Madrid.

Todas las investigaciones clnicas se realizan en un grupo


determinado de individuos, generalmente pacientes. Sin Puntos clave
embargo, el inters del estudio radica, habitualmente, en
la generalizacin de los resultados: no se est tan interesa- En general, el inters de los estudios de investi-
do en lo que ocurre con los individuos particulares que
participan en la investigacin como en predecir lo que
gacin clnica no es tanto lo que ocurre con los
pueda ocurrir en el futuro con otros individuos similares. individuos particulares que participan en la in-
Esto plantea dos problemas, el primero es el del sesgo de vestigacin sino predecir lo que pueda ocurrir
seleccin1, es decir, hasta qu punto los pacientes inclui- en el futuro con otros individuos similares.
dos en el estudio son similares o, en la terminologa esta- El intervalo de confianza de un ndice es un in-
dstica, pertenecen a la misma poblacin que aquel o
aquellos a quienes se quieren aplicar los resultados del es- tervalo dentro del que se encuentra el verdadero
tudio o, dicho de otra manera, hasta qu punto son tan valor del ndice con un grado prefijado de segu-
distintos como para que los resultados del estudio no sean ridad, suponiendo que la muestra sea aleatoria.
tiles para tomar las decisiones sobre stos2. El segundo El intervalo de confianza es, por tanto, un modo de
problema es que los estudios nunca se realizan con todos
cuantificar lo generalizable de los resultados de
los pacientes de inters, sino slo con un grupo de ellos o,
en terminologa estadstica, no se trabaja con la poblacin un estudio, suponiendo que el estudio es vlido.
sino con una muestra. La estadstica sirve justamente para
solucionar este segundo problema con las tcnicas de esti-
macin y contraste de hiptesis3. problema es cunto tienen que ver las proporciones de xito
Por ejemplo, en un estudio para evaluar la eficacia de los del 26 y el 9% obtenidas en los 200 individuos concretos
inhaladores de nicotina para reducir la cantidad de tabaco que participan en cada grupo del estudio (muestra) con las
fumado4 se defini como xito en cada individuo que, en el proporciones respectivas en todos los individuos (poblacin)
perodo comprendido entre la sexta semana y el cuarto mes a los que sea aplicable y cunto dependen estas proporciones
desde el inicio del tratamiento, se redujera al menos en un de que se obtengan en 200, 20 o 2.000 individuos.
50% el nmero de cigarrillos fumados diariamente. Los par- Para ayudar a comprenderlo pensemos en otro proble-
ticipantes en el estudio fueron 400 voluntarios sanos, reclu- ma similar: cul es la probabilidad de que al tirar un da-
tados por anuncios en los peridicos, que estaban dispues- do salga un dos? La diferencia entre ambos problemas re-
tos a reducir su consumo de tabaco, pero no a dejar de fu- side en que en este ltimo, si aceptamos que el dado est
mar inmediatamente, o eran incapaces de ello. Los bien construido, podemos calcular que la probabilidad es
participantes fueron distribuidos aleatoriamente en dos gru- 1/6, clculo que no se puede realizar para el xito de los
pos de 200, la evaluacin de la eficacia se obtuvo de la com- inhaladores de nicotina. Sin embargo, tambin podramos
paracin de las proporciones de xito entre los grupos trata- resolver el problema del dado tirndolo una serie de veces
do (26%) y placebo (9%) y se pretende que este resultado y calculando la proporcin de veces en que sale el dos. En
sea aplicable a otros fumadores. En el artculo se describen la figura 1 se ilustra la evolucin de esta proporcin en
las caractersticas demogrficas de los participantes y las de funcin del nmero de tiradas en 4 series. En ella se ob-
su historia y hbito tabquico para ayudar al lector a juzgar serva la caracterstica forma de embudo correspondiente a
cun diferentes puedan ser de otros fumadores a quienes se una ley emprica que dice que la proporcin oscila, pero
quiera aplicar el tratamiento (sesgo de seleccin). Una vez que la amplitud de las oscilaciones va decreciendo a me-
aceptado que son suficientemente parecidos, el siguiente dida que aumenta el nmero de tiradas, de tal modo que
en todas las series tiende a estabilizarse en el mismo valor,
Correspondencia: Dr. V. Abraira. a pesar de que obviamente tambin es posible que en al-
Unidad de Bioestadstica Clnica. Hospital Ramn y Cajal. guna serie salga el dos en todas las tiradas o no salga en
Ctra. Colmenar, km 9,100. 28034 Madrid. ninguna. Se puede definir la probabilidad de un suceso co-
Correo electrnico: victor.abraira@hrc.es

11
Abraira V. Estimacin: intervalos de confianza

que, con tan slo 6 tiradas, esta proporcin puede estar


muy alejada de la probabilidad y sera perfectamente posi-
1,0
ble encontrar este resultado con un dado cargado. En fun-
0,8 cin de experiencias similares a la representada en la figu-
ra 1 se podra aceptar que la verdadera probabilidad po-
0,6 dra estar en un amplio intervalo como, por ejemplo,
0,005 y 0,7. Pinsese, o constryase con un poco de pa-
0,4
ciencia, una grfica como la de la figura 1 para el resulta-
0,2 do cara en varias series de tiradas de una moneda. En la
zona izquierda, las partes anchas de los embudos se sola-
0,0 paran. Si tiramos ahora el dado 24 veces y encontramos
1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97
el dos en 4 ocasiones la mejor estimacin sigue siendo
4/24 = 1/6, pero el intervalo de probabilidades se estre-
Figura 1. Evolucin de la proporcin del resultado dos en funcin del chara, digamos que entre 0,05 y 0,35. Si lo tiramos 120
nmero de tiradas del dado en 4 series de 100 tiradas (los valores veces y el dos se obtiene en 20 ocasiones, la estimacin
finales de las 4 series varan en este caso entre 0,17 y 0,21).
contina siendo 20/120 = 1/6, pero el intervalo se habra
estrechado an ms, por ejemplo entre 0,1 y 0,2. Estos in-
mo el valor en el que se estabiliza la proporcin de veces tervalos se denominan intervalos de confianza y las tc-
en que el suceso ocurre. El problema consiste en saber, en nicas estadsticas permiten construirlos de una forma pre-
cada caso, si el nmero de tiradas es suficientemente cisa y fiable, asumiendo que la muestra del estudio es una
grande para que la proporcin se haya estabilizado. Es de- muestra aleatoria de la poblacin de inters. En la tabla 1
cir, volviendo al estudio de los inhaladores, el nmero de se incluyen los intervalos para el problema del dado, cons-
fumadores estudiados es suficiente para que las propor- truidos con un nivel de confianza del 95 y el 99%.
ciones de xito en cada grupo ya estn estabilizadas cerca Esta tabla ilustra cmo los intervalos de confianza nos
de las verdaderas probabilidades de xito? o, planteado de indican si el tamao de una muestra es suficiente para
otra manera, dado el nmero de fumadores estudiados y contestar a una pregunta de investigacin. Si deseamos es-
las proporciones de xito encontradas, dentro de qu in- tar razonablemente seguros de que la carga del dado no
tervalo estaran las verdaderas probabilidades de xito? altera la probabilidad del dos en ms del 10% necesitamos
Imaginemos que no sabemos si el dado est bien cons- menos de 120 tiradas, pero si queremos asegurar un error
truido o est cargado, es decir, no sabemos si la probabi- menor del 3% necesitaramos 600.
lidad de que salga un dos es realmente 1/6 (= 0,166). El En el caso de los inhaladores de nicotina los intervalos
experimento para estudiarlo consiste en tirar el dado va- de confianza del 95% para el placebo son del 5,4-13,9%, y
rias veces. Supongamos que lo tiramos 6 veces y el dos sa- para el grupo tratado del 20,1-32,7%; que ambos no se so-
le en una ocasin. En este punto la mejor estimacin de la lapen nos est indicando que el tamao muestral es sufi-
probabilidad del dos es la proporcin 1/6, pero est claro cientemente grande para estar seguros, con un 95% de
confianza, de que las proporciones de xito son verdadera-
mente distintas en ambos grupos. Las tcnicas estadsticas
Tabla 1. Intervalos de confianza para la proporcin 1/6 permiten construir intervalos de confianza no slo para las
en el experimento del dado proporciones sino tambin para todas las medidas del efec-
N. de tiradas N. de dos IC del 95% IC del 99% to de un tratamiento vistas en notas previas5,6, y siempre
debera darse el intervalo de confianza del ndice usado. En
6 1 0,004-0,64 0,0008-0,74
12 2 0,02-0,48 0,009-0,57 la tabla 2 aparecen los distintos ndices y sus intervalos de
24 4 0,05-0,37 0,03-0,44 confianza para el ensayo de los inhaladores de nicotina.
48 8 0,07-0,30 0,06-0,35
120 20 0,11-0,25 0,09-0,27
600 100 0,14-0,20 0,13-0,21 BIBLIOGRAFA
1. Ellenberg JH. Selection bias in observational and experimental stu-
dies. Stat Med 1994;13:557-67.
Tabla 2. Medidas de eficacia y sus intervalos de confianza 2. Sackett DL, Richardson WS, Rosenberg W, Haynes RB. Medicina ba-
en el ensayo de los inhaladores de la nicotina sada en la evidencia. Cmo ejercer y ensear la MBE. Madrid: Chur-
chill Livingstone Espaa, 1997.
ndice IC del 95%
3. Abraira V. Estadstica inferencial. Disponible en: http://www.hrc.
DAR 17,0 9,7-24,3 es/bioest/Introducion.html [consultado: 11/07/2001].
RR 2,89 1,75-4,76 4. Bolliger CT, Zellweger JP, Danielsson T, van Biljon X, Robidou A,
DRR 188,9 108,2-269,5 Westin A, et al. Smoking reduction with oral nicotine inhalers: dou-
OR 3,55 1,99-6,33 ble blind, randomised clinical trial of efficacy and safety. BMJ
NNT 6 4-10 2000;321:329-33.
5. Abraira V. Medidas del efecto de un tratamiento (I): reduccin abso-
Como en este caso el riesgo del grupo experimental es mayor que el del grupo con- luta del riesgo, reduccin relativa del riesgo y riesgo relativo. SE-
trol, se ha preferido usar la diferencia de riesgo en lugar de la reduccin de riesgo5.
MERGEN 2000;26:535-6.
DAR: Diferencia absoluta de riesgo; RR: Riesgo relativo; DRR: Diferencia relativa de
riesgo; OR: Odds ratio ; NNT: Nmero necesario para tratar.
6. Abraira V. Medidas del efecto de un tratamiento (II): odds ratio y n-
mero necesario para tratar. SEMERGEN 2001;27:418-20.

12
notas BIOESTADISTICAS
ndices de rendimiento de las pruebas
diagnsticas
V. Abraira
Unidad de Bioestadstica Clnica. Hospital Ramn y Cajal. Madrid.

Ya se vio en otra nota1 un ndice para cuantificar la re- Tabla 1. Resultados de la evaluacin del pptido tipo B
producibilidad o concordancia de un instrumento de me- Pptido natriurtico tipo B (pmol/l)
dida cuando sus resultados se expresan mediante una va- Ecocardiograma
Normal (< 18,7) Elevado (18,7) Total
riable binaria (tipo s o no), que es la forma ms sim-
ple en la que se pueden expresar los resultados de las Normal 93 a b 50 r=a+b 143
Disfuncin 1 c d 11 s=c+d 12
pruebas diagnsticas cuando se usan para determinar si Total 94 t=a+c u=b+d 61 N=a+b+c+d 155
un individuo tiene, o no, una cierta enfermedad, un snto-
ma o un signo. En esta nota se van a repasar los ndices
empleados para evaluar el otro tipo de error de medicin,
el debido a la falta de validez2. Por ejemplo, en la tabla 1 la prctica clnica lo que suele ser conocido es el resultado
se muestran los resultados de la medicin, en ancianos, de de la prueba y por lo tanto, lo que tiene inters es la pro-
la concentracin plasmtica de pptido natriurtico tipo B porcin de individuos con resultado positivo que verda-
para diagnosticar la disfuncin ventricular izquierda, com- deramente tienen la enfermedad. A esta proporcin se le
parados con el diagnstico basado en el ecocardiograma3 denomina valor predictivo positivo (VP+) y, simtricamente,
es suficientemente buena la medicin de la concentracin se denomina valor predictivo negativo (VP-) a la proporcin
plasmtica de este pptido para diagnosticar la disfuncin de individuos con resultado negativo que verdadera-
ventricular? Obviamente para contestar a esta pregunta mente no tienen la enfermedad. En el ejemplo VP+ =
hemos de asumir que existe otro procedimiento que per- 11/61 = 0,18 y VP- = 93/94 = 0,99, que nos indican que
mite hacer el diagnstico correcto con el que se compara la inmensa mayora (el 99%) de los individuos en que la
la prueba a evaluar. La eleccin de este procedimiento, ha- prueba es negativa no tienen la enfermedad, pero que s-
bitualmente denominado patrn de oro, es el principal lo una minora (el 18%) de aqullos en que el resultado es
problema del diseo de un estudio de evaluacin de una positivo la padecen.
prueba diagnstica4. En el ejemplo se eligi el ecocardio- A pesar de que estos ltimos ndices representan las
grama como patrn de oro. proporciones de inters en la prctica, su valor es muy li-
Entendiendo por positivo el resultado que predice la mitado porque dependen de la proporcin de enfermos en
presencia de la enfermedad o condicin de inters, se de- el grupo en el que la prueba se ha evaluado2. Es decir, los
finen como ndices de validez: la sensibilidad (Sen) o pro- valores predictivos anteriores slo son vlidos en aquellos
porcin de verdaderos positivos, es decir, la proporcin de ambientes en los que la prevalencia de la disfuncin ven-
positivos en los enfermos y especificidad (Esp) o propor- tricular izquierda sea la misma que la del estudio, es decir
cin de verdaderos negativos. En el ejemplo Sen = 11/12 = 12/155 = 0,08. Hay que tener en cuenta adems que lo
0,92 y Esp = 93/143 = 0,65. Ambos son fcilmente inter- que importa para interpretar el resultado de una prueba
pretables: toman valores entre 0, que indica que la prueba diagnstica no es realmente la prevalencia (proporcin de
es totalmente invlida y 1 si la prueba fuera perfectamen- enfermos en la poblacin), sino la denominada probabili-
te vlida. Aunque estos ndices corresponden al punto de dad preprueba, es decir la probabilidad de que el indivi-
vista natural del investigador que evala la prueba y son duo tenga la enfermedad antes de aplicar la prueba, pro-
por ello los ms usados en las publicaciones cientficas, en babilidad que ser estimada a partir de la anamnesis y de
las pruebas previas (en general, la probabilidad preprueba
coincide con la prevalencia slo en el caso de una prueba
aplicada como cribado poblacional).
Correspondencia:
Dr. V. Abraira. Hay otros ndices que, por ser ms recientes, son menos
Unidad de Bioestadstica Clnica. usados pero que sin embargo son los ms tiles para in-
Hospital Ramn y Cajal. Crta. Colmenar km 9,100.
28034 Madrid. terpretar el resultado de una prueba diagnstica5, los de-
Correo electrnico: victor.abraira@hrc.es nominados cociente de probabilidad positivo (CP+) y cociente

13
Abraira V. ndices de rendimiento de las pruebas diagnsticas

de probabilidad negativo (CP-) que, usando la notacin de la Tabla 2. Gua aproximada del valor informativo de los CP
tabla 1, se definen como: CP>10 CP<0,1 Cambios amplios
5<CP<10 0,1<CP<0,2 Cambios moderados
2<CP<5 0,2<CP<0,5 Cambios pequeos
1<CP<2 0,5<CP<1 Cambios insignificantes

Es decir, CP+ representa cunto ms frecuente es el re- Puntos clave


sultado positivo entre los enfermos que entre los no enfer- La sensibilidad y especificidad, que son los ndices ms estable-
mos. Si el resultado positivo se obtuviera con la misma fre- cidos como ndices de validez de las pruebas diagnsticas,
cuencia en los enfermos y en los no enfermos, el hecho de corresponden al punto de vista natural del investigador que
que la prueba sea positiva no contendra ninguna infor- evala la prueba, pero requieren de ciertos clculos para inter-
pretar el resultado de una prueba en la prctica clnica.
macin y CP+ = 1; cuanto ms frecuente sea el resultado Los valores predictivos representan las proporciones de inters
positivo en los enfermos con respecto a los no enfermos en la prctica, pero su valor es muy limitado porque dependen
ms informacin contiene este resultado y mayor sera de la proporcin de enfermos en el grupo en el que la prueba se
CP+. Simtricamente CP- representa cunto ms frecuen- ha evaluado.
te es el resultado negativo entre los enfermos que entre los Los cocientes de probabilidad son los ndices ms tiles porque
permiten transformar la probabilidad preprueba en probabilidad
no enfermos. Si el resultado negativo se obtuviera con postprueba mediante una sencilla relacin y no dependen de la
la misma frecuencia en los enfermos y en los no enfer- proporcin de enfermos en el grupo en el que se ha evaluado la
mos, este resultado no contendra ninguna informacin prueba.
y CP- = 1; cuanto menos frecuente sea el resultado nega-
tivo en los enfermos con respecto a los no enfermos ms
informacin contiene este resultado y menor sera CP-. cas5 como electrnicas que facilitan estos clculos. La uti-
Los cocientes de probabilidad permiten transformar la lidad de una prueba diagnstica reside en la modificacin
probabilidad preprueba en probabilidad postprueba me- que su resultado produce en la probabilidad de estar en-
diante la relacin2: fermo, obsrvese que en este ejemplo el cambio es mayor
si la prueba tiene un resultado negativo, debido a que el
CP- es ms distinto de 1 que el CP+. Como gua aproxi-
mada de la utilidad en funcin del cambio que produce en
Recurdese que se denomina odds6 al cociente entre la la probabilidad se puede usar la que figura en la tabla 2 de-
probabilidad de que un evento (en este caso estar enfer- bida a Jaeschke et al5.
mo) ocurra y la probabilidad de que no ocurra, por lo Nota: en el apartado de software de la pgina web de la
tanto Unidad de Bioestadstica Clnica del Hospital Ramn y Ca-
jal (http://www.hrc.es/bioest.html) est disponible una cal-
culadora que, a partir de los datos crudos de un estudio
sobre la validez de una prueba diagnstica, calcula todos
los subndices post y pre indican postprueba y preprueba estos ndices y sus intervalos de confianza, as como la
respectivamente y el subndice R representa el resultado probabilidad postprueba a partir de la probabilidad pre-
obtenido. prueba.
Los CP de la prueba del ejemplo son

BIBLIOGRAFA
1. Abraira V. El ndice kappa. SEMERGEN 2001;27:247-9.
supngase que se le aplica la prueba a un anciano al que 2. Abraira V. Errores en las mediciones y clasificaciones clnicas: Preci-
por su sintomatologa e historia se le estima una probabi- sin y validez. [consultado: 11/01/2002]. Disponible en:
http://www.hrc.es/bioest/Intro_errores.html
lidad alta (por ejemplo 0,7) de padecer disfuncin ventri-
3. Smith H, Pickering RM, Struthers A, Simpson I, Mant D. Biochemi-
cular izquierda cmo se modificara esta probabilidad si cal diagnosis of ventricular dysfunction in elderly patients in general
se le midiera la concentracin plasmtica del pptido y re- practice: observational study. Br Med J 2000;320:906-8.
sultara positiva ( 18,7)? A partir de la probabilidad pre- 4. Cabello Lpez JB, Pozo Rodrguez F. Mtodos de investigacin en
cardiologa clnica (X). Estudios de evaluacin de las pruebas diag-
prueba, primero se calcula el oddspre = 0,7 / (1-0,7) = 2,33; nsticas en cardiologa. Rev Esp Cardiol 1997;50:507-19.
como el resultado es positivo CPR = CP+ = 2,62 por tanto 5. Jaeschke R, Guyatt G, Sackett DL for the Evidence-Based Medicine
oddspost = 2,62 x 2,33 = 6,10 y ppost = 6,10 / 7,10 = 0,86; Working Group. Users guides to the medical literature. III. How to
si el resultado de la prueba hubiera sido negativo CPR = use an article about a diagnostic test. B. What were the results and
will they help me in caring for my patients? JAMA 1994;271:703-7.
CP- = 0,13 y oddspost = 0,13 x 2,33 = 0,30 y por lo tanto 6. Abraira V. Medidas del efecto de un tratamiento (II): odds ratio y n-
ppost = 0,30 / 1,30 = 0,23. Existen calculadoras tanto grfi- mero necesario para tratar. SEMERGEN 2001;27:418-20.

14
notas BIOESTADISTICAS
Contraste de hiptesis: el valor p
V. Abraira
Unidad de Bioestadstica Clnica. Hospital Ramn y Cajal. Madrid.

El contraste de hiptesis es la tcnica estadstica ms fre- tamiento debera ser rutinariamente considerado en los
cuentemente usada en la literatura clnica1 y epidemiol- pacientes con historia de ictus7.
gica2, sin embargo es reconocido, que tambin con mucha Con posterioridad a Fisher, y como reaccin a la subje-
frecuencia, es mal entendida e interpretada errneamen- tividad inherente a la interpretacin del valor p, Neyman y
te3. La confusin es en parte debida a que la manera actual Pearson proponen los denominados contrastes de hipte-
de usar los contrastes de hiptesis es una combinacin de sis4 en los que se reemplaza el subjetivo concepto de fuer-
dos metodologas originalmente enfrentadas entre s, y za probatoria por un procedimiento para decidir entre dos
que contienen elementos incompatibles4,5. hiptesis, la hiptesis nula (en nuestro ejemplo el tra-
La idea inicial de las pruebas de significacin se debe a tamiento no es eficaz) y la hiptesis alternativa (el trata-
Fisher6. Supngase que se quiere evaluar si un tratamien- miento s es eficaz). Se fijan a priori unas tasas aceptables
to suministrado despus de un episodio de ictus mejora el para los dos tipos de error que se pueden cometer (tabla
pronstico de los pacientes. Para ello7, una serie de 6.105 1), se calcula el valor p (de la misma manera que en la pro-
pacientes que han sufrido un ictus, se distribuyen aleato- puesta de Fisher, aunque en la actualidad existe una gran
riamente en dos grupos, a los pacientes de uno de los gru- variedad de procedimientos, los llamados tests estadsti-
pos se les administra el tratamiento propuesto, mientras cos, para calcular ese valor en distintas situaciones experi-
que a los del otro grupo se les suministra placebo y se si- mentales y para distintos parmetros y funciones de par-
gue a todos ellos durante 4 aos; la evaluacin de la efica- metros) y se usa para tomar una decisin: si p es menor
cia del tratamiento se obtiene de la comparacin de las que la tasa aceptada de error tipo I se rechaza la hiptesis
proporciones de recurrencia del ictus entre los grupos tra- nula a favor de la alternativa, de lo contrario no se recha-
tados (10,1%) y placebo (13,8%). Si el tratamiento no za la hiptesis nula. El procedimiento garantiza a la larga
fuera eficaz ambas proporciones seran iguales, aunque una frecuencia preestablecida de decisiones correctas, pe-
no necesariamente exactamente iguales8. La idea de Fis- ro no dice nada sobre la verdad o falsedad de cada hipte-
her consiste en realizar la comparacin calculando una sis concreta.
probabilidad, el famoso valor p o nivel de significacin: En la actualidad las dos concepciones se usan mezcla-
la probabilidad de encontrar una diferencia en las propor- das de un modo que seguramente disgustara a los crea-
ciones de recurrencia de ictus como la que se ha encon- dores de ambas y se quiere ver en el valor p tanto un ndi-
trado o mayor en la hiptesis, llamada hiptesis nula, de ce de la fuerza probatoria como una tasa de error en la de-
que el tratamiento no tenga efecto y usar este valor p co- cisin: se dice, por ejemplo, que la diferencia es
mo un ndice de la fuerza probatoria de los datos contra la significativa al nivel p, pero tambin que se acepta o re-
hiptesis nula, cuanto menor sea p, mayor ser la carga de chaza la hiptesis nula con el nivel . Esta mezcla ha da-
la prueba en contra de la hiptesis nula; propone, adems, do lugar, por ejemplo, a distintos estilos de comunicar los
el valor de 0,05 como punto de corte conveniente, aun-
que argumenta enfticamente que la interpretacin ltima
la debe hacer el investigador. Es obvio que en la actualidad
ese punto de corte se usa como una regla mucho ms rgi- Tabla 1. Tipos de errores en un contraste de hiptesis
da. En nuestro ejemplo, los autores sealan que p<0,0001, La verdad
por lo tanto los resultados del estudio aportan una gran Resultado del experimento H0 cierta H0 falsa
fuerza probatoria contra la hiptesis de que el tratamiento H1 cierta
no afecta al pronstico, y los autores concluyen que el tra-
H0 rechazada Error tipo I Decisin correcta
()

H0 no rechazada Decisin correcta Error tipo II


Correspondencia: ()
Dr. V. Abraira.
Unidad de Bioestadstica Clnica. H0: hiptesis nula; H1: hiptesis alternativa; error tipo I: rechazar la hiptesis nula
Hospital Ramn y Cajal. Crta. Colmenar km 9,100. siendo cierta; error tipo II: aceptar la hiptesis nula siendo falsa; : probabilidad error
28034 Madrid. tipo I; : probabilidad error tipo II.
Correo electrnico: victor.abraira@hrc.es

15
Abraira V. Contraste de hiptesis: el valor p

resultados que pueden incluso coexistir en un mismo Puntos clave


artculo, a veces los investigadores dan el valor exacto de El contraste de hiptesis es la tcnica estadstica ms
p, a veces slo comunican que es menor que un cierto frecuentemente usada en la literatura clnica, pero con mucha
punto de corte, a veces el punto de corte es el mismo en frecuencia es mal entendida e interpretada.
todo el artculo (por ejemplo el ubicuo 0,05) pero a veces Se basa en poner a prueba una hiptesis de no diferencia
(hiptesis nula) calculando la probabilidad de encontrar una
se usan puntos de corte diferentes. En el artculo de nues- diferencia como la que realmente se ha encontrado o mayor, en el
tro ejemplo7, se puede ver p=0,7, p<0,01, p<0,001 y tam- supuesto de que la hiptesis nula sea cierta.
bin p>0,1. Esa probabilidad se usa como un ndice de la fuerza probatoria de
La interpretacin errnea ms frecuente3 en el uso de los datos contra la hiptesis nula, aunque tambin como
los contrastes consiste en interpretar el valor p como la instrumento para tomar una decisin garantizando a la larga unas
tasas de error preestablecidas.
probabilidad de que la hiptesis nula sea cierta y que, por A pesar de su uso prcticamente ubicuo en la literatura mdica,
tanto, un resultado significativo significa que es muy im- esta doble interpretacin no est exenta de contradicciones y est
probable que la hiptesis nula sea cierta. Para interpretar- en el origen de los errores y malas interpretaciones.
lo correctamente, hay que darse cuenta que el valor p es la
probabilidad de unos resultados dada la hiptesis nula,
que es distinta de la probabilidad de la hiptesis nula da-
dos los resultados, es decir, son probabilidades que estn tidos: uno recomendar limitaciones en su uso2 y proponer
en la misma relacin que, por ejemplo, en el caso ms fa- utilizar en su lugar los intervalos de confianza8; la revista
miliar a los clnicos de las pruebas diagnsticas, la sensibi- Epidemiology es una abanderada de esta posicin, aunque
lidad (probabilidad de un resultado positivo de la prueba ltimamente la ha suavizado un poco11, pero tambin se
en los enfermos) y el valor predictivo positivo (probabili- ha sealado que ambas aproximaciones comparten la mis-
dad de estar enfermo en los individuos con resultado po- ma base terica y por lo tanto los mismos problemas12. La
sitivo)9. otra propuesta supone una alternativa radicalmente distin-
La crtica ms importante que recibe el valor de p como ta y aunque hasta ahora su uso es muy limitado, es proba-
ndice de la fuerza probatoria es que no depende slo del ble que en un futuro prximo asistamos a su despegue: se
tamao del efecto observado, sino, y sobre todo, del ta- trata de los mtodos bayesianos4,5 a cuyo fundamento
mao muestral4,5. As, en el ejemplo del ictus se obtuvo se dedicar una nota ms adelante.
p<0,0001 para la diferencia entre las proporciones 10,1%
y 13,8% encontradas en 6.105 pacientes (3.051 en el gru-
po del tratamiento activo y 3.054 en el del placebo); si el BIBLIOGRAFA
experimento se hubiera hecho con 300 en cada grupo, pa-
1. Guyatt G, Jaeschke R, Heddle N, Cook D, Shannon H, Wermuth L.
ra las mismas proporciones se hubiera encontrado Basic statistics for clinicians: 1. Hypothesis testing. CMAJ
p=0,164; en el otro extremo, si se hubiera hecho con 1995;152:27-32.
30.000 en cada grupo, y se hubieran encontrado las pro- 2. Poole C. Low P-values or narrow confidence intervals: which are
more durable? Epidemiology 2001;12:291-4.
porciones 10,0% y 10,5%, el valor p hubiera sido 0,042, 3. Sterne JAC, Smith GD. Sifting the evidence - whats wrong with sig-
es decir una diferencia significativa para unas proporcio- nificance tests? Br Med J 2001;322:226-31.
nes cuya diferencia desde el punto de vista clnico sera 4. Silva LC, Muoz A. Debate sobre mtodos frecuentistas vs bayesia-
irrelevante. nos. Gac Sanit 2000;14:482-94.
5. Goodman SN. Toward evidence-based medical statistics. 1: The P
Con la otra interpretacin, la crtica ms importante a value fallacy. Ann Intern Med 1999;130:995-1004.
los contrastes de hiptesis como forma de tomar decisio- 6. Fisher RA. Statistical Methods, Experimental Design and Scientific
nes es que stas se toman sin tener en cuenta ninguna in- Inference (Re-issue). Oxford: Oxford University Press; 1995.
formacin ajena al experimento, el formalismo de los con- 7. PROGRESS Collaborative Group. Randomised trial of a perindo-
pril-based blood-pressure-lowering regimen among 6105 indivi-
trastes de hiptesis no contempla la informacin prove- duals with previous stroke or transient ischaemic attack. Lancet
niente de otros estudios, se asume que los investigadores y 2001;358:1033-41.
los lectores son vrgenes respecto a las hiptesis en juego, 8. Abraira V. Estimacin: intervalos de confianza. SEMERGEN
2002;28:84-5.
asuncin que parece bastante irreal y que ha dado lugar a
9. Abraira V. ndices de rendimiento de las pruebas diagnsticas.
un pernicioso estilo del apartado Discusin de los artcu- SEMERGEN 2002;28:193-4.
los, en el que rara vez se discuten los resultados del estu- 10. Clarke M, Chalmers I. Discussion Sections in Reports of Controlled
dio en el contexto de una revisin sistemtica actualizada Trials Published in General Medical Journals: Islands in Search of
Continents? JAMA 1998;280:280-2.
de artculos anteriores10. 11. The Editors. The value of p. Epidemiology 2001;12:286.
Las reacciones ante estos frecuentes errores, malas in- 12. Feinstein AR. P-values and confidence intervals: two sides of the sa-
terpretaciones y limitaciones van bsicamente en dos sen- me unsatisfactory coin. J Clin Epidemiol 1998; 51:355-60.

16
notas BIOESTADISTICAS
Desviacin estndar y error estndar
V. Abraira
Unidad de Bioestadstica Clnica. Hospital Ramn y Cajal. Madrid.

Una pregunta que frecuentemente plantean los investi- aproximadamente los 68.000 individuos con edades ms
gadores que consultan en la Unidad de Bioestadstica Cl- cercanas a la media tendran edades comprendidas entre
nica es qu ndice debo poner en mis tablas o grficas de 29,6 y 59,4 (realmente en ese intervalo hay 67.961 indivi-
resultados: la desviacin estndar o el error estndar de la duos) y 95.000 estaran entre 15,3 y 73,7 (realmente hay
media? Esta duda en parte se sustenta en el hecho de que 95.006), de los 5.000 restantes la mitad tendran menos
en la literatura mdica se usan ambos ndices de un modo de 15,3 (en los datos hay 2.528) y la otra mitad ms de
que puede parecer casi indistinto. Por ejemplo, y con el 73,7. Estos intervalos para la poblacin B son: entre 34,5
nico fin de ilustrar esta afirmacin, en dos artculos re- y 54,5 los 68.000 individuos con edades ms cercanas a la
cientes de una misma revista (British Medical Journal), en media y entre 24,9 y 64,1 los 95.000 centrales. Hay que
uno1 aparece en la tabla de resultados la desviacin estn- resaltar que esta regla slo es cierta si la variable se ajusta
dar, mientras que en la figura de resultados del otro2 se a una distribucin normal o gaussiana; en el ejemplo la re-
presenta el error estndar de la media, con una intencin gla se cumple porque los datos ajustan perfectamente a la
que en una primera lectura puede parecer la misma: des- distribucin normal como se observa en la figura. Aunque
cribir la variabilidad de los datos. Sin embargo ambos n- con excesiva frecuencia se asume la normalidad de las va-
dices, aunque relacionados, son conceptualmente muy di- riables biolgicas, es conocido que no siempre es as3; por
ferentes. ejemplo, en la figura 2 se muestra el histograma de la edad
La desviacin estndar es una medida de la dispersin de los 507.409 individuos que componan en 1996 la po-
de los datos, cuanto mayor sea la dispersin mayor es la blacin del rea Sanitaria 4 de la Comunidad de Madrid.
desviacin estndar, si no hubiera ninguna variacin en Se observa que no ajusta bien a la distribucin normal y
los datos, es decir, si fueran todos iguales, la desviacin es- en consecuencia la regla anterior no se cumple: la media
tndar sera cero. es 39,5 y la desviacin estndar 21,8; entonces la regla
Para ilustrar cmo la desviacin estndar cuantifica la predice, por ejemplo, que debera haber aproximadamen-
dispersin alrededor de la media supnganse dos pobla- te 12.685 individuos (el 2,5% del total) con edades me-
ciones de 100.000 individuos en las que la edad se distri- nores que 39,5 - 1,96 x 21,8 = -3,2, es decir con edades
buye como se muestra en los histogramas de la figura 1. La negativas, que obviamente no se cumple.
edad media en ambas poblaciones es 44,5 y la desviacin Hay una regla menos conocida y que se puede aplicar
estndar es 14,9 en la poblacin A y 10,0 en la B. Obsr- siempre para cuantificar la dispersin de los datos, sea cual
vese que, como corresponde a una desviacin estndar sea la forma de su distribucin, basada en la desigualdad
menor, en la poblacin B las edades de los individuos es- de Chebyshev4, que establece que en el intervalo com-
tn menos dispersas alrededor de la media. Unas frmulas prendido entre la media menos k veces la desviacin es-
muy difundidas establecen que en el intervalo comprendi- tndar y la media ms k veces la desviacin estndar est
do entre la media menos la desviacin estndar y la media al menos la (1-1/k2) parte central de los datos, por ejem-
ms la desviacin estndar estn aproximadamente el 68% plo para k=2 se puede decir que entre la media menos 2
central de los datos, y que en el intervalo comprendido en- veces la desviacin estndar y la media ms 2 veces la des-
tre la media menos 1,96 (aproximadamente 2) veces la viacin estndar estn al menos los 1-1/4 = 3/4 (75%) cen-
desviacin estndar y la media ms 1,96 veces la desvia- trales de los datos.
cin estndar estn aproximadamente el 95% central de Las investigaciones rara vez se hacen sobre el conjunto
los datos. Segn esta regla, en la poblacin A del ejemplo de la poblacin; lo habitual es realizarlas en un subconjun-
to (muestra) de ella. Esta prctica est justificada porque la
teora estadstica establece que, si la muestra se selecciona
aleatoriamente, sus caractersticas (forma de la distribu-
cin, media, desviacin estndar, etc.) son parecidas a las
Correspondencia:
Dr. V. Abraira. de la poblacin y tanto ms parecidas cuanto mayor sea la
Unidad de Bioestadstica Clnica. muestra. En la figura 3 se representa el histograma de la
Hospital Ramn y Cajal. Crta.
Colmenar km 9,100. 28034 Madrid. edad de una muestra aleatoria de 100 individuos extrada
Correo electrnico: victor.abraira@hrc.es de la poblacin representada en la figura 1 A. Obsrvese

17
Abraira V. Desviacin estndar y Error estndar

A 40.000 B 40.000

30.000 30.000
Figura 1. Histogramas de
20.000 20.000 frecuencias de la edad en unas
poblaciones hipotticas de
100.000 individuos. En ambas
10.000 10.000 poblaciones la media es 44,5; las
desviaciones estndar son 14,9
0 0 en A y 10,0 en B. Las lneas
continuas muestran la
0-10
10-20
20-30
30-40
40-50
50-60
60-70
70-80
80-90
90-100

0-10
10-20
20-30
30-40
40-50
50-60
60-70
70-80
80-90
90-100
distribuciones tericas
correspondientes a curvas
gaussianas con las mismas
medias y desviaciones estndar.

100.000 40

80.000 30
60.000
20
40.000

20.000 10

0 0
0-10
10-20
20-30
30-40
40-50
50-60
60-70
70-80
80-90
90-100

0-10
10-20
20-30
30-40
40-50
50-60
60-70
70-80
80-90
90-100
Figura 2. Histograma de frecuencia de la edad de la poblacin del rea Figura 3. Histograma de frecuencias de la edad en una muestra
Sanitaria 4 de la Comunidad de Madrid. Se observa que no ajusta bien a la aleatoria de 100 individuos de la poblacin representada
distribucin normal: es asimtrica, hay menos individuos cerca de la media en la figura 1. A. En la muestra la media es 46,2 y la desviacin
y, por tanto, mayor dispersin. estndar 14,7.

que es parecido al de la poblacin, aunque por ejemplo su plo, existe el error estndar de la desviacin estndar y el
ajuste a la curva normal es peor. Es importante sealarlo error estndar del riesgo relativo) y siempre cuantifica el
porque muchos mtodos estadsticos hacen asunciones so- error que se comete al estimar la verdadera medida en la po-
bre la normalidad de la poblacin. Vemos que una pobla- blacin a partir de su valor en la muestra. A partir del error
cin normal es compatible con una muestra cuyo histogra- estndar se construye el intervalo de confianza6 de la medi-
ma no ajusta visualmente a una curva normal, y ello tanto da correspondiente. El error estndar de la media estimado
ms cuanto menor sea la muestra5, por tanto la inspeccin en la muestra del ejemplo es 1,47 (se calcula dividiendo la
visual del histograma de la muestra no es un buen mtodo desviacin estndar por la raz cuadrada del tamao mues-
de evaluacin de la normalidad de la poblacin. tral4) y, calculado a partir de l, el intervalo de confianza al
En esta muestra, la media y la desviacin estndar son 95% para la media va desde 43,3 a 49,1 (el lmite inferior
46,2 y 14,7 respectivamente, tambin parecidas a las de la se calcula como la media menos 1,96 veces el error estn-
poblacin. Si se tomara otra muestra aleatoria se obtendr-
an otros valores distintos, aunque probablemente tambin
parecidos a los de la poblacin. El error estndar es el n- Puntos clave
dice que cuantifica cunto se apartan los valores en la La desviacin estndar es una medida de la dispersin de los
muestra de sus correspondientes valores en la poblacin. datos. Cuanto mayor sea la dispersin, mayor es la desviacin
Es decir, el error estndar de la media cuantifica las oscila- estndar, mientras que el error estndar de la media cuantifica las
ciones de la media muestral (media obtenida en los datos) oscilaciones de la media muestral alrededor de la media
poblacional.
alrededor de la media poblacional (verdadero valor de la Son, por tanto, ndices conceptualmente diferentes, aunque
media). No es, por tanto, un ndice de variabilidad, aun- directamente relacionados.
que depende de ella, sino una medida del error que se co- La desviacin estndar es un ndice para usar cuando se pretende
mete al tomar la media calculada en una muestra como es- describir la variabilidad de una variable continua en una muestra.
timacin de la media de la poblacin. El error estndar de la media se debe usar cuando se pretende
cuantificar el error cometido al estimar la media poblacional
Existe el error estndar, no slo de la media, sino de to- mediante la media muestral.
das las medidas que se obtienen en las muestras (por ejem-

18
Abraira V. Desviacin estndar y Error estndar

dar de la media y el lmite superior como la media ms 1,96 BIBLIOGRAFA


veces el error estndar de la media y ste es uno de los m-
1. Quinn J, Cummings S, Callaham M, Sellers K. Suturing versus con-
todos estadsticos que exige normalidad de la poblacin4), servative management of lacerations of the hand: randomised con-
que quiere decir que podemos afirmar, con una probabili- trolled trial. BMJ 2002; 325:299-301.
dad de acierto de 0,95, que la media poblacional est in- 2. Waalen J, Felitti V, Beutler E. Haemoglobin and ferritin concentra-
tions in men and women: cross sectional study. BMJ 2002;325:137.
cluida en dicho intervalo. Comprese con el valor 44,5 de
3. Elveback LR, Guillier CL, Keating FRJ. Health, normality, and the
la media poblacional que, en este ejemplo y en contra de lo ghost of Gauss. JAMA 1970;211:69-75.
que ocurre en las investigaciones reales, es conocido. 4. Prez de Vargas A, Abraira Santos V. Bioestadstica. Madrid: Centro
Nota: En todo el artculo se han usado las denomina- de Estudios Ramn Areces; 1996.
5. Altman DG, Bland JM. Statistics notes: The normal distribution. BMJ
ciones desviacin estndar y error estndar, pero en la 1995;310:298.
literatura estadstica y clnica se usan indistintamente con 6. Abraira V. Estimacin: intervalos de confianza. SEMERGEN
ellas desviacin tpica y error tpico respectivamente. 2002;28:84-5.

19
notas BIOESTADISTICAS
Revisiones sistemticas y metaanlisis
V. Abraira
Unidad de Bioestadstica Clnica. Hospital Ramn y Cajal. Madrid.

En las clasificaciones de los tipos de estudios, las revi-


2.500
siones sistemticas aparecen siempre como el diseo con
mayor fuerza probatoria de la hiptesis en evaluacin1, es

N.o de artculos
2.000
decir, para contestar a una pregunta sobre la eficacia de un
tratamiento, lo mejor sera buscar una revisin sistemtica 1.500
de ensayos clnicos que evalen ese tratamiento, si la pre-
1.000
gunta fuera sobre pronstico, lo mejor sera una revisin
sistemtica de estudios de cohortes, etc. Aunque, obvia- 500
mente, la frase anterior hay que matizarla, diciendo que lo
mejor sera una buena revisin sistemtica porque, como 0
1980-81
1982-83
1984-85
1986-87
1988-89
1990-91
1992-93
1994-95
1996-97
1998-99
2000-01
en cualquier otro mbito de la actividad humana, hay re-
visiones sistemticas buenas y otras no tan buenas. Por
ejemplo Silagy2, revisando 7 revistas de Atencin Primaria Bienio
en 1991, identific 28 revisiones sistemticas de las que,
evaluadas usando 8 criterios estndar de rigor metodol- Figura 1. Evolucin temporal del nmero de artculos que figuran en
gico, slo 7 (25%) tenan 8 puntos o ms, de un mximo Medline usando el trmino metaanlisis en el ttulo o el resumen.
de 16.
Visto con la perspectiva actual parece muy natural la
idea de responder a una pregunta revisando sistemtica- metaanlisis resulta algo ambiguo, pues aunque inicial-
mente y analizando toda la literatura sobre el tema, sin mente se usaba para describir todo el proceso de revisar
embargo los conceptos de revisin sistemtica y metaan- todos los estudios sobre un tema, desde su identificacin
lisis son relativamente recientes. Para Altman la introduc- hasta el anlisis de los datos y su interpretacin, con pos-
cin y el continuo auge del metaanlisis es el cambio ms terioridad se introdujo el trmino revisin sistemtica pa-
prominente que se ha producido en el uso de la estads- ra el proceso de identificar sistemticamente y evaluar los
tica en las revistas mdicas en los ltimos 10 aos3. El tr- artculos, con una metodologa explcita y repetible, reser-
mino metaanlisis fue acuado por Glass a mediados de vndose el trmino metaanlisis para la combinacin
los aos 70 para describir la recopilacin de informacin numrica de los datos, aunque desgraciadamente la situa-
de varios estudios del mismo tipo4 y el primer metaanli- cin actual es que hay quien usa metaanlisis en este sen-
sis sobre un tema mdico que figura en Medline se publi- tido restrictivo y quien lo sigue usando en sentido amplio
c en 1980 y se realiz sobre el tratamiento de la tartamu- para describir todo el proceso. A favor de la distincin, hay
dez5. Desde entonces, como se muestra en la figura 1, su que destacar que no todas las revisiones sistemticas in-
aplicacin en medicina ha aumentado espectacularmente, cluyen metaanlisis, es decir, una combinacin de los
hasta el punto de que en 1988 Medline lo incluye como datos de los distintos estudios en un resultado global, bien
tipo de publicacin estndar. En la actualidad, el trmino porque los diseos, o la calidad de los estudios, son muy
diferentes entre s, o porque los resultados son muy hete-
rogneos.
La necesidad de las revisiones sistemticas se sustenta
en tres pilares: a) la inmanejable cantidad de informacin
Correspondencia:
V. Abraira. clnica producida: anualmente se publican ms de dos mi-
Unidad de Bioestadstica Clnica. llones de artculos en ms de 20.000 revistas biomdicas6,
Hospital Ramn y Cajal. Ctra. Colmenar km 9,100.
28034 Madrid. que hace imprescindible un buen sistema de resumirlos;
Correo electrnico: victor.abraira@hrc.es b) los estudios individuales dependen de sus caractersti-

20
Abraira, V. Revisiones sistemticas y metaanlisis

Tabla 1. Pasos en la realizacin de una revisin sistemtica


Especificacin de una pregunta a responder Puntos clave
Formulacin de los criterios de elegibilidad de los estudios, que permitan
identificar objetivamente aqullos apropiados para resolver La introduccin y el continuo auge de las
la pregunta
Produccin de un protocolo en el que consten los criterios de seleccin
revisiones sistemticas y el metaanlisis es el
de los estudios y los mtodos que sern usados cambio ms prominente que se ha producido
Bsqueda rigurosa de todos los artculos relevantes (no slo los que
figuran en las bases de datos electrnicas)
en el uso de la estadstica en las revistas
Evaluacin de si los artculos encontrados cumplen los criterios mdicas en la ltima dcada.
Evaluacin de la calidad de los artculos y su susceptibilidad a sesgos
Extraccin de los datos que resumen tanto los resultados como el diseo
La revisin sistemtica es en s misma un
Combinacin estadstica de los datos (metaanlisis) si es apropiado diseo de investigacin, es un diseo
y consideracin de las diferencias entre artculos observacional y retrospectivo, que sintetiza los
Investigacin de la robustez (estabilidad) de los resultados y anlisis
de sensibilidad resultados de mltiples investigaciones
Interpretacin de los resultados primarias.
Tomada de Altman3.
Las revisiones sistemticas son un mtodo
imprescindible para mantenerse al da, dada la
cas concretas y rara vez dan respuestas definitivas a las inmanejable cantidad de informacin clnica
cuestiones clnicas7, las revisiones sistemticas ayudan a producida actualmente.
establecer si los hallazgos de los estudios son consistentes
y pueden ser generalizados y, en caso contrario, permiten
explorar las razones de las inconsistencias, y c) las revisio- ra que una parte de la variabilidad es debida a que, entre
nes que incluyen metnalisis, al contar con mayor nme- los diferentes estudios, hay diferencias subyacentes en el
ro de pacientes, tienen mayor precisin en sus estimacio- efecto. Aunque ambos mtodos proporcionan estimacio-
nes que los estudios primarios. nes distintas del efecto global, en particular el modelo de
La revisin sistemtica es en s misma un diseo de efectos aleatorios da lugar a intervalos de confianza ms
investigacin, observacional y retrospectivo, que sintetiza anchos, la diferencia slo es importante si los estudios son
los resultados de mltiples investigaciones primarias. Es, muy heterogneos. En general, la decisin sobre qu m-
por tanto, un tipo de diseo muy proclive a sesgos y debe todo usar se suele hacer mediante un contraste de hipte-
planificarse cuidadosamente en un protocolo previo para sis de homogeneidad de los resultados, si son homog-
intentar minimizarlos. Los pasos necesarios en la realiza- neos se asume que el modelo de efectos fijos es el adecua-
cin de una revisin se detallan en la tabla 1 y consisten do. La mayor limitacin de este procedimiento es que se
bsicamente en una revisin exhaustiva, objetiva y verifi- puede concluir que los resultados son homogneos por
cable de la investigacin primaria que no se limite a las ba- falta de potencia estadstica o, dicho de otro modo, no se
ses de datos electrnicas, sino que la complemente con debera ignorar la heterogeneidad simplemente aplicando
bsquedas manuales en referencias bibliogrficas, resme- una prueba estadstica8. Otra cuestin a tener muy en
nes de congresos, consultas con investigadores, registros cuenta es que una gran heterogeneidad puede indicar que
de organismos evaluadores de investigacin, etc.; con cri- el metaanlisis no es apropiado y no que haya que hacer-
terios explcitos de evaluacin del diseo de los artculos y lo usando el modelo de efectos aleatorios.
de su calidad y, si procede, combinacin estadstica de los Los resultados de una revisin sistemtica se suelen re-
datos usando mtodos validados. presentan en una grfica muy estandarizada y muy divul-
El mtodo ms simple de combinar los resultados sera gada debido a que la Colaboracin Cochrane la usa como
dar como resultado global la media aritmtica de los re- logotipo. En la figura 2 se representan dos de estas grfi-
sultados de cada artculo, pero ste es un procedimiento cas que corresponden a dos revisiones sistemticas hi-
que se presta a conclusiones errneas porque los estudios potticas de ensayos clnicos en los que se compara un
con menor tamao muestral son ms propensos a dar por tratamiento experimental (por ejemplo tratamiento con
azar resultados ms alejados del verdadero resultado. Los bloqueadores beta despus de un infarto de miocardio)
mtodos usados en los metaanlisis usan medias pondera- con otro control (por ejemplo placebo). En cada paciente
das, de tal modo que los estudios con mayor tamao el resultado se expresa con una variable binaria (mortali-
muestral tengan mayor peso que los de menor tamao. dad en los siguientes dos aos). El resultado de cada ensa-
Hay bsicamente dos mtodos distintos, cuya diferencia yo se representa por uno de los ndices habituales, por
estriba en cmo se trata la variabilidad entre estudios8. El ejemplo el odds ratio (OR)9. El OR de cada ensayo se
modelo de efectos fijos considera que toda la variabilidad representa en la grfica por un punto y su intervalo de
entre estudios es exclusivamente debida a la variacin ale- confianza10 al 95% con una lnea horizontal, en escala
atoria producida por el muestreo, es decir, si los estudios logartmica, para que el intervalo resulte centrado en la es-
primarios tuvieran un tamao muestral infinito daran el timacin puntual. Recurdese9 que si no hay efecto del
mismo resultado. El modelo de efectos aleatorios conside- tratamiento, el OR es 1; el convenio en las revisiones sis-

21
Abraira, V. Revisiones sistemticas y metaanlisis

0,25 0,5 1 2 4 0,25 0,5 1 2 4

Estudio 1 Estudio 1
Estudio 2 Estudio 2
Estudio 3
Estudio 3
Estudio 4
Estudio 5 Estudio 4
Estudio 6 Estudio 5
Estudio 7
Estudio 6
Estudio 8
Estudio 7

Global Estudio 8
A favor del tratamiento A favor del control A favor del tratamiento A favor del control
A B

Figura 2. Representacin grfica del resultado de una revisin sistemtica cuando el resultado en cada paciente se expresa con una variable binaria. Las
distintas entradas en el eje Y representan los estudios individuales, para cada uno de ellos el punto muestra su resultado mediante alguno de los ndices
habituales, generalmente el odds ratio, y la lnea horizontal su intervalo de confianza. En A se representa una situacin en que los distintos estudios son
homogneos y por lo tanto tiene sentido realizar el metaanlisis, el intervalo de confianza del resultado global se suele representar mediante un rombo.
Obsrvese como este intervalo es ms estrecho que el de los estudios individuales, siendo esto uno de los objetivos del metaanlisis. En B una situacin con
resultados heterogneos, en la que no estara indicado el metaanlisis, lo pertinente sera explorar la razn de la heterogeneidad.

temticas es construir el OR de modo que valores meno- dolgico es qu hacer luego con la informacin sobre la
res que 1, parte izquierda de la grfica, correspondan a un calidad, algunos autores usan las escalas de calidad como
efecto favorable del tratamiento. La grfica contiene tam- pesos en el metaanlisis, pero parece preferible exami-
bin una lnea vertical de referencia en OR=1, valor de no nar directamente la influencia en los resultados de dis-
efecto. Si se realiza metaanlisis, el OR combinado se re- tintos aspectos metodolgicos mediante un anlisis de
presenta por un rombo cuya diagonal horizontal represen- sensibilidad.
ta su intervalo de confianza al 95%. En la figura 2A se ob- Aunque la mayor parte de los metaanlisis publicados
servan 8 estudios con resultados homogneos (todos en- revisan ensayos clnicos, se empieza a extender su aplica-
cuentran efecto favorable del tratamiento experimental cin a otros tipos de estudios: estudios de pruebas diag-
con OR comprendidos entre 0,4 y 0,7 y cada uno de ellos nsticas, de pronstico, de evaluacin econmica, incluso
dentro de los intervalos de confianza de los otros), en seis los propios metaanlisis (los denominados meta-metaan-
de ellos, los intervalos cruzan la lnea de no efecto, indi- lisis) y en cada uno de ellos aparecen nuevos problemas
cando que el efecto no es estadsticamente significativo. El metodolgicos.
rombo indica el efecto global (OR=0,55) con un intervalo
de confianza que establece que este efecto es claramente
distinto de 1. La figura 2B muestra unos resultados muy BIBLIOGRAFA
heterogneos, con los que no tendra sentido realizar me-
1. Phillips R, Ball C, Sackett D, Badenoch D, Straus S, Haynes B,
taanlisis, lo pertinente en este caso es explorar las razones Dawes M. Levels of Evidence and Grades of Recommendations.
de la heterogenidad. Disponible en: http://minerva.minervation.com/cebm/docs/le-
En estudios en que la variable respuesta es continua vels.html [consultado: 26/11/2002].
(por ejemplo presin arterial) el resultado en cada estudio 2. Silagy CA. An analysis of review articles published in primary care
journals. Fam Pract 1993;10:337-41.
es la diferencia de las medias entre ambos grupos, el re- 3. Altman DG. Statistics in medical journals: some recent trends. Stat
sultado del metnalisis es la media ponderada de las dife- Med 2000;19:3275-89.
rencias de medias y se construye una grfica similar con 4. Glass GV. Primary, secondary, and meta-analysis of research. Educ
las diferencias de medias y sus intervalos de confianza. En Res 1976;5:3-8.
5. Andrews G, Guitar B, Howie P. Meta-analysis of the effects of stut-
este caso la escala no es logartmica y la lnea de no efecto tering treatment. J Speech Hear Disord 1980;45:287-307.
corresponde a diferencia de medias igual a 0. 6. Mulrow C, Cook D. Systematic Reviews. Synthesis of Best Eviden-
Un elemento clave de las revisiones sistemticas es la ce for Health Care Decisions. Philadelphia: American College of
Physicians; 1998.
valoracin de la calidad de los estudios. Aunque hay pu-
7. Davidoff F, Case K, Fried PW. Evidence-Based Medicine: Why all
blicadas muchas escalas de valoracin de la calidad me- the fuss? [Editorial]. Ann Intern Med 1995;122:727.
todolgica de los distintos tipos de estudios, sobre todo 8. Egger M, Smith GD, Phillips AN. Meta-analysis: Principles and pro-
de los ensayos clnicos, su comportamiento es muy poco cedures. BMJ 1997;315:1533-7.
9. Abraira V. Medidas del efecto de un tratamiento (II): odds ratio y
concordante, algunas de ellas estn incluso inversamen- nmero necesario para tratar. SEMERGEN 2001;27:418-20.
te correlacionadas3, por lo tanto deben usarse con pre- 10. Abraira V. Estimacin: intervalos de confianza. SEMERGEN 2002;
caucin. Un aspecto que necesita ms desarrollo meto- 28:84-5.

22
notas BIOESTADISTICAS
El control de la confusin en estudios
observacionales: el ndice de propensin
V. Abraira
Unidad de Bioestadstica Clnica. Hospital Ramn y Cajal. Madrid.

El ensayo clnico aleatorizado fue introducido en la inves- forman parte del estudio como para que los resultados no
tigacin mdica para evaluar los efectos de los agentes te- le sean aplicables4. Seguramente sta es una de las fuentes
raputicos hace ya ms de 50 aos. La asignacin aleatoria de variabilidad de la prctica clnica. Por ejemplo, muchos
de cada paciente, bien al grupo del tratamiento experi- ensayos aleatorizados han demostrado que los bloqueado-
mental, bien al grupo control, pretende evitar la confusin res beta y los inhibidores de la enzima conversora de la an-
introducida por el denominado sesgo de seleccin, o de giotensina (IECA) son eficaces en el tratamiento de pa-
susceptibilidad. Este sesgo surge siempre que la eleccin cientes con enfermedad coronaria y, en consecuencia, son
del tratamiento se hace con algn otro criterio. Por ejem- considerados en la actualidad el tratamiento estndar para
plo, en la prctica clnica habitual, los mdicos eligen pa- estos pacientes3, sin embargo Shlipak et al5 encontraron
ra cada paciente el tratamiento que estiman va a tener un que de 20.902 pacientes, mayores de 65 aos, con la fun-
mejor resultado, en funcin de las caractersticas del pa- cin ventricular izquierda disminuida, que haban ingre-
ciente. Si posteriormente se compararan los resultados de sado en distintos hospitales por infarto de miocardio y so-
dos tratamientos as asignados, los dos grupos de pacien- brevivieron, el tratamiento prescrito en el momento del al-
tes sern diferentes en sus caractersticas pronsticas basa- ta hospitalaria fue IECA (44%), bloqueadores beta (13%),
les y, por lo tanto, la posible diferencia en los resultados ambos (16%) y ninguno (28%). Los autores argumentan
puede ser causada tanto por estas caractersticas como por como posible explicacin de esta variabilidad justamente
el distinto efecto teraputico de los tratamientos1. El ejem- que este subgrupo de pacientes est muy poco representa-
plo ms obvio de sesgo de susceptibilidad aparece cuando do en los ensayos clnicos. No obstante el objetivo de la in-
se compara un tratamiento quirrgico aplicado a pacientes vestigacin no era estudiar la variabilidad de la prescrip-
operables, con un tratamiento mdico aplicado a los no cin sino comparar los efectos de los tratamientos sobre la
operables. supervivencia un ao despus del alta. Segn el libro an-
Por ello, los ensayos aleatorizados se han convertido en tes citado, un clnico ocupado, en primera instancia, no
el patrn de oro para la evaluacin de tratamientos, hasta debera leer este artculo, si bien la cita contina: [] s-
el punto de que, por ejemplo, un influyente libro de tex- lo en caso de no encontrar ningn ensayo aleatorizado de-
to, en el captulo de apreciacin crtica de los artculos so- bera retroceder y volver a examinarlo2, pero aun en este
bre evaluacin de tratamientos, dice: Si el clnico observa caso la pregunta es en qu medida son fiables los resulta-
que el estudio no se realiz aleatoriamente, le aconsejamos dos? o dicho de otra manera qu parte de la posible dife-
que deje de leerlo y que pase al siguiente artculo2. Sin rencia en la supervivencia es debida a los tratamientos y
embargo, los criterios de inclusin de pacientes en los en- qu parte a la diferencia entre las caractersticas de los pa-
sayos aleatorizados, por motivos tanto ticos como prag- cientes en los distintos grupos? Por ejemplo, el artculo en-
mticos, provocan que los pacientes enrolados en estos es- cuentra que entre los pacientes tratados con IECA haba
tudios estn muy seleccionados y sean diferentes de la ma- ms diabticos y ms pacientes con historia previa de fallo
yora de los pacientes que ven los clnicos en su prctica cardaco, y haba menos que hubieran sufrido una revas-
cotidiana3. En los ensayos clnicos no suele haber ancia- cularizacin o se les hubiera implantado un by-pass; entre
nos, ni nios, ni mujeres embarazadas, ni pacientes con los que no recibieron ningn tratamiento haba mayor n-
comorbilidades, que sin embargo abundan en las consul- mero con insuficiencia renal y con demencia. En qu me-
tas diarias y el mdico, entonces, debe aplicar su buen jui- dida afecta esto a la mortalidad?
cio para decidir si su paciente es tan diferente de los que Hay tres maneras de controlar el sesgo de seleccin en
estos estudios observacionales. Las tres tienen en comn
que slo pueden controlar la confusin provocada por ca-
Correspondencia:
V. Abraira. ractersticas observadas, a diferencia de la aleatorizacin
Unidad de Bioestadstica Clnica. que controla por las observadas y tambin por las no ob-
Hospital Ramn y Cajal. Crta. Colmenar km 9,100. servadas. Son: estratificacin, modelos de regresin y el n-
28034 Madrid.
Correo electrnico: victor.abraira@hrc.es dice de propensin6 (propensity score).

23
Abraira V. El control de la confusin en estudios observacionales: el ndice de propensin

La estratificacin consiste en hacer las comparaciones


en estratos homogneos con respecto al factor cuyo efec-
to queramos eliminar. En el ejemplo, para eliminar el
Puntos clave
efecto confusor de la diabetes, podemos dividir la mues- Los estudios observacionales, en los que la asignacin
tra en dos estratos: pacientes diabticos y pacientes no a los grupos que se comparan no se hace aleatoria-
diabticos y estimar el efecto de los tratamientos en cada mente, estn expuestos a la confusin introducida por
estrato. El efecto ajustado por la diabetes se calcula como el denominado sesgo de seleccin, o de susceptibili-
la media de los efectos en ambos estratos. Un ejemplo dad.
clsico de estratificacin debido a Cochran y adaptado El nico modo de evitar este sesgo es la asignacin
por Rubin7 se muestra en la tabla 1, en el que se elimina aleatoria propia de los estudios experimentales, tpica-
por estratificacin el efecto confusor de la edad al estu- mente los ensayos clnicos.
diar, en datos observacionales, la mortalidad en relacin No obstante, hay mtodos de anlisis que permiten
con el tabaco. Obviamente para que se corrija el sesgo se controlar este sesgo, entre los que destaca el ndice de
necesita que en todos los estratos haya suficiente nme- propensin.
ro de pacientes con los distintos tratamientos a comparar
(que los tratamientos solapen con los estratos). Si la in-
mensa mayora de los diabticos, y slo ellos, hubieran
recibido IECA, no habra manera de separar el efecto
causal del tratamiento, del efecto de la diabetes. Esta li- El mtodo del ndice de propensin consiste en cons-
mitacin se comparte con los otros mtodos, pero una truir a partir del conjunto de variables de confusin una
ventaja de la estratificacin es que, si ocurre, el investi- funcin de todas ellas que estime la probabilidad (pro-
gador lo observa inmediatamente. El principal inconve- pensin) que tienen los pacientes de ser asignados a cada
niente de la estratificacin es que resulta difcil de reali- grupo de tratamiento, para posteriormente estratificar por
zar cuando se necesita ajustar por muchas variables de los valores de esta funcin. De esta forma, en cada estrato
confusin, como suele ser el caso. Hay que tener en los pacientes tienen la misma probabilidad de ser asignados
cuenta tambin que pequeas diferencias en muchas va- a cada grupo y por tanto se simula la asignacin aleatoria.
riables, que individualmente no necesitaran ser ajusta- Hay que resaltar otra vez que con este mtodo slo se tie-
das, pueden tener un efecto acumulativo importante. Por nen en cuenta las variables observadas y por lo tanto pue-
ejemplo, si en un grupo los pacientes tuvieran ligera- de permanecer confusin residual debida a variables no ob-
mente mayor edad que en el otro, hubiera una ligera ma- servadas. El ndice de propensin se estima por regresin
yor proporcin de diabticos y una ligera mayor propor- logstica binomial8 y por tanto slo sirve para comparar dos
cin de insuficiencia renal, finalmente ese grupo puede grupos. Cuando como en el artculo de Shlipak et al5, hay
tener sustancialmente peor pronstico. Los modelos de ms de dos grupos se pueden realizar varias comparacio-
regresin8 permiten ajustar simultneamente por mu- nes, en el artculo se hacen tres, comparando cada trata-
chas variables de un modo conceptualmente similar a la miento con el grupo no tratado y se encuentra beneficio de
estratificacin, son muy fciles de usar con los paquetes los tratamientos en todos los estratos. En el anlisis realiza-
estadsticos, aunque su mayor peligro estriba justamente do ajustando con modelos de regresin, se encuentra un
en su facilidad para ajustar por muchas variables. Ajus- beneficio adicional por recibir ambos frmacos, que en el
tando por muchas variables aumenta la probabilidad de anlisis con el ndice de propensin no aparece.
que haya falta de solapamiento que comprometa la efica- Las propiedades del mtodo del ndice de propensin se
cia del control y ninguno de los resultados del anlisis de han establecido tanto terica como empricamente6 y son:
regresin pone de manifiesto su existencia. La similitud entre los grupos con respecto a las varia-
bles incluidas en el ndice es superior si se estratifica por
el ndice que si se estratificara por esas variables.
Tabla 1. Comparacin de tasas de mortalidad en tres grupos de
fumadores a partir de datos observacionales.
La similitud es mejor que la obtenida por otros mto-
dos de estratificacin propuestos.
No Fumadores Fumadores de
La similitud es tambin superior a la que se consegui-
fumadores de cigarrillos puro y pipa
ra por asignacin aleatoria; como contrapunto a esta lla-
Tasa de mortalidad por 13,5 13,5 17,4 mativa propiedad hay que volver a resaltar la superioridad
1.000 personas-ao
Edad media 57,0 53,2 59,7
de la asignacin aleatoria respecto a las variables no obser-
Tasas ajustadas por estratificacin vadas y tambin que el criterio para la inclusin de varia-
Con 2 estratos 13,5 16,6 14,9 bles en el ndice es slo la relacin con la asignacin de los
Con 3 estratos 13,5 17,7 14,2 grupos, por lo que el ndice puede incluir variables no re-
Adaptada de Rubin DB7. lacionadas con los resultados, y que por lo tanto no son de
En el anlisis sin ajustar no se observa el efecto de los cigarrillos sobre la mortali-
dad (los fumadores de cigarrillos tienen la misma tasa de mortalidad que los no fu-
confusin, reduciendo as su eficacia.
madores) debido a que, en promedio, los fumadores de cigarrillos son ms jvenes. En los estudios no se usa el verdadero valor del ndi-
Estratificando por la edad se elimina este sesgo y se manifiesta el efecto (la tasa de ce sino una estimacin, en general las estimaciones no se
mortalidad de los fumadores de cigarrillos es la ms alta).
comportan tan bien como los valores que estiman9; sor-

24
Abraira V. El control de la confusin en estudios observacionales: el ndice de propensin

prendentemente el ndice de propensin estimado trabaja What were the results and will they help me in caring for my pa-
tients? Evidence-Based Medicine Working Groups. JAMA 1994;
mejor que su verdadero valor. 271:59-63.
5. Shlipak MG, Browner WS, Noguchi N, Massie B, Frances CD, Mc-
Clellan M. Comparison of the Effects of Angiotensin Converting-
enzyme Inhibitors and Beta Blockers on Survival in Elderly Patients
BIBLIOGRAFA with Reduced Left Ventricular Function after Myocardial Infraction.
1. Feinstein AR. Epidemiologic analyses of causation: the unlearned scien- Am J Med 2001;110:425-33.
tific lessons of randomized trials. J Clin Epidemiol 1989;42: 481-9. 6. Joffe MM, Rosenbaum PR. Invited commentary: propensity scores.
2. Sackett DL, Richardson WS, Rosenberg W, Haynes RB. Medicina Ba- Am J Epidemiol 1999;150:327-33.
sada en la Evidencia. Cmo ejercer y ensear la MBE. Madrid: Chur- 7. Rubin DB. Estimating Causal Effects from Large Data Sets Using Pro-
chill Livingstone Espaa, 1997. pensity Scores. Ann Intern Med 1997;127:S757-63.
3. Lauer MS. Medical Therapy for Coronary Artery Disease Works, 8. Abraira Santos V, Prez de Vargas A. Mtodos multivariantes en Bio-
Even (Especially) in the Real World. Am J Med 2001;110:497-8. estadstica. Madrid: Centro de Estudios Ramn Areces, 1996.
4. Guyatt GH, Sackett DL, Cook DJ. Users guides to the medical li- 9. Abraira V. Estimacin: intervalos de confianza. SEMERGEN 2002;
terature. II. How to use in article about therapy or prevention. B. 28:84-5.

25
Documento descargado de http://www.elsevier.es el 13/05/2015. Copia para uso personal, se prohbe la transmisin de este documento por cualquier medio o formato.

05 NOTAS ESTAD. 657 (223-225) 10/5/04 15:13 Pgina 223

notas BIOESTADISTICAS
Anlisis del tiempo hasta un evento
(supervivencia)
V. Abraira
Unidad de Bioestadstica Clnica. Hospital Ramn y Cajal. Madrid.

La principal dificultad en el estudio de la variable tiem- The main difficulty in the study of the variable time to an
po hasta que se produce un evento es que al final del pero- event is produced is that at the end of the follow-up period,
do de seguimiento frecuentemente hay individuos en los que there are frequently individuals in whom it has not been pos-
no se ha podido observar el evento y en los que, por tanto, el sible to observe the event, and in whom, therefore, the time
tiempo hasta su ocurrencia es desconocido. A este fenmeno to its occurrence is unknown. This phenomenon is called
se le denomina censura. censorship.
Se denomina anlisis de supervivencia al conjunto de tc- Survival analysis refers to the combination of techniques
nicas que permiten estudiar la variable tiempo hasta que that make it possible to study the variable of time to an event
ocurre un evento y su dependencia de otras posibles varia- occurs and its dependence on other possible explanatory va-
bles explicativas teniendo en cuenta la informacin parcial riables, considering the partial information contained in the
contenida en las censuras. censorships.
Estas tcnicas asumen que las censuras no son informativas These techniques assume that the censorships are not in-
y que todos los factores implicados en el estudio son homo- formative and that all the factors involved in the study are ho-
gneos a lo largo del perodo de seguimiento. mogeneous during the follow-up period.

Palabras clave: anlisis supervivencia, datos censurados, Ka- Key words: survival analysis, censored, Kaplan-Meier.
plan-Meier.

Con frecuencia en los estudios mdicos, la principal varia- Student, el anlisis de la varianza, o los modelos de regre-
ble de inters es el tiempo hasta que ocurre un evento. Es- sin lineal. En primer lugar, en la mayor parte de los estu-
te evento puede ser adverso como muerte, ocurrencia de dios, la variable tiempo no tiene la distribucin normal
un infarto o recidiva de un cncer, o positivo como cura- que esas tcnicas exigen, ms bien suele tener una distri-
cin, normalizacin de la concentracin de colesterol o bucin asimtrica, en la que tpicamente los eventos ocu-
reincorporacin a la vida laboral despus de una enferme- rren con mayor frecuencia al principio que al final del pe-
dad. El diseo de los estudios para evaluar la variable rodo de seguimiento y en segundo lugar y ms
tiempo hasta la ocurrencia de un evento consiste en se- importante, en general, al final del perodo de seguimien-
guir en el tiempo a un grupo de pacientes, desde un mo- to siempre hay individuos en los que no se ha podido ob-
mento inicial tal como el diagnstico o el inicio del trata- servar el evento y, por tanto, en los que el tiempo hasta su
miento o la aleatorizacin en un ensayo clnico, hasta un ocurrencia es desconocido, si bien se tiene una informa-
tiempo final en el que acaba la recogida de datos. En cuan- cin parcial sobre l, es mayor o igual que el tiempo ob-
to al anlisis, a pesar de que la variable tiempo hasta un servado. A este fenmeno se le denomina censura y es el
evento es continua, su anlisis suele presentar dos dificul- que exige un planteamiento especfico para estas variables,
tades que impiden realizarlo con las tcnicas estadsticas que permita aprovechar la informacin contenida en los
generales para las variables continuas, tales como la t de tiempos censurados.
Al conjunto de tcnicas que permiten estudiar la varia-
ble tiempo hasta que ocurre un evento y su dependencia
Correspondencia: Dr. V. Abraira. de otras posibles variables explicativas se le denomina an-
Unidad de Bioestadstica Clnica. lisis de supervivencia y aunque este nombre sugiere que el
Hospital Ramn y Cajal. Ctra. Colmenar, km 9,100.
28034 Madrid. evento es muerte, se insiste en que tambin puede y debe
Correo electrnico: victor.abraira@hrc.es usarse para analizar el tiempo hasta cualquier otro evento

26
Documento descargado de http://www.elsevier.es el 13/05/2015. Copia para uso personal, se prohbe la transmisin de este documento por cualquier medio o formato.

05 NOTAS ESTAD. 657 (223-225) 10/5/04 15:13 Pgina 224

Abraira V. Anlisis del tiempo hasta un evento (supervivencia)

como, por ejemplo, curacin, aparicin de la enfermedad, F F


o rechazo de un injerto. En otros mbitos como procesos
de control de calidad se estudia con las mismas tcnicas el E E
tiempo hasta que un cierto producto falla (tiempo de fallo),
o el tiempo de espera hasta recibir un servicio (tiempo de D D
espera), etc.
Existen tres motivos por los que pueden aparecer las C C
censuras: en primer lugar por fin del estudio. Supngase,
por ejemplo, que para evaluar la eficacia de un nuevo tra-
B B
tamiento para una enfermedad mortal se sigue en el tiem-
po, durante un ao, a dos grupos de pacientes. A los pa-
A A
cientes de un grupo se les administr el tratamiento en
evaluacin y a los del otro el tratamiento estndar, y se re-
gistr la duracin del intervalo de tiempo entre el inicio 1990 1994 1998 2002 0 2 4 6 8 10 12
del tratamiento y la muerte. Al final del estudio puede ha- 1992 1996 2000 Aos
ber individuos que no hayan muerto. La segunda causa es A Aos B
la prdida del seguimiento, en el ejemplo anterior algunos de
los individuos pueden desaparecer del estudio en algn Figura 1. Esquema temporal de un estudio para observar tiempos de
espera para un evento, por ejemplo, supervivencia tras un diagnstico de
momento del mismo por diversos motivos: cambio de do- cncer. El estudio empez el 1 de enero de 1990 y acab el 1 de enero de
micilio, falta de inters, etc. Una ltima causa de censura 2002. En A el eje temporal representa aos de calendario y en B aos
es la ocurrencia de un evento competitivo que impida la ob- desde el diagnstico. Con el crculo en blanco se representan los tiempos
servacin del evento, por ejemplo, muerte por alguna otra censurados y con el cuadrado negro las muertes (ocurrencia del evento). El
individuo A al que se le diagnostic en enero de 1990, desaparece del
causa ajena al estudio. Es sta la causa de censura a la que estudio en enero de 1993 (sera una censura a los 3 aos por prdida de
hay que prestar ms atencin en el diseo de los estudios, seguimiento). El B, tambin diagnosticado en enero de 1990, fallece en
como se comentar ms adelante. Todos estos tiempos junio de 1992 (muerte a los 2,5 aos). El C sigue vivo al acabar el estudio
censurados infraestiman el tiempo hasta el evento, que (sera un dato censurado a los 12 aos por fin del estudio). El D, al que se
le diagnostica en febrero de 1991, fallece en marzo de 1999, el tiempo de
siempre ocurrir, asumiendo que ocurra, en un tiempo supervivencia sera de 8 aos. El E, que fue diagnosticado en noviembre de
posterior. 1993, fallece en accidente de trfico en julio de 1997 (sera una muerte, o
Hay que tener en cuenta tambin que la variable es el un dato censurado, a los 3,7 dependiendo de la definicin de evento de
inters vase texto). El F, al que se le diagnostic al principio de 1996,
tiempo hasta que ocurre el evento, y est definida por la sigue vivo al acabar el estudio, sera un dato censurado a los 6 aos por fin
duracin del intervalo temporal entre los instantes en que del estudio.
empieza la observacin y ocurre el evento. En general, la
observacin no comienza en el mismo instantes para todos
los individuos, y la manera habitual de registrar los tiem- boral despus de una depresin, la muerte por accidente
pos en la clnica es mediante las fechas de ocurrencia, por de trfico de un paciente de baja s sera considerada una
tanto, antes del anlisis hay que convertir el tiempo de ca- censura.
lendario a tiempo hasta el evento. En el esquema de la La descripcin de la variable tiempo hasta que ocurre el
figura 1 se detalla este proceso y los posibles mecanismos evento se suele realizar mediante la denominada funcin
de censura. Es importante fijarse en el paciente E que de supervivencia S(t), que da, para cada tiempo t, la pro-
muere por accidente de trfico, y que suele plantear un babilidad de que, en un individuo de la cohorte, el evento
problema en el diseo de estos estudios; hay autores que ocurra (sobreviva, si el evento es muerte) en un tiempo
prefieren definir el evento de inters como muerte por una igual o mayor que t. Esta funcin se estima por el mtodo
causa relacionada con la enfermedad en estudio y, por tan- de Kaplan-Meier que tiene en cuenta la informacin con-
to, censuraran las muertes por causas no relacionadas, ar- tenida en las censuras. El mtodo estima la probabilidad
gumentando, con cierto sentido, que una muerte por acci- de supervivencia, en cada tiempo en que ocurren eventos,
dente de trfico no debera contar si lo que se est multiplicando la probabilidad de llegar vivo a este tiem-
evaluando es, por ejemplo, la supervivencia a un cncer, po por la probabilidad de no morir en ese tiempo2. La fi-
mientras que otros prefieren definirlo como muerte por to- gura 2 muestra la funcin de supervivencia a la bacterie-
das las causas. A favor de esta ltima opcin est la difi- mia, estimada con un seguimiento de 21 das, entre todos
cultad que suele tener la clasificacin de una muerte como los pacientes a los que se les diagnostic entre enero de
relacionada, o no, con la enfermedad en estudio y su tra- 1991 y diciembre de 1994 en el hospital Xeral de Lugo3.
tamiento y, por tanto, la potencial inclusin de sesgos por En ella se observa, por ejemplo, S(1) aproximadamente
mala clasificacin. En general, cuando el evento de inters igual a 0,95 y S(14) aproximadamente igual a 0,85, es de-
es la muerte, sta por todas las causas se considera un cir, la probabilidad de sobrevivir 1 da, o ms, es 0,95 y la
evento ms robusto que la muerte por causas especficas1 probabilidad de sobrevivir 14 das, o ms, es 0,85. En es-
y es por ello el preferido, aunque otras veces se realizan los te estudio, el evento fue la muerte relacionada con la sep-
anlisis para las dos definiciones del evento. Sin embargo, sis y aquellos pacientes cuya muerte fue por causa clara-
si el evento de inters fuera la reincorporacin a la vida la- mente no relacionada con ella fueron excluidos del

27
Documento descargado de http://www.elsevier.es el 13/05/2015. Copia para uso personal, se prohbe la transmisin de este documento por cualquier medio o formato.

05 NOTAS ESTAD. 657 (223-225) 10/5/04 15:13 Pgina 225

Abraira V. Anlisis del tiempo hasta un evento (supervivencia)

1,0 1,0
0,9 0,9
0,8 0,8
0,7 0,7

Supervivencia
Supervivencia

0,6 0,6
0,5 0,5
0,4 0,4
0,3 0,3
0,2 0,2
0,1 0,1
0,0 0,0
0 7 14 21 0 7 14 21
Das Das

Figura 2. Funcin de supervivencia a la bacteriemia, con un seguimiento Figura 3. Funciones de supervivencia a la bacteriemia de los pacientes que
de 21 das, entre todos los pacientes diagnosticados entre enero de 1991 y presentaron shock sptico (curva de abajo) y los que no lo presentaban
diciembre de 1994 en el hospital Xeral de Lugo. (curva de arriba).

estudio, y los que sobrevivieron ms de 21 das fueron aquellos que siguen en el estudio. Como justamente de los
censurados. individuos perdidos no se tienen datos, esta asuncin no
Para comparar las curvas de supervivencia de dos o ms es fcil de verificar, pero se incumplira si, por ejemplo, en
grupos de pacientes, la prueba ms usada es la denomina- un estudio se produjesen ms prdidas entre los pacientes
da prueba del log-rank y consiste en calcular, en cada con peor pronstico, por ejemplo, si los pacientes que su-
tiempo y para cada grupo, el nmero de eventos que se es- frieran la toxicidad de los tratamientos, o un empeora-
peraran encontrar si no hubiera diferencia entre las fun- miento de alguna condicin clnica fueran por ello los ms
ciones de supervivencia de los grupos, para construir un propensos a abandonar el estudio. Otra asuncin de estos
estadstico con la suma de las diferencias entre eventos ob- mtodos es la homogeneidad de todos los factores a lo lar-
servados y esperados, al cuadrado, divididas por los espe- go del perodo de seguimiento, por tanto, hay que prestar
rados, a partir del cual se calcula el valor p correspon- atencin a los cambios en los medios diagnsticos y tera-
diente a la comparacin de las curvas de supervivencia de puticos que se pueden producir en el tiempo que dure el
los grupos. En la figura 3 se muestran, como ejemplo, las estudio y que pueden atentar a esta asuncin haciendo
curvas correspondientes a los pacientes que presentaron que los pacientes reclutados en diferentes momentos ten-
shock sptico y los que no lo presentaron en el estudio del gan diferente pronstico.
hospital Xeral; para ellas el log-rank es 330,1 al que le co-
rresponde p = 0,0000, es decir con la convencin habi-
tual4 la diferencia en la supervivencia de ambos grupos es BIBLIOGRAFA
estadsticamente significativa.
1. Clark TG, Bradburn MJ, Love SB, Altman DG. Survival analysis part
Adems de este mtodo univariante, existen otros que I: basic concepts and first analyses. Br J Cancer 2003;89:232-8.
permiten estudiar el efecto de diversas variables simult- 2. Abraira Santos V, Prez de Vargas A. Mtodos multivariantes en
neamente, entre ellos los modelos de regresin de Cox y Bioestadstica. Madrid: Centro de Estudios Ramn Areces, 1996.
los modelos paramtricos2,5, pero su descripcin excede 3. Casariego E, Abraira V, Corredoira JC, Alonso Garca MP, Rodrguez
Feijoo A, Lpez lvarez MJ, et al. A predictive model for mortality of
del objetivo de esta nota. bloodstream infections. Bedside analysis with the Weibull function.
Todos estos mtodos, que permiten tratar las observa- J Clin Epidemiol 2002;55:563-72.
ciones censuradas, slo son vlidos si las censuras no son 4. Abraira V. Contrastes de hiptesis: el valor p. SEMERGEN 2002;
28:374-5.
informativas en trminos pronsticos o, dicho con otras
5. Bradburn MJ, Clark TG, Love SB, Altman DG. Survival analysis part
palabras, si los individuos censurados tienen la misma II: multivariate data analysis an introduction to concepts and
probabilidad de tener un evento despus de la censura que methods. Br J Cancer 2003;89:431-6.

28
Documento descargado de http://www.elsevier.es el 13/05/2015. Copia para uso personal, se prohbe la transmisin de este documento por cualquier medio o formato.

05 NOTAS ESTADISTICAS (018-020) 21/1/05 13:27 Pgina 18

notas BIOESTADISTICAS
Inferencia estadstica bayesiana
V. Abraira
Unidad de Bioestadstica Clnica. Hospital Ramn y Cajal. Madrid. Nodo de la Red MBE.

Una de las objeciones que se hacen contra los contrastes de One of the objections made against the hypothesis tests is
hiptesis es que el valor p es mal interpretado con mucha fre- that the p value is frequently misinterpreted. Bayesian met-
cuencia. Los mtodos bayesianos son una alternativa muy hods are a very attractive alternative which offer a very na-
atractiva que permiten presentar los resultados de una forma tural and intuitive result. In addition, results from previous
muy natural e intuitiva, adems permiten incluir en el proce- studies can be included in the inferential process by Baye-
so inferencial los resultados provenientes de estudios previos. sian methods.

Palabras clave: inferencia bayesiana, contraste de hiptesis. Key words: bayesian inference, hypothesis tests.

En la nota dedicada a los contrastes de hiptesis1 se sea- la padezca es 0,6. Es decir, el hecho de que ocurra un su-
laba que la interpretacin errnea ms frecuente que se ceso, en este caso ser un anciano institucionalizado, pue-
hace de ellos, en los artculos publicados en las revistas de cambiar la probabilidad de otro, en el ejemplo, pade-
mdicas, consiste en interpretar el valor p como la proba- cer incontinencia fecal. A esta ltima probabilidad se le
bilidad de que la hiptesis nula sea cierta y que, por lo tan- denomina probabilidad condicionada del segundo suceso
to, un resultado significativo, es decir, un resultado para (incontinencia) condicionada a, o dado, el primero (ser
el que el valor p sea pequeo, significa que es muy impro- anciano institucionalizado). El cambio en la probabilidad
bable que la hiptesis nula sea cierta. Seguramente este condicionada, respecto a la probabilidad sin condicionar,
error es tan frecuente porque sta es la interpretacin con es tanto mayor cuanto ms relacionados estn los sucesos.
la que los investigadores se sienten ms cmodos, la que El proceso de realizar la historia clnica, explorar y reali-
resulta ms fcil e intuitiva. El problema es que no es co- zar pruebas complementarias para diagnosticar una en-
rrecta: recordemos que el valor p es la probabilidad del re- fermedad es un ejemplo de uso de este principio. Los cl-
sultado obtenido, u otro ms alejado de la hiptesis nula, nicos, buscan (anamnesis), o provocan (pruebas
si la hiptesis nula fuera cierta. Es una medida de la dis- diagnsticas) los sucesos que, dado que han ocurrido,
crepancia de los datos con la hiptesis, pero no es la pro- ms puedan cambiar la probabilidad de la posible enfer-
babilidad de que la hiptesis sea cierta, ya que se ha cal- medad que estn considerando. En general, los mdicos
culado aceptando que lo sea. lo hacen de forma intuitiva, pero el cambio de la proba-
Para comprender bien esa diferencia, hay que entender bilidad de un suceso incierto (padecer una determinada
el concepto de probabilidad condicionada que concierne enfermedad), debido a la ocurrencia de otros sucesos re-
a un suceso bajo el supuesto de la verificacin de otro2. lacionados (sntomas o resultados de pruebas diagnsti-
Por ejemplo, si la incontinencia anal afecta al 2,2% de la cas) se puede formalizar mediante el teorema de Bayes.
poblacin general, pero al 60% de los ancianos institu- Una de las formas ms sencillas de este teorema se vio en
cionalizados3, la probabilidad de que un individuo cual- la nota dedicada a los ndices de rendimiento de las prue-
quiera la padezca es 0,022, pero si el individuo es un an- bas diagnsticas4 y es:
ciano internado en una residencia, la probabilidad de que
oddspost = CPR oddspre

Recurdese que se denomina odds al cociente entre la


probabilidad de que un evento (en este caso estar en-
Correspondencia: V. Abraira. fermo) ocurra y la probabilidad de que no ocurra. Los
Unidad de Bioestadstica Clnica. subndices post y pre indican posprueba, o condiciona-
Hospital Ramn y Cajal.
Ctra. Colmenar km 9,100. 28034 Madrid. do al resultado de la prueba, y preprueba, respectiva-
Correo electrnico: victor.abraira@hrc.es mente y CPR es el cociente de probabilidad del resultado

29
Documento descargado de http://www.elsevier.es el 13/05/2015. Copia para uso personal, se prohbe la transmisin de este documento por cualquier medio o formato.

05 NOTAS ESTADISTICAS (018-020) 21/1/05 13:27 Pgina 19

Abraira V. Inferencia estadstica bayesiana

de la prueba. Como se vio entonces con un ejemplo4, dan provocar en el resultado final6. En todo caso, esta in-
para interpretar, con este formalismo, el resultado de corporacin del conocimiento previo s parece ser una
una prueba diagnstica, se debera estimar, por su sin- dificultad del mtodo, ya que la mayora de los investiga-
tomatologa e historia, la probabilidad de que el pacien- dores que lo usan optan por usar el denominado prece-
te tenga la enfermedad y se deberan conocer los CP de dente plano, o no informativo6 y que consiste en asignar a
los posibles resultados de la prueba, para que, una vez la hiptesis una probabilidad previa uniformemente re-
conocido el resultado, se pueda aplicar la frmula ante- partida entre 0 y 1.
rior para obtener la probabilidad condicionada a este re- La forma habitual de usar este mtodo consiste5 en ex-
sultado. presar la probabilidad a priori como una distribucin de
De modo similar se puede aplicar este formalismo al probabilidad o, dicho de manera muy poco rigurosa, co-
contraste de hiptesis. En este caso, tambin interesa ver mo un rango de valores posibles en el intervalo (0-1). La
cmo los datos observados en el estudio cambian la pro- probabilidad, despus del experimento, se expresa tam-
babilidad, no de estar enfermo, sino de la hiptesis en bin como una distribucin. Ambas, generalmente, repre-
evaluacin. La frmula anterior se suele representar co- sentadas de forma grfica. Existe, sin embargo, otra apro-
mo: ximacin al mtodo7 que resalta el hecho de que el
teorema de Bayes tiene dos componentes, uno que incor-
oddspost = FB oddspre pora la apreciacin de conocimientos previos y otro, el FB,
que resume la informacin contenida en los datos. Se pue-
de decir que el FB es el ndice a travs del cual hablan los
datos y est separado de la parte subjetiva de la ecuacin.
donde los odds son, ahora, los de la hiptesis nula y, en lu- Si se tienen dificultades con la incorporacin de la proba-
gar del CP, el denominado factor de Bayes (FB) que, aun- bilidad a priori, se puede comunicar como resultado de la
que en este contexto cambia de nombre, tiene la misma inferencia simplemente el FB, del mismo modo que en un
forma, es decir: estudio de evaluacin de pruebas diagnsticas se comuni-
can los CP. El FB, a diferencia del valor p, no es una pro-
Prob (datos, dada la hiptesis nula) babilidad, sino un cociente de probabilidades, que com-
FB = para dos hiptesis respecto a su capacidad para predecir
Prob (datos, dada la hiptesis alternativa) los datos y que puede usarse tanto en la inferencia como
en la toma de decisiones. Si, por ejemplo, en un ensayo
Ntese que con esta forma de hacer la inferencia, el re- clnico que compara dos tratamientos, en el que la hipte-
sultado es el odds. A partir del odds se puede fcilmente sis nula es que no hay diferencia entre ellos, se encuentra
calcular la probabilidad4 de que la hiptesis nula sea que FB=1/2, este resultado se puede interpretar de tres ma-
cierta dados los datos observados, que como se dijo an- neras:
tes, es la interpretacin que los investigadores tienden a 1) Los resultados observados son la mitad de probables
dar errneamente al valor p de los contrastes de hipte- bajo la hiptesis nula que bajo la alternativa.
sis. Podramos pensar, por ello, que es la forma ms na- 2) Los resultados avalan la hiptesis nula con la mitad
tural e intuitiva de expresar los resultados de la inferen- de fuerza que la alternativa, o equivalentemente, avalan la
cia y, por lo tanto, es sta la primera ventaja del mtodo hiptesis alternativa con el doble de fuerza que la nula.
basado en el teorema de Bayes con respecto al mtodo 3) Los resultados reducen el odds de la hiptesis nula a
convencional. la mitad respecto al odds previo al ensayo. Esta interpreta-
Otra ventaja importante del mtodo bayesiano es que cin es la que permite cuantificar la probabilidad de la hi-
permite, a travs del oddspre, incorporar al proceso infe- ptesis nula despus del experimento, si se tiene una va-
rencial los resultados procedentes de estudios previos. loracin previa.
Recurdese que la imposibilidad de hacerlo es una de las Hasta ahora el uso de los mtodos bayesianos en las re-
crticas ms importantes al mtodo convencional1. Sin em- vistas mdicas es muy minoritario. Seguramente debido, al
bargo, esta incorporacin se ha sealado tambin como menos en parte, a la falta de herramientas adecuadas para
una debilidad del mtodo, como una puerta abierta a la hacer los clculos necesarios, ya que los paquetes estads-
subjetividad del investigador, puesto que el investigador ticos ms difundidos no las incorporan. Sin embargo, ya
incorpora su grado de conviccin, siempre subjetivo, acer- empieza a haber programas fciles de usar que los inclu-
ca de la hiptesis en evaluacin. Los defensores del mto- yen. Uno de ellos, EPIDAT, en espaol y que contiene una
do bayesiano recuerdan que subjetivo no es sinnimo de ayuda muy didctica, puede descargarse desde la direc-
caprichoso y argumentan que es inevitable que los inves- cin de Internet: http://dxsp.sergas.es/. Hay tambin una
tigadores tengan sus convicciones sobre las hiptesis que tendencia emergente entre los editores de revistas mdicas
evalan y que, de un modo u otro, siempre las incorporan. a fomentar interpretaciones bayesianas de los resultados
Ms vale, por lo tanto, que lo hagan explcitamente, con de las investigaciones8,9 que presumiblemente aumentar
un mtodo que lo permite formalmente y que, por ello, la cantidad de artculos que lo hagan, lo que obligar a los
hace posible un anlisis de sensibilidad, es decir el exa- mdicos a familiarizarse con estos mtodos. Esta nota pre-
men de las modificaciones que distintas convicciones pue- tende modestamente contribuir a su difusin.

30
Documento descargado de http://www.elsevier.es el 13/05/2015. Copia para uso personal, se prohbe la transmisin de este documento por cualquier medio o formato.

05 NOTAS ESTADISTICAS (018-020) 21/1/05 13:27 Pgina 20

Abraira V. Inferencia estadstica bayesiana

BIBLIOGRAFA 5. Silva LC, Benavides A. El enfoque bayesiano: otra manera de inferir.


Gac Sanit 2001;15:341-6.
1. Abraira V. Contrastes de hiptesis: el valor p. SEMERGEN 2002; 6. Silva LC, Muoz A. Debate sobre mtodos frecuentistas vs baye-
28:374-5. sianos. Gac Sanit 2000;14:482-94.
2. Prez de Vargas A, Abraira Santos V. Bioestadstica. Madrid: Centro 7. Goodman SN. Toward Evidence-Based Medical Statistics. 2: The
de Estudios Ramn Areces, 1996. Bayes Factor. Ann Intern Med 1999;130:1005-13.
3. Arribas del Amo D, Crdoba Daz de Laspra E, Latorre Sahn A, Arri- 8. Davidoff F. Standing statistics right side up. Ann Intern Med 1999;
bas del Amo R. Incontinencia anal. SEMERGEN 2004;30:218-22. 130:1019-21.
4. Abraira V. ndices de rendimiento de las pruebas diagnsticas. 9. Bayarri MJ, Cobo E. Una oportunidad para Bayes. Med Clin (Barc)
SEMERGEN 2002;28:193-4. 2002;119:252-3.

31
Documento descargado de http://www.elsevier.es el 13/05/2015. Copia para uso personal, se prohbe la transmisin de este documento por cualquier medio o formato.

04 Notas Estadsticas 919 16/1/06 11:57 Pgina 24

notas BIOESTADISTICAS
Sesgos en los estudios sobre pruebas
diagnsticas
V. Abraira
Unidad de Bioestadstica Clnica. Hospital Ramn y Cajal. Madrid.
Nodo de la red R_MBE (G03/90)

Aunque el diagnstico desempea un papel central en la Although the diagnosis plays a central role in the clinical
actividad clnica, los mdicos reciben escaso entrenamiento practice, physicians receive scarce formal training in the use
formal en la utilizacin de pruebas diagnsticas durante su of diagnostic tests during their academic education. Further-
formacin acadmica. Adems la calidad de la investigacin more, the quality of the investigation published on diagnos-
publicada sobre evaluacin de pruebas diagnsticas es po- tic test evaluation is poor. In this note, the aspects of these
bre. En esta nota se repasan los aspectos de diseo de esos studies design and the empiric quantification of the impact
estudios y la cuantificacin emprica del impacto de los ses- of the biases related with them are reviewed.
gos relacionados con ellos.

Palabras clave: sesgos, diseo, pruebas diagnsticas. Key words: bias, design, diagnostic tests.

El diagnstico desempea un papel central en la activi- luacin de pruebas diagnsticas y muchos de ellos inclu-
dad clnica: es la primera intervencin clnica sobre el yen sesgos potenciales que afectan a su validez y utilidad
paciente y su resultado condiciona el desarrollo de la y hay tambin falta de uniformidad en la propia descrip-
prctica clnica posterior, sin olvidar el impacto social cin del proceso y sus resultados. De hecho, no es infre-
que puede tener por el efecto de asignar a los ciudadanos cuente que una revisin sistemtica no pueda responder a
etiquetas de falta de normalidad1. Tanto es as, que la ha- una pregunta concreta sobre diagnstico, no por falta de
bilidad para realizar un diagnstico es una de las cuali- artculos que evalen la prueba, sino precisamente por la
dades ms valoradas por los propios clnicos, e incluso, a baja calidad del diseo y de la presentacin de los resulta-
veces, se seala el diagnstico como la actividad ms ca- dos de los artculos encontrados5.
racterstica de los mdicos, actividad que ningn otro Como consecuencia de todo ello (dificultad conceptual,
profesional puede hacer2. Si bien ello contrasta con el es- escaso entrenamiento durante la formacin y variabilidad
caso entrenamiento formal en la utilizacin de pruebas y pobre calidad de las publicaciones), los clnicos tienen
diagnsticas que reciben los mdicos durante su forma- grandes dificultades para la interpretacin de los artculos
cin acadmica3. sobre evaluacin de pruebas diagnsticas y, lo que es ms
Es adems una actividad difcil. Un sntoma de la difi- relevante, para la aplicacin de sus resultados para la elec-
cultad conceptual del diagnstico es que la calidad de la cin de las pruebas a realizar a sus pacientes6,7.
investigacin publicada sobre diagnstico es, por decirlo En una nota previa8 se vieron los ndices usados para
de forma suave, manifiestamente mejorable4, como la cre- presentar los resultados de la evaluacin de la validez de
ciente realizacin de revisiones sistemticas sobre pruebas las pruebas diagnsticas. En esta nota, que la complemen-
diagnsticas sigue poniendo de manifiesto. Existe una ta, se repasan los aspectos de diseo de esos estudios y la
gran variabilidad en el diseo de los estudios sobre eva- cuantificacin emprica del impacto de los sesgos relacio-
nados con ellos, intentado contribuir a una mayor difusin
de las claves que facilitan la interpretacin de dichos estu-
dios. El diseo ptimo consiste en seleccionar un grupo de
Correspondencia: V. Abraira. pacientes representativos de aqullos en los que se preten-
Unidad de Bioestadstica Clnica. Hospital Ramn y Cajal. de usar la prueba y aplicarles a todos ellos, simultnea-
Ctra. Colmenar, km. 9,100.
28034 Madrid. mente, la prueba en evaluacin y otra prueba de referen-
Correo electrnico: victor.abraira@hrc.es cia, aceptada como patrn para hacer el diagnstico

32
Documento descargado de http://www.elsevier.es el 13/05/2015. Copia para uso personal, se prohbe la transmisin de este documento por cualquier medio o formato.

04 Notas Estadsticas 919 16/1/06 11:57 Pgina 25

Abraira V. Sesgos en los estudios sobre pruebas diagnsticas

correcto. Por ejemplo, en la nota sobre los ndices8 se co- tos estudios, en particular en todos los que se realizan en
ment la evaluacin de la concentracin plasmtica de condiciones reales de asistencia, la prueba de referencia se
pptido natriurtico tipo B para diagnosticar, en ancianos, realiza a la mayor parte de los pacientes con resultado po-
la disfuncin ventricular izquierda; en el artculo comen- sitivo de la prueba y slo a una pequea parte de los que
tado se us el ecocardiograma como prueba de referencia. tienen resultado negativo, dando lugar al denominado
Ambas pruebas deben interpretarse de modo enmascara- sesgo de referencia o de verificacin parcial. Otros auto-
do, es decir, cada una se debe interpretar sin que el inves- res resuelven el problema aplicando a los pacientes con
tigador que lo haga sepa el resultado de la otra. De modo resultado negativo en la prueba en evaluacin otro patrn
similar a lo que ocurre con el tratamiento9, este ideal de di- de referencia diferente, por ejemplo, seguimiento en el
seo est en contradiccin con la buena prctica clnica, tiempo. Ambas soluciones, si bien frecuentemente son las
en la que rara vez se solicitan las pruebas simultneamen- nicas disponibles, incumplen la asuncin de indepen-
te, ms bien al contrario, las pruebas deberan solicitarse dencia entre pruebas y daran lugar a una sobreestima-
de modo secuencial y cada una de ellas solicitarse e inter- cin del rendimiento diagnstico. Lijmer et al10 encuen-
pretarse en funcin de toda la informacin disponible en tran que cuando se usan diferentes patrones de referencia,
cada momento, incluyendo los resultados de las pruebas el ndice de rendimiento global se sobreestima multipli-
previas. Seguramente de esta contradiccin surgen los de- cndose por dos, aunque, sorprendentemente, no en-
fectos observados en la literatura. Los que ms impacto cuentran sobreestimacin producida por el sesgo de veri-
tienen sobre la estimacin de la validez de la prueba tienen ficacin parcial.
que ver con la seleccin de los pacientes, la falta de inde-
pendencia en la comparacin con el patrn de referencia y ENMASCARAMIENTO EN LA INTERPRETACIN
la falta de enmascaramiento en la interpretacin de las DE LAS PRUEBAS
pruebas. Siguiendo con el ejemplo de la mamografa, parece claro
que una imagen dudosa ser interpretada de modo dis-
SELECCIN DE LOS PACIENTES tinto, seguramente mejor, si se conoce el resultado de la
Dado que en la prctica clnica los problemas de diagns- biopsia. Por ello, para evaluar la validez de la mamogra-
tico se plantean entre enfermedades o estados de salud que fa, ambas pruebas deben interpretarse sin que se conoz-
comparten sntomas, una prueba diagnstica es verdade- ca el resultado de la otra. Esta exigencia es tanto ms im-
ramente til si permite distinguir entre trastornos que de portante cuanto mayor componente de interpretacin
otra forma podran confundirse, por tanto la validez de subjetiva tengan las pruebas en cuestin. Lijmer et al10
una prueba debe establecerse en ese escenario, es decir, en encuentran que efectivamente la falta de enmascara-
un estudio que incluya un espectro de pacientes lo ms miento sobreestima el ndice de rendimiento global en
parecido posible al del medio en el que la prueba se pre- un 30%.
tenda usar en el futuro, tpicamente una muestra consecu- Aunque en los libros de texto tambin se sealan otros
tiva de pacientes. Sin embargo, una tentacin muy exten- posibles sesgos en el diseo de los estudios de evaluacin
dida en estos estudios es el diseo caso-control, en el que de pruebas diagnsticas, tales como el diseo retrospecti-
se seleccionan dos muestras, una de pacientes que se sabe vo, o la inclusin de pacientes de forma no consecutiva, el
que tienen la enfermedad y otra de individuos que no la estudio de Lijmer no encuentra diferencias en la estima-
tienen. Se ha demostrado que este diseo introduce la ma- cin de los ndices entre los artculos que los tienen y los
yor sobreestimacin del rendimiento de la prueba. Usan- que no (una vez corregidos por los efectos ya comentados
do como ndice de validez la odds ratio diagnstica, que es de los otros sesgos). Una explicacin posible para estos ha-
un modo de sintetizar en un solo ndice la sensibilidad y llazgos sorprendentes es que los defectos nunca vienen
la especificidad, este diseo lo sobreestima10 multiplicn- solos y, en el anlisis, unos defectos estn acaparando el
dolo por un factor de 3. efecto de otros relacionados, por ejemplo, los diseos re-
trospectivos suelen ser caso-control y stos no incluyen
INDEPENDENCIA ENTRE LA PRUEBA pacientes de forma consecutiva. Tambin se podra tratar
Y EL PATRN DE REFERENCIA de alguna limitacin de la propia investigacin de Lijmer,
Muy frecuentemente las pruebas usadas como referencia que sera conveniente replicar, aunque no se puede des-
o patrn de oro son invasivas; se es justamente uno de cartar que haya un exceso de celo en la lgica metodolgi-
los motivos para desarrollar nuevas pruebas, disponer de ca en los libros de texto.
pruebas menos agresivas, o ms baratas, o ms fciles que
los patrones de oro. En consecuencia, suele haber proble-
mas para realizar estas pruebas a individuos no enfermos. BIBLIOGRAFA
Por ejemplo, para evaluar la validez de la mamografa en 1. Prez Fernndez M, Gervas J. El efecto cascada: implicaciones cl-
el diagnstico del cncer de mama, una buena prueba de nicas, epidemiolgicas y ticas. Med Clin (Barc). 2002;118:65-7.
referencia es la biopsia, de hecho es la que se suele usar, 2. The Editors. Diagnosis, diagnosis, diagnosis. BMJ. 2002; 324:0-
doi:10.1136/bmj.324.7336.0/g.
aunque obviamente hay problemas, tanto ticos como de 3. Latour J. El diagnstico. Quaderns de salut pblica i administraci
factibilidad, para realizar biopsias a mujeres con mamo- de serveis de salut, 21. Valencia: Escola Valenciana dEstudis per a
grafas negativas. Como consecuencia, en muchos de es- la Salut; 2003.

33
Documento descargado de http://www.elsevier.es el 13/05/2015. Copia para uso personal, se prohbe la transmisin de este documento por cualquier medio o formato.

04 Notas Estadsticas 919 16/1/06 11:57 Pgina 26

Abraira V. Sesgos en los estudios sobre pruebas diagnsticas

4. Reid MC, Lachs MS, Feinstein AR. Use of methodological standards 7. Zamora J, Urrueta I, Pijon JI, et al. Variabilidad en la interpreta-
in diagnostic test research. Getting better but still not good. JAMA. cin de los ndices de validez de las pruebas diagnsticas. XXIII
1995;274:645-51. Reunin de la Sociedad Espaola de Epidemiologa: Las Palmas de
5. Mijnhout GS, Hoekstra OS, van Tulder MW, Teule GJ, Deville WL. Gran Canaria; 2005.
Systematic review of the diagnostic accuracy of (18)F-fluorodeoxy- 8. Abraira V. ndices de rendimiento de las pruebas diagnsticas. SE-
glucose positron emission tomography in melanoma patients. Can- MERGEN. 2002;28:193-4.
cer. 2001;91:1530-42. 9. Abraira V. Qu es el anlisis por intencin de tratar? SEMERGEN.
6. Reid MC, Lane DA, Feinstein AR. Academic calculations versus cli- 2000;26:393-4.
nical judgments: practicing physicians use of quantitative measu- 10. Lijmer JG, Mol BW, Heisterkamp S, et al. Empirical evidence of design-
res of test accuracy. Am J Med. 1998;104:374-80. related bias in studies of diagnostic tests. JAMA. 1999;282:1061-6.

34

S-ar putea să vă placă și