Sunteți pe pagina 1din 19

Rev Méd Chile 2005; 133: 383-384

¿Cual es la importancia del significado del p en medicina?

On the relevanceof p values in medicine

Sr. Editor: Resulta interesante ver cómo las controversias en torno al


diseño de ensayos clínicos entusiasman y apasionan a muchos
médicos en la práctica cotidiana. Existe el grupo de los "rigurosos",
quienes sostienen que el conocimiento médico debe estar guiado sólo
bajo la luz de ensayos clínicos, con metodología científica. Bajo esta
forma purista de pensamiento, sería ideal alcanzar valores
significativos de p <0,05 para haber probado algo1. Por otro lado,
existen los "apologistas", quienes practican la ciencia médica basada
en la experiencia, argumentando como principio su compromiso con
sus pacientes y por lo tanto la dificultad que tienen para randomizar
y tratar a algunos sujetos y a otros no2. Cuando observamos este
interesante debate, no podemos dejar de preguntarnos si acaso la
medicina nació en una era oscura, basada en la superstición y juicio
clínico y ahora estamos en la era de la "ciencia verdadera"3. La
medicina basada en la evidencia se ha convertido en una suerte de
espada del conocimiento, que se muestra y aniquila al adversario en
cada visita o reunión médica.

El valor de una información científica está determinado por la


congruencia o armonía que guarda con las teorías previas que
motivaron la investigación y no exclusivamente por su nivel de
significación. Recordemos que nadie inicia su conocimiento en un
estado de ignorancia completa, ni tampoco permanecemos en él hasta
que hemos reunido suficientes observaciones que ofrezcan un nivel
estadístico razonable. Probablemente la creencia en la validez de una
afirmación o hipótesis, radica en que ofrece una serie de
explicaciones plausibles para una serie de observaciones rigurosas. Si
bien la teoría molecular del ADN sostenida por Watson en la década
del sesenta no fue validada desde el punto de vista estadístico, todos
estamos convencidos de su trascendencia histórica y científica.

El conocimiento médico no empieza y termina con una hipótesis; por


lo que la validez estadística no es una medida del conocimiento
humano, sino una medición de la certeza. Lamentablemente en gran
parte del avance científico de la medicina el valor del p ha adquirido
una imagen casi mística. Luego de su "descubrimiento" por Fisher,
en 1926, para la evaluación en la agricultura (quien arbitrariamente
estableció el valor de 0,05) fue inmortalizado por Neyman y Pearson,
quienes extrapolaron su utilidad en el teorema de la hipótesis,
extrapolando su uso a la medicina5. Sin embargo, pareciera que hoy
establecemos valores de p en los resultados casi como un "guardián
de la verdad". La mayoría de nosotros estaría de acuerdo en que la
estadística por sí misma, no es necesaria ni suficiente para que una
afirmación sea considerada científica.

La relación entre observaciones y hechos es continua y no categórica.


La tendencia a confundir significado estadístico con validez
estadística puede conducir a sobre enfatizar los números y a
infravalorar la claridad conceptual de un sujeto. La relación entre
tamaño muestral, validez estadística y conclusiones es fluido y no
rígido. Lamentablemente, existe la tendencia a confundir análisis
estadístico con ciencia, por lo que es frecuente ver cómo estos
términos saturan la investigación médica diariamente. Si un estudio
ofrece resultados "estadísticamente significativos" algunos creen,
erróneamente, que ha probado algo. Por otro lado, si un resultado no
alcanzó un nivel estadístico, otros creen que no ha probado nada. Esta
ociosa tendencia, sobre simplifica el complejo proceso del
aprendizaje y nos hace olvidar por un instante que se extrae
conocimiento de la experiencia y la observación sistemática continua
y no sólo de las matemáticas.

Las pruebas lógicas, como las matemáticas, nacen de axiomas que


nadie ha probado estadísticamente. Es inevitable que el valor del p no
dependa del tamaño de la muestra; pero el cálculo de ella descansa
sobre un juicio de valores estimativo y no estadístico. ¿Acaso es
necesario alcanzar un valor de p para que un hecho exista o sea
verdadero? Definitivamente no. Existen muchas hipótesis que pueden
generar preguntas, siendo muchas intuitivas y algunas hasta
emocionales. ¿Pero cuál de ellas es la correcta? Determinar un
tamaño de muestra no sólo requiere conocimiento, sino también
valores que permitan producir resultados "estadísticamente" válidos.

Muchos problemas médicos, responsables de la falla de un órgano o


sistema, son multifactoriales. Las distintas combinaciones de
intervención y en distintos momentos pueden producir resultados
variables. Es difícil imaginar un estudio que compare la eficacia de
dos terapias combinando los distintos tipos y momentos de
intervención, por lo que es correcto cuestionar el amplio uso del valor
del p en medicina. Considerarlo un árbitro para validar el resultado
de un estudio puede estar lejos de ser correcto. El usar herramientas
estadísticas no asegura que un resultado sea científico ni muchos
menos correcto. La superioridad de los estudios randomizados
controlados sobre otros métodos de generar conocimiento está
exagerada y, por lo tanto, la importancia del valor del p puede estar
hipertrofiada. Defender el conocimiento de la experiencia requiere
mayor rigurosidad y sistematización que establecer valores
significativos o intervalos de confianza6. Lo anterior no debe
interpretarse como que el valor del p es indispensable para tomar
decisiones clínicas.

El conocimiento médico ha experimentado un crecimiento explosivo


luego de la introducción de la Internet y, por lo tanto, la "validez" de
una hipótesis pudiera ser contrastada y hasta desmentida mañana. Es
inevitable aceptar que existen más hipótesis y preguntas que
respuestas, sin embargo sería sub-realista no usar la información que
existe de la mejor forma para tomar decisiones por nuestros pacientes.
Por ahora, un nivel estadístico puede hacernos creer que el
"significado del p" puede ser más importante que la individualidad de
cada ser humano.

Dr. Luis E Vega-Briceño


Dr. Ignacio Sánchez D.

Sección de Respiratorio Pediátrico, Departamento de Pediatría,


Pontificia Universidad Católica de Chile. Santiago de Chile.

Referencias

1. Silverman WA. The most noble goal of medicine. Control Clin


Trials 1991; 12: 723-6.

2. Hellman S, Hellman DS. Of mice but not men. Problems of the


randomized clinical trial. N Engl J Med 1991; 324: 1585-9.

3. Freedman B. Suspended judgment. AIDS and the ethics of clinical


trials: learning the right lessons. Control Clin Trials 1992; 13: 1-5.
4. Fisher RA. The arrangement of filed experiments. J Ministry
Agriculture Great Britain 1926; 33: 503-13 (disponible
en www.library.adelaide.edu.au/digitised/fisher/548.pdf).

5. Goodman SN. Toward evidence-based medical statistics. The P


value fallacy. Ann Intern Med 1999; 130: 995-1004.

6. Osterwalder JJ. The p value as the guardian of medical truth,


illusion or reality? Eur J Emerg Med 2002; 9: 283-6.

Rev Méd Chile 2005; 133: 1111-1115


MEDICINA BASADA EN EVIDENCIA

Intervalos de Confianza

Confidence intervals

Roberto Candia B, Gianella Caiozzi A.

Unidad de Medicina Basada en Evidencia, Pontificia Universidad Católica de Chile.


Santiago, Chile.

En artículos previos hemos abordado cómo analizar en forma crítica la


validez de un estudio de terapia1-3 y cómo expresar los resultados con
distintas medidas de efecto (riesgo absoluto, riesgo relativo, número
necesario para tratar)4. Así, al momento de aplicar los resultados de un
estudio, lo hacemos utilizando el número que se nos entrega, lo que
conocemos como estimador puntual. Si el estudio se volviera a realizar en
condiciones idénticas, pero con una nueva muestra, es probable que el
resultado no sea exactamente igual, ya que el valor que se nos entrega es una
aproximación del valor real. El valor real es el que se obtendría al aplicar
la intervención a la población completa5, entendiendo población como el
total de pacientes idénticos a los del estudio dentro de la población general.
Este es el valor que realmente nos interesa aplicar en la práctica clínica.
Utilizando los datos de un estudio podemos estimar un rango en el que se
encuentra con alta probabilidad el valor real, y es precisamente este rango lo
que conocemos como intervalo de confianza.

Este artículo pretende ayudar a los clínicos a comprender e interpretar un


intervalo de confianza, su relación con el tamaño muestral y advertir las
diferencias comparativas con el valor P.

Intervalo de confianza (IC): Definición y propiedades

El intervalo de confianza describe la variabilidad entre la medida obtenida


en un estudio y la medida real de la población (el valor real). Corresponde
a un rango de valores, cuya distribución es normal y en el cual se encuentra,
con alta probabilidad, el valor real de una determinada variable. Esta «alta
probabilidad» se ha establecido por consenso en 95%. Así, un intervalo de
confianza de 95% nos indica que dentro del rango dado se encuentra el valor
real de un parámetro con 95% de certeza5-8.

Para comprender y hacer intuitivo el concepto de intervalo de confianza


utilizaremos un ejemplo clásico6:

Supongamos que tenemos una moneda, la cual puede o no estar balanceada.


Así, después de varios lanzamientos, la probabilidad que el resultado sea
sello variará desde 0 (todas las veces cara, es decir, una moneda balanceada)
hasta 1 (todas las veces sello, nuevamente balanceada), pasando por 0,5 (la
mitad de las veces sello y las otras cara, lo que equivale a una moneda no
balanceada). Como no conocemos la verdadera naturaleza de la moneda,
vamos a experimentar con ella.

Iniciamos el experimento con 2 lanzamientos, uno es cara y el otro es sello.


La probabilidad de que el resultado sea sello fue 0,5, con lo que podríamos
concluir que la moneda no está balanceada, sin embargo, ¿con sólo 2
lanzamientos podemos concluir con total certeza que esa es la naturaleza de
la moneda? La respuesta es no, por lo tanto ¿cuál es el rango de valores donde
se encuentra el valor real? Dado que el azar pudo influir en este resultado,
uno acepta que el rango de valores reales posibles es amplio, incluso desde
uno tan bajo como 0 a uno tan alto como 1, por lo tanto aún no estamos
seguros de la naturaleza de nuestra moneda.

Considerando lo anterior, ampliamos el experimento y realizamos 8 nuevos


lanzamientos (10 en total), resultando 5 caras y 5 sellos. Nuevamente el
resultado es 0,5, sin embargo, ahora intuitivamente nos percatamos que la
verdadera naturaleza de la moneda se encuentra en un rango menos amplio.
Por ejemplo, es poco probable que después de 10 lanzamientos 9 sean sello,
menos aún que todos lo sean, sin embargo, aún es factible que 8 ó 7 ó 6 sí lo
sean. Así, nuestro nuevo rango puede variar entre 0,2 y 0,8, pero con un
alcance: todos advertimos que si bien 0,8 y 0,2 son posibles, los valores
centrales (0,4 y 0,6) lo son más aún, siendo 0,5 el más probable.

Decidimos seguir experimentando, realizando 90 nuevos lanzamientos (100


en total), resultando 50 caras y 50 sellos. Nuevamente el resultado es 0,5,
advirtiendo que cada vez es más probable que la verdadera naturaleza de
nuestra moneda es el de una no balanceada, pero aún con un rango de
variabilidad que podríamos estimar entre 0,4 y 0,6 (es decir, que después de
100 lanzamientos, el resultado real varíe entre 40 y 60 sellos).

Realizamos 1.000 lanzamientos, resultando 500 sellos y 500 caras, con lo


que estamos aún más seguros que nuestra moneda no está balanceada
(nuestro rango puede ser 0,45 a 0,55 o menor).
El ejemplo anterior nos permite aclarar varios conceptos:

• La «verdadera naturaleza» de nuestra moneda (si está balanceada o no)


corresponde al valor real.

• El rango de valores reales posibles, es decir, el rango donde se encuentra la


verdadera naturaleza de nuestra moneda, corresponde al IC.

• El valor real más probable corresponde al estimador puntual del estudio, en


este caso 0,5.

• Finalmente, advertimos la relación inversa entre la amplitud del IC y el


tamaño muestral: si consideramos que el número de lanzamientos representa
el n de la muestra, observamos que mientras más pequeño es el n más amplio
es el IC. A mayor número de lanzamientos (mayor n) más certeza tenemos
que el resultado del experimento se acerca al valor real, por lo tanto el IC es
más estrecho5-8.

Para llevar a la práctica el concepto vamos a recurrir al ejemplo utilizado en


el artículo anterior: la comparación de una nueva droga A versus una droga
B en la prevención de AVE en pacientes con antecedente de accidente
isquémico transitorio (AIT) (Tabla 1)4.
Al analizar estos datos se obtiene una reducción absoluta del riesgo (RRA)
de 4,2% con 95% de intervalo de confianza de 0,9% a 7,5%. Esto quiere
decir que el valor real, es decir, el resultante al aplicar la intervención a la
población total de pacientes con AIT, está con 95% de probabilidad entre un
RRA de 0,9% a 7,5%, siendo el valor más probable 4,2%. Si aumentamos el
n de la muestra a 20.000 obtendríamos nuevamente un RRA de 4,2%, pero
con un intervalo de confianza más estrecho, de 3,5% a 4,9% (Fórmula en
apéndice 1).

Apéndice 1. Fórmula de intervalo de confianza:

Donde:

p1 = Tasa de eventos grupo 1


p2 = Tasa de eventos grupo 2
n1 = n grupo 1
n2 = n grupo 2

Interpretación de un IC

El intervalo de confianza es una medida de precisión que permite al clínico


evaluar 2 aspectos de un resultado (estimador puntual):

1. Si existe diferencia estadística significativa.

2. Si tal diferencia es relevante para recomendarla a mis pacientes (relevancia


clínica).

Para analizar si existe o no diferencia estadística significativa debemos


observar los extremos del IC. Independiente si el estimador puntual muestra
beneficio o daño, debemos verificar si alguno de los extremos del IC pasa
sobre la línea del no efecto. Si es así, existe la posibilidad de que el valor real
corresponda al no efecto o incluso tenga un efecto opuesto al esperado. En
este caso no existiría diferencia estadísticamente significativa entre aplicar o
no la intervención (Figura 1)7,8.

Cuando un estudio demuestra un efecto con significación estadística (es decir


el extremo del IC no cruza ni toca la línea del no efecto), el clínico debe
definir cuál es el beneficio mínimo necesario para recomendar la terapia, lo
que llamaremos umbral. Así, nuestro estudio hipotético demuestra
beneficio estadístico significativo, siendo el beneficio mínimo probable un
RRA de 0,9%. El que este beneficio tenga relevancia clínica depende del tipo
de evento prevenido o favorecido, los efectos adversos de la droga A v/s la
droga B, el costo, las circunstancias clínicas, etc. Si el evento a prevenir es
banal, o si la droga A tiene muchos efectos adversos y es más cara que B,
nuestro umbral va a ser alto, por lo tanto el beneficio demostrado en nuestro
estudio no sería relevante7,8 (Figura 2).

Al contrario, si el evento a prevenir es relevante en sí mismo (por ej:


mortalidad o invalidez), o si la nueva droga es más barata y sin efectos
adversos, tal vez con demostrar un RRA de sólo 0,5% nos basta para
recomendarla (umbral), por lo tanto nuestro estudio no sólo demuestra
diferencia estadísticamente significativa, sino que también beneficio
relevante para el paciente (Figura 3).

Figura 1. Estudio hipotético cuyo estimador puntual informa un RRA 2,8%,


pero cuyo IC sobrepasa la línea del no efecto, por lo tanto es posible que el
valor real sea daño. No existe diferencia estadística significativa en este
estudio.
Figura 2. Estudio hipotético que informa beneficio estadístico significativo,
sin embargo, el IC pasa sobre el beneficio mínimo necesario para
recomendar la terapia (umbral, RRA 3%). El beneficio mínimo demostrado
(RRA 0,9%) no es suficiente para recomendar la terapia.

Figura 3. Estudio hipotético que informa beneficio estadístico significativo.


El IC no sobrepasa el beneficio mínimo necesario para recomendar la terapia
(umbral, RRA 0,5%). El beneficio mínimo demostrado (RRA 0,9%) es
suficiente para recomendar la terapia.

Así, para evaluar beneficio clínico, primero debemos establecer un umbral


mínimo de beneficio, el que depende del tipo de evento a prevenir o
favorecer los efectos adversos, costos, etc. de la nueva droga, y luego
observar el beneficio mínimo probable que muestra el estudio, que
corresponde al extremo del IC más cercano a la línea del no efecto. Si el
extremo del IC no sobrepasa el umbral se asume que el beneficio mínimo
probable es suficiente para recomendar la nueva terapia.

Existe la posibilidad que la nueva droga hiciese daño (RRA negativo). El


proceso es similar al anterior, estableciendo un umbral máximo de daño
tolerable, y observando el extremo del IC que más se acerca a la línea del no
efecto. Si la nueva droga genera más daño con una diferencia
estadísticamente significativa, debemos observar si el extremo del IC
sobrepasa ese umbral. Si no lo hace se asume que el daño mínimo probable
es más alto que lo tolerable, por lo tanto se está en condiciones de rechazar
la nueva terapia7,8 (Figura 4).
Al comparar dos grupos en un estudio podemos demostrar que no existe
diferencia entre ambos (hipótesis nula) o que sí la hay (hipótesis
alternativa)9,10. El valor P es un test de hipótesis que nos ayuda a afirmar
con cierto nivel de seguridad (por consenso se usa 95%, que se expresa como
P <0,05) que una de las hipótesis es la correcta. Para nuestro ejemplo, la
hipótesis nula corresponde a la igualdad de resultados al usar la droga A o
B, mientras que la hipótesis alternativa supone que una de ellas es mejor que
la otra en prevenir la enfermedad.

El valor P representa la probabilidad que una diferencia observada entre 2


grupos sea sólo debida al azar, es decir, la probabilidad que la hipótesis nula
sea verdadera a pesar de observar diferencia en un estudio7-9. Como toda
probabilidad, puede tener valores desde 0 a 1. Valores más cercanos a 1
indican que existe una alta probabilidad que las diferencias observadas sean
sólo por azar, es decir, apoya la hipótesis nula. En cambio, valores más
cercanos a 0 apoyan la hipótesis alternativa.

Apliquemos este concepto a nuestro ejemplo, en que se obtiene un RRA de


4,2% con un valor P <0,05 (p=0,039). Si asumimos como valor real que la
droga A es igual a B (hipótesis nula) y pudiéramos repetir el estudio muchas
veces, el P <0,05 nos dice que en menos de 5% de las ocasiones se observaría
tal diferencia entre ambas, sólo por azar. Dicho de otra forma, en la mayor
parte de las ocasiones la diferencia observada no se debe al azar, por lo tanto
rechazamos la hipótesis nula y establecemos que existe diferencia estadística
significativa9,10.

El valor P se correlaciona en forma muy estrecha con el intervalo de


confianza, ya que si uno muestra diferencia estadística significativa el otro
también lo hace, y viceversa. Sin embargo, el valor P, a diferencia del IC, no
nos entrega información respecto al rango en el que se encuentra la magnitud
del efecto de un determinado tratamiento (valor real), por lo que sólo nos
habla de diferencias estadísticas significativas, sin permitirnos evaluar si esta
diferencia es relevante para mi paciente. Por ejemplo, un resultado
significativo (P <0,05) podría incluir diferencias clínicamente irrelevantes, y
resultados no significativos (P >0,05) podrían esconder una diferencia
clínicamente importante entre 2 tratamientos si el estudio no incluye un
tamaño muestral adecuado (un estudio con bajo poder puede no mostrar una
diferencia que realmente sí existe)8.

De esta forma, aunque el valor P mide la fuerza de una asociación, siempre


es útil el intervalo de confianza para complementar la evaluación de la
magnitud del efecto de una intervención y poder realizar una interpretación
adecuada de los resultados de un estudio.

CONCLUSIONES

Al leer un estudio es muy importante interpretar los resultados en forma


correcta. Esto supone comprender el significado del estimador puntual y de
sus medidas de precisión, lo que permite extrapolar los datos a la población
de interés. Tanto el análisis de un intervalo de confianza como el de un valor
P nos permiten determinar diferencias estadísticas significativas, sin
embargo sólo el IC nos permite evaluar el rango de valores donde
posiblemente se encuentra el valor real, y por lo tanto, permite realizar una
mejor interpretación y aplicación clínica de los resultados.

Figura 4. Estudio hipotético que informa daño estadístico significativo. El


IC no sobrepasa el daño mínimo establecido como umbral. El daño mínimo
demostrado es suficientemente importante para rechazar la terapia.

REFERENCIAS

1. Peñaloza B, Candia R. ¿Por qué vale la pena randomizar un estudio de


terapia? Rev Méd Chile 2004; 132: 1007-14. [ Links ]

2. Letelier LM, Manríquez JJ, Claro JC. El «ciego» en los ensayos clínicos
¿importa? Rev Méd Chile 2004; 132: 1137-9. [ Links ]

3. Capurro D, Gabrielli L, Letelier LM. Importancia de la intención de tratar


y el seguimiento en la validez interna de un estudio clínico randomizado. Rev
Méd Chile 2004; 132: 1557-60. [ Links ]

4. Rivera S, Larrondo F, Ortega J. Evaluación de resultados de un artículo


de tratamiento. Rev Méd Chile 2005; 133: 593-6. [ Links ]

5. Whitley E, Ball J. Statistics review 2: Samples and populations. Critical


Care 2002; 6: 143-8. [ Links ]
6. Guyatt G, Jaeschke R, Heddle N, Cook D, Shannon H, Walter S. Basic
statistics for clinicians 2.Interpreting study results: confidence
intervals. CMAJ 1995; 152: 169-73. [ Links ]

7. Montori V, Kleinbart J, Newman T, Keitz S, Wyer P, Moyer V, Guyatt G.


Tips for learners of evidence-based medicine: 2. Measures of precision
(confidence intervals). CMAJ 2004; 171: 611-5. [ Links ]

8. Montori V, Kleinbart J, Newman T, Keitz S, Wyer P, Moyer V et al. Tips


for teachers of evidence-based medicine 2: Confidence intervals and p
values. CMAJ 2004; 171, Online 1-12
(http://www.cmaj.ca/cgi/data/171/6/611/DC1/1). [ Links ]

9. Whitley E, Ball J. Statistics review 3: Hypothesis testing and P


values. Critical Care 2002; 6: 222-5. [ Links ]

10. Shakespeare T, Gebski V, Veness M, Simes J. Improving interpretation


of clinical studies by use of confidence levels, clinical significance curves,
and risk-benefit contours. Lancet 2001; 357: 1349-53. [ Links ]

Recibido el 2 de junio, 2005. Aceptado el 5 de julio, 2005.


Rev Pediatr Aten Primaria vol.15 no.57 Madrid mar. 2013

El significado de los intervalos de confianza

The meaning of confidence intervals


M. Molina Arias

Servicio de Gastroenterología. Hospital Infantil Universitario La Paz. Madrid. España


Grupo de Trabajo de Pediatría Basada en la Evidencia, AEP/AEPap
Editor de www.cienciasinseso.com
mma1961@gmail.com

RESUMEN

Cuando precisamos conocer el valor de una variable en la población,


debemos estimarla a partir de los datos obtenidos de muestras extraídas de
esa población. Los intervalos de confianza nos permiten aproximar, una vez
calculado el valor de la variable en la muestra, entre qué rango de valores se
encuentra el valor real inaccesible de la variable en la población, con un
grado de incertidumbre que podemos determinar.
Además, los intervalos de confianza aportan información añadida que se
pierde cuando únicamente se valora la probabilidad de significación
estadística, ya que nos permiten estudiar la precisión de la estimación del
estudio y la relevancia de los resultados desde el punto de vista clínico.

Palabras clave: Intervalo de confianza; Significación estadística;


Importancia clínica.

ABSTRACT

Every time we need to know the value of a variable in a population we have


to estimate it from data obtained from samples drawn from that population.
Confidence intervals allow us to approximate, once calculated the value of
the variable in the sample, to the range of values that includes the
unreachable actual variable value in the population, always within a degree
of uncertainty that we can determine.
Moreover, confidence intervals provide additional information that is usually
lost when we only assess statistical significance, allowing us to study the
accuracy of the estimate variable and the clinical relevance of the results.

Key words: Confidence intervals; Statistical significance; Clinical


significance.

Imaginemos que queremos saber el valor medio del colesterol en sangre de


la población de nuestra ciudad, en la cual viven cuatro millones de
habitantes. ¿Hay modo de conocer este dato? ¡Claro!, solo tenemos que hacer
cuatro millones de extracciones, analizar las muestras y hacer el cálculo.
Pero el problema es evidente: no resulta práctico intentar medir el colesterol
a toda la población. Así que decidimos tomar una muestra al azar, por
ejemplo, de 100 personas, y determinamos su colesterol en sangre.
Obtenemos una media (m) de 236 mg/dl con una desviación típica (s) de 41
mg/dl.

La cuestión, claro está, es que 236 es el valor medio de nuestra muestra, pero
nosotros lo que queremos saber es el valor medio de la población de la que
procede la muestra. Seguramente estará próximo a ese valor, pero lo más
probable es que sea diferente. ¿Hay alguna forma de solucionar el problema?

Por desgracia, no existe forma de conocer el valor exacto en la población (a


no ser que midamos el colesterol en los cuatro millones, sin excepción), pero
sí podemos obtener un valor dentro de un rango determinado, aunque
siempre con un grado de incertidumbre que, eso sí, podemos elegir nosotros.

Vamos a suponer que repetimos el experimento con otras nueve muestras


elegidas al azar para obtener las diez parejas de m y s de la Tabla 1.
Si calculamos la media de todas las medias obtendremos un valor que se
aproximará al valor medio real de la población, tanto más cuanto más medias
sumemos a la distribución. En este caso, el valor medio es 235 y su
desviación estándar 2,4. Y aquí es cuando empieza la parte interesante,
porque no hace falta repetir el experimento un número enorme de veces.
Sabemos que, cuando el número de medias es grande, esta distribución de
medias sigue una curva normal cuya media es igual a la de la población (μ)
y cuya desviación estándar es igual a la desviación estándar de la población
dividida entre la raíz cuadrada del tamaño de la muestra (Fig. 1). Este
cociente se conoce con el nombre de error estándar de la media (ee) y es
equivalente al valor de la desviación estándar de la distribución de medias
que calculamos previamente.
Y, sin darnos cuenta, acabamos de enunciar el teorema central del límite, que
es la base para el cálculo de intervalos de confianza (IC), de intervalos
predictivos, de tamaños de muestras y, prácticamente, de todo el contraste
de hipótesis en estadística. ¿Y qué objeto tiene todo esto? Pues la magia está
en que sabemos que, en una distribución normal, el 95% de la población se
encuentra en el intervalo de su media ±1,96 veces su desviación estándar
(Fig. 2), lo que nos permite calcular entre qué valores estará el 95% de las
medias de todas las muestras que hemos elegido al azar. El rango entre esos
dos valores es lo que se denomina IC:

Así que nos olvidamos de seleccionar múltiples muestras. Tomamos, por


ejemplo, la primera de las diez, con m=236 y s=41 y calculamos su IC del
95%:

¿Qué utilidad tiene este IC del 95%? Pues, dicho de una forma simple, es el
que nos permite estimar entre qué valores está el valor inaccesible real de la
población a partir del que podemos obtener de nuestra muestra, con una
probabilidad de equivocarnos del 5%. Si queremos afinar más, podemos
calcular el IC del 99% multiplicando el ee por 2,58 (en una distribución
normal el 99% de la población se encuentra en el intervalo m±2,58 s) y
tendremos una probabilidad de error del 1%. Además, el IC nos informa
sobre la precisión de nuestra estimación, ya que no será lo mismo estimar
que el valor medio del colesterol sérico de la población sea de 228 a 244
mg/dl que de 200 a 270 mg/dl.

Aunque la fórmula del IC del 95% es siempre la misma (m±1,96 ee), el


cálculo del ee no es siempre tan sencillo como en el caso de la media. Con
algunos estadísticos, la fórmula puede ser bastante complicada, pero existen
programas informáticos y calculadoras en Internet, como las de la red CASPe
(www.redcaspe.org/drupal/?q=node/30) o las de Infodoctor
(www.infodoctor.org/rafabravo/herramientas.htm), que permiten calcular
los IC con facilidad.

Imaginemos que, ahora que ya sabemos cuál es el colesterol medio de


nuestros vecinos, queremos compararlo con el de otra ciudad (B), para ver si
existen diferencias. Repetimos el proceso y obtenemos un valor medio de
242 mg/dl. ¿Quiere esto decir que en la ciudad B tienen el colesterol más
alto? Pues, en realidad, no lo sabemos, porque lo único que tenemos hasta
ahora es el resultado de una muestra de la ciudad, por lo que las diferencias
que hemos observado pueden deberse al mero azar. Así que calculamos su
IC del 95%, que nos permite estimar que el valor medio de colesterol sérico
en B está entre 235 y 251 mg/dl. Y ahora que tenemos las estimaciones de
las dos poblaciones procedemos a comparar sus IC.

Si los IC no se solapan querrá decir que el mínimo valor de B será siempre


más alto que el máximo de nuestra ciudad, con lo que podremos concluir que
los habitantes de B tienen el colesterol más alto que nosotros, siempre con
una probabilidad de error del 5%. Pero, en nuestro ejemplo, los intervalos se
solapan, lo que quiere decir que no podemos descartar, con una probabilidad
de error menor del 5%, que las diferencias se deban al azar, con lo que
asumiremos que las dos ciudades tienen de media un valor de colesterol
semejante.

Otra forma de enfocar el problema habría sido utilizar el teorema central del
límite de forma inversa y calcular la probabilidad de que la diferencia se deba
al azar. Si esta probabilidad es menor del 5% (p<0,05) la rechazaríamos y
concluiríamos que la diferencia es real, mientras que si p>0,05 no podríamos
descartar que la diferencia observada fuese fruto de la casualidad por
proceder de muestras aleatorias y no de las poblaciones globales.

Pero el valor de p, mucho más utilizado que los IC, tiene algunos defectos
desde el punto de vista práctico. Si nos fijamos en la fórmula del error
estándar podemos ver que el tamaño de la muestra (n) está en el denominador
dentro de una raíz cuadrada. Esto quiere decir que la precisión del estudio (la
amplitud del IC) varía de forma inversamente proporcional con el cuadrado
del tamaño de la muestra o, dicho de forma más sencilla, que para aumentar
la precisión diez veces necesitamos una muestra 100 veces más grande. Por
esto, el valor de la p depende del tamaño de la muestra, por lo que, en muchas
ocasiones, obtener una p estadísticamente significativa es cuestión de
aumentar lo suficiente el tamaño muestral.

Esto nos puede llevar a que pequeñas diferencias, que pueden ser irrelevantes
desde el punto de vista clínico, alcancen significación estadística
simplemente porque el tamaño muestral es elevado. Y, en sentido contrario,
podemos despreciar diferencias que pueden ser clínicamente importantes por
no ser estadísticamente significativas. Para comprenderlo mejor, veámoslo
con un ejemplo.

Supongamos que queremos comparar el efecto de un nuevo fármaco


broncodilatador con el del tratamiento actual, para lo cual medimos la
diferencia de efecto de los dos sobre las pruebas de función respiratoria,
asumiendo como clínicamente importantes diferencias del efecto superiores
al 10%. Consideremos los cuatro estudios de la Fig. 3.

En el gráfico se representan los IC del 95% de los cuatro estudios, así como
las líneas de efecto nulo (no diferencias entre los dos tratamientos) y del
efecto clínicamente importante. Solo los estudios cuyo IC del 95% no cruce
la vertical del efecto nulo tendrán significación estadística (p<0,05).
El estudio A no tiene significación estadística (el IC incluye el valor nulo) y,
además, clínicamente no parece importante.

El estudio B tampoco es estadísticamente significativo, pero clínicamente


podría ser importante, ya que el límite superior del intervalo cae en la zona
de relevancia clínica. Si aumentásemos la precisión del estudio (aumentando
el tamaño de la muestra), es posible que el intervalo pudiese estrecharse y
quedar por encima del nivel nulo, alcanzando significación estadística.
Pensemos por un momento que estuviésemos realizando un estudio de
toxicidad y medimos mortalidad. Aunque la diferencia no fuese
estadísticamente significativa, el estudio del IC del 95% probablemente
desaconsejaría el uso del fármaco hasta disponer de estudios más precisos.

Los estudios C y D alcanzan significación estadística, pero solo los


resultados del D son clínicamente importantes. El estudio C mostraría una
diferencia, pero su impacto clínico y, por tanto, su interés son mínimos. Si el
nuevo fármaco es más caro o tiene un perfil de toxicidad superior al fármaco
actual, probablemente no sea conveniente indicar su uso, a pesar de que se
muestre superior al tratamiento estándar desde el punto de vista de
significación estadística.

Vemos, pues, cómo un enfoque más simple que considere solo el valor de la
p puede llevarnos a despreciar estudios que pueden proporcionar
información importante desde el punto de vista clínico. Y al contrario,
podemos dar como bueno un ensayo con p<0,05 aunque sus resultados sean
clínicamente poco relevantes.

Por este motivo es recomendable favorecer el uso de los IC frente a la cifra


de significación estadística, ya que los intervalos aportan información
adicional sobre precisión de la estimación de los resultados y sobre el posible
impacto clínico de los mismos.
Conflicto de intereses

El autor declara no presentar conflictos de intereses en relación con la


preparación y publicación de este artículo.
Abreviaturas

ee: error estándar de la media


IC: intervalo de confianza
m: media
s: desviación típica

S-ar putea să vă placă și