Sunteți pe pagina 1din 19

Diplomado en Epidemiología Aplicada a

la Ingeniería Biomédica
Módulo 2

Diplomado en Epidemiología Aplicada a la Ingeniería Biomédica


Módulo 2: Bioestadística aplicada al análisis de datos
Autor: Wilson Hernando Angulo Isaza
Ingeniero biomédico, especialista en Gerencia de Mantenimiento, magíster en
Epidemiología
wilson.angulo@docentes.umb.edu.co
Fecha de actualización: 07 de mayo de 2018

1
Diplomado en Epidemiología Aplicada a
la Ingeniería Biomédica
Módulo 2

Tabla de contenido

1. Bioestadística Aplicada al Análisis de Datos


1.1. Bioestadística descriptiva
1.1.1. Tipos de variables
1.1.2. Medidas de tendencia central
1.1.3. Medidas de dispersión
1.1.4. Medidas de posición
1.2. Teoría de la probabilidades y distribución
1.2.1. Conceptos de probabilidad
1.2.2. Concepto de independencia
1.2.3. Probabilidad condicionada
1.2.4. Distribuciones de probabilidad discretas
1.2.5. Distribuciones de probabilidad continuas: Distribución Normal
1.3. Inferencia estadística
1.3.1. Concepto de intervalos de confianza
1.3.2. Intervalos de confianza para la media
1.3.3. Intervalos de confianza para la proporción
1.3.4. Prueba de hipótesis
1.3.5. Error tipo I y Error tipo II
1.3.6. Significancia estadística: Valor P y Potencia
1.4. Análisis de Datos Categóricos
1.4.1. Comparación de proporciones por el Test X2 de Pearson
1.4.2. Test exacto de Fisher

2
Diplomado en Epidemiología Aplicada a
la Ingeniería Biomédica
Módulo 2

Introducción al módulo N° 2
La bioestadística es el análisis sistemático que permite describir un evento, organizar la
información, resumir, presentar, analizar y concluir los fenómenos de la salud. Por otro lado,
la tabulación y manipulación de los datos permite realizar interpretaciones prospectivas o
retrospectivas a partir de proporciones, razones o inferencias estadísticas. Los tomadores de
decisiones son los responsables del análisis concienzudo del evento de estudio.

3
Diplomado en Epidemiología Aplicada a
la Ingeniería Biomédica
Módulo 2

Unidad temática 1. Bioestadística

1.1. Introducción a la bioestadística


La bioestadística es la herramienta sistemática que, de la mano de la estadística, le permite a
la epidemiología analizar la interacción existente entre los factores de riesgo y el desenlace
de la enfermedad. El análisis descriptivo de las variables, que pueden ser cualitativas o
cuantitativas, es el primer paso hacia el cálculo matemático del comportamiento de los datos,
los cuales responden a una pregunta PICO, para finalmente tomar una decisión hacia una
política de salud pública.

1.2. Marco conceptual. Bioestadística aplicada al análisis de datos

1.2.1. Bioestadística descriptiva

Es el método estadístico que permite contar un evento, recolectar su información,


organizarlo, identificar el tipo de variable, ya sean independientes o dependientes, analizar
los resultados y tomar una decisión. Los valores descriptivos se obtienen a partir de media,
mediana, moda, promedio, media geométrica, desviación estándar y varianza. De esta forma
se logra responder al objeto de investigación.

 Universo o población
Conjunto de individuos que interactúan entre sí y están sujetos a un fenómeno de
estudio. Cuando se habla de universo en estadística se entiende como el todo y se
representa con la letra mayúscula N. Estas poblaciones responden a un evento de
interés (Celis y Labrada, 2014).
 Elemento del universo
Hace referencia a la población de estudio, generalmente son personas, pero también
se realizan estudios de universos como zonas geográficas, microorganismos u otros
elementos, por ejemplo, el universo de pacientes de un hospital.

4
Diplomado en Epidemiología Aplicada a
la Ingeniería Biomédica
Módulo 2

1.2.1.1. Tipos de variables

Las variables son decididas por el investigador. Sin embargo, siempre deben contar con las
dependientes e independientes, estas variables representan las características de la población
y pueden clasificarse en:

 Las variables cualitativas. Proporcionan información de la población. Pueden ser de


tipo nominal u ordinal.
 Una variable nominal se caracteriza por describir una condición que no toma
un valor cuantitativo. Toma el nombre propio de la característica y no
representa una jerarquía. Por ejemplo, la variable sexo representa condiciones
de masculino o femenino.
 Las variables ordinales son características que poseen un orden subjetivo, es
decir, toman una jerarquía. Por ejemplo, la percepción del dolor, puede ser
poco, mucho o exagerado.

 Las variables cuantitativas. Toma valores discretos, es decir, valores absolutos o


continuos, de tal forma que numéricamente se logra describir el objeto de estudio.
 Las variables discretas son valores absolutos representados en una escala y
separados entre sí por una cantidad determinada. Por ejemplo, el conteo de
linfocitos en la sangre, ya que no se puede fraccionar la naturaleza de la
variable.
 Las variables continuas son el número de valores infinitos que puede tomar
las variables en una escala, por ejemplo, entre 0 y 100 metros existe un número
infinito de valores.

 Las variables de intervalo no tienen ceros absolutos, por ejemplo, las medidas de
temperatura en grado Celsius.

5
Diplomado en Epidemiología Aplicada a
la Ingeniería Biomédica
Módulo 2

 Las variables de razón sí tienen ceros absolutos, por ejemplo la edad, ningún
individuo puede llegar a tener cero años.

En la tabla 1 se muestran variables de medición.

Tabla 1. Variables de medición

Variable Escala de medición

Edad de la madre (en años cumplidos) Discreta, de razón

Talla de la madre (en centímetros) Continua, de razón

Estado civil (soltera, casada, unión Nominal


libre, otro)

Escolaridad (primaria, secundaria, Ordinal


pregrado, posgrado)

Temperatura (en grados Celsius) Continua, de intervalo

Ocupación durante el embarazo Nominal

Exposición al humo de tabaco durante Ordinal


el embarazo

Hemoglobina en sangre (mg/dl) en la Continua, de razón


primera consulta prenatal

Número de consultas prenatales antes Discreta, de razón


del primer trimestre del embarazo

Fuente: Martínez-González, M. A., Sánchez-Villegas A., Faulín Fajardo F. J. (2006).


Bioestadística amigable.

6
Diplomado en Epidemiología Aplicada a
la Ingeniería Biomédica
Módulo 2

1.2.1.2. Medidas de tendencia central


 Medidas de posición: son valores numéricos que toman una media de tendencia central
a partir de fragmentar la cantidad de los datos en partes iguales. Las usadas son la media,
la moda, mediana, cuartiles, quintiles, deciles y percentiles (Aguilar, 2006).
 Media: es el punto medio que existe entre las variables con respecto al evento de estudio,
según la cantidad de valores obtenidos.

 La media aritmética: es el cociente entre la suma de todos los datos y el número de estos.
Se calcula con la siguiente fórmula:

X 1  X 2  .... Xn xi
x
N
 N

 Mediana: determina el valor que divide la cantidad de observaciones en dos partes iguales.
Se calcula con la siguiente fórmula.
 N 1 N
med  X   med 
 2  2

 Moda: es el dato de la variable que más se repite, es decir, aquel evento de mayor
frecuencia.

1.2.1.3. Medidas de dispersión


 Dispersión: permite medir la distancia entre los valores medidos con respecto al valor
central o la variable de medición a estudiar. De esta forma se puede identificar hacia
dónde se encuentran la mayoría de los datos. Las medias son la desviación estándar
y la varianza.
 El desvío estándar: es una medida diferencial para identificar el conjunto
de datos que difiere alrededor de la media. La ecuación para el cálculo de la
desviación estándar es:

7
Diplomado en Epidemiología Aplicada a
la Ingeniería Biomédica
Módulo 2

( xi  x ) 2
s  n 1

 La varianza: es el cuadrado de la desviación estándar con respecto al


desvío del total de las observaciones de la distribución de la media
aritmética.

s  s2
1.2.1.4. Medidas de posición

Las medidas de posición como los cuartiles, quintiles, deciles y percentiles dividen a una
distribución ordenada en partes iguales. Para calcular las medidas de posición es necesario
que los datos estén ordenados de menor a mayor (Martínez-González, 2006).

 Los cuartiles (Qn): son los tres valores de la variable de una distribución dividida en
cuatro partes iguales, es decir, al 25 %, 50 % y 75 %. Para calcular el valor de uno
de los cuatro cuartiles, se utiliza la fórmula:

Qk = k (n/4)
En donde:
Qk = cuartil número 1, 2, 3 o 4
n = total de datos de la distribución.

Se advierte que la posición del segundo cuartil corresponde a la ubicación de la mediana, es


decir que el segundo cuartil será siempre igual a la mediana (Martínez-González, 2006).

Para mayor claridad:

8
Diplomado en Epidemiología Aplicada a
la Ingeniería Biomédica
Módulo 2

 El primer cuartil (Q1) es el valor de la variable que supera, a lo más, el 25 %


de los datos y es superado por máximo el 75 % de ellos en la distribución
ordenada de menor a mayor (Martínez-González, 2006).

 El segundo cuartil (Q2) es un valor que supera máximo el 50  % de los datos


y es superado por máximo el 50 % de ellos, es decir, Q2 coincide con la
mediana (Martínez-González, 2006).

 El tercer cuartil (Q3) es un valor que supera, a lo más, el 75 % de los datos.
Es superado por máximo el 25 % de ellos (Martínez-González, 2006).

 El cuarto cuartil (Q4) es un valor que comprende el 100 % de los datos. En


este caso la población debe contar con la misma información (Martínez-
González, 2006).

1.2.2. Teoría de las probabilidades y distribución

9
Diplomado en Epidemiología Aplicada a
la Ingeniería Biomédica
Módulo 2

1.2.2.1. Conceptos de probabilidad

Proceso en términos del azar donde un dato o variable tienen el chance de pertenecer a una
muestra.

1.2.2.2. Concepto de independencia

En estadística la independencia de los datos está sujeta al evento, es decir, la probabilidad de


la intersección debe calcularse de igual forma en cada uno de los datos.

1.2.2.3. Probabilidad condicionada

Se define como la probabilidad de que suceda un evento si lo precede otro. La probabilidad


de que ocurra el suceso “A” si ha ocurrido el suceso “B” se denomina probabilidad
condicionada y se define así:

1.2.2.4. Distribuciones de probabilidad discretas

Una variable aleatoria se llama discreta cuando solo puede tomar ciertos valores enteros, es
decir, es la probabilidad de tener éxito o fracaso en un evento de estudio, de estar o no
enfermo, o de exponer a un riesgo.

1.2.2.5. Distribuciones de probabilidad continuas


 Distribución normal. Una variable aleatoria se llama continua cuando puede tomar
todos los valores posibles dentro de un cierto intervalo de la recta real F(x) ≥ 0 en
todo su dominio de definición (Martínez-González, 2006).

10
Diplomado en Epidemiología Aplicada a
la Ingeniería Biomédica
Módulo 2

Se determina como distribución al comportamiento esperado del evento de estudio. Si una


población “distribuye normal” es probable que la significancia de sus datos esté dentro de las
características de estudio.

1.2.3. Inferencia estadística

1.2.3.1. Concepto de intervalos de confianza

El intervalo de confianza representa la variabilidad entre la medida obtenida en un estudio y


la medida real de la población. Corresponde a un rango de valores, cuya distribución es
normal y en la cual se encuentra, con alta probabilidad, el valor real de una determinada
variable. La alta probabilidad se ha establecido por consenso en 95 %. Así, un intervalo de
confianza con ese porcentaje nos indica que dentro del rango dado se encuentra el valor real
de un parámetro con 95 % de certeza (Martínez-González, 2006).

 Valor P: al comparar dos grupos en un estudio podemos demostrar que no existe


diferencia entre ambos (hipótesis nula) o que sí la hay (hipótesis alternativa). El valor
P es un test de hipótesis que ayuda a afirmar que la variable de estudio cumple o no
con el objetivo de investigación. Por consenso es el 95 % y se expresa como P
(Martínez-González, 2006).

1.2.3.2. Intervalos de confianza para la media

Son los rangos máximos y mínimos en los cuales se encuentra una variable. Se determina
que es de confianza, ya que los datos deben contener las características de la población.

1.2.3.3. Intervalos de confianza para la proporción

Si no se espera que la proporción P desconocida esté demasiado cerca de 0 o de 1, se puede


establecer un intervalo de confianza para P, al considerar la distribución muestral de

11
Diplomado en Epidemiología Aplicada a
la Ingeniería Biomédica
Módulo 2

proporciones (Martínez-González, 2006). A continuación, se muestra la ecuación para el


cálculo de confianza para la proporción.

p (1  P)
Z
n

1.2.3.4. Prueba de hipótesis

Proceso que ayuda a determinar la validez de una aseveración hacia las variables de la
población, basándose en la evidencia muestral, es decir, en la variable de estudio. La hipótesis
expresa el objetivo de los investigadores.

Dentro de un proceso de investigación se establecen dos posibles hipótesis: la hipótesis nula


expresada como “Ho” corresponde a la verdad del planteamiento del objetivo, es decir, no
hay diferencias en la población. La hipótesis alterna expresada como H1, representa un
cambio de la población según los criterios de verdad que busca el investigador.

1.2.3.4.1. Error tipo I y error tipo II

Las pruebas de hipótesis no son del todo ciertas hasta que se logre comprobar la veracidad
de las mimas, debido a que estas pruebas se enmarcan bajo la condición de probabilidad. Por
ello, va a existir un margen de error, cuya relación depende del nivel de significancia y
potencia de la prueba. Los tipos de error más frecuentes son:

 Error tipo I
Si se rechaza la hipótesis nula cuando es verdadera se comete un error de tipo I. La
probabilidad de cometer un error de tipo I se identifica con α, que es el nivel de
significancia que se establece para su prueba de hipótesis. Un α de 0.05 indica que se
acepta la hipótesis con una probabilidad de 5 % de estar equivocado al rechazar la
hipótesis nula (Martínez-González, 2006).

 Error tipo II

12
Diplomado en Epidemiología Aplicada a
la Ingeniería Biomédica
Módulo 2

Cuando la hipótesis nula es falsa y se rechaza se comete un error de tipo II. Al ser la
hipótesis nula, el error tipo II se identifica como beta β, que depende de la potencia
de la prueba. Para disminuir este tipo de error es conveniente aumentar la muestra
poblacional (Martínez-González, 2006).

1.2.3.5. Significancia estadística: Valor P y potencia

En estadística un resultado se denomina estadísticamente significativo cuando no es probable


que haya sido producto del azar. Las diferencias estadísticamente significativas demuestran
que existen diferencias entre las variables de estudio dentro de la población global (Walpole
y Myers, 2007).

Las inferencias poblacionales se realizan a partir de las muestras que se logren obtener. Este
proceso trae consigo el error sistemático e imprecisiones ocasionadas por las variabilidades
del fenómeno de estudio (Henquin, 2013).

Con el fin de establecer si existe un nivel de significancia entre las variables y su estado de
asociación, se emplea el valor P, el cual por consenso de expertos se determinó que fuera de
0.05. (Manterola, Pineda, Grupo Mincir, 2008).

1.2.4. Análisis de datos categóricos

Los datos categóricos se emplean en el momento que una variable requiera ser medida por
medio de una escala. Por ejemplo la descripción del género, estado civil o afiliación
pensional. Estas variables generalmente se categorizan por estado natural, es decir, pueden
compararse con la variable dependiente o independiente, según el objeto de estudio.

13
Diplomado en Epidemiología Aplicada a
la Ingeniería Biomédica
Módulo 2

1.2.4.1. Comparación de proporciones por el Test X2 de Pearson

La ji-cuadrado de Pearson es una prueba estadística de contraste de hipótesis. Se utiliza para


analizar variables cualitativas, categóricas y proporciones en grupos de estudio
independientes. Para efectuar esta prueba se requiere de un número grande de observaciones
(Martínez-González, 2006). Un ejemplo de este análisis estadístico se desarrolla en el censo
que actualmente se lleva en Colombia, ya que tienen en cuenta las características
sociodemográficas de la población, su etnia, seguridad social, servicios básicos, entre otras
variables importantes para la toma de decisiones ante un política de salud pública.

1.2.4.2. Test exacto de Fisher

El test exacto de Fisher es la prueba exacta de Ji-cuadrado, ya que se utiliza para comparar
proporciones. Este test permite valorar las intervenciones que sean iguales o mayores a cinco
(Martínez-González, 2006). Una vez se hayan analizado las variables (edad, sexo, servicios
básicos, entre otras), se determina por el test exacto de Fisher en que proporciones se
encuentra en la población para emitir una propuesta que pueda favorecer positivamente a la
población.

1.3. Ejemplos

1.3.1. Ejemplo 1
Si el contenido en gramos de un determinado medicamento X sigue una distribución N (7.5;
0.3), calcular la probabilidad de que para una muestra de tamaño n=5, se obtenga un valor
medio menor que 7, Pr (X ≤ 7) (Martínez-González MA.2006).

A partir de una muestra de tamaño n=5 de una población normal N (µ=7.5, σ=0.3), tenemos
que:

14
Diplomado en Epidemiología Aplicada a
la Ingeniería Biomédica
Módulo 2

Donde Z tiene una distribución normal estándar, y por tanto, Pr ( X ≤7) = 0.0001

1.3.2. Ejemplo 2
Se estudiaron 40 muestras de aceite crudo de determinado proveedor, con el fin de detectar
la presencia del níquel mediante una prueba que nunca da un resultado erróneo. Si en 5 de
dichas muestras se observó la presencia de níquel, ¿podemos creerle al proveedor cuando
asegura que máximo el 8 % de las muestras contienen níquel? (Cuadras, 2016).
Llamemos p a la proporción de muestras que contienen níquel. Si la prueba nunca da un
resultado erróneo, la variable P0, representa la proporción positiva en 40 muestras.

Contrastamos la hipótesis

Nula H0: p = 0,08


Alternativa Ha: P>0,08

Al tratarse de un contraste unilateral con la región crítica a la derecha, la región corresponde


a valores de la distribución muestral superiores a Z0.95 = 1,645, si consideramos un nivel de
significación α = 0,05

En nuestro caso de modo que

15
Diplomado en Epidemiología Aplicada a
la Ingeniería Biomédica
Módulo 2

Con lo que no podemos rechazar la hipótesis nula. Llamaremos N al suceso que representa
la presencia de níquel. Como la prueba es positiva en el 80 % de los casos en que hay níquel
pero también en su ausencia, con probabilidad igual a 0,01, la probabilidad de que una prueba
resulte positiva es

Y ahora la variable Po, que representa la proporción muestral de pruebas positivas, y no la de


contenido real de níquel, satisface

La hipótesis pasa a ser

Considerando el mismo nivel de significación, tenemos que

Por lo cual se llega a la misma conclusión.

1.4. Ejercicio de reflexión


El encargado de un departamento de producción en una fábrica recibe un lote de 2 000 piezas
necesarias para la fabricación de un desfibrilador. El funcionario tiene la responsabilidad de
aceptar o rechazar el lote si estima que la calidad de este no es suficiente.
El fabricante asegura que en este lote no hay más de 100 piezas defectuosas. Sin embargo, el
encargado decide tomar una muestra para estimar la proporción de las mismas.

16
Diplomado en Epidemiología Aplicada a
la Ingeniería Biomédica
Módulo 2

a) ¿Cuántas piezas se deben examinar para que con un nivel de confianza del 95 %, el error
que se pueda cometer en la estimación de la proporción poblacional de piezas defectuosas no
sea mayor que 0.05?
b) Si el encargado decide tomar una muestra de 100 artículos escogidos al azar en el lote,
realiza el recuento de piezas defectuosas en esta muestra y encuentra 4 artículos defectuosos,
construya un intervalo de confianza a nivel de 95 % para la proporción defectuosa en el lote.
¿Se debe rechazar el lote? (Martínez-González, 2006).

1.6 Conclusiones
La descripción de los datos de una población la realiza la epidemiología desde el campo
clínico, la recolección de la información lo hace la vigilancia epidemiología y el tomar
decisiones lo realiza la salud pública. Sin embargo, lo que no sea demostrable no tiene validez
científica. Por ello, todas las variables de estudio deben someterse a una verificación
estadística.
El análisis estadístico sobre la identificación de las variables epidemiológicas del
comportamiento de una población, se denota con una intervención bioestadística, ya que esta
busca responder a las hipótesis planteadas por la causa epidemiológica, de tal forma que se
logre demostrar el desenlace positivo o negativo de la enfermedad.
La bioestadística soporta la interacción entre las fuerzas de asociación de las variables que
intervienen constantemente con los factores de riesgo, de tal forma que siempre se deben
estar proponiendo estrategias que requieren ser analizadas en términos probabilísticos.

Glosario
 Estadística: herramienta matemática utilizada para describir, recolectar, organizar,
analizar y tomar decisiones ante un evento de estudio.
 Población: conjunto de individuos que interactúan entre si y están sujetos a un
fenómeno de estudio.
 Muestra: representación participativa de la población.

17
Diplomado en Epidemiología Aplicada a
la Ingeniería Biomédica
Módulo 2

 Gráfica: representación esquemática entre dos o más variables.


 Distribución de frecuencia: tabulación de los datos que tienen mayor
representatividad en la muestra o población.
 Medidas de dispersión: Describen la variabilidad entre los datos de estudio.
 Intervalo de confianza: determina la variabilidad de los datos dentro de un rango
específico.
 Prueba de hipótesis: planteamiento a un posible evento que puede ser aceptado o
rechaza, esto depende de la pregunta de investigación.

18
Diplomado en Epidemiología Aplicada a
la Ingeniería Biomédica
Módulo 2

Referencias
Aguilar, S. (2006). Fórmulas para el cálculo de la muestra en investigaciones de salud. Salud
en Tabasco, 11(12), 333-338.

Celis, A., y Labrada, V. (2014). Bioestadística (3a. ed.). México D. F., México: El Manual
Moderno.
Cuadras, C. M. (2016). Problemas de probabilidades y estadística. Barcelona, España:
Edicions Universitat Barcelona.
Henquin, R. P. (2013). Epidemiología y estadística para principiantes. Buenos Aires,
Argentina: Corpus.
Manterola, C., Pineda, V., y Grupo Mincir. (2008). El valor de "p" y la "significación
estadística": Aspectos generales y su valor en la práctica clínica. Revista chilena de
cirugía, 60(1), 86-89.

Martínez-González M. A. (Ed.). (2006). Bioestadística amigable. Madrid, España: Ediciones


Díaz de Santos.

Walpole, R., Myers, S. (2007). Probabilidad y Estadística para la ingeniería y las ciencias.
8th ed. Texas University at San Antonio.

Bibliografía recomendada

Valiente, L. P., y Herranz, I. (2010). Bioestadística sin dificultades matemáticas: en busca


de tesoros escondidos. Madrid, España: Ediciones Díaz de Santos.

19

S-ar putea să vă placă și