Sunteți pe pagina 1din 9

Guía de Bioestadística Dr.

Julio Idrovo

2. INTRODUCCIÓN A LA TEORÍA DE PROBABILIDADES


2.1 Teoría de Conjuntos
Para poder entender los conceptos básicos del modelo probabilístico, es necesario tener algunas ideas de
la teoría matemática de conjuntos.
Por conjunto se entiende una colección de objetos, individuos, etc. Existen dos conjuntos que son
particularmente interesantes: el conjunto de todos los objetos, conocido como conjunto universo y
representado por U; y el conjunto que no contiene elementos o conjunto vacío, representado por .
A los conjuntos generalmente se los simboliza con letras mayúsculas y se los puede describir de tres
maneras:
1) A través de palabras.

a
2) Enumerando sus elementos.
3) A través de sus propiedades.

ic
Ejemplo: Si D es el conjunto de los dígitos:
A={dígitos menores que 6}
A={0,1,2,3,4,5}

st
A={x | xD; x<6}
Con los conjuntos se pueden realizar las siguientes operaciones:
(a) Unión A  B = {x|xA o xB}
(b) Intersección A  B = {x|xA y xB}

(c) Diferencia A  B = {x|xA y xB'}
Los gráficos siguientes muestran los diagramas de Venn para cada una de las operaciones entre conjuntos.
s ta
oe
Bi

Para los conjuntos A, B y C se cumplen las siguientes igualdades:


A  B = BA AB=BA
A(BC) = (AB)C A(BC) = (AB)C
A(BC) = (AB) (AC) A(BC) = (AB)(AC)
A U = U AU = A
A  = A A=
A A'= U A  A'= 
(A  B)' = A'  B' (A  B)' = A'  B'
(A')' = A A - B = A - (AB) = A  B'
El símbolo A' significa el complemento de A.
Guía de Bioestadística Dr. Julio Idrovo

Las notaciones conjuntistas tienen su correspondiente significado.


1) A  B 2) A  B
3) A - B 4) A  B
1) Unión: Ocurre A o B o ambos.
2) Intersección: Ocurren A y B simultáneamente.
3) Diferencia: Ocurre A pero no ocurre B.
4) Subconjunto: Si ocurre A necesariamente ocurre B.

2.2 Espacios muestrales y eventos


El espacio muestral se define como el conjunto de todos los resultados posibles de un experimento. Se lo
simboliza con la letra S. Es el equivalente del conjunto universo U indicado anteriormente.

a
Por ejemplo, si el experimento consistió en lanzar un dado normal y anotar su resultado, el espacio
muestral será S = {1,2,3,4,5,6}

ic
Un evento o suceso es un resultado posible del experimento, por lo tanto es un subconjunto del espacio
muestral. En el ejemplo anterior se puede definir el suceso A como la ocurrencia de un número par A =
{2,4,6}
Dos sucesos son mutuamente excluyentes cuando no pueden ocurrir juntos, es decir su intersección será

st
el conjunto vacío .

2.3 Métodos de enumeración


No siempre es fácil contar el número de elementos que se encuentran en un conjunto. Por ejemplo,

determinar cuantas parejas diferentes se pueden formar con un grupo de 100 personas implicaría una gran
inversión de tiempo si se contaría una por una. Con la finalidad de abreviar los cálculos, existen algunos
métodos de enumeración.

2.3.1 Principio de multiplicación


ta
Cuando un procedimiento I puede
n2
realizarse de n1 maneras y un
procedimiento II puede realizarse de
n2 maneras, y además cada una de las
s

n2
maneras de efectuar I puede ser
n1 seguida por cualquiera de las maneras
P n2 de efectuar II; entonces el
oe

experimento que consiste en realizar I


n2 seguido por II se puede hacer de n1*n2
maneras. Este es el denominado
I II
principio de multiplicación
representado esquemáticamente en la
k
figura. Si se generaliza para k procedimientos, el número total de maneras nT es: nT  n
Bi

i
i 1
Cuando los experimentos son complejos, es útil tener un método sistemático para obtener todos los
resultados posibles. Un método para hacerlo es el diagrama de árbol, que resulta útil cuando el
experimento puede visualizarse como si se produjera en unos pocos pasos o etapas diferentes. Cada paso
del experimento se representa como una ramificación del árbol El árbol se forma determinando primero
cuántas etapas están implicadas. En cada etapa las ramas del árbol representan las posibilidades en ese
momento determinado. Una vez completado el árbol, pueden leerse las secuencias de sucesos siguiendo
lo que se denominan “trayectorias” a lo largo del árbol.
Aplicaciones interesantes de los diagramas de árbol se realizan en genética elemental. Los rasgos
hereditarios de un organismo vienen determinados por unidades denominadas genes. Los genes están
conformados por dos alelos que se pueden contrastar. Por ejemplo, consideremos el gen que determina el
color de los ojos; este gen tiene dos alelos, B para castaños y b para azules. Entonces hay tres posibles
composiciones genéticas o genotipos para el color de los ojos. Estos son, BB, Bb y bb. Cuando dos
genes son de la misma forma, se dice que el organismo es homocigótico para esa característica; de lo
Guía de Bioestadística Dr. Julio Idrovo

contrario es heterocigótico. Una característica que se manifieste cuando está presente el alelo que la
controla, se denomina característica dominante y el alelo es un alelo dominante. Los alelos dominantes se
representan con letras mayúsculas y los recesivos con letras minúsculas. Para cada característica, la
descendencia hereda un gen aleatorio de cada uno de sus progenitores.
Ejemplo 1:
Cada uno de los miembros de una pareja tiene alelos tanto para ojos castaños como azules. Al momento
de la concepción, cada progenitor contribuye con un alelo para el color de los ojos. Por lo tanto, podemos
considerar el experimento de la determinación de color de los ojos del niño como un proceso en dos
etapas. La etapa 1 representa la herencia de un alelo de la madre; la etapa 2 representa la herencia de un
alelo del padre.
Madre Padre Trayectoria
B BB = castaños
B

a
b Bb = castaños
B bB = castaños
b

ic
b bb = azules

2.3.2 Principio de adición

st
Cuando un procedimiento I puede realizarse de
n1 maneras y un procedimiento II puede
realizarse de n2 maneras, y además no es
posible que los dos procedimientos se realicen

juntos; entonces el experimento que consiste en
realizar I o II se puede hacer de n1+ n2
maneras. Este es el denominado principio de
adición representado esquemáticamente en la
figura. Si se generaliza para k procedimientos,
ta
I II el número total de maneras nT es:

2.3.3 Permutaciones
s

Supongamos que tenemos n objetos diferentes. De cuántas maneras se pueden agrupar (permutar)
estos objetos?. Agrupar los n objetos es equivalente a ponerlos en una caja con n compartimientos, en
algún orden específico. Así el primer objeto tiene n casilleros disponibles, el segundo n-1, el tercero n-2,
oe

y así sucesivamente. Aplicando el principio de multiplicación se obtiene

Este número, tan común en matemáticas, se denomina n-factorial y se lo representa n!. Por definición
0!=1.
Cuando no se quieren tomar todos los objetos sino rn, se encuentra la siguiente expresión:
Bi

2.3.4 Permutaciones con no todos los objetos diferentes


Supongamos que tenemos n objetos tales que hay n1 de la clase 1, n2 de la clase 2, ..., nk de la clase k, en
donde n1+ n2.+..+nk = n. Entonces el número de permutaciones de esos objetos está dado por

2.3.5 Combinaciones
Consideramos nuevamente n objetos diferentes. Deseamos escoger r de esos objetos sin considerar el
orden. El número de maneras en que podemos hacerlo es el que es igual a
Guía de Bioestadística Dr. Julio Idrovo

2.4 Probabilidad
Sea S un espacio muestral asociado con un experimento. Con cada suceso A asociamos un número real
P(A) llamado la probabilidad de que A satisfaga las siguientes condiciones:
1) 0  P(A)  1
2) P(S) =1
3) P(AUB) = P(A) + P(B) (A y B mutuamente excluyentes)
Esta última condición puede generalizarse considerando An={sucesión disjunta de eventos}, entonces

a
ic
De las propiedades anteriores se puede demostrar que:

st
La probabilidad de ocurrencia de un evento se define como la razón entre el número de maneras en que se
verifica el evento y el número de resultados posibles del experimento.

2.5 Probabilidad condicional



Sean A y B dos eventos asociados con un experimento. Se indica con P(B|A) la probabilidad condicional
del evento B dado que se ha verificado A.
Cada vez que se calcula P(B|A), realmente se está calculando P(B) con respecto al espacio muestral
reducido de A en lugar del espacio muestral S. La probabilidad condicional se calcula mediante las
ta
siguientes ecuaciones:
s

Dos sucesos A y B se consideran independientes si


oe

Los eventos B1, B2, ..., Bk representan una partición del espacio muestral S si:
Bi

Esto significa que cuando se efectúa el experimento, ocurre uno y solo uno de los eventos Bi.
Un evento A con respecto a S y considerando una partición del espacio muestral puede escribirse como

por lo tanto
Considerando la probabilidad condicional se puede obtener el teorema de la probabilidad total.

2.6 Teorema de Bayes


Sea B1, B2, ..., Bk una partición de eventos del espacio muestral S y A cualquier evento con P(A)>0.
Entonces para cualquier i=1,2,..., k se tiene
Guía de Bioestadística Dr. Julio Idrovo

Este es el teorema de Bayes, conocido también como la fórmula para la probabilidad de las "causas".

2.7 Distribuciones de variables aleatorias


Sea X una variable aleatoria. Si el número de valores posibles de X es finito o infinito numerable, se dice
que X es una variable aleatoria discreta.
La función de probabilidad de X (discreta) satisface las propiedades:

a
Sea X una variable aleatoria. Se dice que X es una variable aleatoria continua si existe una función de
densidad de probabilidad (fdp) f(x) que satisface las siguientes condiciones:

ic
st
2.7.1 Distribución binomial

Una variable aleatoria que sigue la distribución , donde , se
dice que tiene una distribución binomial. La probabilidad de éxito en un intento se denomina p.
Hay cuatro características esenciales que tiene la distribución binomial:
ta
 En cada experimento se realizan n pruebas idénticas
 El resultado de cada prueba puede clasificarse como “éxito” o “fracaso”.
 Las pruebas son independientes, es decir el resultado de una prueba no influye sobre el resultado
de cualquier otra prueba y la probabilidad de éxito se mantiene constante.

s

La variable de interés es el número de éxitos en n pruebas.


Ejemplo 2:
Diez individuos, cada uno de ellos propenso a la tuberculosis, entran en contacto con un portador de la
oe

enfermedad. La probabilidad de que la enfermedad se contagie del portador a un sujeto cualquiera es de


0.10. ¿Cuántos se espera que contraigan la enfermedad? ¿Cuál es la probabilidad de que exactamente 3 se
contagien? ¿Cuál es la probabilidad de que al menos 2 se contagien?
Datos:
n=10
Bi

p=0.10
El valor esperado, E(X), para una distribución binomial está dado por np.

La probabilidad de que exactamente se contagien tres individuos está dada por:

La probabilidad de que al menos se contagien dos individuos está dada por:


Guía de Bioestadística Dr. Julio Idrovo

2.7.2 Distribución de Poisson


Las variables aleatorias de Poisson surgen en conexión con los denominados procesos de Poisson, los
cuales implican la observación de un conjunto discreto de sucesos en un intervalo continuo de tiempo,
longitud o espacio. Por ejemplo, podemos observar el número de glóbulos blancos en una gota de sangre.
El suceso de interés es la observación de un glóbulo blanco, mientras que el intervalo continuo implicado
es la gota de sangre.
La variable aleatoria de interés en un proceso de Poisson es X, el número de sucesos es un intervalo d
tamaño s. Consideremos las siguientes cuestiones:
 ¿Cuál es la unidad de medida básica en el problema?
 ¿Cuál es la media del número de ocurrencias del suceso por unidad? representa este valor.

a
 ¿Cuál es el tamaño del intervalo de observación? Este valor está representado por s.

ic
Se utiliza cuando la probabilidad de éxito en un intento (p) es muy pequeña y el número de intentos (n) es
alto.

st
Ejemplo 3:
El recuento de glóbulos blancos de un individuo sano puede presentar en promedio un valor mínimo de
6000 por milímetro cúbico de sangre. Para detectar una deficiencia de glóbulos blancos, se toma una gota
de sangre de 0.001 mm3 y se halla el número X de glóbulos blancos. ¿Cuántos glóbulos blancos cabe

esperar en un individuo sano? ¿Cuál es la probabilidad de encontrar a lo más dos?
Datos:
Sea el milímetro cúbico la unidad de medida, entonces s=0.001 y , la media de veces que tendremos un
suceso por cada unidad, es 6000.
ta
La probabilidad de encontrar a lo más dos glóbulos blancos está dada por:
s
oe

2.7.3 Distribución normal


Si la fdp para una variable aleatoria continua X está dada por , donde
, se dice que X está normalmente distribuida con media  y desviación estándar (también llamada
desviación típica) , lo cual se representa a través de .
Esta distribución tiene las siguientes características:
Bi

 La curva tiene forma de campana y es simétrica alrededor de la media.


 Los puntos de inflexión se encuentran a una desviación típica a cada lado de la media. Cuanto
más grande es , más lejos caen los puntos de inflexión y la curva es m

Puesto que esta función no se puede integrar analíticamente, se encuentran los valores tabulados para la
distribución normal estándar . Entonces es necesario convertir la variable aleatoria X en la
variable reducida Z; esto se logra mediante la transformación
Ejemplo 4:
Sea X la cantidad de radiación que puede ser absorbida por un individuo antes de que le sobrevenga la
muerte. Admitamos que X es normal, con una media de 500 roentgen y una desviación típica de 150
roentgen. ¿Cuál es la probabilidad de que la cantidad absorbida sea menor que 200 roentgen? ¿Por encima
de qué nivel de dosificación sobreviviría solamente el 5% de los expuestos?
Guía de Bioestadística Dr. Julio Idrovo

La variable es La probabilidad de que


la cantidad absorbida sea menor que 200 roentgen es
. Debemos convertir a la variable Z para
poder buscar la probabilidad en la tabla. La tabla da el
área (probabilidad) a la izquierda del punto z. Cuando
el área buscada está a la derecha, se realiza el cálculo
usando el complemento.

a
ic
Para resolver la segunda parte, buscamos el valor z al

st
que corresponde el área dada. En este caso se da el área
de 5% a la derecha lo que equivale a 95% a la izquierda.
Entonces tenemos y buscando en la
tabla se encuentra z=1.65. Ahora despejamos el valor de

.
ta

2.8 Ejercicios
1. Un tetrapéptido bioactivo (un compuesto formado por cuatro aminoácidos ligados en cadena) tiene
s

la siguiente dotación de aminoácidos: alanina (A), ácido glutámico (G), lisina (L) e histidina (H)
Por ejemplo ALGH y LGHA son cadenas típicas de cuatro ácidos.
a) Diseñar un diagrama en árbol para representar las formas posibles en las que estos cuatro
oe

aminoácidos pueden ligarse para formar una cadena de cuatro ácidos.


b) Si cada cadena es equiprobable, determinar la probabilidad del suceso A: se encuentra ácido
glutámico en uno u otro extremo de la cadena.
c) Determinar la probabilidad del suceso B: no se encuentra lisina en ningún extremo de la cadena.
2. Se planifica un experimento para estudiar el efecto de tres tipos de fertilizantes en el crecimiento
Bi

del trigo: Se prepara una parcela de tierra y se divide en tres franjas de igual tamaño. Se aplica un
fertilizante en cada una de las franjas. Denominamos a los fertilizantes A, B y C:
a) Diseñar un diagrama de árbol para representar las seis formas las que pueden asignarse los
fertilizantes a las franjas.
b) Si la asignación se ha realizado aleatoriamente de manera que cada trayectoria del diagrama de
árbol es equiprobable, ¿cuál es la probabilidad de que la primera franja reciba el fertilizante A?
3. El gato montés que vive en tierras de pastoreo públicas puede ser una amenaza para el ganado
vacuno y para las ovejas. Es interesante estimar el número de estos gatos monteses que viven en
una zona concreta. Diez son capturados, marcados y liberados. Más tarde, se capturan cuatro gatos
monteses y se clasifica a cada uno de ellos, según haya sido marcado (t) o no haya sido marcado
(u). Así, un resultado típico del experimento es tuut en el cual el primero y el último animal están
marcados mientras que el segundo y el tercero no.
a) Diseñar un diagrama en árbol para representar los 16 resultados posibles de este experimento.
b) Decir las trayectorias que correspondan al acontecimiento del suceso A: el primer y el último
Guía de Bioestadística Dr. Julio Idrovo

animal capturados están marcados.


c) Dar las trayectorias que correspondan al suceso B : están marcados exactamente tres animales.
d) Decir las trayectorias que correspondan al acontecimiento simultáneo de los sucesos A y B.
e) Si, de hecho, hay 100 gatos monteses viviendo en la región, ¿son equiprobables las 16
trayectorias a lo largo del árbol? De lo contrario, ¿qué trayectoria es más probable que se
produzca? ¿Cuál es la menos probable que se produzca?
4. Los melocotoneros dan frutos con pelusa y las nectarinas los dan suaves. El alelo para la pelusa es
dominante. Cada tipo de fruto puede ser amarillo o blanco siendo dominante el amarillo. Se cruza
un melocotonero blanco con una nectarina amarilla.
a) ¿Cuáles son los genotipos posibles para el melocotonero?
b) ¿Cuáles son los genotipos posibles para la nectarina?
c) Hay cuatro formas posibles de emparejar los genotipos de ambos árboles. Dibujar diagramas
en árbol para cada uno de ellos.

a
d) Utilizar los árboles de la parte c para hallar la probabilidad de obtener un melocotonero blanco
en cada caso.

ic
5. a) ¿Cuántas palabras de RNA que comiencen con U (uracilo) y terminen con A (adenina) o G
(guanina) pueden formarse? (Recuérdese que pueden utilizarse los cuatro riibonucleótidos —A, U,
G y C— y que una palabra está constituida por tres de ellos, no necesariamente diferentes.
b) ¿Cuántas de las palabras del apartado a no contienen ninguna repetición?

st
c) ¿Cuál es la probabilidad de que una palabra formada aleatoriamente empiece con U, termine
con A o con G y contenga alguna repetición?
d) Comprobar las soluciones construyendo el diagrama en árbol correspondiente a a y b.
6. Se está elaborando un estudio para investigar el efecto del tipo de polímero, la temperatura, la

dosis de radiación, la tasa de la dosis de radiación, y el pH en la capacidad para extraer los
vestigios de benceno del agua. Existen dos tipos de polímeros (Ay B), tres temperaturas (alta,
media, baja), tres dosis de radiación, tres tasas de las dosis de radiación y tres niveles de pH
(ácido, básico, neutro).
a) ¿Cuántas condiciones experimentales deberán estudiarse?
ta
b) Si cada condición experimental debe replicarse (repetirse) cinco veces, ¿cuántos ensayos
experimentales deberán realizarse?
c) ¿Cuántos ensayos se han de realizar con el polímero A a baja temperatura?
d) ¿Cuántos ensayos se han de realizar con el polímero B a alta o media temperatura y bajo pH?
s

7. Un investigador tiene ocho plantas para experimentar con ellas. Se están investigando dos
regímenes de riego diferentes. Estos son agua corriente (T) y agua ligeramente ácida (A) para
simular la lluvia ácida. Cuatro plantas reciben agua corriente y el resto la solución ácida. Una
oe

asignación típica de los tratamientos a las plantas es ATTTAATA ¿Cuán asignaciones posibles
hay?
8. Un químico tiene 10 muestras de agua tomadas de las aguas residuales de una fábrica de papel. Sin
saberlo el químico, cuatro de las muestras son excesivamente ácidas. En una selección aleatoria de
tres muestras, ¿cuál es la probabilidad de que exacta dos sean en exceso ácidas?
9. En la selva se han capturado, marcado y liberado diez osos. Más tarde, se captura una muestra de
Bi

ocho osos y se cuenta cuántos están marcados. Se supone que no es más probable que se capture
un oso que otro, por lo que cualquier conjunto de tamaño 8 tiene igual probabilidad. Supongamos
que la población de osos en la región asciende a 100.
a) ¿Cuántos subconjuntos de ocho pueden seleccionarse?
b) ¿Se sorprendería si no se hubiera capturado ningún oso marcado? Argumentarlo basándose en la
probabilidad de que ello ocurra.
c) ¿Cuál es la probabilidad de que los ocho osos estén marcados?
10. Un determinado análisis químico tiene un alcance más bien limitado. Generalmente, el 15% de las
muestras están demasiado concentradas para que puedan contrastarse sin llevar a cabo una dilución
previa, el 20% están contaminadas con algún material obstaculizante que deberá ser eliminado
antes de llevar a cabo el análisis. El resto puede ser analizado sin pretratamiento. Supongamos que
las muestras no están en ningún caso concentradas y contaminadas a la vez. ¿Cuál es la
probabilidad de que una muestra seleccionada aleatoriamente pueda ser contrastada sin
pretratamiento?
Guía de Bioestadística Dr. Julio Idrovo

11. El índice de contaminación atmosférica elaborado por una central meteorológica clasifica los días
como: extremadamente buenos, buenos, tolerables, malos o extremadamente malos. La
experiencia anterior indica que el 15% de los días se clasifican como extremadamente buenos, el
22% como buenos, el 18% como tolerables, el 8% como malos y el 2% como extremadamente
malos. Se emite un pronóstico de los días clasificados como malos o extremadamente malos.
¿Cuál es la probabilidad de que un determinado día elegido aleatoriamente esté incluido en ese
pronóstico?
12. Los árboles de Mount Mitchell y otras zonas del sur de los Apalaches se han visto afectados por la
polución. Supongamos que en una zona concreta el 40% de los árboles de hoja perenne presentan
enfermedades leves, el 15% enfermedades moderadas, el 10% están muy afectados, el 8% están
muertos y el resto no están afectados. Si se selecciona aleatoriamente un árbol para un estudio,
¿cuál es la probabilidad de que...
a) No esté afectado?
b) Como muy poco afectado?

a
c) Gravemente afectado o muerto?
d) Ni gravemente afectado ni muerto?

ic
13. Las aguas más comúnmente contaminadas son orgánicas. Puesto que la mayor parte de los
materiales orgánicos se descomponen por acción por acción de bacterias que requieren oxígeno, un
exceso de materia orgánica puede significar una disminución en la cantidad de oxígeno disponible.
Ello afecta eventualmente a otros organismos presentes en el agua. La demanda de oxígeno por
parte de una bacteria se llama demanda biológica de oxígeno (BOD).

st
14. Un estudio de las corrientes acuáticas que circulan en las proximidades de un complejo industrial
revela que el 35% tiene una alta BOD, el 10% muestra una acidez elevada y un 4% presenta ambas
características. ¿Son independientes los sucesos “la corriente tiene una alta BOD” y “la corriente
posee una acidez elevada”? Calcular la probabilidad de que la corriente tenga una acidez elevada,
dado que presenta una alta BOD.

15. Supongamos que una plaga afecta al 50% de todos los cornejos de un área dada. Se toma una
muestra de tres árboles y cada uno se clasifica como afectado por la plaga (s) o no afectado (n).
Dado que P(afectado) = P(no afectado), cada uno de los ocho resultados posibles tiene la misma
probabilidad.
ta
Dibujar un árbol para representar los ocho elementos muestrales.
Hallar P(al menos dos están afectados).
Hallar P(al menos dos están afectados | el primero está afectado)
Hallar P(exactamente dos están afectados | el primero está afectado)
s

16. En un estudio de aguas localizadas en las proximidades de centrales eléctricas y de otras plantas
industriales que vierten sus desagües en el hidrosistema, se ha llegado a la conclusión de que el 5%
muestra signos de contaminación química y térmica, el 40% de contaminación química y el 35%
oe

de contaminación térmica. Suponiendo que los resultados del estudio reflejen correctamente la
situación general, ¿cuál es la probabilidad de que un arroyo que muestra cierta contaminación
térmica presente también signos de contaminación química? ¿Cuál es la probabilidad de que un
arroyo que muestra cierta contaminación química no presente signos de contaminación térmica?
Bi

S-ar putea să vă placă și