Sunteți pe pagina 1din 31

Unidad 3

Variables y distribuciones
Beatriz Ranera
27 de diciembre, 2019

Contents
1.VARIABLES ALEATORIAS 2
1.1 VARIABLES DISCRETAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 VARIABLES CONTINUAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

1
En la unidad anterior se estudiaron los sucesos aleatorios y las probabilidades de que sucedieran. También
conceptos como el complmentario, la unión, la intersección, la probabilidad condicional y la indepencia.
El objetivo de esta unidad es estudiar las variables aleatorias y sus distribuciones de probabilidad.

1.VARIABLES ALEATORIAS
Si un suceso aleatorio, como obtener un genotipo Aa, dentro un espacio muestral S = {AA, Aa, aA, aa}, la
variable X es un número que enumera los resultados del experimento para cada uno de los sucesos de su
espacio muestral.

Ejemplo
En un cruzamiento de dos padres con genotipo AA y aa, se han obtenido los siguientes genotipos en la F1 . Si
se define la variable aleatoria, X (siempre se representan con letras en mayúsculas), como los genotipos de un
gen A bialélico, entonces:

 0

para genotipo AA
X= 1 para genotipo Aa
2 para genotipo AA

La variable aleatoria X asigna 0 al resultado del suceso AA, 1 al resultado del suceso Aa y 2 al resultado del
suceso aa. De esta manera, información cualitativa la estamos transformando en cuantitativa.
Si los sucesos son números, por ejemplo, el valor numérico al lanzar un dado (El espacio muestral de lanzar
un dado sería S = {1, 2, 3, 4, 5, 6}), el valor de la variable aleatoria coincidirá con el número del suceso.
Una variable aleatoria es una función, cuyo dominio es S y cuyo rango es el total de valores que puede
tomar esa variable. En el ejemplo del genotipo, el rango será {0, 1, 2} y en el del dado será {1, 2, 3, 4, 5, 6}.
Las variables aleatorias tienen asociadas las probabilidades asociadas a los posibles valores que puede tomar
la variable aleatoria. Así pues, la idea es pasar a hablar de la probabilidad de que la variable tome un valor
en concreto, en lugar, de la probabilidad de que ocurra un suceso en concreto.

Ejemplo
Se asume que las probabilidades de obtener los anteriores genotipos (cada uno, es un suceso) son:
• P(AA) = 0.49
• P(Aa) = 0.42
• P(aa) = 0.09
Si nos referimos a la variable aleatoria, X, que hace referencia a los genotipos del gen A, entonces las
probabilidades quedarían:

 0.49 para x=0


P (X = x) = 0.42 para x=1


0.09 para x=2

• P(X = 0) = 0.49
• P(X = 1) = 0.42
• P(X = 2) = 0.09
Efectivamente, las suma total de todas las probabilidades de que la variable aleatoria tome todos los valores
da como resultado 1.
Por tanto, a partir de ahora, cuando hablemos de probabilidades se estará haciendo referencia a la probabilidad
de que la variable aleatoria X tome el valor xi , P (X = xi ). Las leyes de la probabilidad estudiadas en el
tema anterior para los sucesos, se aplican a la probabilidad de las variables aleatorias.

2
Distribución de probabilidad
0.42
prob

0.09

0 1 2

Genotipos

Figure 1: Función Distribución de probabilidad

La distribución de probabilidad de una variable aleatoria especifica todos los valores posibles (el rango)
que esa variable puede tener y sus correspondientes probabilidades, como se muestra más arriba para la
variable genotipo para el gen A. La función que representa todos los valores posibles y sus probabilidades
tendrá distinto nombre en función del tipo de variable aleatoria con la que se trabaje.

Ejemplo
X <- c(0,1,2)
prob <- c(0.49, 0.42, 0.09)
plot(X,prob, type="h", xlab="Genotipos"
,axes = FALSE,frame.plot = TRUE,ylim = c(0,0.5)
,main="Distribución de probabilidad")
axis(side=1,at=X,labels=X)
axis(side=2,at=prob, labels=prob)
points(X,prob,pch=16,col="red")
abline(h=0, col="gray")

La función de distribución (DF) o función de distribución acumulada (CDF), es una función de


la variable aleatoria X, que describe la probabilidad que la variable X tenga un valor menor o igual que
x. Se utiliza para modelar como los resultados de las probabliidades están asociadas con los valores que
puede tomar la variable aleatoria. Esta función es igual independientemente del tipo de variable aleatoria. Su
notación es:

Fx (x)/F (x) = P (X ≤ x)

La función de distribución tiene dos propiedades:

3
Función de distribución acumulada
0.91
cumprob

0.49

0 1 2

Genotipos

Figure 2: Función Distribución acumulada

1. Si F es la función de distribución de la variable aleatoria X y si a < b, entonces:

P (a < X ≤ b) = F (b) − F (a)

Es decir, la probabilidad de el valor de la variable sea igual o mayor que a y menor o igual que b, es
igual a la resta del valor de la función en b con el valor de la función en a.
2. Si F es la función de distribución de la variable aleatoria X, entonces: 2.1 0 ≤ F (x) ≤ 1 2.2
F (x) ≤ F (y) si x < y
La forma de una función de distribución será:
cumprob<-cumsum(prob)
plot(X, cumprob, xlab="Genotipos"
,axes = FALSE,frame.plot = TRUE,ylim = c(0,1)
,main="Función de distribución acumulada",type="s")
axis(side=1,at=X,labels=X)
axis(side=2,at=cumprob, labels=cumprob)
abline(h=0, col="gray")

La forma de las distribuciones de probabilidad son diferentes según el tipo de variable aleatoria, siendo las
principales, las discretas y las continuas, recibiendo distintos nombres, mientras que será similar para la
función de distribución.
Antes de comenzar. . .
Inciso!!!!!!!!!!!!!!!
Durante la exploración de datos de un dataset, para cada columna, determinamos la distribución de las
frecuencias, es decir, con los datos reales de un experimento observamos como están repartidos, determinando

4
su localización y dispersión de esos datos. (Hay más datos acumulados en el centro, o a la derecha o a la
izquierda de un histograma).
En este tema estamos hablando de distribución de probabilidad, es decir, con datos reales obtenidos de
una población (si estamos haciendo de forma personal un experimento en unas condiciones con un tipo de
célula para mirar la expresión de sus genes, los valores obtenidos en el experimento, si están bien hechos
deben ser representativos para cualquier otra célula de ese tipo en las mismas condiciones; o si estudiamos
una característica en la población de Zaragoza, recopilamos información sobre una fracción de la ciudad, no
sobre todos los habitantes) se calculan unas probabilidades de que ocurran esos datos. Esas probabilidades
serían las equivalentes a las frecuencias, sin embargo, son valores teóricos.
En temas posteriores estudiaremos la inferencia, que trata de extrapolar los resultados obtenidos en muestras
de poblaciones a la población en general, y necesita, por tanto, de aplicar los resultados teóricos de cálculos
de probabilidad realizados sobre ellos.
Por tanto es importante introducir algunos conceptos similares a la exploración de datos, que también son
relevantes en el estudio de las probabilidades, para conocer su localización y dispersión:

ESPERANZA
Este parámetro es el valor medio de una variable aleatorio. Sería el equivalente a la media,µ.
Representa la cantidad promedio que se “espera” como resultado de un experimento aleatorio cuando la
probabilidad de cada suceso se mantiene constante y el experimento se repite un elevado número de veces.
En probabilidad se calcula como la suma de la probabilidad de que ocurra el valor, por el valor del mismo, en
todo el rango de la variable aleatoria.

n
X
E[X] = P (x1 ) · x1 + P (x2 ) · x2 + .... + P (xn ) · xn = P (xi ) · xi
i=1

VARIANZA
Este parámetro representa la dispersión de los datos.

V ar[X] = σ 2 = E[X 2 ] − E[X]2

1.1 VARIABLES DISCRETAS


Una variable discreta puede tomar cualquier valor entero, suele corresponderse a contajes realizados sobre
el experimento o fenómeno estudiado.
Su función de distribución de probabilidad se denomina función de masa de probabilidad o simplemente,
función de probabilidad.
Por tanto, una variable aleatoria discreta puede tomar un número infinito de valores x1 , x2 , x3 .... La función
de masa de probabilidad se denomina f (xi );i=1,2,3. . . que denota la probabilidad de obtener el valor xi .
(Vamos a distinguir, con f la función de masa de probabilidad).
Las funciones de masa de probabilidad cumplirán las siguientes condiciones:
a) fP(xi ) ≥ 0

b) i=0 f (xi ) = 1

Su valor se corresponde, con el valor de la probabilidad P (X = xi ), con el que venimos trabajando hasta
ahora.
La función de distribución acumulada para una varirable discreta se calculará a partir de la función de masa
de probabilidad: X
F (x) = f (xi )

5
A continuación, vamos a ver las distribuciones (función de distribución de probabilidad y función de distribución
acumulada) más importantes para las variables discretas, ya que nos van a ayudar a clasificar los tipos de
sucesos que representan las variables y a calcular sus probabilidades.

1.1.1 DISTRIBUCIÓN DE BERNOULLI


Las variables aleatorias de tipo binario son de las más abundantes en los estudios científicos. El resultado de
un experimento de tipo Bernoulli es uno de los dos sucesos mutuamente exclusivos y exhaustivos. Encajarían
en este tipo de distribución, los estados de salud (enfermo y sano), la supervivencia (muerto o vivo), o por
ejemplo, un gen que tiene dos posibles alelos (A y a).
La variable aleatoria X podrá tomar dos valores, 0 o 1, con probabilidad de ocurrir, P (X = 0) = p y
P (X = 1) = q respectivamente,

X ∼ Ber(p), 0≤p≤1

La función de masa de probabilidad (pmf) quedará expresada:

q para x = 0

P (X = x) =
p para x = 1

Si X fuera la variable aleatoria discreta que representa la supervivencia en cinco años de un paciente con
cáncer de mama, donde X = 1 fuera la supervivencia, y X = 0 la otra opción. Si P (X = 1) = 0.8, entonces
la probabilidad de no sobrevivir es P (X = 0) = 0.2.
Escribiríamos la distribución de Bernoulli como X ∼ Ber(0.8), y su pmf :

0.2 x=0

para
P (X = x) =
0.8 para x=1

La representación de la función sería:


X <- c(0,1)
prob <- c(0.2,0.8)
plot(X,prob, type="h", xlab="Supervivencia"
,axes = FALSE,frame.plot = TRUE,ylim = c(0,1)
,main="Distribución de probabilidad Bernoulli"
,ylab="Masa de probabilidad")
axis(side=1,at=X,labels=X)
axis(side=2,at=prob, labels=prob)
points(X,prob,pch=16,col="red")
abline(h=0, col="gray")

En este caso no existe la función de distribución, ya que al existir únicamente dos posibles sucesos que no
pueden ocurrir al mismo tiempo, no es posible calcular P (X ≤ xi ).
El valor de la esperanza será:

E[X] = p
En este ejemplo, la E[X] = 0.8.
Y la varianza se calcula como:

V ar[X] = p · q

6
Distribución de probabilidad Bernoulli
Masa de probabilidad

0.8
0.2

0 1

Supervivencia

Figure 3: pmf Distribución Bernoulli

En este ejemplo, la V ar[X] = 0.8 · 0.2 = 0.16. Esto reflejaría la extensa variabilidad de supervivencia de una
persona a otra.

1.1.2 DISTRIBUCIÓN BINOMIAL


En una secuencia de ensayos de Bernoulli, generalmente estaremos interesados en conocer el número de sucesos
favorables, independientemente del orden en el que ocurren. La distribución resultado de este fenómeno es la
distribución binomial.
Esto se traduce en una secuencia de variables aleatorias discretas binarias, X1 , X2 , X3 ..., Xn , que son
independientes, es decir, la probabilidad de que ocurra una variable no depende de que ocurra otra. Por
ejemplo, se planea recrutar un grupo de 50 pacientes con cáncer de mama y estudiar su supervivencia en
los siguientes 5 años al diagnóstico. La supervivencia de estos paciencies se representa con un grupo de 50
variables de Bernoulli, una para cada paciente, donde, desde X1 a X50 , los posibles resultados son 0 y 1, no
supervivencia o supervivencia, respectivamente.
La nueva variable Y representará el número de pacientes que han sobrevivido de los 50 del estudio.

n
X
Y = Xi
i

Valores que podrá tomar Y: desde 0 a 50 (no hay supervivencia en ningún paciente a han sobrevivido todos),
un grupo de datos contables, requisito para que Y sea una variable discreta.
La notación de una distribución binomial:
Y ∼ Bin(n, p), donde n es el número de variables de Bernoulli, (número de veces que se repite el mismo
experimento), y p la probabilidad constante que ocurra uno de los sucesos.

7
La función de masa de probabilidad (pmf) quedará expresada:

n
py q n−y , y = 0, 1, 2, ...n
 
P (Y = y) = y
0, cualquier otro caso
Para este ejemplo, Y ∼ Bin(50, 0.8)

50
px q n−y , y = 0, 1, 2, ...n
 
P (Y = y) = y
0, cualquier otro caso
La representación de la función sería:
# Vector de valores que va a tomar la y
y <- 1:50

# La función dbinom obtiene los valores de la función pmf


# para cada valor del vector y, duante 50 experimentos
# con la probabilidad indicada

probY <- dbinom(y, size=50, prob=0.8)

# Habitualmente el resultado se redondea a dos decimales


round(probY,2)

## [1] 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
## [16] 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
## [31] 0.00 0.00 0.01 0.02 0.03 0.05 0.08 0.10 0.13 0.14 0.14 0.12 0.09 0.06 0.03
## [46] 0.01 0.00 0.00 0.00 0.00
plot(y,probY, type="h", xlab="Supervivencia"
,axes = FALSE,frame.plot = TRUE,ylim = c(0,0.15)
,xlim=c(30,50)
,main="Distribución de probabilidad Binomial"
,ylab="Masa de probabilidad")
axis(side=1,at=y,labels=y)
axis(side=2,at=seq(0,014,0.02))
points(y,probY,pch=16,col="red")
abline(h=0, col="gray")

La función pmf especifica la probabilidad de obtener de 0 a 50 personas supervivientes. Atendiendo al


resultado, la L probabilidad de que sobrevivan 40 pacientes es del 0.14. El gráfico mostrado únicamente va de
30 a 50, ya que la probabilidad por debajo de 30 es prácticamente 0
Si se suman todas las probabilidades de todos los posibles resultados de la variable Y, el resultado a obtener
debe ser 1.
La función de distribución, se corresponderá con un la suma de los valores de la pmf hasta un valor dado
de la variable Y. Por ejemplo, la probabilidad de que haya hasta 42 supervivientes:

P (Y ≤ 42) = P (Y = 0) + P (Y = 1) + ... + P (42)

Para realizar este cálculo en R, se emplea la función pbinom


pbinom(42,size=50,prob=0.8)

## [1] 0.8095902

8
Distribución de probabilidad Binomial
Masa de probabilidad

0.12
0.08
0.04
0.00

30 32 34 36 38 40 42 44 46 48 50

Supervivencia

Figure 4: pmf Distribución Bernoulli

cumprobY<-cumsum(probY[1:43])
plot(y[1:43], cumprobY, xlab="Supervivencia"
,axes = FALSE,frame.plot = TRUE,ylim = c(0,1)
,main="Función de distribución acumulada",type="s")
axis(side=1,at=X,labels=X)
axis(side=2,at=seq(0,0.9,0.1))
abline(h=0, col="gray")

El valor de la esperanza será: La esperanza se calcula como:

E[X] = n · p
En este ejemplo, la E[X] = 50 · 0.8 = 40. En esta distribución, la esperenza podría dar como resultado un
número no entero.
Y la varianza se calcula como:

V ar[X] = 50 · 0.8 · 0.2 = 8

En este ejemplo, la V ar[X] = 0.8 · 0.2 = 0.16. Esto reflejaría la extensa variabilidad de supervivencia de una
persona a otra.
La interpretación de estos resultados mostraría que si reclutamos a 50 pacientes de cáncer de mama para un
estudio a 5 años de supervivencia, esperamos que 40 de los pacientes sobrevivian. El valor de la varianza
también pone de manifiesta que existen un variación extensa al rededor de esta media.

9
Función de distribución acumulada
0.8
cumprobY

0.6
0.4
0.2
0.0

Supervivencia

Figure 5: Función Distribución acumulada Binomial

1.1.3 DISTRIBUCIÓN DE POISSON


En una distribución de binomial existía un límite superior (el n), al ser una variable de conteo (cuantes
veces ocurre el suceso favorable). Sim embargo, hay otro tipo de variables que no tienen límite superior, por
ejemplo, número de veces que un anciano jubilado puede ir al médico. El rango de esta variable será entonces
los número enteros positivos sin especificar el límite superior. Estos tipos de variables se asume que siguen
una distribución de Poisson. Esta distribución se caracteriza porque n sea muy grande y la probabilidad
de éxito, p, sea pequeña.
Se define un nuevo parámetro, λ, que representa el ratio entre el número de veces que ocurre el suceso
esperado en un periodo o espacio limitado: λ = n · p.
Esta distribución se expresa como X ∼ P oi(λ), λ > 0.
La función de masa de probabilidad (pmf) quedará expresada:

e−λ λx
x = 0, 1, 2, ...n

P (X = x) = x!
0, cualquier otro caso
Pensando en un organismo que tiene diez genes, que pueden expresarse o no en un espacio de tiempo. El
número de genes expresándose en el organismo en un intervalo de tiempo sigue una distribución de Poisson,
con una media de 1.5.
La distribución de Poisson sería: X ∼ P oi(1.5).
Si ninguno de los dos genes se expresa, x = 0, si uno de los dos genes se expresa, entonces x = 1 y si dos se
expresan, x = 2..
La representación de la función sería:

10
Distribución de probabilidad Poisson
0.4
Masa de probabilidad

0.3
0.2
0.1
0.0

0 1 2 3 4 5 6 7 8 9 10

Genes expresados

Figure 6: pmf Distribución Poisson

# Vector de valores que va a tomar la x


x <- 0:10

# Lambda
lambda <- 1.5

# La función dpois obtiene los valores de la función pmf

probX <- dpois(x,lambda)

# Habitualmente el resultado se redondea a dos decimales


round(probX,2)

## [1] 0.22 0.33 0.25 0.13 0.05 0.01 0.00 0.00 0.00 0.00 0.00
plot(x,probX, type="h", xlab="Genes expresados"
,axes = FALSE,frame.plot = TRUE,ylim = c(0,0.4)
,main="Distribución de probabilidad Poisson"
,ylab="Masa de probabilidad")
axis(side=1,at=x,labels=x)
axis(side=2,at=seq(0,0.6,0.1))
points(x,probX,pch=16,col="red")
abline(h=0, col="gray")

La función de distribución, se corresponderá con un la suma de los valores de la pmf hasta un valor dado
de la variable Y. Por ejemplo, la probabilidad de que se expresen a la vez hasta 3 genes:

11
Función de distribución acumulada
0.8
cumprobX

0.6
0.4
0.2
0.0

0 1 2 3 4 5

Genes expresados

Figure 7: Función Distribución acumulada Poisson

P (X ≤ 5) = P (Y = 0) + P (Y = 1) + ... + P (5)

Para realizar este cálculo en R, se emplea la función pbinom


ppois(5, lambda)

## [1] 0.995544
cumprobX<-cumsum(probX[1:6])
plot(x[1:6], cumprobX, xlab="Genes expresados"
,axes = FALSE,frame.plot = TRUE,ylim = c(0,1)
,main="Función de distribución acumulada",type="s")
axis(side=1,at=x,labels=x)
axis(side=2,at=seq(0,0.9,0.1))
abline(h=0, col="gray")

Lo que ocurrirá es que lo más probable es que se o no se exprese ningún gen o uno o dos. Es altamente
improbable que se expresen más de 4 genes al mismo tiempo de esos 10.
La esperanza se corresponde con el valor de λ:

E[X] = λ

La varianza también se calcula como λ:

V ar[X] = λ

12
1.1.4 DISTRIBUCIÓN NEGATIVA BINOMIAL
Un experimento basado en una variable de Bernoulli se puede repetir n veces dando lugar a una distribución
binomial, como se ha estudiado antes. Existe una variante hasta distribución basada en el contaje de éxitos
obtenidos para la variable de Bernoulli. Si se considera r el número de éxitos, fijado de antemano, ≥ 1. La
probabilidad de que ocurra el suceso número r en los r + x experimentos realizados anteriomente a que ocurra
ese.
Se conoce como distribución negativa binomial, y viene dada por la notación X ∼ BinN eg(r, p).
El último experimento de una distribución negativa binomial debe ser un éxito, que será al que se le asigne la
probabilidad, p. Así que, en (x + r − 1) experimento, debemos tener (r − 1) éxitos cuya función de masa
de probabilidad es:

x+r−1
 
P (X = x) = · pr · q x
x

Pensemos en un organismo con un número elevado de genes, que pueden o no expresarse bajo una condición
determinada. De una experimentación anterior se conoce que un 5% (p = 0.05) de los genes pueden expresarse
en la condición experimental A. Una investigadora decide analizar de forma aleatoria expresión de genes de
ese organismo. Se podría determinar la probabilidad de analizar al menos 5 genes (P (X ≥ 5) = 1 − P (X ≤ 5))
para poder encontrar que dos (r = 2) están expresados en la condición experimental A. La distribución sería
X ∼ BinN eg(2, 0.05):

4
X
P (X ≥ 5) = 1−P (X ≤ 5) = 1− P (X = xi ) = 1−(P (X = 4)+P (X = 3)+P (X = 2)+P (X = 1)+P (X = 0))
x=0

Para cada probabilidad:

x+2−1
 
P (X = x) = · 0.052 · 0.95x
x
# Vector de valores que va a tomar la x
x <- 0:100

# La función dbinom obtiene los valores de la función pmf

probX <- dnbinom(x, size=2, prob=0.05)

# Habitualmente el resultado se redondea a dos decimales


round(probX,2)

## [1] 0.00 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.02 0.02 0.02 0.02 0.02
## [16] 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02
## [31] 0.02 0.02 0.02 0.02 0.02 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01
## [46] 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01
## [61] 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.00 0.00 0.00 0.00 0.00
## [76] 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
## [91] 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
plot(x,probX, type="h", xlab="Expresión dos genes"
,axes = FALSE,frame.plot = TRUE,ylim = c(0,0.02)
,main="Distribución de probabilidad Binomial Negativa"
,ylab="Masa de probabilidad")

13
Distribución de probabilidad Binomial Negativa
0.020
Masa de probabilidad

0.010
0.000

0 5 11 18 25 32 39 46 53 60 67 74 81 88 95

Expresión dos genes

Figure 8: pmf Distribución Binomial Negativa

axis(side=1,at=x,labels=x)
axis(side=2,at=seq(0,0.02,0.005))
points(x,probX,pch=16,col="red")
abline(h=0, col="gray")

La función de distribución se calculará con la función de R pnbinom. Y para este caso:


1-pnbinom(q=4,size = 2,prob = 0.05)

## [1] 0.9672262
Por tanto, la probabilidad de que se necesiten analizar al menos 5 genes antes de encontrar la expresión de 2
en la condición A, es del 96.7%.
cumprobX<-cumsum(probX[1:100])
plot(x[1:100], cumprobX, xlab="Expresión de dos genes"
,axes = FALSE,frame.plot = TRUE,ylim = c(0,1)
,main="Función de distribución acumulada",type="s")
axis(side=1,at=x,labels=x)
axis(side=2,at=seq(0,1,0.1))
abline(h=0, col="gray")

La esperanza se calculará como:

r·q
E[X] =
p
Y la varianza como:

14
Función de distribución acumulada
1.0
0.8
cumprobX

0.6
0.4
0.2
0.0

0 5 11 18 25 32 39 46 53 60 67 74 81 88 95

Expresión de dos genes

Figure 9: Función Distribución acumulada Binomial negativa

r·q
V ar[X] =
p2

1.1.5 DISTRIBUCIÓN GEOMÉTRICA


Dada una secuencia de experimentos con variables de Bernoulli, con una probabilidad p de obtener éxito en
cada experimento. Si el interés del estudio radica en determinar el primer éxito (no confundir con la binomial
negativa) después de obtener x fracasos.
La notación para expresar que una variable aleatoria sigue una distribución geométrica será X ∼ Geo(p).
La función de masa de probabilidad, pfm viene determinada por la siguiente fórmula:

q x · p x = 0, 1, 2, ...n

P (X = x) =
0, cualquier otro caso

Si pensamos en un científico tratando de crear una mutación en los genes de Drosophila melanogaster con
radiación, la cual induce la creación de pequeñas deleciones de DNA en los cromosomas. Cada vez que se
irradia a Drosophila hay un 0.10 de probabilidad de producir una mutación. Se quiere saber la probabilidad
de que a la tercera vez que se irradie se tenga una mutación.
La distribución que determina que se tenga la especie mutada es X ∼ Geo(0.10), y x = 2, que será el número
de exprimentos que se han tenido que realizar hasta que se obtiene la mutación.

P (X = 1) = 0.92 · 0.1 = 0.081

La representación de la pfm:

15
Distribución Geométrica
0.2
Masa de probabilidad

0.1
0.0

0 1 2 3 4 5 6 7 8 9 11 13 15 17 19

Obtener mutación

Figure 10: pmf Distribución Geométrica

# Vector de valores que va a tomar la x


x <- 0:20

# La función dbinom obtiene los valores de la función pmf


probX <- dgeom(x, prob=0.1)

# Habitualmente el resultado se redondea a dos decimales


round(probX,2)

## [1] 0.10 0.09 0.08 0.07 0.07 0.06 0.05 0.05 0.04 0.04 0.03 0.03 0.03 0.03 0.02
## [16] 0.02 0.02 0.02 0.02 0.01 0.01
plot(x,probX, type="h", xlab="Obtener mutación"
,axes = FALSE,frame.plot = TRUE,ylim = c(0,0.2)
,main="Distribución Geométrica"
,ylab="Masa de probabilidad")
axis(side=1,at=x,labels=x)
axis(side=2,at=seq(0,1,0.1))
points(x,probX,pch=16,col="red")
abline(h=0, col="gray")

La función de distribución se calculará con la función de R pgeom. Su representación sería:


cumprobX<-cumsum(probX[1:20])
plot(x[1:20], cumprobX, xlab="Obtener mutación"
,axes = FALSE,frame.plot = TRUE,ylim = c(0,1)
,main="Función de distribución acumulada",type="s")

16
Función de distribución acumulada
1.0
0.8
cumprobX

0.6
0.4
0.2
0.0

0 1 2 3 4 5 6 7 8 9 11 13 15 17 19

Obtener mutación

Figure 11: Función Distribución acumulada Geométrica

axis(side=1,at=x,labels=x)
axis(side=2,at=seq(0,1,0.1))
abline(h=0, col="gray")

La esperanza se calcularía con la expresión:

q
E[X] =
p

Notar, que es igual que para la distribución binomial negativa cuando r = 1.


La varianza se obtendrá de la siguiente manera:

q
V ar[X] =
p2

Notar, que es igual que para la distribución binomial negativa cuando r = 1.

1.2 VARIABLES CONTINUAS


Una variable continua puede tomar cualquier valor, suele corresponderse a resultados cuantitativos
realizados sobre el experimento o fenómeno estudiado. A diferencia de las variables discretas el número de
posibles valores que pude tomar es incontable. De forma que para calcular la probabilidad de estas variables,
no se estudia la probabilidad de obtener un valor en concreto, sino que se suele hablar de la probabilidad de
que el valor esté en un un intervalo, de x1 a x2 , P (x1 < X ≤ x2 ), ya que la probabilidad de obtener un
valor en concreto es prácticamente 0.

17
Su función de distribución de probabilidad se denomina función de densidad de probabilidad(pdf ) o
simplemente, función de densidad. Y va a resultar extremadamente útil para determinar las probabilidades
en un intervalo dado.
Las funciones de densidad dan información también sobre regiones de alta y baja probabilidad, a través de las
alturas que pueda tomar la función para distintos xi . El área total debajo de una función de densidad es 1,
de forma, que el área entre dos intervalos, será la probabilidad de que la variable pueda estar en ese intervalo,
lo que se corresponde con la función de distribución de probabilidad. Estas funciones, se corresponden
con integrales del tipo:
Z ∞
F (X) = P (X ≤ x) = f (x)dx, −∞ < x < +∞
−∞

Donde f (x) será la función de densidad que corresponda para cada tipo de distribución.
Vamos a ver estos conceptos con un ejemplo, que aunque sigan un tipo de distribución en concreto, se
extrapola para todos los casos:
Tenemos los datos de índice de masa corporal de 100 españoles de distintas regiones:
# Creamos los datos
imc <- seq(from=10, to=40,length = 1000)
# Se calcula la función de densidad
fimc <- dnorm(imc,mean=25,sd=4)
# Representamos
plot(imc,fimc,xlab="IMC",ylab="Density",type="l",
main="Variable continua")

Variable continua
0.10
0.08
0.06
Density

0.04
0.02
0.00

10 15 20 25 30 35 40

IMC

En el caso de las variables continuas, la probabilidad de obtener un valor único es siempre 0. El valor de

18
Variable continua
0.08
Density

0.04
0.00

10 15 20 25 30 35 40

IMC

Figure 12: pdf Distribución Variable continua

densidad que vemos, por ejemplo a 25, que podríamos pensar que tendría un valor cercano a 0.10, no es tal,
ya que la variable es continua y no discreta. Es obligatorio siempre hablar en términos de intervalos, por
ello, para observar la probabilidad de que un valor de IMC estuviera entre 20 y 25, sería preciso aplicar la
correspondiente función de probabilidad.
pnorm(30,mean=25,sd=4) - pnorm(25,mean=25,sd=4)

## [1] 0.3943502
izq <- 20
dcha <- 25
intervalo <- seq(izq,dcha,by=0.05)
intervaloy<- dnorm(intervalo,mean=25,sd=4)

plot(imc,fimc,xlab="IMC",ylab="Density",type="l",
main="Variable continua")
polygon(c(intervalo,intervalo[length(intervalo)],intervalo[1]),c(intervaloy,0,0),col='red')

A continuación, vamos a ver las distribuciones (función de densidad de probabilidad y función de distribución
acumulada) más importantes para las variables continuas, ya que nos van a ayudar a clasificar los tipos de
sucesos que representan las variables y a calcular las probabilidades de que una variable pueda estar en un
intervalo.

1.2.1 DISTRIBUCIÓN RECTÁNGULAR O UNIFORME


Una variable continua X con distribución uniforme, X ∼ U (a, b), viene dada por la siguiente función de
densidad de probababilidad:

19
Distribución uniforme
0.04
Density

0.02
0.00

0 10 20 30 40 50

tiempo

Figure 13: pdf Distribución Uniforme

1

a<x<b
f (x) = b−a
0, cualquier otro caso

En un ejemplo para ilustrar un caso de distribución uniforme. Supongamos un organismo, en el cual ocurre
una replicación semiconservativa cada media hora, y una científica decide observar este fenómeno para su
investigación. La probabilidad de que esta persona tenga que esperar al menos 20 minutos para observar una
de estas replicaciones seguiría una distribución uniforme que vendría dada por X ∼ U (0, 30), siendo X el
tiempo de espera para la siguiente replicación.
La función de densidad quedaría:

1
0 < x < 30

f (x) = 30
0, cualquier otro caso

Y su representación se correspondería con el gráfico:


x <- seq(1,50, by=1)
izq <- 0
dcha <- 30
intervalo <- seq(izq,dcha,by=0.05)
intervaloy<- dunif(intervalo,max = 30 ,min = 0)
probX <- dunif(x,max = 30 ,min = 0)

plot(x,probX,xlab="tiempo",ylab="Density",type="l",
main="Distribución uniforme",ylim = c(0,0.05))
polygon(c(intervalo,intervalo[length(intervalo)],intervalo[1]),c(intervaloy,0,0),col='red')

20
La probabilidad de que tuviera que esperar al menos 20 minutos, vendría dada por la función de R ‘punif. Se
correspondería con la expresión P (X ≥ 20) = P (20 < X ≤ 30) = P (X ≤ 30) − P (X ≤ 20)
punif(30,min = 0, max = 30) - punif(20, min = 0, max = 30)

## [1] 0.3333333
O sea, tiene un 33.33% de posibilidad.
La esperanza se calcularía como:

b+a
E[X] =
2
Mientras que la varianza sería:

(b − a)2
V ar[X] =
12

Siendo en este caso del ejemplo, E[X] = 15 con una varianza de V ar[X] = 75

1.2.2 DISTRIBUCIÓN NORMAL


Es la DISTRIBUCIÓN de la teoría de la estadística moderna. Fue descubierta en 1733 por Moivre, como
un caso limitante de la distribución binomial. Laplace la generalizó en su libro matemático, pero por un error
histórico, siempre se le ha asignado el mérito a Gauss, que hizo referencia a ella a primeros del siglo XIX
para hablar de la distribución de los errores de las órbitas de los cuerpos celestes pesados en astronomía.
Es la distribución que se observa que tiene lugar en la naturaleza
Una variable aleatoria continua, X, sigue una distribución normal, X ∼ N (µ, σ 2 ), viene dada por la siguiente
función de densidad de probababilidad:
" 2 #
1 1 x−µ

f (x) = √ e · −
σ 2π 2 σ

La variable puede tomar cualquier valor, siendo su rango de −∞ a +∞. Y su forma es igual a la de una
distribución binomial, pero en este caso el rango es abarca todos los números y no un número finito. µ y σ
son dos parámetros, que se corresponden con la media de esa variable continua y su desviación estándar. En
una distribución normal estándar los parámetros tendrán el valor de 0 y 1, respectivamente.
Supongamos los datos anteriores del índice de masa corporal, vamos a crear la distribución de datos nosotros
mismos.
set.seed(123)
imc <- rnorm(n = 100, mean = 25, sd = 4)

# Explorar la dispersión de los datos observando la densidad de sus valores


# en un histograma
intervalos <- seq(min(imc),max(imc),length.out = 12)

hist(imc, xlab="Índice masa corporal",freq = FALSE, xlim=c(10,40),


breaks=intervalos)

Ahora veamos representada su función de densidad de probabilidad:

21
Histogram of imc
0.08
Density

0.04
0.00

10 15 20 25 30 35 40

Índice masa corporal

Figure 14: Histograma de datos distribución normal

probIMC <- dnorm(sort(imc),mean = 25, sd=4)

plot(sort(imc),probIMC,xlab="Índice masa corporal",ylab="Density",type="l",


main="Distribución normal",ylim = c(0,0.1),col="purple",lwd="2")
abline(h=0, col="gray")

La forma de la función de densidad coincide con la forma que toma el histograma. Al seguir una distribución
normal las probabilidades de los valores de la variable, entonces se dice que la variable sigue una distribución
normal. Hay que tener en cuenta que los valores de densidad apreciados en el histograma no son exactamente
iguales a los valores de las probabilidades para los intervalos a estudiar.
x <- imc
hist(imc, xlab="Índice masa corporal",freq = FALSE, xlim=c(10,40),
breaks=intervalos)
curve(dnorm(x,mean=25,sd=4),col="purple",lwd="2",add = TRUE)

En una distribución normal, a medida que se aumenta el número de observaciones en una variable, su
histograma se ajusta cada vez mejor a la curva descrita por la pdf.
set.seed(123)
imc500 <- rnorm(n = 500, mean = 25, sd = 4)
x<-imc500

# Explorar la dispersión de los datos observando la densidad de sus valores


# en un histograma
intervalos <- seq(min(imc500),max(imc500),length.out = 20)

22
0.08 Distribución normal
Density

0.04
0.00

20 25 30

Índice masa corporal

Figure 15: pdf Distribución Normal

Histogram of imc
0.08
Density

0.04
0.00

10 15 20 25 30 35 40

Índice masa corporal

Figure 16: pdf Distribución Uniforme

23
Histogram of imc500
0.12
0.08
Density

0.04
0.00

10 15 20 25 30 35 40

Índice masa corporal

Figure 17: Histograma de datos distribución normal

hist(imc500, xlab="Índice masa corporal",freq = FALSE, xlim=c(10,40),


breaks=intervalos)
curve(dnorm(x,mean=25,sd=4),col="purple",lwd="2",add = TRUE)

La función de distribución se calculará con la función pnorm


plot(sort(imc), pnorm(sort(imc),mean=25,sd=4), xlab="Obtener mutación",
ylab="Probabilidad acumulada"
,axes = FALSE,frame.plot = TRUE,ylim = c(0,1)
,main="Función de distribución acumulada",type="s")
axis(side=1)
axis(side=2,at=seq(0,1,0.1))
abline(h=0, col="gray")

Le corresponde una forma de curva sigmoidal.


La esperanza se corresponde con el valor del parámetro de la media, µ:

E[X] = µ

La varianza es igual al valor de σ 2

V ar[X] = σ 2

Dado que numerosos de los experimentos y datos que tengamos que analizar en el futuro van a estar basados
en la que nuestros datos sigan una distribución normal, estudiemos algunas de las propiedades de la curva de
densidad:

24
Función de distribución acumulada
1.0
Probabilidad acumulada

0.8
0.6
0.4
0.2
0.0

20 25 30

Obtener mutación

Figure 18: Función Distribución acumulada Normal

• Tiene forma de campana.


• La media, la mediana y la moda de la distribución coinciden.
• El eje de las x es la asíntota horizontal de la curva.
• Las distribuciones discretas como la binomial o Poisson pueden ser aproximarse a la distribución normal
• Otras distribuciones, referentes al muestreo como t de Student, F de Snedecor o Chi-cuadrado tienden
a una distribución normal cuando los tamaños de muestra son grandes.
• Si una variable no está distribuída normalmente, seguramente sea posible convertirla por medio de una
transformación de la variable.
• Toda la teoría de los tests de muestras pequeñas, están basados en la presunción de que la población
original viene de una distribución normal.
• El punto de inflexión de la curva, es decir, donde la curva cambia de creciente a decreciente está
determinada por el valor de:

[µ ± σ]
• Se puede calcular la probabilidad del rango de los valores más habituales en una distribución normal
por esta regla:
A 1σ de distancia de µ, están el 68% de los valores.

P (µ − σ < X < µ + σ) = 0.6826

izq <- 21
dcha <- 29
intervalo <- seq(izq,dcha,by=0.05)
intervaloy<- dnorm(intervalo,mean=25,sd=4)

25
Distribución normal
0.08
Density

σ σ
0.04
0.00

10 15 20 25 30 35 40

IMC

Figure 19: pdf Distribución Normal

set.seed(123)
imc <- rnorm(n=5000,mean=25,sd=4)
imc <- sort(imc)
plot(imc,dnorm(imc,mean=25,sd=4),xlab="IMC",ylab="Density",type="l",
main="Distribución normal",xlim=c(10,40))
abline(v=25, lty="dashed")
segments(x0 = izq,y0 = 0.06,x1 = dcha,y1 = 0.06, lty="dashed")
polygon(c(izq,intervalo,dcha),c(0,intervaloy,0),col=adjustcolor("#33ff99",alpha.f = 0.3))
text(23,0.055,expression(sigma))
text(27,0.055,expression(sigma))

A 2σ de distancia de µ, están el 95% de los valores.

P (µ − 2σ < X < µ + 2σ) = 0.9544


izq <- 17
dcha <- 33
intervalo <- seq(izq,dcha,by=0.05)
intervaloy<- dnorm(intervalo,mean=25,sd=4)
set.seed(123)
imc <- rnorm(n=5000,mean=25,sd=4)
imc <- sort(imc)
plot(imc,dnorm(imc,mean=25,sd=4),xlab="IMC",ylab="Density",type="l",
main="Distribución normal",xlim=c(10,40))
abline(v=25, lty="dashed")
segments(x0 = izq,y0 = 0.0135,x1 = dcha,y1 = 0.0135, lty="dashed")

26
Distribución normal
0.08
Density

0.04

2σ 2σ
0.00

10 15 20 25 30 35 40

IMC

Figure 20: pdf Distribución Normal

polygon(c(izq,intervalo,dcha),c(0,intervaloy,0),col=adjustcolor("#33ff99",alpha.f = 0.3))
text(20,0.019,expression(2*sigma))
text(30,0.019,expression(2*sigma))

A 3σ de distancia de µ, están el 99,7% de los valores.

P (µ − 3σ < X < µ + 3σ) = 0.9973

izq <- 13
dcha <- 37
intervalo <- seq(izq,dcha,by=0.05)
intervaloy<- dnorm(intervalo,mean=25,sd=4)
set.seed(123)
imc <- rnorm(n=5000,mean=25,sd=4)
imc <- sort(imc)
plot(imc,dnorm(imc,mean=25,sd=4),xlab="IMC",ylab="Density",type="l",
main="Distribución normal",xlim=c(10,40))
abline(v=25, lty="dashed")
segments(x0 = izq,y0 = 0.0011,x1 = dcha,y1 = 0.0011, lty="dashed")
polygon(c(izq,intervalo,dcha),c(0,intervaloy,0),col=adjustcolor("#33ff99",alpha.f = 0.3))
text(20,0.007,expression(3*sigma))
text(30,0.007,expression(3*sigma))

27
Distribución normal
0.08
Density

0.04

3σ 3σ
0.00

10 15 20 25 30 35 40

IMC

Figure 21: pdf Distribución Normal

1.2.3 DISTRIBUCIONES NO NORMALES


Existen variables continuas que no siguen una distribución normal. Dentro de este grupo de distribuciones se
encuentran la distribución exponencial y la chi-cuadrado.

1.2.3.1 DISTRIBUCIÓN EXPONENCIAL


Es la distribución exponencial, X ∼ Exp(λ), en la que se encajan los modelos de tiempo de espera, como por
ejemplo, determinar el decaímiento de la actividad radiactiva de una molécula. Es un caso particular de la
distribución gamma, y tiene por pdf la siguiente fórmmula:

λe−λx , x ≥ 0

f (x) =
0, cualquier otro caso

Esta distribución está relacionada con la distribución de Poisson. Si ésta determinaba la probabilidad de un
suceso durante un determinado espacio o tiempo, el tiempo de espera hasta que el suceso tenga lugar viene
determinado por esta distribución.
Por ejemplo, en una división celular, una célula parental se divide para dar dos células hijas. Si la división
celular ocurre siguiendo un modelo de distribución de Poisson, cada 6 minutos se producen dos divisiones
celulares. La representación de la función de densidad será la siguiente:
x <- rexp(50,rate=1/3)

plot(sort(x), dexp(sort(x),rate = 1/3), xlab="Tiempo",ylab="Density",type="l",


main="Distribución exponencial")
abline(h=0, col="gray")

28
Distribución exponencial
0.30
0.20
Density

0.10
0.00

0 2 4 6 8 10 12

Tiempo

Figure 22: Función Distribución Exponencial

Para determinar la probabilidad de que tengan que pasar al menos 5 minutos hasta que la primera división
celular tenga lugar se aplica la función de distribución para la exponencial.
Según el problema, cada 6 minutos hay dos divisiones, por tanto, λ = 1
3

P (X > 5) = 1 − P (X ≤ 5)
De forma que se puede calcular con la función de R pexp
1-pexp(5, rate=1/3)

## [1] 0.1888756
El valor de la esperanza se calcula como

1
E[X] =
λ
El valor de la varianza se calcula como

1
V ar[X] =
λ2

1.2.3.2 DISTRIBUCIÓN CHI-CUADRADO


La distribución chi-cuadrado, X ∼ χ2 , es la distribución a la que se ajustan las variables categóricas o cuando
se desea explorar la relación entre dos variables, también, categóricas, ya que evalúa las probabilidades de
que diferentes categorías sean iguales a los valores que se establecen en las hipótesis nulas.

29
Su función densidad de probabilidad también está relacionada con la función de distribución gamma, y
su expresión es:

1 n
(
n
1
e− 2 x x 2 −1 , 0 <x<∞
f (x) = 2 2 Γ( 12 )
0, cualquier otro caso

Donde n representa el número de variables.


La función de distribución vendrá dada por el comando de R, pchisq.
El valor de la esperanza es

E[X] = n

Y la varianza es

V ar[X] = 2n
Esta distribución se retomará más adelante con el contraste de hipótesis.

1.2.4 DISTRIBUCIONES REFERENTES AL MUESTREO


Hay una serie de distribuciones de interés que están relacionadas al muestreo y que son de gran importancia
en la inferencia estadística. Surgen para intentar solventar el problema que constituye estimar medias de una
población grande cuando la muestra que se tiene es pequeña.

1.2.4.1 DISTRIBUCIÓN t-STUDENT


La distribución de student tiene características similares a la distribución normal estándar. Describe la
distribución que sigue la media en una muestra tomada de una población. La población mayor, habitualmente
sigue una distribución normal. Se suele determinar cuando la desviación poblacional es desconocida.
Su función de densidad tiene la siguiente forma

Γ( df2+1 ) x2 −(df +1)


f (x) = √ (1 + ) 2 , df > 0
df πΓ( df2 ) df
donde cabe destacar que lo más importante es df , los grados de libertad. Los grados de libertad son números
positivos que vienen determinados por el númer ode valores que pueden ser asignados de forma arbitraria
antes de que el resto de variables tomen un valor automáticamente, determinado por n − r, donde n es el
número de sujetos de la muestra y r el número de sujetos cuyo valor es dependiente de los anteriores.
Un ejemplo de como calcular los grados de libertad, queremos crear un Sudoku, podremos elegir donde poner
libremente 8 de los números, pero el último será obligatoriamente el que no hayamos puesto, por lo tanto
n = 9 y r = 1, el número de grados de libertad será 8.
En un ejemplo más estadístico, si tenemos una población de 1000 personas y conocemos que la media de
su peso es 65 kg y queremos escoger una muestra representativa de la población, digamos de 20 personas,
podremos escoger libremente 19 personas, ya que la última deberá ser escogida para que se cumpla que la
media de la muestra poblacional es 65 kg.
La forma de la pdf de la distribución t-Student es
x <- rt(50,df=5)

plot(sort(x), dt(sort(x),df=4), xlab="X",ylab="Density",type="l",

30
Distribución t−Student
0.3
Density

0.2
0.1
0.0

−2 0 2 4 6

Figure 23: Función Distribución t-Student

main="Distribución t-Student")
abline(h=0, col="gray")

La función de distribución se calcula por medio de la función de R, pt.


La esperanza de la distribución es 0.
La varianza, únicamente definida cuando df > 2, es

df
V ar[X] =
df − 2

31

S-ar putea să vă placă și