Documente Academic
Documente Profesional
Documente Cultură
Variables y distribuciones
Beatriz Ranera
27 de diciembre, 2019
Contents
1.VARIABLES ALEATORIAS 2
1.1 VARIABLES DISCRETAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 VARIABLES CONTINUAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1
En la unidad anterior se estudiaron los sucesos aleatorios y las probabilidades de que sucedieran. También
conceptos como el complmentario, la unión, la intersección, la probabilidad condicional y la indepencia.
El objetivo de esta unidad es estudiar las variables aleatorias y sus distribuciones de probabilidad.
1.VARIABLES ALEATORIAS
Si un suceso aleatorio, como obtener un genotipo Aa, dentro un espacio muestral S = {AA, Aa, aA, aa}, la
variable X es un número que enumera los resultados del experimento para cada uno de los sucesos de su
espacio muestral.
Ejemplo
En un cruzamiento de dos padres con genotipo AA y aa, se han obtenido los siguientes genotipos en la F1 . Si
se define la variable aleatoria, X (siempre se representan con letras en mayúsculas), como los genotipos de un
gen A bialélico, entonces:
0
para genotipo AA
X= 1 para genotipo Aa
2 para genotipo AA
La variable aleatoria X asigna 0 al resultado del suceso AA, 1 al resultado del suceso Aa y 2 al resultado del
suceso aa. De esta manera, información cualitativa la estamos transformando en cuantitativa.
Si los sucesos son números, por ejemplo, el valor numérico al lanzar un dado (El espacio muestral de lanzar
un dado sería S = {1, 2, 3, 4, 5, 6}), el valor de la variable aleatoria coincidirá con el número del suceso.
Una variable aleatoria es una función, cuyo dominio es S y cuyo rango es el total de valores que puede
tomar esa variable. En el ejemplo del genotipo, el rango será {0, 1, 2} y en el del dado será {1, 2, 3, 4, 5, 6}.
Las variables aleatorias tienen asociadas las probabilidades asociadas a los posibles valores que puede tomar
la variable aleatoria. Así pues, la idea es pasar a hablar de la probabilidad de que la variable tome un valor
en concreto, en lugar, de la probabilidad de que ocurra un suceso en concreto.
Ejemplo
Se asume que las probabilidades de obtener los anteriores genotipos (cada uno, es un suceso) son:
• P(AA) = 0.49
• P(Aa) = 0.42
• P(aa) = 0.09
Si nos referimos a la variable aleatoria, X, que hace referencia a los genotipos del gen A, entonces las
probabilidades quedarían:
• P(X = 0) = 0.49
• P(X = 1) = 0.42
• P(X = 2) = 0.09
Efectivamente, las suma total de todas las probabilidades de que la variable aleatoria tome todos los valores
da como resultado 1.
Por tanto, a partir de ahora, cuando hablemos de probabilidades se estará haciendo referencia a la probabilidad
de que la variable aleatoria X tome el valor xi , P (X = xi ). Las leyes de la probabilidad estudiadas en el
tema anterior para los sucesos, se aplican a la probabilidad de las variables aleatorias.
2
Distribución de probabilidad
0.42
prob
0.09
0 1 2
Genotipos
La distribución de probabilidad de una variable aleatoria especifica todos los valores posibles (el rango)
que esa variable puede tener y sus correspondientes probabilidades, como se muestra más arriba para la
variable genotipo para el gen A. La función que representa todos los valores posibles y sus probabilidades
tendrá distinto nombre en función del tipo de variable aleatoria con la que se trabaje.
Ejemplo
X <- c(0,1,2)
prob <- c(0.49, 0.42, 0.09)
plot(X,prob, type="h", xlab="Genotipos"
,axes = FALSE,frame.plot = TRUE,ylim = c(0,0.5)
,main="Distribución de probabilidad")
axis(side=1,at=X,labels=X)
axis(side=2,at=prob, labels=prob)
points(X,prob,pch=16,col="red")
abline(h=0, col="gray")
Fx (x)/F (x) = P (X ≤ x)
3
Función de distribución acumulada
0.91
cumprob
0.49
0 1 2
Genotipos
Es decir, la probabilidad de el valor de la variable sea igual o mayor que a y menor o igual que b, es
igual a la resta del valor de la función en b con el valor de la función en a.
2. Si F es la función de distribución de la variable aleatoria X, entonces: 2.1 0 ≤ F (x) ≤ 1 2.2
F (x) ≤ F (y) si x < y
La forma de una función de distribución será:
cumprob<-cumsum(prob)
plot(X, cumprob, xlab="Genotipos"
,axes = FALSE,frame.plot = TRUE,ylim = c(0,1)
,main="Función de distribución acumulada",type="s")
axis(side=1,at=X,labels=X)
axis(side=2,at=cumprob, labels=cumprob)
abline(h=0, col="gray")
La forma de las distribuciones de probabilidad son diferentes según el tipo de variable aleatoria, siendo las
principales, las discretas y las continuas, recibiendo distintos nombres, mientras que será similar para la
función de distribución.
Antes de comenzar. . .
Inciso!!!!!!!!!!!!!!!
Durante la exploración de datos de un dataset, para cada columna, determinamos la distribución de las
frecuencias, es decir, con los datos reales de un experimento observamos como están repartidos, determinando
4
su localización y dispersión de esos datos. (Hay más datos acumulados en el centro, o a la derecha o a la
izquierda de un histograma).
En este tema estamos hablando de distribución de probabilidad, es decir, con datos reales obtenidos de
una población (si estamos haciendo de forma personal un experimento en unas condiciones con un tipo de
célula para mirar la expresión de sus genes, los valores obtenidos en el experimento, si están bien hechos
deben ser representativos para cualquier otra célula de ese tipo en las mismas condiciones; o si estudiamos
una característica en la población de Zaragoza, recopilamos información sobre una fracción de la ciudad, no
sobre todos los habitantes) se calculan unas probabilidades de que ocurran esos datos. Esas probabilidades
serían las equivalentes a las frecuencias, sin embargo, son valores teóricos.
En temas posteriores estudiaremos la inferencia, que trata de extrapolar los resultados obtenidos en muestras
de poblaciones a la población en general, y necesita, por tanto, de aplicar los resultados teóricos de cálculos
de probabilidad realizados sobre ellos.
Por tanto es importante introducir algunos conceptos similares a la exploración de datos, que también son
relevantes en el estudio de las probabilidades, para conocer su localización y dispersión:
ESPERANZA
Este parámetro es el valor medio de una variable aleatorio. Sería el equivalente a la media,µ.
Representa la cantidad promedio que se “espera” como resultado de un experimento aleatorio cuando la
probabilidad de cada suceso se mantiene constante y el experimento se repite un elevado número de veces.
En probabilidad se calcula como la suma de la probabilidad de que ocurra el valor, por el valor del mismo, en
todo el rango de la variable aleatoria.
n
X
E[X] = P (x1 ) · x1 + P (x2 ) · x2 + .... + P (xn ) · xn = P (xi ) · xi
i=1
VARIANZA
Este parámetro representa la dispersión de los datos.
Su valor se corresponde, con el valor de la probabilidad P (X = xi ), con el que venimos trabajando hasta
ahora.
La función de distribución acumulada para una varirable discreta se calculará a partir de la función de masa
de probabilidad: X
F (x) = f (xi )
5
A continuación, vamos a ver las distribuciones (función de distribución de probabilidad y función de distribución
acumulada) más importantes para las variables discretas, ya que nos van a ayudar a clasificar los tipos de
sucesos que representan las variables y a calcular sus probabilidades.
X ∼ Ber(p), 0≤p≤1
q para x = 0
P (X = x) =
p para x = 1
Si X fuera la variable aleatoria discreta que representa la supervivencia en cinco años de un paciente con
cáncer de mama, donde X = 1 fuera la supervivencia, y X = 0 la otra opción. Si P (X = 1) = 0.8, entonces
la probabilidad de no sobrevivir es P (X = 0) = 0.2.
Escribiríamos la distribución de Bernoulli como X ∼ Ber(0.8), y su pmf :
0.2 x=0
para
P (X = x) =
0.8 para x=1
En este caso no existe la función de distribución, ya que al existir únicamente dos posibles sucesos que no
pueden ocurrir al mismo tiempo, no es posible calcular P (X ≤ xi ).
El valor de la esperanza será:
E[X] = p
En este ejemplo, la E[X] = 0.8.
Y la varianza se calcula como:
V ar[X] = p · q
6
Distribución de probabilidad Bernoulli
Masa de probabilidad
0.8
0.2
0 1
Supervivencia
En este ejemplo, la V ar[X] = 0.8 · 0.2 = 0.16. Esto reflejaría la extensa variabilidad de supervivencia de una
persona a otra.
n
X
Y = Xi
i
Valores que podrá tomar Y: desde 0 a 50 (no hay supervivencia en ningún paciente a han sobrevivido todos),
un grupo de datos contables, requisito para que Y sea una variable discreta.
La notación de una distribución binomial:
Y ∼ Bin(n, p), donde n es el número de variables de Bernoulli, (número de veces que se repite el mismo
experimento), y p la probabilidad constante que ocurra uno de los sucesos.
7
La función de masa de probabilidad (pmf) quedará expresada:
n
py q n−y , y = 0, 1, 2, ...n
P (Y = y) = y
0, cualquier otro caso
Para este ejemplo, Y ∼ Bin(50, 0.8)
50
px q n−y , y = 0, 1, 2, ...n
P (Y = y) = y
0, cualquier otro caso
La representación de la función sería:
# Vector de valores que va a tomar la y
y <- 1:50
## [1] 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
## [16] 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
## [31] 0.00 0.00 0.01 0.02 0.03 0.05 0.08 0.10 0.13 0.14 0.14 0.12 0.09 0.06 0.03
## [46] 0.01 0.00 0.00 0.00 0.00
plot(y,probY, type="h", xlab="Supervivencia"
,axes = FALSE,frame.plot = TRUE,ylim = c(0,0.15)
,xlim=c(30,50)
,main="Distribución de probabilidad Binomial"
,ylab="Masa de probabilidad")
axis(side=1,at=y,labels=y)
axis(side=2,at=seq(0,014,0.02))
points(y,probY,pch=16,col="red")
abline(h=0, col="gray")
## [1] 0.8095902
8
Distribución de probabilidad Binomial
Masa de probabilidad
0.12
0.08
0.04
0.00
30 32 34 36 38 40 42 44 46 48 50
Supervivencia
cumprobY<-cumsum(probY[1:43])
plot(y[1:43], cumprobY, xlab="Supervivencia"
,axes = FALSE,frame.plot = TRUE,ylim = c(0,1)
,main="Función de distribución acumulada",type="s")
axis(side=1,at=X,labels=X)
axis(side=2,at=seq(0,0.9,0.1))
abline(h=0, col="gray")
E[X] = n · p
En este ejemplo, la E[X] = 50 · 0.8 = 40. En esta distribución, la esperenza podría dar como resultado un
número no entero.
Y la varianza se calcula como:
En este ejemplo, la V ar[X] = 0.8 · 0.2 = 0.16. Esto reflejaría la extensa variabilidad de supervivencia de una
persona a otra.
La interpretación de estos resultados mostraría que si reclutamos a 50 pacientes de cáncer de mama para un
estudio a 5 años de supervivencia, esperamos que 40 de los pacientes sobrevivian. El valor de la varianza
también pone de manifiesta que existen un variación extensa al rededor de esta media.
9
Función de distribución acumulada
0.8
cumprobY
0.6
0.4
0.2
0.0
Supervivencia
e−λ λx
x = 0, 1, 2, ...n
P (X = x) = x!
0, cualquier otro caso
Pensando en un organismo que tiene diez genes, que pueden expresarse o no en un espacio de tiempo. El
número de genes expresándose en el organismo en un intervalo de tiempo sigue una distribución de Poisson,
con una media de 1.5.
La distribución de Poisson sería: X ∼ P oi(1.5).
Si ninguno de los dos genes se expresa, x = 0, si uno de los dos genes se expresa, entonces x = 1 y si dos se
expresan, x = 2..
La representación de la función sería:
10
Distribución de probabilidad Poisson
0.4
Masa de probabilidad
0.3
0.2
0.1
0.0
0 1 2 3 4 5 6 7 8 9 10
Genes expresados
# Lambda
lambda <- 1.5
## [1] 0.22 0.33 0.25 0.13 0.05 0.01 0.00 0.00 0.00 0.00 0.00
plot(x,probX, type="h", xlab="Genes expresados"
,axes = FALSE,frame.plot = TRUE,ylim = c(0,0.4)
,main="Distribución de probabilidad Poisson"
,ylab="Masa de probabilidad")
axis(side=1,at=x,labels=x)
axis(side=2,at=seq(0,0.6,0.1))
points(x,probX,pch=16,col="red")
abline(h=0, col="gray")
La función de distribución, se corresponderá con un la suma de los valores de la pmf hasta un valor dado
de la variable Y. Por ejemplo, la probabilidad de que se expresen a la vez hasta 3 genes:
11
Función de distribución acumulada
0.8
cumprobX
0.6
0.4
0.2
0.0
0 1 2 3 4 5
Genes expresados
P (X ≤ 5) = P (Y = 0) + P (Y = 1) + ... + P (5)
## [1] 0.995544
cumprobX<-cumsum(probX[1:6])
plot(x[1:6], cumprobX, xlab="Genes expresados"
,axes = FALSE,frame.plot = TRUE,ylim = c(0,1)
,main="Función de distribución acumulada",type="s")
axis(side=1,at=x,labels=x)
axis(side=2,at=seq(0,0.9,0.1))
abline(h=0, col="gray")
Lo que ocurrirá es que lo más probable es que se o no se exprese ningún gen o uno o dos. Es altamente
improbable que se expresen más de 4 genes al mismo tiempo de esos 10.
La esperanza se corresponde con el valor de λ:
E[X] = λ
V ar[X] = λ
12
1.1.4 DISTRIBUCIÓN NEGATIVA BINOMIAL
Un experimento basado en una variable de Bernoulli se puede repetir n veces dando lugar a una distribución
binomial, como se ha estudiado antes. Existe una variante hasta distribución basada en el contaje de éxitos
obtenidos para la variable de Bernoulli. Si se considera r el número de éxitos, fijado de antemano, ≥ 1. La
probabilidad de que ocurra el suceso número r en los r + x experimentos realizados anteriomente a que ocurra
ese.
Se conoce como distribución negativa binomial, y viene dada por la notación X ∼ BinN eg(r, p).
El último experimento de una distribución negativa binomial debe ser un éxito, que será al que se le asigne la
probabilidad, p. Así que, en (x + r − 1) experimento, debemos tener (r − 1) éxitos cuya función de masa
de probabilidad es:
x+r−1
P (X = x) = · pr · q x
x
Pensemos en un organismo con un número elevado de genes, que pueden o no expresarse bajo una condición
determinada. De una experimentación anterior se conoce que un 5% (p = 0.05) de los genes pueden expresarse
en la condición experimental A. Una investigadora decide analizar de forma aleatoria expresión de genes de
ese organismo. Se podría determinar la probabilidad de analizar al menos 5 genes (P (X ≥ 5) = 1 − P (X ≤ 5))
para poder encontrar que dos (r = 2) están expresados en la condición experimental A. La distribución sería
X ∼ BinN eg(2, 0.05):
4
X
P (X ≥ 5) = 1−P (X ≤ 5) = 1− P (X = xi ) = 1−(P (X = 4)+P (X = 3)+P (X = 2)+P (X = 1)+P (X = 0))
x=0
x+2−1
P (X = x) = · 0.052 · 0.95x
x
# Vector de valores que va a tomar la x
x <- 0:100
## [1] 0.00 0.00 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.02 0.02 0.02 0.02 0.02
## [16] 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02
## [31] 0.02 0.02 0.02 0.02 0.02 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01
## [46] 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01
## [61] 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.00 0.00 0.00 0.00 0.00
## [76] 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
## [91] 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
plot(x,probX, type="h", xlab="Expresión dos genes"
,axes = FALSE,frame.plot = TRUE,ylim = c(0,0.02)
,main="Distribución de probabilidad Binomial Negativa"
,ylab="Masa de probabilidad")
13
Distribución de probabilidad Binomial Negativa
0.020
Masa de probabilidad
0.010
0.000
0 5 11 18 25 32 39 46 53 60 67 74 81 88 95
axis(side=1,at=x,labels=x)
axis(side=2,at=seq(0,0.02,0.005))
points(x,probX,pch=16,col="red")
abline(h=0, col="gray")
## [1] 0.9672262
Por tanto, la probabilidad de que se necesiten analizar al menos 5 genes antes de encontrar la expresión de 2
en la condición A, es del 96.7%.
cumprobX<-cumsum(probX[1:100])
plot(x[1:100], cumprobX, xlab="Expresión de dos genes"
,axes = FALSE,frame.plot = TRUE,ylim = c(0,1)
,main="Función de distribución acumulada",type="s")
axis(side=1,at=x,labels=x)
axis(side=2,at=seq(0,1,0.1))
abline(h=0, col="gray")
r·q
E[X] =
p
Y la varianza como:
14
Función de distribución acumulada
1.0
0.8
cumprobX
0.6
0.4
0.2
0.0
0 5 11 18 25 32 39 46 53 60 67 74 81 88 95
r·q
V ar[X] =
p2
q x · p x = 0, 1, 2, ...n
P (X = x) =
0, cualquier otro caso
Si pensamos en un científico tratando de crear una mutación en los genes de Drosophila melanogaster con
radiación, la cual induce la creación de pequeñas deleciones de DNA en los cromosomas. Cada vez que se
irradia a Drosophila hay un 0.10 de probabilidad de producir una mutación. Se quiere saber la probabilidad
de que a la tercera vez que se irradie se tenga una mutación.
La distribución que determina que se tenga la especie mutada es X ∼ Geo(0.10), y x = 2, que será el número
de exprimentos que se han tenido que realizar hasta que se obtiene la mutación.
La representación de la pfm:
15
Distribución Geométrica
0.2
Masa de probabilidad
0.1
0.0
0 1 2 3 4 5 6 7 8 9 11 13 15 17 19
Obtener mutación
## [1] 0.10 0.09 0.08 0.07 0.07 0.06 0.05 0.05 0.04 0.04 0.03 0.03 0.03 0.03 0.02
## [16] 0.02 0.02 0.02 0.02 0.01 0.01
plot(x,probX, type="h", xlab="Obtener mutación"
,axes = FALSE,frame.plot = TRUE,ylim = c(0,0.2)
,main="Distribución Geométrica"
,ylab="Masa de probabilidad")
axis(side=1,at=x,labels=x)
axis(side=2,at=seq(0,1,0.1))
points(x,probX,pch=16,col="red")
abline(h=0, col="gray")
16
Función de distribución acumulada
1.0
0.8
cumprobX
0.6
0.4
0.2
0.0
0 1 2 3 4 5 6 7 8 9 11 13 15 17 19
Obtener mutación
axis(side=1,at=x,labels=x)
axis(side=2,at=seq(0,1,0.1))
abline(h=0, col="gray")
q
E[X] =
p
q
V ar[X] =
p2
17
Su función de distribución de probabilidad se denomina función de densidad de probabilidad(pdf ) o
simplemente, función de densidad. Y va a resultar extremadamente útil para determinar las probabilidades
en un intervalo dado.
Las funciones de densidad dan información también sobre regiones de alta y baja probabilidad, a través de las
alturas que pueda tomar la función para distintos xi . El área total debajo de una función de densidad es 1,
de forma, que el área entre dos intervalos, será la probabilidad de que la variable pueda estar en ese intervalo,
lo que se corresponde con la función de distribución de probabilidad. Estas funciones, se corresponden
con integrales del tipo:
Z ∞
F (X) = P (X ≤ x) = f (x)dx, −∞ < x < +∞
−∞
Donde f (x) será la función de densidad que corresponda para cada tipo de distribución.
Vamos a ver estos conceptos con un ejemplo, que aunque sigan un tipo de distribución en concreto, se
extrapola para todos los casos:
Tenemos los datos de índice de masa corporal de 100 españoles de distintas regiones:
# Creamos los datos
imc <- seq(from=10, to=40,length = 1000)
# Se calcula la función de densidad
fimc <- dnorm(imc,mean=25,sd=4)
# Representamos
plot(imc,fimc,xlab="IMC",ylab="Density",type="l",
main="Variable continua")
Variable continua
0.10
0.08
0.06
Density
0.04
0.02
0.00
10 15 20 25 30 35 40
IMC
En el caso de las variables continuas, la probabilidad de obtener un valor único es siempre 0. El valor de
18
Variable continua
0.08
Density
0.04
0.00
10 15 20 25 30 35 40
IMC
densidad que vemos, por ejemplo a 25, que podríamos pensar que tendría un valor cercano a 0.10, no es tal,
ya que la variable es continua y no discreta. Es obligatorio siempre hablar en términos de intervalos, por
ello, para observar la probabilidad de que un valor de IMC estuviera entre 20 y 25, sería preciso aplicar la
correspondiente función de probabilidad.
pnorm(30,mean=25,sd=4) - pnorm(25,mean=25,sd=4)
## [1] 0.3943502
izq <- 20
dcha <- 25
intervalo <- seq(izq,dcha,by=0.05)
intervaloy<- dnorm(intervalo,mean=25,sd=4)
plot(imc,fimc,xlab="IMC",ylab="Density",type="l",
main="Variable continua")
polygon(c(intervalo,intervalo[length(intervalo)],intervalo[1]),c(intervaloy,0,0),col='red')
A continuación, vamos a ver las distribuciones (función de densidad de probabilidad y función de distribución
acumulada) más importantes para las variables continuas, ya que nos van a ayudar a clasificar los tipos de
sucesos que representan las variables y a calcular las probabilidades de que una variable pueda estar en un
intervalo.
19
Distribución uniforme
0.04
Density
0.02
0.00
0 10 20 30 40 50
tiempo
1
a<x<b
f (x) = b−a
0, cualquier otro caso
En un ejemplo para ilustrar un caso de distribución uniforme. Supongamos un organismo, en el cual ocurre
una replicación semiconservativa cada media hora, y una científica decide observar este fenómeno para su
investigación. La probabilidad de que esta persona tenga que esperar al menos 20 minutos para observar una
de estas replicaciones seguiría una distribución uniforme que vendría dada por X ∼ U (0, 30), siendo X el
tiempo de espera para la siguiente replicación.
La función de densidad quedaría:
1
0 < x < 30
f (x) = 30
0, cualquier otro caso
plot(x,probX,xlab="tiempo",ylab="Density",type="l",
main="Distribución uniforme",ylim = c(0,0.05))
polygon(c(intervalo,intervalo[length(intervalo)],intervalo[1]),c(intervaloy,0,0),col='red')
20
La probabilidad de que tuviera que esperar al menos 20 minutos, vendría dada por la función de R ‘punif. Se
correspondería con la expresión P (X ≥ 20) = P (20 < X ≤ 30) = P (X ≤ 30) − P (X ≤ 20)
punif(30,min = 0, max = 30) - punif(20, min = 0, max = 30)
## [1] 0.3333333
O sea, tiene un 33.33% de posibilidad.
La esperanza se calcularía como:
b+a
E[X] =
2
Mientras que la varianza sería:
(b − a)2
V ar[X] =
12
Siendo en este caso del ejemplo, E[X] = 15 con una varianza de V ar[X] = 75
La variable puede tomar cualquier valor, siendo su rango de −∞ a +∞. Y su forma es igual a la de una
distribución binomial, pero en este caso el rango es abarca todos los números y no un número finito. µ y σ
son dos parámetros, que se corresponden con la media de esa variable continua y su desviación estándar. En
una distribución normal estándar los parámetros tendrán el valor de 0 y 1, respectivamente.
Supongamos los datos anteriores del índice de masa corporal, vamos a crear la distribución de datos nosotros
mismos.
set.seed(123)
imc <- rnorm(n = 100, mean = 25, sd = 4)
21
Histogram of imc
0.08
Density
0.04
0.00
10 15 20 25 30 35 40
La forma de la función de densidad coincide con la forma que toma el histograma. Al seguir una distribución
normal las probabilidades de los valores de la variable, entonces se dice que la variable sigue una distribución
normal. Hay que tener en cuenta que los valores de densidad apreciados en el histograma no son exactamente
iguales a los valores de las probabilidades para los intervalos a estudiar.
x <- imc
hist(imc, xlab="Índice masa corporal",freq = FALSE, xlim=c(10,40),
breaks=intervalos)
curve(dnorm(x,mean=25,sd=4),col="purple",lwd="2",add = TRUE)
En una distribución normal, a medida que se aumenta el número de observaciones en una variable, su
histograma se ajusta cada vez mejor a la curva descrita por la pdf.
set.seed(123)
imc500 <- rnorm(n = 500, mean = 25, sd = 4)
x<-imc500
22
0.08 Distribución normal
Density
0.04
0.00
20 25 30
Histogram of imc
0.08
Density
0.04
0.00
10 15 20 25 30 35 40
23
Histogram of imc500
0.12
0.08
Density
0.04
0.00
10 15 20 25 30 35 40
E[X] = µ
V ar[X] = σ 2
Dado que numerosos de los experimentos y datos que tengamos que analizar en el futuro van a estar basados
en la que nuestros datos sigan una distribución normal, estudiemos algunas de las propiedades de la curva de
densidad:
24
Función de distribución acumulada
1.0
Probabilidad acumulada
0.8
0.6
0.4
0.2
0.0
20 25 30
Obtener mutación
[µ ± σ]
• Se puede calcular la probabilidad del rango de los valores más habituales en una distribución normal
por esta regla:
A 1σ de distancia de µ, están el 68% de los valores.
izq <- 21
dcha <- 29
intervalo <- seq(izq,dcha,by=0.05)
intervaloy<- dnorm(intervalo,mean=25,sd=4)
25
Distribución normal
0.08
Density
σ σ
0.04
0.00
10 15 20 25 30 35 40
IMC
set.seed(123)
imc <- rnorm(n=5000,mean=25,sd=4)
imc <- sort(imc)
plot(imc,dnorm(imc,mean=25,sd=4),xlab="IMC",ylab="Density",type="l",
main="Distribución normal",xlim=c(10,40))
abline(v=25, lty="dashed")
segments(x0 = izq,y0 = 0.06,x1 = dcha,y1 = 0.06, lty="dashed")
polygon(c(izq,intervalo,dcha),c(0,intervaloy,0),col=adjustcolor("#33ff99",alpha.f = 0.3))
text(23,0.055,expression(sigma))
text(27,0.055,expression(sigma))
26
Distribución normal
0.08
Density
0.04
2σ 2σ
0.00
10 15 20 25 30 35 40
IMC
polygon(c(izq,intervalo,dcha),c(0,intervaloy,0),col=adjustcolor("#33ff99",alpha.f = 0.3))
text(20,0.019,expression(2*sigma))
text(30,0.019,expression(2*sigma))
izq <- 13
dcha <- 37
intervalo <- seq(izq,dcha,by=0.05)
intervaloy<- dnorm(intervalo,mean=25,sd=4)
set.seed(123)
imc <- rnorm(n=5000,mean=25,sd=4)
imc <- sort(imc)
plot(imc,dnorm(imc,mean=25,sd=4),xlab="IMC",ylab="Density",type="l",
main="Distribución normal",xlim=c(10,40))
abline(v=25, lty="dashed")
segments(x0 = izq,y0 = 0.0011,x1 = dcha,y1 = 0.0011, lty="dashed")
polygon(c(izq,intervalo,dcha),c(0,intervaloy,0),col=adjustcolor("#33ff99",alpha.f = 0.3))
text(20,0.007,expression(3*sigma))
text(30,0.007,expression(3*sigma))
27
Distribución normal
0.08
Density
0.04
3σ 3σ
0.00
10 15 20 25 30 35 40
IMC
λe−λx , x ≥ 0
f (x) =
0, cualquier otro caso
Esta distribución está relacionada con la distribución de Poisson. Si ésta determinaba la probabilidad de un
suceso durante un determinado espacio o tiempo, el tiempo de espera hasta que el suceso tenga lugar viene
determinado por esta distribución.
Por ejemplo, en una división celular, una célula parental se divide para dar dos células hijas. Si la división
celular ocurre siguiendo un modelo de distribución de Poisson, cada 6 minutos se producen dos divisiones
celulares. La representación de la función de densidad será la siguiente:
x <- rexp(50,rate=1/3)
28
Distribución exponencial
0.30
0.20
Density
0.10
0.00
0 2 4 6 8 10 12
Tiempo
Para determinar la probabilidad de que tengan que pasar al menos 5 minutos hasta que la primera división
celular tenga lugar se aplica la función de distribución para la exponencial.
Según el problema, cada 6 minutos hay dos divisiones, por tanto, λ = 1
3
P (X > 5) = 1 − P (X ≤ 5)
De forma que se puede calcular con la función de R pexp
1-pexp(5, rate=1/3)
## [1] 0.1888756
El valor de la esperanza se calcula como
1
E[X] =
λ
El valor de la varianza se calcula como
1
V ar[X] =
λ2
29
Su función densidad de probabilidad también está relacionada con la función de distribución gamma, y
su expresión es:
1 n
(
n
1
e− 2 x x 2 −1 , 0 <x<∞
f (x) = 2 2 Γ( 12 )
0, cualquier otro caso
E[X] = n
Y la varianza es
V ar[X] = 2n
Esta distribución se retomará más adelante con el contraste de hipótesis.
30
Distribución t−Student
0.3
Density
0.2
0.1
0.0
−2 0 2 4 6
main="Distribución t-Student")
abline(h=0, col="gray")
df
V ar[X] =
df − 2
31