Documente Academic
Documente Profesional
Documente Cultură
Estadística Computacional
2
sites.google.com/site/wmariojpl
Programa de Estadística
NIT 891080031-3
Breve Introducción a R
Objetos
Objetos y atributos
R trabaja con objetos los cuales tienen nombre, contenido y
atributos. La acción de una función sobre un objeto depende de
los atributos. Todo objeto tiene dos atributos intrínsecos: tipo y
longitud. El tipo se reere a la clase básica de los elementos en
el objeto; existen cuatro tipos principales: numérico, caracter,
complejo y lógico. La longitud es el número de elementos en el
objeto.
Ejemplos Ejemplos
x <- 2 f <- factor(z)
y <- "A" L <- list(z, w)
z <- c(1,2,5,3,4) mode(z) ; is(z)
w <- c("e","A","F") length(f)
Departamento de Matemáticas y Estadística Pág 8
Mario José Pacheco López Estadística Computacional
Objetos
Ejemplos
A <- matrix(c(2,4,6,8,10,12,14,16),nrow=2,ncol=4)
A
[,1] [,2] [,3] [,4]
[1,] 2 6 10 14
[2,] 4 8 12 16
x <- c(1,2,3,4,5)
y <- c("a","a","b","b","a")
D <- data.frame(x,y)
D
x y
1 1 a
2 2 a
3 3 b
4 4 b
5 5 a
Departamento de Matemáticas y Estadística Pág 9
Mario José Pacheco López Estadística Computacional
Secuencias
Ejemplos Ejemplos
x <- 1:10 E
x <- seq(1,10,.3) a b c
x <- seq(1,10,len=5) 1 1 A 1
y <- rep(3,5) 2 2 A 1
y <- rep(x,4) 3 1 B 1
w = gl(3, 5) 4 2 B 1
w <- gl(3, 5, length=28) 5 1 A 2
w <- gl(2, 6, label=c("M", "F")) 6 2 A 2
E <- expand.grid(a=c(1,2),b=c("A","B"),c=1:3) 7 1 B 2
8 2 B 2
9 1 A 3
10 2 A 3
11 1 B 3
12 2 B 3
Departamento de Matemáticas y Estadística Pág 10
Mario José Pacheco López Estadística Computacional
Series de Tiempo
Serie de tiempo
datos <- c(.5,1.6,2.1,.9,2.3,3.1,1.2,2.2,3.4)
serie <- ts(datos,freq=1,start=c(1990,7))
serie
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
1990 0.5 1.6 2.1 0.9 2.3 3.1
1991 1.2 2.2 3.4
mode(serie) ; is(serie)
Departamento de Matemáticas y Estadística Pág 11
Mario José Pacheco López Estadística Computacional
Geo Datos
Manipulación de objetos
Operadores
La manipulación de datos se hace de diferentes formas.
Usualmente se toma ventaja de la vectorización del lenguaje.
Esto permite trabajar sobre un conjunto de elementos en lugar
de trabajar elemento a elemento.
+ : Suma
- : Resta
* : Multiplicación
/ : División
^: Exponenciación
%/ % : División entera
% % : Operador módulo
Manipulación de objetos
Operadores de Control
&& : Si el primer operando es cierto se evalúa el segundo
operando
|| : Si el primer operando es falso se evalúa el segundo
operando.
Departamento de Matemáticas y Estadística Pág 14
Mario José Pacheco López Estadística Computacional
Manipulación de objetos
Subíndices
Se pueden extraer datos de un objeto de diferentes formas
dependiendo de su tipo:
x <- c(2,5,4,3,8,1,6,10,4,2,7,11) ; x
x[3] ; x[-3]
x[2:4]
x[c(1,3,4)] ; x[-c(1,3,4)]
x[x>3]
y <- 1:5
x[y!=2]
A = matrix(x,3) ; A
A[2,]
A[,4]
A[,c(1,3)]
A[A>5]
A[A[,2]<8,]
Departamento de Matemáticas y Estadística Pág 15
Mario José Pacheco López Estadística Computacional
Importar
La forma más común es traer bases de Excel con extensión .csv:
datos = read.csv2("base.csv")
Importar
o archivos de texto .txt separados por espacios:
datos = read.table("base.txt",header=T)
Estas bases de datos de guardan en R como un data.frame.
Exportar
Se pueden guardar archivos de R en el directorio de trabajo:
write.table(datos, file = "arch.txt")
write.csv2(datos, file = "arch.csv")
Funciones apply
sapply apply
Aplica una función sobre los Aplica una función tomando como
elementos de un vector: argumentos las las o columnas de
sapply(1:4, sqrt) una matriz o data frame:
[1] 1.00 1.41 1.73 2.00 A = matrix(1:25,5)
A
tapply [,1] [,2] [,3] [,4] [,5]
Aplica una función sobre los [1,] 1 6 11 16 21
elementos de un vector de [2,] 2 7 12 17 22
acuerdo a un índice: [3,] 3 8 13 18 23
g = gl(3,2) [4,] 4 9 14 19 24
x = 1:6 [5,] 5 10 15 20 25
tapply(x,g,sum) apply(A,1,sum)
1 2 3 [1] 55 60 65 70 75
3 7 11 apply(A,2,sum)
[1] 15 40 65 90 115
Departamento de Matemáticas y Estadística Pág 17
Mario José Pacheco López Estadística Computacional
Bucles
Ciclos for
Podemos crear ciclos que toman una sentencia y la realizan
repetidas veces:
x = c(3,1,8,4,2).
y = z = numeric(0)
w = sort(x) ; v = sort(x,decreasing = T)
for(i in 1:length(w)){
y[i] = sum(w[1:i])
z[i] = sum(v[1:i])
}
y
[1] 1 3 6 10 18
z
[1] 8 12 15 17 18
Bucles
while()
Podemos realizar operaciones mientras una condición se este
cumpliendo.
Por ejemplo: calcular Sn mientras
n
X i i
Sn = 1− ≤ 10
n n
i=1
Sn = n = 0
while(Sn<=10){
n = n+1
i = 1:n
Sn = Sn+sum(i/n*(1-i/n))
}
Bucles
if(), else(), ifelse()
Podemos realizar operaciones si ocurre o no un evento.
Por ejemplo: revisar, con un for(), si los valores dentro de un
vector están en los rangos [0,5), [5,10).
x = c(7,1,3,8,9,1,4,0)
y = 0
for(i in 1:length(x)){
if(x[i]>=0 & x[i]<5) y[i] = "[0,5)"
else y[i] = "[5,10)"
}
y = 0
for(i in 1:length(x)){
y[i] = ifelse(x[i]>=0 & x[i]<5, "[0,5)", "[5,10)")
}
y
[1] "[5,10)" "[0,5)" "[0,5)" "[5,10)"
[5] "[5,10)" "[0,5)" "[0,5)" "[0,5)"
Departamento de Matemáticas y Estadística Pág 20
Mario José Pacheco López Estadística Computacional
Grácos
Función plot() Función lines()
y = c(2,4,3,7,5,9,6,8,10,9) plot(x,y,"b",ylim=c(1,22))
x = 1:10 z = 2*y
plot(x,y) lines(z)
plot(x,y,pch=20) lines(z,pch=20,col=2)
plot(x,y,pch=20,cex=2)
plot(x,y,pch=20,col=4) Función abline()
plot(x,y,las=1) plot(x,y,"b")
plot(x,y,type="l",lty=2) abline(h=4); abline(v=5)
plot(x,y,xlab="EjeX",ylab="EjeY") abline(h=6,v=8)
plot(x,y,pch=20,main="Título")
plot(x,y,xlim=c(3,8),ylim=c(1,10))
Función segment()
plot(x,y,type="b",pch=20)
plot(x,y,"h") plot(x,y,type="b",pch=20)
plot(x,y,"s") segments(2,4,8,9)
plot(x,y,"n") segments(2,4,8,9,col=3)
Departamento de Matemáticas y Estadística Pág 22
Mario José Pacheco López Estadística Computacional
Grácos
Función points()
plot(x,y,type="l")
points(x,y,pch=20)
Función text()
plot(x,y,type="b",pch=20)
text(x,y+.5,c("A","B","C","D","E"))
text(4,9,expression(hat(beta)==(X^t * X)^{-1}*X^t*y))
Función matplot()
A = matrix(1:20,4)
matplot(A)
matplot(A,type="b",pch=20,lty=1)
matplot(A,type="b",pch=20,ylim=c(1,30))
nom=c("A","B","C","D")
legend(locator(1),legend=nom,pch=20,lty=1,col=1:4)
Departamento de Matemáticas y Estadística Pág 23
Mario José Pacheco López Estadística Computacional
Grácos
Varios grácos por página
par(mfrow=c(3,2))
plot(x,y,type="l")
plot(x,y,type="b")
plot(x,y,type="p")
plot(x,y,type="h")
plot(x,y,type="s")
plot(x,y,type="n")
Análisis Exploratorio de
Datos (EDA)
¾Qué es EDA?
Denición:
Propuesto por John W. Tukey (1977), el EDA (Exploratory data
analysis), es un enfoque para el análisis de conjuntos de datos, con el
objetivo resumir sus principales características de una manera fácil de
entender, generalmente de forma gráca, sin necesidad de utilizar un
modelo estadístico o de haber formulado una hipótesis.
Objetivos:
Proponer hipótesis sobre las causas de los fenómenos observados.
Evaluar los supuestos en los que se basa la inferencia estadística.
Ayudar en la elección de las herramientas y técnicas estadísticas
a usar.
Proporcionar una base para la recopilación de datos en futuras
encuestas o experimentos.
Tipos de variables
Tipos variables:
Para realizar cualquier tipo de análisis estadístico hay que tener
claro el tipo de variables:
De acuerdo a su naturaleza:
Cualitativas: dicotómicas, politómicas | ordinal, nominal.
Cuantitativas: discretas, continuas.
Según su inuencia:
Independientes: Explicativas.
Dependientes: Respuesta.
Herramientas
Herramientas:
Existe un gran número herramientas que podemos usar
dependiendo del tipo de variables.
Grácas: Grácos de dispersión, histogramas, box-plot,
grácos cuantil-cuantil, ...
Cuantitativas: Medidas de localización y dispersión,
asimetría y curtosis, aleatoriedad, bondad de ajuste,
detección de datos atípicos.
Herramientas grácas
Run-Sequence Plot:
Es una manera fácil de resumir grácamente un conjunto
univariado de datos. Con estos se verica si los datos se
encuentran distribuidos al azar, tienen la misma distribución,
tienen la misma media y la misma dispersión.
Herramientas grácas
Run-Sequence Plot:
Herramientas grácas
Lag Plot:
Comprueba si una serie de tiempo es aleatoria o no. Los datos
no deben presentar ninguna estructura identicable.
Herramientas grácas
Lag Plot:
Herramientas grácas
Histograma:
Busca resumir la distribución de un conjunto univariado de
datos y permite identicar: Promedio, dispersión, asimetría,
datos atípicos, multi modalidad.
Herramientas grácas
Histograma:
Herramientas grácas
Gráco de probabilidad normal:
Permite vericar normalidad en un conjunto de datos.
Herramientas grácas
Herramientas grácas
4-Plot:
Reúne las cuatro técnicas grácas anteriores.
Herramientas grácas
Box-plot:
Chambers (1983) Permite identicar posición y escala de
conjunto de datos, así como datos atípicos.
Herramientas grácas
Density-plot:
Gráco de la densidad kernel de un conjunto de datos.
Herramientas grácas
Violin-plot:
Agrega al box plot la densidad de los datos.
Herramientas grácas
Diagrama de dispersión
Diagrama de dispersión de todos los pares de variables X y Y.
Herramientas grácas
Diagrama de dispersión más histogramas:
Agrega al diagrama de dispersión los histogramas de las
variables X y Y.
Herramientas grácas
Tablas de contingencia:
Considere la siguiente tabla:
Ojos
Cabello Café Azul Avellana Verde
Negro 68 20 15 5
Café 119 84 54 29
Rojo 26 17 14 14
Rubio 7 94 10 16
En R:
tab = matrix(c(68,20,15,5,119,84,54,29,26,17,14,14,
7,94,10,16),4,byrow=T)
tab = as.table(tab)
colnames(tab)=c("Café","Azul","Avellana","Verde")
rownames(tab)=c("Negro","Café","Rojo","Rubio")
Herramientas grácas
Tablas de contingencia:
Algunas funciones sobre tablas de contingencia son:
margin.table(tab,1) # Sumas por filas
margin.table(tab,2) # Sumas por columnas
prop.table(tab) # Porcentajes por celda
prop.table(tab,1)# Porcentajes por filas
prop.table(tab,1)# Porcentajes por columnas
Herramientas grácas
Herramientas grácas
Grácos para tablas de contingencia:
Azul Azul
Avellana Avellana
Verde Verde
Café
Azul
Avellana
Verde
Herramientas grácas
Grácos para tablas de contingencia:
200
80 100
Rubio Negro
Rojo Café
150
Café Rojo
Negro Rubio
60
100
40
50
20
0
0
Café Azul Avellana Verde Café Azul Avellana Verde
Verde
Rubio
Rojo
Café
Negro
Azul
Café
0 20 40 60 80 100
Herramientas Numéricas
Probabilidad e Inferencia
Estadística
Distribuciones de Probabilidad
Variable aleatoria
Una variable aleatoria es una variable estadística cuyos valores
se obtienen de mediciones en algún tipo de experimento
aleatorio. Una variable aleatoria (v.a.) X es una función real
denida en el espacio muestral, S , asociado a un experimento
aleatorio:
X : S →R
Pueden ser discretas o continuas.
Distribuciones de Probabilidad
Distribuciones de Probabilidad
Ejemplo
Sea X una v.a. que representa el número de clientes que llega a
un banco en un periodo de 15 minutos, con función masa de
probabilidad:
x 0 1 2 3 4 5 6 7 8
f (x) 0.05 0.1 0.1 0.1 0.2 0.25 0.1 0.05 0.05
En R: Gráco:
x = 0:8
fx = c(.05,.1,.1,.1,.2,
0.25
.25,.1,.05,.05)
0.20
plot(x,fx,"h")
0.15
fx
0.10
0.05
0 2 4 6 8
Distribuciones de Probabilidad
Distribuciones de Probabilidad
Ejemplo
Considere la v.a. que representa la proporción de accidentes
automovilísticos fatales en una región, con la siguiente función
de densidad
Distribuciones de Probabilidad
En R: Probabilidad y Gráco:
f = function(x) integrate(f,.1,.2)
42*x*(1-x)^5 0.27358 with abs error < 3e-15
x = seq(.001,1,.001) plot(x,fx,"l")
fx = f(x) segments(.1,0,.1,f(.1))
plot(x,fx,"l") segments(.2,0,.2,f(.2))
abline(h=0)
2.5
2.5
2.0
2.0
1.5
1.5
fx
fx
1.0
1.0
0.5
0.5
0.0
0.0
Distribuciones de Probabilidad
Caso Continuo Z x
F (x) = f (x) dx
−∞
Distribuciones de Probabilidad
Ejemplo
Número de clientes que llega a un banco:
x 0 1 2 3 4 5 6 7 8
f (x) 0.05 0.1 0.1 0.1 0.2 0.25 0.1 0.05 0.05
F (x) 0.05 0.15 0.25 0.35 0.55 0.80 0.90 0.95 1
En R: Gráco:
x = 0:8
fx = c(.05,.1,.1,.1,.2,
1.0
.25,.1,.05,.05)
0.8
0.6
Fx = cumsum(fx)
Fx
0.4
plot(x,Fx,type="h")
0.2
0 2 4 6 8
Distribuciones de Probabilidad
Ejemplo
Proporción de accidentes automovilísticos fatales:
Z x
P (X ≤ x) = 42x (1 − x)5 dx
0
= −7x(1 − x)6 − (1 − x)7
En R: Gráco:
F = function(x)
-7*x*(1-x)^6-(1-x)^7
0.0
−0.2
x = seq(.001,1,.001)
−0.4
plot(x,F(x),"l")
F(x)
−0.6
plot(x,cumsum(f(x)))
−0.8
F = function(x) integrate(f,0,x)
−1.0
0.0 0.2 0.4 0.6 0.8 1.0
Distribuciones de Probabilidad
V (X ) = E X 2 − [E (X )]2
X
E (X ) = xf (x)
x
con E X 2 = x 2 f (x).
P
x
Caso continuo:
Z ∞
V (X ) = E X 2 − [E (X )]2
E (X ) = xf (x) dx
−∞
con Z ∞
2
x 2 f (x) dx
E X =
−∞
Distribuciones de Probabilidad
Ejemplo
Número de clientes que llega a un banco:
x 0 1 2 3 4 5 6 7 8
f (x) 0.05 0.1 0.1 0.1 0.2 0.25 0.1 0.05 0.05
X
E (X ) = xf (x) = 4
x
E X2 =
X 2
x f (x) = 20.1
x
V (X ) = 20.1 − 42 = 4.1
Distribuciones de Probabilidad
En R:
x = 0:8
fx = c(.05,.1,.1,.1,.2,.25,.1,.05,.05)
Ex = sum(x*fx) ; Ex
[1] 4
Ex2 = sum(x^2*fx)
VarX = Ex2-Ex^2 ; VarX
[1] 4.1
Distribuciones de Probabilidad
Ejemplo
Proporción de accidentes automovilísticos fatales:
Z 1
E (X ) = 42x 2 (1 − x)5 dx
0
!1
2 6 (1 − x)8
7
= −7x (1 − x) − 2x (1 − x) −
4
0
= 0.25
Z 1
2
42x 3 (1 − x)5 dx = 0.0833
E X =
0
Distribuciones de Probabilidad
En R:
f2 = function(x) 42*x^2*(1-x)^5
Ex = integrate(f2,0,1)$value ; Ex
[1] 0.25
f3 = function(x) 42*x^3*(1-x)^5
Ex2 = integrate(f3,0,1)$value
VarX = Ex2-Ex^2 ; VarX
[1] 0.02083333
f4 = function(x) (x-Ex)^2*42*x*(1-x)^5
VarX = integrate(f4,0,1)$value ; VarX
[1] 0.02083333
Departamento de Matemáticas y Estadística Pág 63
Mario José Pacheco López Estadística Computacional
Distribuciones de Probabilidad
Distribución Binomial:
Es una distribución de probabilidad discreta que mide el número
de éxitos en una secuencia de n ensayos independientes de
Bernoullia con una probabilidad ja p de ocurrencia del éxito
entre los ensayos. Si una v.a. tiene distribución binomial,
X ∼ Bin (n, p), su f.m.p. es
n
f (x) = p x (1 − p)n−x x = 0, 1, 2, ..., n
x
E (X ) = np , V (X ) = np (1 − p)
a Un experimento de Bernoulli se caracteriza por ser dicotómico, esto es,
En R:
Para calcular una probabilidad puntual
f (x) = P (X = x)
F (x) = P (X ≤ x)
En R:
choose(4,2)*0.75^2*(1-0.75)^(4-2)
[1] 0.2109375
dbinom(2,4,.75)
[1] 0.2109375
Departamento de Matemáticas y Estadística Pág 67
Mario José Pacheco López Estadística Computacional
Ejemplo:
La probabilidad de que un paciente se recupere de una rara
enfermedad sanguínea es 0.4. Si se sabe que 15 personas
contraen esta enfermedad, cuál es la probabilidad de que (a)
sobrevivan al menos 10, (b) sobrevivan de 3 a 10 y (c)
sobrevivan exactamente 5:
15
15
(a) P (X ≥ 10) = 0.4x (1 − 0.4)15−x = 0.0338
X
x
x=10
10
15
(b) P (3 ≤ X ≤ 10) = 0.4x (1 − 0.4)15−x = 0.9635
X
x
3
x=
15
(c) P (X = 5) = 0.45 (1 − 0.4)15−5 = 0.1859
5
Notar que:
P (X ≤ 5) = 0.4032 y P (X ≤ 6) = 0.6098
qbinom(.5,15,.4)
[1] 6
Departamento de Matemáticas y Estadística Pág 69
Mario José Pacheco López Estadística Computacional
1.0
0.20
0.8
0.15
dbinom(x, 15, 0.4)
0.6
0.10
0.4
0.05
0.2
0.00
0.0
0 5 10 15 0 5 10 15
x x
Distribución Poisson:
La distribución Poisson es una distribución de probabilidad
discreta que expresa, a partir de una frecuencia de ocurrencia
media (λ), la probabilidad que ocurra un determinado número
de eventos durante cierto periodo de tiempo. Si una v.a. tiene
distribución poisson, X ∼ Po (λ), su f.m.p. es
e −λ λx
p (x) = x = 0, 1, 2, ...
x!
E (X ) = V (X ) = λ.
En R:
Para calcular una probabilidad puntual
f (x) = P (X = x)
F (x) = P (X ≤ x)
Ejemplo:
Durante un experimento de laboratorio el número promedio de
partículas radiactivas que pasan a través de un contador en un
milisegundo es cuatro. ¾Cuál es la probabilidad de que seis
partículas entren al contador en un milisegundo dado?
entonces
e −4 4 6
P (X = 6) = = 0.1042
6!
En R:
exp(-4)*4^6/factorial(6)
[1] 0.1041956
dpois(6,4)
[1] 0.1041956
En R:
1-sum(exp(-10)*10^(0:15)/factorial(0:15))
[1] 0.0487404
1-ppois(15,10)
[1] 0.0487404
Departamento de Matemáticas y Estadística Pág 74
Mario José Pacheco López Estadística Computacional
Distribución Hipergeométrica:
Es la distribución de probabilidad de la v.a. X que cuenta el
número de éxitos en una muestra aleatoria de tamaño n que se
selecciona de N artículos de los que k se denominan éxito y
N − k fracaso. Su f.m.p. e
k N −k
x n−x
f (x) = , x = 0, 1, 2, ..., n.
N
n
N, 1− .
nk N−n nk k
E (X ) = V (X ) = N−1 N N
En R:
Para calcular una probabilidad puntual
f (x) = P (X = x)
F (x) = P (X ≤ x)
1
5−1
P (X = 1) =
40
5
(3) (66045)
= = 0.3011
658008
Departamento de Matemáticas y Estadística Pág 77
Mario José Pacheco López Estadística Computacional
En R:
choose(3,1)*choose(37,4)/choose(40,5)
[1] 0.3011134
dhyper(1, 3, 37, 5)
[1] 0.3011134
Ejemplo:
En un estudio se capturan 10 animales para su estudio, se
etiquetan y se sueltan en una región. Después de un tiempo se
selecciona una muestra de 15 animales, ¾cuál es la probabilidad
de que tres o más de estos seleccionados sean animales
etiquetados, si hay 25 de estos animales en el lugar?
Aquí N = 25, n = 15 y k = 10, así
P (X ≥ 3) = 1 − P (X < 3)
10 25 − 10
2
X x 15 − x
=1−
25
x=0
15
= 1 − 0.0015 = 0.9985
En R:
1-sum(choose(10,(0:2))*
choose(15,15-(0:2))/choose(25,15))
[1] 0.9985083
1-phyper(2, 10, 15, 15)
[1] 0.9985083
E (X ) = k (1 − p) /p y V (X ) = k (1 − p) /p 2 .
En R:
Para calcular una probabilidad puntual
f (x) = P (X = x)
F (x) = P (X ≤ x)
Ejemplo:
Se sabe que en cierto proceso de fabricación, en promedio, uno
de cada 100 artículos está defectuoso. ¾Cuál es la probabilidad
de que el quinto artículo que se inspecciona sea el segundo
defectuoso que se encuentra?
Como p = 1/100 = 0.01 y k = 2, entonces
2+3−1
P (X = 3) = 0.012 (1 − 0.01)3 = 0.000388
2−1
En R:
dnbinom(3, 2, .01)
[1] 0.0003881196
Ejemplo:
En un dpto de control de calidad se inspeccionan las unidades
terminadas que provienen de una línea de ensamble. Se piensa
que la proporción de unidades defectuosas es de 0.05. ¾Cuál es
la probabilidad de que la vigésima unidad inspeccionada sea la
tercera que se encuentre defectuosa?
Como p = 0.05 y k = 3, entonces
3 + 17 − 1
P (X = 17) = 0.053 (1 − 0.05)17 = 0.0089
3−1
En R:
dnbinom(17, 3, .05)
[1] 0.008937322
Distribución Normal:
Se dice que una
v.a. X se encuentra normalmente distribuida,
X ∼ N µ, σ 2 , si su función de densidad de probabilidad está
dada por
1 1 x−µ 2
f (x) = √ e− 2 ( σ ) −∞<x <∞
2πσ
con −∞ < µ < ∞ y σ > 0.
Además, E (X ) = µ y V (X ) = σ 2 .
0.8
N(0,0.5)
0.6
Densidad Normal
0.4
N(0,1) N(3,1)
0.2
N(0,1.5)
0.0
−4 −2 0 2 4 6
En R:
Para calcular la f.d.p. en un x dado se tiene la función
dnorm(x,µ,σ )
Para calcular la f.d.a.
F (x) = P (X ≤ x)
Ejemplo:
Sea X una v.a. que representa la inteligencia medida por medio
de pruebas CI. Si X ∼ N (100, 10), obtener las probabilidades de
que X sea mayor que 95 y entre 95 y 105.
0.12 0.12
0.10 0.10
0.08 0.08
N(100,10)
N(100,10)
0.06 0.06
0.04 0.04
0.02 0.02
0.00 0.00
Ejemplo:
∞
1 1 x−100 2
Z
P (X > 95) = √ e − 2 ( 3.16 ) dx
95 2π 3.16
= 1 − pnorm(95,100,3.16)
= 0.943
105
1 1 x−100 2
Z
P (95 < X < 105) = √ e − 2 ( 3.16 ) dx
95 2π 3.16
= pnorm(105,100,3.16) − pnorm(95,100,3.16)
= 0.886
Distribución Exponencial:
Se dice que una v.a. X tiene distribución Exponencial,
X ∼ Exp (λ), si su función de densidad de probabilidad está
dada por
f (x) = λe −λx , x >0
con λ > 0. Además,
1 1
E (X ) = , V (X ) =
λ λ2
y
F (x) = 1 − e −λx , x ≥0
1.5 Exp(1.5)
Densidad Exponencial
1.0
0.5
Exp(1)
Exp(0.5)
0.0
0 1 2 3 4 5
En R:
Para calcular la f.d.p. en un x dado se tiene la función
dexp(x,λ)
Para calcular la f.d.a.
F (x) = P (X ≤ x)
P (X > 8) = 1 − P (X ≤ 8)
0.20
Z 8
1 −1x
0.15
=1−
Densidad Exp(5)
e 5 dx
0 5
0.10
1
= 1 − 1 − e− 5 8
0.05
0.00
0 10 20 30
Tiempo de falla
40 50
= 1 − pexp(8,1/5)
= 0.2018965
Departamento de Matemáticas y Estadística Pág 93
Mario José Pacheco López Estadística Computacional
Ejemplo:
Si se instalan cinco de estos componentes, ¾cuál es la
probabilidad de que al menos dos aun funcionen al nal de ocho
años?
Y ∼ Bin (5, 0.20)
P (Y ≥ 2) = 1 − P (Y < 2)
1
5
0.20y (1 − 0.20)5−y
X
=1−
y
y =0
= 1 − pbinom(1,5,0.20)
= 0.26272
Distribución Gamma:
Se dice que una v.a. X tiene distribución Gamma,
X ∼ Gamma (α, β), si su función de densidad de probabilidad
está dada por
β α α−1 −βx
f (x) = x e , x >0
Γ (α)
E (X ) = α/β, V (X ) = α/β 2
0.5
0.4
Gamma(1,0.5)
Densidad Gamma
0.3
Gamma(9,2)
0.2
Gamma(2,0.5)
0.1
0.0
0 5 10 15 20
En R:
Para calcular la f.d.p. en un x dado se tiene la función
dgamma(x,α,β )
Para calcular la f.d.a.
F (x) = P (X ≤ x)
0.15 60 4 −0.1x
0.020
Z
P (X ≤ 60) = x e dx
Γ (5) 0
0.015
Densidad Gamma(5,0.1)
Z 60
x 4 e −0.1x dx
0.010
= 24
0
0.005
= pgamma(60,5,0.1)
0.000
= 0.7149435
0 50 100 150 200
Tiempo
Distribución Beta:
Se dice que una v.a. X tiene distribución Beta, X ∼ Beta (α, β),
si su función de densidad de probabilidad está dada por
Γ (α + β) α−1
f (x) = x (1 − x)β−1 0<x <1
Γ (α) Γ (β)
3.0
2.5 Beta(5,1)
Beta(2,5)
2.0
Beta(6,3)
Densidad Beta
Beta(1,3) Beta(2,2)
1.5
1.0
Beta(0.5,0.5)
0.5
0.0
En R:
Para calcular la f.d.p. en un x dado se tiene la función
dbeta(x,α,β )
Para calcular la f.d.a.
F (x) = P (X ≤ x)
Z 0.1
Γ (21) 19
15
=1− (1 − x) dx
Densidad Beta(1,20)
Γ (1) Γ (20) 0
10
Z 0.1
19
= 1 − 20 (1 − x) dx
5
0
0
= 0.1215767
Departamento de Matemáticas y Estadística Pág 102
Mario José Pacheco López Estadística Computacional
Estimación
Función de Verosimilitud
Sea x1 , x2 , ..., xn una muestra aleatoria extraida de F (x; θ) y sea
Estimación
θ̂ = argmax {` (θ | x1 , x2 , ...xn )}
θ∈Θ
Estimación
Ejemplo
Si el tiempo de vida, en años, de una muestra de 10 celulares es:
2.1, 5.4, 3.5, 0.3, 1.6, 2.8, 3.9, 0.8, 1.2, 1.7. Asumiendo que el
tiempo de vida es exponencial, la función de verosimilitud de λ
es:
10 10
f (xi | λ) = λ10
Y Y
L (λ | x1 , x2 , ...x10 ) = e −λxi
i=1 i=1
P10
10 −λ i=1 xi
=λ e
y la log-verosimilitud
Estimación
Ejemplo
Para valores de λ > 0, el gráco de la log-verosimilitud es:
> lambda = seq(0,5,.01)
> x = c(2.1,5.4,3.5,0.3,1.6,2.8,3.9,0.8,1.2,1.7)
> logL = function(lamb,x) 10*(log(lamb)-lamb*mean(x))
> plot(lambda,logL(lambda,x),"l",
xlab=expression(lambda),ylab="log-verosimilitud")
−20
−40
log−verosimilitud
−60
−80
−100
0 1 2 3 4 5
Estimación
Ejemplo
Y el máximo de la función de log-verosimilitud lo podemos
encontrar con la función optimize de R:
> optimize(logL,c(0,10),x=x,maximum=T)
$maximum
[1] 0.4291861
$objective
[1] -18.45868
Estimación
Ejemplo
Consideremos ahora que el tiempo de vida de los celulares no es
exponencial sino gamma, la función de verosimilitud de
θ = (α, β)0 es:
10 10
β α 10 Y α−1 −βxi
Y
L (θ | x1 , ...x10 ) = f (xi | θ) = xi e
Γ (α)
i=1 i=1
10 10
!
βα
P10
xiα−1
Y
= e −β i=1 xi
Γ (α)
i=1
y la log-verosimilitud
10 10
βα
X X
` (θ | x1 , ...x10 ) = 10 log + (α − 1) log (xi ) − β xi
Γ (α)
i=1 i=1
Estimación
Ejemplo
Para estimar los parámetros α y β dados los datos usamos la
función optim de R:
> logL = function(theta,x){
+ a = theta[1] ; B = theta[2]
+ n = length(x)
+ 10*log(B^a/gamma(a))+(a-1)*sum(log(x))-B*sum(x)
+ }
> x = c(2.1,5.4,3.5,0.3,1.6,2.8,3.9,0.8,1.2,1.7)
> optim(c(.001,.001),logL,gr=NULL,x=x,
control=list(fnscale=-1))
$par
[1] 2.0509799 0.8804446
$value
[1] -17.22505
Departamento de Matemáticas y Estadística Pág 109
Mario José Pacheco López Estadística Computacional
Estimación
Ejemplo
Grácos de las densidades Exponencial, Gamma y Empirica:
> d = density(x,from=0.001)
> plot(d,ylim=c(0,.35))
> lines(d$x,dgamma(d$x,2.0509799,0.8804446))
> lines(d$x,dexp(d$x,0.4292))
Denición
Dada una muestra aleatoria x1 , x2 , ..., xn que proviene de una
distribución normal con media µ y varianza σ 2 , un intervalo del
100(1 − α) % de conanza para µ es:
σ σ
x̄ − z α2 √ < µ < x̄ + z α2 √
n n
Denición
Dado que en la prática el valor de la varianza σ 2 es desconocido,
un intervalo del 100(1 − α) % de conanza para µ se puede
calcular como:
s s
x̄ − t α2 ,n−1 √ < µ < x̄ + t α2 ,n−1 √
n n
Ejemplo
La base de datos ToothGrowth de R contiene la longitud de los
odontoblastos (dientes) en cada uno de 10 conejillos de indias en
cada uno de tres niveles de dosis de vitamina C (0,5, 1 y 2 mg)
con cada uno de los dos métodos de administración (zumo de
naranja o ácido ascórbico).
> ToothGrowth
len supp dose
1 4.2 VC 0.5
2 11.5 VC 0.5
3 7.3 VC 0.5
4 5.8 VC 0.5
5 6.4 VC 0.5
..
.
Ejemplo
Podemos construir intervalos de conanza para cada dosis:
> t.t = function(x) t.test(x)$conf.int[1:2]
> by(ToothGrowth$len,ToothGrowth$dose,t.t)
ToothGrowth$dose: 0.5
[1] 8.499046 12.710954
--------------------------------------------
ToothGrowth$dose: 1
[1] 17.66851 21.80149
--------------------------------------------
ToothGrowth$dose: 2
[1] 24.33364 27.86636