Sunteți pe pagina 1din 115

Mario José Pacheco López

Estadística Computacional
2

Mario José Pacheco López


mariopachecolopez@gmail.com

sites.google.com/site/wmariojpl

Programa de Estadística
NIT 891080031-3

Departamento de Matemáticas y Estadística


Facultad de Ciencias
Universidad de Córdoba
1er semestre de 2012

Departamento de Matemáticas y Estadística Pág 1


Mario José Pacheco López Estadística Computacional

Contenido del curso


Temática general:
Breve introducción a R: Objetos (Vectores, Matrices,
Factores, Listas, Data frames), Manipulación de Objetos
(Operadores, ...), Funciones apply y otras funciones
especiales, Creación de nuevas funciones, Grácos, ...

Análisis Exploratorio de Datos (EDA): ¾Qué es EDA?,


Herramientas Grácas.

Probabilidad e Inferencia Estadística: Distribuciones de


Probabilidad, Estimación, Inferencia sobre uno y varios
parámetros.

Análisis de Regresión y Diseño de Experimentos: Modelos


de regresión lineal y no lineal, Diagnóstico de modelos,
Diseño de experimentos de uno y más factores.
Departamento de Matemáticas y Estadística Pág 2
Mario José Pacheco López Estadística Computacional

Contenido del curso


Temática general:
Breve introducción a R: Objetos (Vectores, Matrices,
Factores, Listas, Data frames), Manipulación de Objetos
(Operadores, ...), Funciones apply y otras funciones
especiales, Creación de nuevas funciones, Grácos, ...

Análisis Exploratorio de Datos (EDA): ¾Qué es EDA?,


Herramientas Grácas.

Probabilidad e Inferencia Estadística: Distribuciones de


Probabilidad, Estimación, Inferencia sobre uno y varios
parámetros.

Análisis de Regresión y Diseño de Experimentos: Modelos


de regresión lineal y no lineal, Diagnóstico de modelos,
Diseño de experimentos de uno y más factores.
Departamento de Matemáticas y Estadística Pág 3
Mario José Pacheco López Estadística Computacional

Contenido del curso


Temática general:
Breve introducción a R: Objetos (Vectores, Matrices,
Factores, Listas, Data frames), Manipulación de Objetos
(Operadores, ...), Funciones apply y otras funciones
especiales, Creación de nuevas funciones, Grácos, ...

Análisis Exploratorio de Datos (EDA): ¾Qué es EDA?,


Herramientas Grácas.

Probabilidad e Inferencia Estadística: Distribuciones de


Probabilidad, Estimación, Inferencia sobre uno y varios
parámetros.

Análisis de Regresión y Diseño de Experimentos: Modelos


de regresión lineal y no lineal, Diagnóstico de modelos,
Diseño de experimentos de uno y más factores.
Departamento de Matemáticas y Estadística Pág 4
Mario José Pacheco López Estadística Computacional

Contenido del curso


Temática general:
Breve introducción a R: Objetos (Vectores, Matrices,
Factores, Listas, Data frames), Manipulación de Objetos
(Operadores, ...), Funciones apply y otras funciones
especiales, Creación de nuevas funciones, Grácos, ...

Análisis Exploratorio de Datos (EDA): ¾Qué es EDA?,


Herramientas Grácas.

Probabilidad e Inferencia Estadística: Distribuciones de


Probabilidad, Estimación, Inferencia sobre uno y varios
parámetros.

Análisis de Regresión y Diseño de Experimentos: Modelos


de regresión lineal y no lineal, Diagnóstico de modelos,
Diseño de experimentos de uno y más factores.
Departamento de Matemáticas y Estadística Pág 5
Mario José Pacheco López Estadística Computacional

Contenido del curso


Temática general:
Breve introducción a R: Objetos (Vectores, Matrices,
Factores, Listas, Data frames), Manipulación de Objetos
(Operadores, ...), Funciones apply y otras funciones
especiales, Creación de nuevas funciones, Grácos, ...

Análisis Exploratorio de Datos (EDA): ¾Qué es EDA?,


Herramientas Grácas.

Probabilidad e Inferencia Estadística: Distribuciones de


Probabilidad, Estimación, Inferencia sobre uno y varios
parámetros.

Análisis de Regresión y Diseño de Experimentos: Modelos


de regresión lineal y no lineal, Diagnóstico de modelos,
Diseño de experimentos de uno y más factores.
Departamento de Matemáticas y Estadística Pág 6
Mario José Pacheco López Estadística Computacional

Breve Introducción a R

Departamento de Matemáticas y Estadística Pág 7


Mario José Pacheco López Estadística Computacional

Objetos
Objetos y atributos
R trabaja con objetos los cuales tienen nombre, contenido y
atributos. La acción de una función sobre un objeto depende de
los atributos. Todo objeto tiene dos atributos intrínsecos: tipo y
longitud. El tipo se reere a la clase básica de los elementos en
el objeto; existen cuatro tipos principales: numérico, caracter,
complejo y lógico. La longitud es el número de elementos en el
objeto.

Ejemplos Ejemplos
x <- 2 f <- factor(z)
y <- "A" L <- list(z, w)
z <- c(1,2,5,3,4) mode(z) ; is(z)
w <- c("e","A","F") length(f)
Departamento de Matemáticas y Estadística Pág 8
Mario José Pacheco López Estadística Computacional

Objetos
Ejemplos
A <- matrix(c(2,4,6,8,10,12,14,16),nrow=2,ncol=4)
A
[,1] [,2] [,3] [,4]
[1,] 2 6 10 14
[2,] 4 8 12 16
x <- c(1,2,3,4,5)
y <- c("a","a","b","b","a")
D <- data.frame(x,y)
D
x y
1 1 a
2 2 a
3 3 b
4 4 b
5 5 a
Departamento de Matemáticas y Estadística Pág 9
Mario José Pacheco López Estadística Computacional

Secuencias

Ejemplos Ejemplos
x <- 1:10 E
x <- seq(1,10,.3) a b c
x <- seq(1,10,len=5) 1 1 A 1
y <- rep(3,5) 2 2 A 1
y <- rep(x,4) 3 1 B 1
w = gl(3, 5) 4 2 B 1
w <- gl(3, 5, length=28) 5 1 A 2
w <- gl(2, 6, label=c("M", "F")) 6 2 A 2
E <- expand.grid(a=c(1,2),b=c("A","B"),c=1:3) 7 1 B 2
8 2 B 2
9 1 A 3
10 2 A 3
11 1 B 3
12 2 B 3
Departamento de Matemáticas y Estadística Pág 10
Mario José Pacheco López Estadística Computacional

Series de Tiempo
Serie de tiempo
datos <- c(.5,1.6,2.1,.9,2.3,3.1,1.2,2.2,3.4)
serie <- ts(datos,freq=1,start=c(1990,7))
serie
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
1990 0.5 1.6 2.1 0.9 2.3 3.1
1991 1.2 2.2 3.4

serie <- ts(datos,freq=4,start=c(1990,2))


Qtr1 Qtr2 Qtr3 Qtr4
1990 0.5 1.6 2.1
1991 0.9 2.3 3.1 1.2
1992 2.2 3.4

mode(serie) ; is(serie)
Departamento de Matemáticas y Estadística Pág 11
Mario José Pacheco López Estadística Computacional

Geo Datos

Datos espaciales Datos espaciales


require(geoR) $borders
ca20 east north
$coords 2 5340 5800
east north 1 5590 5690
1 5710 4829 8 5990 5690 ...
2 5727 4875 $reg1
3 5745 4922 ... east north
$data 1 5590 5690
[1] 52 57 72 74 ... 2 5340 5800
$covariate 3 5220 5700 ...
altitude area .
1 6.10 3 .
2 6.05 3 .
3 6.30 3 ...
Departamento de Matemáticas y Estadística Pág 12
Mario José Pacheco López Estadística Computacional

Manipulación de objetos

Operadores
La manipulación de datos se hace de diferentes formas.
Usualmente se toma ventaja de la vectorización del lenguaje.
Esto permite trabajar sobre un conjunto de elementos en lugar
de trabajar elemento a elemento.
+ : Suma
- : Resta
* : Multiplicación
/ : División
^: Exponenciación
%/ % : División entera
% % : Operador módulo

Departamento de Matemáticas y Estadística Pág 13


Mario José Pacheco López Estadística Computacional

Manipulación de objetos

Operadores de Comparación Operadores Lógicos


< : menor &:y
> : mayor |:ó
<= : menor o igual ! : no
>= : mayor o igual all(...)
= =: igual any(...)
!= : diferente

Operadores de Control
&& : Si el primer operando es cierto se evalúa el segundo
operando
|| : Si el primer operando es falso se evalúa el segundo
operando.
Departamento de Matemáticas y Estadística Pág 14
Mario José Pacheco López Estadística Computacional

Manipulación de objetos
Subíndices
Se pueden extraer datos de un objeto de diferentes formas
dependiendo de su tipo:
x <- c(2,5,4,3,8,1,6,10,4,2,7,11) ; x
x[3] ; x[-3]
x[2:4]
x[c(1,3,4)] ; x[-c(1,3,4)]
x[x>3]
y <- 1:5
x[y!=2]
A = matrix(x,3) ; A
A[2,]
A[,4]
A[,c(1,3)]
A[A>5]
A[A[,2]<8,]
Departamento de Matemáticas y Estadística Pág 15
Mario José Pacheco López Estadística Computacional

Importar y exportar objetos

Importar
La forma más común es traer bases de Excel con extensión .csv:
datos = read.csv2("base.csv")

Importar
o archivos de texto .txt separados por espacios:
datos = read.table("base.txt",header=T)
Estas bases de datos de guardan en R como un data.frame.

Exportar
Se pueden guardar archivos de R en el directorio de trabajo:
write.table(datos, file = "arch.txt")
write.csv2(datos, file = "arch.csv")

Departamento de Matemáticas y Estadística Pág 16


Mario José Pacheco López Estadística Computacional

Funciones apply
sapply apply
Aplica una función sobre los Aplica una función tomando como
elementos de un vector: argumentos las las o columnas de
sapply(1:4, sqrt) una matriz o data frame:
[1] 1.00 1.41 1.73 2.00 A = matrix(1:25,5)
A
tapply [,1] [,2] [,3] [,4] [,5]
Aplica una función sobre los [1,] 1 6 11 16 21
elementos de un vector de [2,] 2 7 12 17 22
acuerdo a un índice: [3,] 3 8 13 18 23
g = gl(3,2) [4,] 4 9 14 19 24
x = 1:6 [5,] 5 10 15 20 25
tapply(x,g,sum) apply(A,1,sum)
1 2 3 [1] 55 60 65 70 75
3 7 11 apply(A,2,sum)
[1] 15 40 65 90 115
Departamento de Matemáticas y Estadística Pág 17
Mario José Pacheco López Estadística Computacional

Bucles

Ciclos for
Podemos crear ciclos que toman una sentencia y la realizan
repetidas veces:
x = c(3,1,8,4,2).
y = z = numeric(0)
w = sort(x) ; v = sort(x,decreasing = T)
for(i in 1:length(w)){
y[i] = sum(w[1:i])
z[i] = sum(v[1:i])
}
y
[1] 1 3 6 10 18
z
[1] 8 12 15 17 18

Departamento de Matemáticas y Estadística Pág 18


Mario José Pacheco López Estadística Computacional

Bucles

while()
Podemos realizar operaciones mientras una condición se este
cumpliendo.
Por ejemplo: calcular Sn mientras
n  
X i i
Sn = 1− ≤ 10
n n
i=1

Sn = n = 0
while(Sn<=10){
n = n+1
i = 1:n
Sn = Sn+sum(i/n*(1-i/n))
}

Departamento de Matemáticas y Estadística Pág 19


Mario José Pacheco López Estadística Computacional

Bucles
if(), else(), ifelse()
Podemos realizar operaciones si ocurre o no un evento.
Por ejemplo: revisar, con un for(), si los valores dentro de un
vector están en los rangos [0,5), [5,10).
x = c(7,1,3,8,9,1,4,0)
y = 0
for(i in 1:length(x)){
if(x[i]>=0 & x[i]<5) y[i] = "[0,5)"
else y[i] = "[5,10)"
}
y = 0
for(i in 1:length(x)){
y[i] = ifelse(x[i]>=0 & x[i]<5, "[0,5)", "[5,10)")
}
y
[1] "[5,10)" "[0,5)" "[0,5)" "[5,10)"
[5] "[5,10)" "[0,5)" "[0,5)" "[0,5)"
Departamento de Matemáticas y Estadística Pág 20
Mario José Pacheco López Estadística Computacional

Creación de nuevas funciones


functión() funciones con más de un resultado
Podemos crear nuestras f = function(x){
propias funciones con diversos y = z = numeric(0)
resultados como vectores, w = sort(x) ; v = sort(x,T)
matrices, data.frame, etc.: for(i in 1:length(w)){
fx2 = function(x) x^2 y[i] = sum(w[1:i])
fx2(c(2,4,7,11)) z[i] = sum(v[1:i])
[1] 4 16 49 121 }
fxyz = function(x,y,z) list("sum1"= y, "suma2"= z)
x^2 + y^2 +z^2 }
fxyz(1:3,2:4,4:6) f(c(2,4,7,11))
[1] 21 38 61 $sum1
[1] 2 6 13 24
$suma2
[1] 11 18 22 24

Departamento de Matemáticas y Estadística Pág 21


Mario José Pacheco López Estadística Computacional

Grácos
Función plot() Función lines()
y = c(2,4,3,7,5,9,6,8,10,9) plot(x,y,"b",ylim=c(1,22))
x = 1:10 z = 2*y
plot(x,y) lines(z)
plot(x,y,pch=20) lines(z,pch=20,col=2)
plot(x,y,pch=20,cex=2)
plot(x,y,pch=20,col=4) Función abline()
plot(x,y,las=1) plot(x,y,"b")
plot(x,y,type="l",lty=2) abline(h=4); abline(v=5)
plot(x,y,xlab="EjeX",ylab="EjeY") abline(h=6,v=8)
plot(x,y,pch=20,main="Título")
plot(x,y,xlim=c(3,8),ylim=c(1,10))
Función segment()
plot(x,y,type="b",pch=20)
plot(x,y,"h") plot(x,y,type="b",pch=20)
plot(x,y,"s") segments(2,4,8,9)
plot(x,y,"n") segments(2,4,8,9,col=3)
Departamento de Matemáticas y Estadística Pág 22
Mario José Pacheco López Estadística Computacional

Grácos
Función points()
plot(x,y,type="l")
points(x,y,pch=20)

Función text()
plot(x,y,type="b",pch=20)
text(x,y+.5,c("A","B","C","D","E"))
text(4,9,expression(hat(beta)==(X^t * X)^{-1}*X^t*y))

Función matplot()
A = matrix(1:20,4)
matplot(A)
matplot(A,type="b",pch=20,lty=1)
matplot(A,type="b",pch=20,ylim=c(1,30))
nom=c("A","B","C","D")
legend(locator(1),legend=nom,pch=20,lty=1,col=1:4)
Departamento de Matemáticas y Estadística Pág 23
Mario José Pacheco López Estadística Computacional

Grácos
Varios grácos por página
par(mfrow=c(3,2))
plot(x,y,type="l")
plot(x,y,type="b")
plot(x,y,type="p")
plot(x,y,type="h")
plot(x,y,type="s")
plot(x,y,type="n")

ciclos para un gráco


plot(1:5,1:5,type="n")
for(i in 1:5){
segments(1,i,5,i)
segments(i,1,i,5)
}
Departamento de Matemáticas y Estadística Pág 24
Mario José Pacheco López Estadística Computacional

Análisis Exploratorio de
Datos (EDA)

Departamento de Matemáticas y Estadística Pág 25


Mario José Pacheco López Estadística Computacional

¾Qué es EDA?

Denición:
Propuesto por John W. Tukey (1977), el EDA (Exploratory data
analysis), es un enfoque para el análisis de conjuntos de datos, con el
objetivo resumir sus principales características de una manera fácil de
entender, generalmente de forma gráca, sin necesidad de utilizar un
modelo estadístico o de haber formulado una hipótesis.

Objetivos:
Proponer hipótesis sobre las causas de los fenómenos observados.
Evaluar los supuestos en los que se basa la inferencia estadística.
Ayudar en la elección de las herramientas y técnicas estadísticas
a usar.
Proporcionar una base para la recopilación de datos en futuras
encuestas o experimentos.

Departamento de Matemáticas y Estadística Pág 26


Mario José Pacheco López Estadística Computacional

Tipos de variables

Tipos variables:
Para realizar cualquier tipo de análisis estadístico hay que tener
claro el tipo de variables:
De acuerdo a su naturaleza:
Cualitativas: dicotómicas, politómicas | ordinal, nominal.
Cuantitativas: discretas, continuas.
Según su inuencia:
Independientes: Explicativas.
Dependientes: Respuesta.

Departamento de Matemáticas y Estadística Pág 27


Mario José Pacheco López Estadística Computacional

Herramientas

Herramientas:
Existe un gran número herramientas que podemos usar
dependiendo del tipo de variables.
Grácas: Grácos de dispersión, histogramas, box-plot,
grácos cuantil-cuantil, ...
Cuantitativas: Medidas de localización y dispersión,
asimetría y curtosis, aleatoriedad, bondad de ajuste,
detección de datos atípicos.

Departamento de Matemáticas y Estadística Pág 28


Mario José Pacheco López Estadística Computacional

Herramientas grácas
Run-Sequence Plot:
Es una manera fácil de resumir grácamente un conjunto
univariado de datos. Con estos se verica si los datos se
encuentran distribuidos al azar, tienen la misma distribución,
tienen la misma media y la misma dispersión.

Considere la base de datos airquality de R:


par(mfrow=c(2,2))
plot(airquality$Ozone, pch=20,
xlab="Día", ylab="Ozono (ppb)")
plot(airquality$Solar.R, pch=20,
xlab="Día", ylab="Radiación solar (Langleys)")
plot(airquality$Temp, pch=20,
xlab="Día", ylab="Temperatura (ºF)")
plot(airquality$Wind, pch=20, xlab="Día",
ylab="Velocidad del viento (mill/h)")
Departamento de Matemáticas y Estadística Pág 29
Mario José Pacheco López Estadística Computacional

Herramientas grácas

Run-Sequence Plot:

Departamento de Matemáticas y Estadística Pág 30


Mario José Pacheco López Estadística Computacional

Herramientas grácas

Lag Plot:
Comprueba si una serie de tiempo es aleatoria o no. Los datos
no deben presentar ninguna estructura identicable.

Considere nuevamente la base de datos airquality:


n = nrow(airquality)
par(mfrow=c(2,2))
plot(airquality$Ozone[-n],airquality$Ozone[-1],pch=20,
xlab="lag(Ozono)", ylab="Ozono")
plot(airquality$Solar.R[-n],airquality$Solar.R[-1],pch=20,
xlab="lag(R. Solar)", ylab="R. Solar")
plot(airquality$Temp[-n],airquality$Temp[-1],pch=20,
xlab="lag(Temperatura)", ylab="Temperatura")
plot(airquality$Wind[-n],airquality$Wind[-1],pch=20,
xlab="lag(Vel. Viento)", ylab="Vel. Viento")

Departamento de Matemáticas y Estadística Pág 31


Mario José Pacheco López Estadística Computacional

Herramientas grácas

Lag Plot:

Departamento de Matemáticas y Estadística Pág 32


Mario José Pacheco López Estadística Computacional

Herramientas grácas

Histograma:
Busca resumir la distribución de un conjunto univariado de
datos y permite identicar: Promedio, dispersión, asimetría,
datos atípicos, multi modalidad.

Considere nuevamente la base de datos airquality:


par(mfrow=c(2,2))
hist(airquality$Ozone,
xlab="Ozono", ylab="Frecuencia", main="")
hist(airquality$Solar.R,
xlab="R. solar", ylab="Frecuencia", main="")
hist(airquality$Temp,
xlab="Temperatura", ylab="Frecuencia", main="")
hist(airquality$Wind,
xlab="Vel. Viento", ylab="Frecuencia", main="")

Departamento de Matemáticas y Estadística Pág 33


Mario José Pacheco López Estadística Computacional

Herramientas grácas

Histograma:

Departamento de Matemáticas y Estadística Pág 34


Mario José Pacheco López Estadística Computacional

Herramientas grácas
Gráco de probabilidad normal:
Permite vericar normalidad en un conjunto de datos.

Considere nuevamente la base de datos airquality:


par(mfrow=c(2,2))
qqnorm(airquality$Ozone, xlab="Cuantiles Teóricos",
ylab="Cuantiles Muestrales", main="Ozono")
qqline(airquality$Ozone)
qqnorm(airquality$Solar.R, xlab="Cuantiles Teóricos",
ylab="Cuantiles Muestrales", main="R. Solar")
qqline(airquality$Solar.R)
qqnorm(airquality$Temp, xlab="Cuantiles Teóricos",
ylab="Cuantiles Muestrales", main="Temperatura")
qqline(airquality$Temp)
qqnorm(airquality$Wind, xlab="Cuantiles Teóricos",
ylab="Cuantiles Muestrales", main="V. Viento")
qqline(airquality$Wind)
Departamento de Matemáticas y Estadística Pág 35
Mario José Pacheco López Estadística Computacional

Herramientas grácas

Gráco de probabilidad normal:

Departamento de Matemáticas y Estadística Pág 36


Mario José Pacheco López Estadística Computacional

Herramientas grácas
4-Plot:
Reúne las cuatro técnicas grácas anteriores.

Departamento de Matemáticas y Estadística Pág 37


Mario José Pacheco López Estadística Computacional

Herramientas grácas
Box-plot:
Chambers (1983) Permite identicar posición y escala de
conjunto de datos, así como datos atípicos.

Considere nuevamente la base de datos airquality:


boxplot(airquality$Ozone, ylab="Ozono")
boxplot(airquality$Ozone~airquality$Month,
ylab="Ozono", xlab="Mes")

Departamento de Matemáticas y Estadística Pág 38


Mario José Pacheco López Estadística Computacional

Herramientas grácas
Density-plot:
Gráco de la densidad kernel de un conjunto de datos.

Considere nuevamente la base de datos airquality:


airq = na.exclude(airquality)
plot(density(airq$Ozone),ylab="densidad",
xlab="Ozono", main="")

Departamento de Matemáticas y Estadística Pág 39


Mario José Pacheco López Estadística Computacional

Herramientas grácas
Violin-plot:
Agrega al box plot la densidad de los datos.

Considere nuevamente la base de datos airquality:


require(UsingR)
violinplot(airq$Ozone~airq$Month)

Departamento de Matemáticas y Estadística Pág 40


Mario José Pacheco López Estadística Computacional

Herramientas grácas

Diagrama de dispersión
Diagrama de dispersión de todos los pares de variables X y Y.

Considere nuevamente la base de datos airquality:


plot(airquality,pch=20)

Departamento de Matemáticas y Estadística Pág 41


Mario José Pacheco López Estadística Computacional

Herramientas grácas
Diagrama de dispersión más histogramas:
Agrega al diagrama de dispersión los histogramas de las
variables X y Y.

Considere nuevamente la base de datos airquality:


require(UsingR)
simple.scatterplot(airq$Ozone,airq$Wind)

Departamento de Matemáticas y Estadística Pág 42


Mario José Pacheco López Estadística Computacional

Herramientas grácas
Tablas de contingencia:
Considere la siguiente tabla:

Ojos
Cabello Café Azul Avellana Verde
Negro 68 20 15 5
Café 119 84 54 29
Rojo 26 17 14 14
Rubio 7 94 10 16

En R:
tab = matrix(c(68,20,15,5,119,84,54,29,26,17,14,14,
7,94,10,16),4,byrow=T)
tab = as.table(tab)
colnames(tab)=c("Café","Azul","Avellana","Verde")
rownames(tab)=c("Negro","Café","Rojo","Rubio")

Departamento de Matemáticas y Estadística Pág 43


Mario José Pacheco López Estadística Computacional

Herramientas grácas

Tablas de contingencia:
Algunas funciones sobre tablas de contingencia son:
margin.table(tab,1) # Sumas por filas
margin.table(tab,2) # Sumas por columnas
prop.table(tab) # Porcentajes por celda
prop.table(tab,1)# Porcentajes por filas
prop.table(tab,1)# Porcentajes por columnas

Departamento de Matemáticas y Estadística Pág 44


Mario José Pacheco López Estadística Computacional

Herramientas grácas

Grácos para tablas de contingencia:


Algunas funciones grácas para tablas de contingencia son:
plot(tab,las=1,xlab="Color del Cabello",
ylab="Color de los Ojos",main="")
p1tab = prop.table(tab,1) ; p2tab = prop.table(tab,2)
plot(p1tab,las=1,xlab="Color del Cabello",
ylab="Color de los Ojos",main="")
plot(p2tab,las=1,xlab="Color del Cabello",
ylab="Color de los Ojos",main="")
barplot(tab,legend.text=T)
barplot(tab,beside=T,legend.text=T)
barplot(tab,beside=T,horiz=T,legend.text=T)

Departamento de Matemáticas y Estadística Pág 45


Mario José Pacheco López Estadística Computacional

Herramientas grácas
Grácos para tablas de contingencia:

Negro Café Rojo Rubio Negro Café Rojo Rubio


Color de los Ojos

Color de los Ojos


Café Café

Azul Azul

Avellana Avellana
Verde Verde

Color del Cabello Color del Cabello

Negro Café Rojo Rubio


Color de los Ojos

Café

Azul

Avellana

Verde

Color del Cabello

Departamento de Matemáticas y Estadística Pág 46


Mario José Pacheco López Estadística Computacional

Herramientas grácas
Grácos para tablas de contingencia:

200

80 100
Rubio Negro
Rojo Café
150

Café Rojo
Negro Rubio

60
100

40
50

20
0

0
Café Azul Avellana Verde Café Azul Avellana Verde
Verde

Rubio
Rojo
Café
Negro
Azul
Café

0 20 40 60 80 100

Departamento de Matemáticas y Estadística Pág 47


Mario José Pacheco López Estadística Computacional

Herramientas Numéricas

Los 5 números resumen:


Mínimo, 1er Cuartil, Mediana, 3er Cuartil, Máximo y se puede
adicionar el promedio:

Considere la base faithful: O individualmente:


summary(faithful) x = faithful$eruptions
eruptions waiting mean(x) ; median(x)
Min. :1.600 Min. :43.0 min(x) ; max(x)
1st Qu.:2.163 1st Qu.:58.0 quantile(x,c(.25,.75))
Median :4.000 Median :76.0 y = faithful$waiting
Mean :3.488 Mean :70.9 mean(y) ; median(y)
3rd Qu.:4.454 3rd Qu.:82.0 min(y) ; max(y)
Max. :5.100 Max. :96.0 quantile(y,c(.25,.75))

Departamento de Matemáticas y Estadística Pág 48


Mario José Pacheco López Estadística Computacional

Probabilidad e Inferencia
Estadística

Departamento de Matemáticas y Estadística Pág 49


Mario José Pacheco López Estadística Computacional

Distribuciones de Probabilidad

Variable aleatoria
Una variable aleatoria es una variable estadística cuyos valores
se obtienen de mediciones en algún tipo de experimento
aleatorio. Una variable aleatoria (v.a.) X es una función real
denida en el espacio muestral, S , asociado a un experimento
aleatorio:
X : S →R
Pueden ser discretas o continuas.

Departamento de Matemáticas y Estadística Pág 50


Mario José Pacheco López Estadística Computacional

Distribuciones de Probabilidad

Función masa de probabilidad


El conjunto de pares ordenados (x, f (x)) es una función masa
de probabilidad de la v.a. discreta X , si para cada resultado
posible x :
1 f (x) ≥ 0
X
2 f (x) = 1
x
3 P (X = x) = f (x)

Departamento de Matemáticas y Estadística Pág 51


Mario José Pacheco López Estadística Computacional

Distribuciones de Probabilidad
Ejemplo
Sea X una v.a. que representa el número de clientes que llega a
un banco en un periodo de 15 minutos, con función masa de
probabilidad:

x 0 1 2 3 4 5 6 7 8
f (x) 0.05 0.1 0.1 0.1 0.2 0.25 0.1 0.05 0.05

En R: Gráco:
x = 0:8
fx = c(.05,.1,.1,.1,.2,

0.25
.25,.1,.05,.05)

0.20
plot(x,fx,"h")

0.15
fx

0.10
0.05
0 2 4 6 8

Departamento de Matemáticas y Estadística Pág 52


Mario José Pacheco López Estadística Computacional

Distribuciones de Probabilidad

Función de densidad de probabilidad


Para la v.a. continua X , denida en el conjunto de números
reales R , f (x) es una función de densidad de probabilidad de X ,
si:
1 f (x) ≥ 0, para todo x ∈ R .
R∞
2
−∞ f (x) dx = 1
Rb
3 P (a < X < b) = f (x) dx
a

Departamento de Matemáticas y Estadística Pág 53


Mario José Pacheco López Estadística Computacional

Distribuciones de Probabilidad

Ejemplo
Considere la v.a. que representa la proporción de accidentes
automovilísticos fatales en una región, con la siguiente función
de densidad

f (x) = 42x (1 − x)5 , 0<x ≤1

¾Cuál es la pobabilidad de que entre un 10 % y un 20 % de los


accidentes automovilísticos sean fatales?
Z 0.20
P (0.10 ≤ X ≤ 0.20) = 42x (1 − x)5 dx = 0.2736
0.10

Departamento de Matemáticas y Estadística Pág 54


Mario José Pacheco López Estadística Computacional

Distribuciones de Probabilidad

En R: Probabilidad y Gráco:
f = function(x) integrate(f,.1,.2)
42*x*(1-x)^5 0.27358 with abs error < 3e-15
x = seq(.001,1,.001) plot(x,fx,"l")
fx = f(x) segments(.1,0,.1,f(.1))
plot(x,fx,"l") segments(.2,0,.2,f(.2))
abline(h=0)

2.5
2.5

2.0
2.0

1.5
1.5

fx
fx

1.0
1.0

0.5
0.5

0.0
0.0

0.0 0.2 0.4 0.6 0.8 1.0


0.0 0.2 0.4 0.6 0.8 1.0
x
x

Departamento de Matemáticas y Estadística Pág 55


Mario José Pacheco López Estadística Computacional

Distribuciones de Probabilidad

Función de distribución acumulada


F (x) = P (X ≤ x)
Caso discreto: X
F (x) = P (X = xi )
xi ≤x

Caso Continuo Z x
F (x) = f (x) dx
−∞

Departamento de Matemáticas y Estadística Pág 56


Mario José Pacheco López Estadística Computacional

Distribuciones de Probabilidad
Ejemplo
Número de clientes que llega a un banco:

x 0 1 2 3 4 5 6 7 8
f (x) 0.05 0.1 0.1 0.1 0.2 0.25 0.1 0.05 0.05
F (x) 0.05 0.15 0.25 0.35 0.55 0.80 0.90 0.95 1

En R: Gráco:
x = 0:8
fx = c(.05,.1,.1,.1,.2,

1.0
.25,.1,.05,.05)

0.8
0.6
Fx = cumsum(fx)

Fx

0.4
plot(x,Fx,type="h")

0.2
0 2 4 6 8

Departamento de Matemáticas y Estadística Pág 57


Mario José Pacheco López Estadística Computacional

Distribuciones de Probabilidad

Ejemplo
Proporción de accidentes automovilísticos fatales:
Z x
P (X ≤ x) = 42x (1 − x)5 dx
0
= −7x(1 − x)6 − (1 − x)7

En R: Gráco:
F = function(x)
-7*x*(1-x)^6-(1-x)^7

0.0
−0.2
x = seq(.001,1,.001)

−0.4
plot(x,F(x),"l")

F(x)

−0.6
plot(x,cumsum(f(x)))

−0.8
F = function(x) integrate(f,0,x)
−1.0
0.0 0.2 0.4 0.6 0.8 1.0

Departamento de Matemáticas y Estadística Pág 58


Mario José Pacheco López Estadística Computacional

Distribuciones de Probabilidad

Esperanza y varianza de una v.a


Caso discreto:

V (X ) = E X 2 − [E (X )]2
X 
E (X ) = xf (x)
x

con E X 2 = x 2 f (x).
 P
x

Caso continuo:
Z ∞
V (X ) = E X 2 − [E (X )]2

E (X ) = xf (x) dx
−∞

con Z ∞
2
x 2 f (x) dx

E X =
−∞

Departamento de Matemáticas y Estadística Pág 59


Mario José Pacheco López Estadística Computacional

Distribuciones de Probabilidad

Ejemplo
Número de clientes que llega a un banco:

x 0 1 2 3 4 5 6 7 8
f (x) 0.05 0.1 0.1 0.1 0.2 0.25 0.1 0.05 0.05

X
E (X ) = xf (x) = 4
x

E X2 =
 X 2
x f (x) = 20.1
x
V (X ) = 20.1 − 42 = 4.1

Departamento de Matemáticas y Estadística Pág 60


Mario José Pacheco López Estadística Computacional

Distribuciones de Probabilidad

En R:
x = 0:8
fx = c(.05,.1,.1,.1,.2,.25,.1,.05,.05)
Ex = sum(x*fx) ; Ex
[1] 4
Ex2 = sum(x^2*fx)
VarX = Ex2-Ex^2 ; VarX
[1] 4.1

Departamento de Matemáticas y Estadística Pág 61


Mario José Pacheco López Estadística Computacional

Distribuciones de Probabilidad
Ejemplo
Proporción de accidentes automovilísticos fatales:
Z 1
E (X ) = 42x 2 (1 − x)5 dx
0
! 1
2 6 (1 − x)8
7

= −7x (1 − x) − 2x (1 − x) −

4

0

= 0.25

Z 1
2
42x 3 (1 − x)5 dx = 0.0833

E X =
0

V (X ) = 0.0833 − 0.252 = 0.0208

Departamento de Matemáticas y Estadística Pág 62


Mario José Pacheco López Estadística Computacional

Distribuciones de Probabilidad
En R:
f2 = function(x) 42*x^2*(1-x)^5
Ex = integrate(f2,0,1)$value ; Ex
[1] 0.25
f3 = function(x) 42*x^3*(1-x)^5
Ex2 = integrate(f3,0,1)$value
VarX = Ex2-Ex^2 ; VarX
[1] 0.02083333

Otra forma para V (X )


Como
V (X ) = E (X − E (X ))2
h i

f4 = function(x) (x-Ex)^2*42*x*(1-x)^5
VarX = integrate(f4,0,1)$value ; VarX
[1] 0.02083333
Departamento de Matemáticas y Estadística Pág 63
Mario José Pacheco López Estadística Computacional

Distribuciones de Probabilidad

Algunas Variables Aleatorias Importantes:


Discretas:
Binomial, Poisson, Hipergeométrica y Binomial Negativa.
Continuas:
Normal, Exponencial, Beta y Gamma.

Departamento de Matemáticas y Estadística Pág 64


Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes

Distribución Binomial:
Es una distribución de probabilidad discreta que mide el número
de éxitos en una secuencia de n ensayos independientes de
Bernoullia con una probabilidad ja p de ocurrencia del éxito
entre los ensayos. Si una v.a. tiene distribución binomial,
X ∼ Bin (n, p), su f.m.p. es
 
n
f (x) = p x (1 − p)n−x x = 0, 1, 2, ..., n
x

E (X ) = np , V (X ) = np (1 − p)
a Un experimento de Bernoulli se caracteriza por ser dicotómico, esto es,

sólo dos resultados posibles.

Departamento de Matemáticas y Estadística Pág 65


Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes

En R:
Para calcular una probabilidad puntual

f (x) = P (X = x)

se tiene la función dbinom(x,n,p)


Para calcular la f.d.a.

F (x) = P (X ≤ x)

se tiene la función pbinom(x,n,p)


Para generar números aleatorios de una binomial:
rbinom(m,n,p)
Para una probabilidad dada y los cuantiles, F −1 (y ) se
pueden calcular con qbinom(prob,n,p)
Departamento de Matemáticas y Estadística Pág 66
Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes


Ejemplo:
La probabilidad de que un componente sobreviva a una prueba
de choque es de 0.75, encuentre la probabilidad de que
sobrevivan exactamente dos de los siguientes 4 componentes que
se prueban:
4
 
4−x
P (X = x) = 0.75x (1 − 0.75) ; x = 0, 1, 2, 3, 4
x
4
 
4−2
P (X = 2) = 0.752 (1 − 0.75) = 0.2109
2

En R:
choose(4,2)*0.75^2*(1-0.75)^(4-2)
[1] 0.2109375
dbinom(2,4,.75)
[1] 0.2109375
Departamento de Matemáticas y Estadística Pág 67
Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes

Ejemplo:
La probabilidad de que un paciente se recupere de una rara
enfermedad sanguínea es 0.4. Si se sabe que 15 personas
contraen esta enfermedad, cuál es la probabilidad de que (a)
sobrevivan al menos 10, (b) sobrevivan de 3 a 10 y (c)
sobrevivan exactamente 5: 
15
15

(a) P (X ≥ 10) = 0.4x (1 − 0.4)15−x = 0.0338
X
x
x=10
10 
15

(b) P (3 ≤ X ≤ 10) = 0.4x (1 − 0.4)15−x = 0.9635
X
x
3
x=
15

(c) P (X = 5) = 0.45 (1 − 0.4)15−5 = 0.1859
5

Departamento de Matemáticas y Estadística Pág 68


Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes


En R:
(a) P (X ≥ 10) = 1 − P (X < 10)
1 - pbinom(9,15,.4)
[1] 0.0338333
(b) P (3 ≤ X ≤ 10)
pbinom(10,15,.4) - pbinom(2,15,.4)
[1] 0.9635383
(c) P (X = 5)
dbinom(5,15,.4)
[1] 0.1859378

Notar que:
P (X ≤ 5) = 0.4032 y P (X ≤ 6) = 0.6098
qbinom(.5,15,.4)
[1] 6
Departamento de Matemáticas y Estadística Pág 69
Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes


Gráco de f (x):
x = 0:15
plot(x,dbinom(x,15,.4),"h")
plot(x,pbinom(x,15,.4),"h")

1.0
0.20

0.8
0.15
dbinom(x, 15, 0.4)

pbinom(x, 15, 0.4)

0.6
0.10

0.4
0.05

0.2
0.00

0.0

0 5 10 15 0 5 10 15

x x

Departamento de Matemáticas y Estadística Pág 70


Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes

Distribución Poisson:
La distribución Poisson es una distribución de probabilidad
discreta que expresa, a partir de una frecuencia de ocurrencia
media (λ), la probabilidad que ocurra un determinado número
de eventos durante cierto periodo de tiempo. Si una v.a. tiene
distribución poisson, X ∼ Po (λ), su f.m.p. es

e −λ λx
p (x) = x = 0, 1, 2, ...
x!
E (X ) = V (X ) = λ.

Departamento de Matemáticas y Estadística Pág 71


Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes

En R:
Para calcular una probabilidad puntual

f (x) = P (X = x)

se tiene la función dpois(x,lam)


Para calcular la f.d.a.

F (x) = P (X ≤ x)

se tiene la función ppois(x,lam)


Para generar números aleatorios de una poisson:
rpois(m,lam)
Para una probabilidad dada y los cuantiles, F −1 (y ) se
pueden calcular con qpois(p,lam)
Departamento de Matemáticas y Estadística Pág 72
Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes

Ejemplo:
Durante un experimento de laboratorio el número promedio de
partículas radiactivas que pasan a través de un contador en un
milisegundo es cuatro. ¾Cuál es la probabilidad de que seis
partículas entren al contador en un milisegundo dado?
entonces
e −4 4 6
P (X = 6) = = 0.1042
6!

En R:
exp(-4)*4^6/factorial(6)
[1] 0.1041956
dpois(6,4)
[1] 0.1041956

Departamento de Matemáticas y Estadística Pág 73


Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes


Ejemplo:
El número promedio de camiones que llega cada día a una
ciudad portuaria es 10. Las instalaciones en el puerto pueden
manejar a lo más 15 camiones por día. ¾Cuál es la probabilidad
de que en un día dado los camiones se tengan que regresar?
15 −10 x
X e 10
P (X > 15) = 1 − P (X ≤ 15) = 1 −
x!
x=0
= 1 − 0.9513 = 0.0487

En R:
1-sum(exp(-10)*10^(0:15)/factorial(0:15))
[1] 0.0487404
1-ppois(15,10)
[1] 0.0487404
Departamento de Matemáticas y Estadística Pág 74
Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes

Distribución Hipergeométrica:
Es la distribución de probabilidad de la v.a. X que cuenta el
número de éxitos en una muestra aleatoria de tamaño n que se
selecciona de N artículos de los que k se denominan éxito y
N − k fracaso. Su f.m.p. e
  
k N −k
x n−x
f (x) =   , x = 0, 1, 2, ..., n.
N
n

N, 1− .
nk N−n nk k

E (X ) = V (X ) = N−1 N N

Departamento de Matemáticas y Estadística Pág 75


Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes

En R:
Para calcular una probabilidad puntual

f (x) = P (X = x)

se tiene la función dhyper(x,k,N-k,n)


Para calcular la f.d.a.

F (x) = P (X ≤ x)

se tiene la función phyper(q,k,N-k,n)


Para generar números aleatorios: rhyper(m,k,N-k,n)
Para una probabilidad dada y los cuantiles, F −1 (y ) se
pueden calcular con qhyper(p,k,N-k,n)

Departamento de Matemáticas y Estadística Pág 76


Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes


Ejemplo:
Lotes de 40 componentes cada uno se denominan aceptables si
no contienen más de tres defectuosos. El procedimiento para
muestrear el lote es la selección de 5 componentes al azar y
rechazar el lote si se encuentra un componente defectuoso.
¾Cuál es la probabilidad de que se encuentre exactamente un
defectuoso en la muestra si hay tres defectuosos en todo el lote?
Dado que N = 40, n = 5, k = 3, entonces
3
40 − 3
 

1
5−1
P (X = 1) =
40
 

5
(3) (66045)
= = 0.3011
658008
Departamento de Matemáticas y Estadística Pág 77
Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes

En R:
choose(3,1)*choose(37,4)/choose(40,5)
[1] 0.3011134
dhyper(1, 3, 37, 5)
[1] 0.3011134

Departamento de Matemáticas y Estadística Pág 78


Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes

Ejemplo:
En un estudio se capturan 10 animales para su estudio, se
etiquetan y se sueltan en una región. Después de un tiempo se
selecciona una muestra de 15 animales, ¾cuál es la probabilidad
de que tres o más de estos seleccionados sean animales
etiquetados, si hay 25 de estos animales en el lugar?
Aquí N = 25, n = 15 y k = 10, así

P (X ≥ 3) = 1 − P (X < 3)
10 25 − 10
  
2
X x 15 − x
=1−
25
 
x=0
15
= 1 − 0.0015 = 0.9985

Departamento de Matemáticas y Estadística Pág 79


Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes

En R:
1-sum(choose(10,(0:2))*
choose(15,15-(0:2))/choose(25,15))
[1] 0.9985083
1-phyper(2, 10, 15, 15)
[1] 0.9985083

Departamento de Matemáticas y Estadística Pág 80


Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes

Distribución Binomial Negativa:


Sea X + k el número de ensayos independientes necesarios para
alcanzar de manera exacta k éxitos en un experimento binomial.
La f.m.p. de X es:
k +x −1
 
f (x) = p k (1 − p)x , x = 0, 1, ..., k = 1, 2, ...
k −1

donde p es la probabilidad de éxito en cada ensayo.

E (X ) = k (1 − p) /p y V (X ) = k (1 − p) /p 2 .

Departamento de Matemáticas y Estadística Pág 81


Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes

En R:
Para calcular una probabilidad puntual

f (x) = P (X = x)

se tiene la función dnbinom(x,k,p)


Para calcular la f.d.a.

F (x) = P (X ≤ x)

se tiene la función pnbinom(q,k,p)


Para generar números aleatorios: rnbinom(m,k,p)
Para una probabilidad dada y los cuantiles, F −1 (y ) se
pueden calcular con qnbinom(prob,k,p)

Departamento de Matemáticas y Estadística Pág 82


Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes

Ejemplo:
Se sabe que en cierto proceso de fabricación, en promedio, uno
de cada 100 artículos está defectuoso. ¾Cuál es la probabilidad
de que el quinto artículo que se inspecciona sea el segundo
defectuoso que se encuentra?
Como p = 1/100 = 0.01 y k = 2, entonces

2+3−1
 
P (X = 3) = 0.012 (1 − 0.01)3 = 0.000388
2−1

En R:
dnbinom(3, 2, .01)
[1] 0.0003881196

Departamento de Matemáticas y Estadística Pág 83


Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes

Ejemplo:
En un dpto de control de calidad se inspeccionan las unidades
terminadas que provienen de una línea de ensamble. Se piensa
que la proporción de unidades defectuosas es de 0.05. ¾Cuál es
la probabilidad de que la vigésima unidad inspeccionada sea la
tercera que se encuentre defectuosa?
Como p = 0.05 y k = 3, entonces
3 + 17 − 1
 
P (X = 17) = 0.053 (1 − 0.05)17 = 0.0089
3−1

En R:
dnbinom(17, 3, .05)
[1] 0.008937322

Departamento de Matemáticas y Estadística Pág 84


Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes

Distribución Normal:
Se dice que una
 v.a. X se encuentra normalmente distribuida,
X ∼ N µ, σ 2 , si su función de densidad de probabilidad está
dada por
1 1 x−µ 2
f (x) = √ e− 2 ( σ ) −∞<x <∞
2πσ
con −∞ < µ < ∞ y σ > 0.
Además, E (X ) = µ y V (X ) = σ 2 .

Departamento de Matemáticas y Estadística Pág 85


Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes


Gráco de la f.d.p. normal:

0.8

N(0,0.5)
0.6
Densidad Normal

0.4

N(0,1) N(3,1)
0.2

N(0,1.5)
0.0

−4 −2 0 2 4 6

Departamento de Matemáticas y Estadística Pág 86


Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes

En R:
Para calcular la f.d.p. en un x dado se tiene la función
dnorm(x,µ,σ )
Para calcular la f.d.a.

F (x) = P (X ≤ x)

se tiene la función pnorm(x,µ,σ )


Para generar números aleatorios: rnorm(x,µ,σ )
Para una probabilidad dada p los cuantiles, F −1 (p) se
pueden calcular con qnorm(p,µ,σ )

Departamento de Matemáticas y Estadística Pág 87


Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes

Ejemplo:
Sea X una v.a. que representa la inteligencia medida por medio
de pruebas CI. Si X ∼ N (100, 10), obtener las probabilidades de
que X sea mayor que 95 y entre 95 y 105.

0.12 0.12

0.10 0.10

0.08 0.08
N(100,10)

N(100,10)
0.06 0.06

0.04 0.04

0.02 0.02

0.00 0.00

90 95 100 105 110 90 95 100 105 110


CI CI

Departamento de Matemáticas y Estadística Pág 88


Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes

Ejemplo:

1 1 x−100 2
Z
P (X > 95) = √ e − 2 ( 3.16 ) dx
95 2π 3.16
= 1 − pnorm(95,100,3.16)
= 0.943

105
1 1 x−100 2
Z
P (95 < X < 105) = √ e − 2 ( 3.16 ) dx
95 2π 3.16
= pnorm(105,100,3.16) − pnorm(95,100,3.16)
= 0.886

Departamento de Matemáticas y Estadística Pág 89


Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes

Distribución Exponencial:
Se dice que una v.a. X tiene distribución Exponencial,
X ∼ Exp (λ), si su función de densidad de probabilidad está
dada por
f (x) = λe −λx , x >0
con λ > 0. Además,
1 1
E (X ) = , V (X ) =
λ λ2
y
F (x) = 1 − e −λx , x ≥0

Departamento de Matemáticas y Estadística Pág 90


Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes


Gráco de la f.d.p. exponencial:

1.5 Exp(1.5)
Densidad Exponencial

1.0
0.5

Exp(1)

Exp(0.5)
0.0

0 1 2 3 4 5

Departamento de Matemáticas y Estadística Pág 91


Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes

En R:
Para calcular la f.d.p. en un x dado se tiene la función
dexp(x,λ)
Para calcular la f.d.a.

F (x) = P (X ≤ x)

se tiene la función pexp(x,λ)


Para generar números aleatorios: rexp(m,λ)
Para una probabilidad dada p los cuantiles, F −1 (p) se
pueden calcular con qexp(p,λ)

Departamento de Matemáticas y Estadística Pág 92


Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes


Ejemplo:
Un sistema contiene cierto tipo de componente cuyos tiempos de
falla en años se distribuyen exponencial con tiempo medio de
falla de 5 años. ¾Cuál es la probabilidad de que un componente
aun funcione al nal de 8 años?

Densidad Exp(5) La probabilidad pedida es:

P (X > 8) = 1 − P (X ≤ 8)
0.20

Z 8
1 −1x
0.15

=1−
Densidad Exp(5)

e 5 dx
0 5
0.10

1
= 1 − 1 − e− 5 8
 
0.05
0.00

0 10 20 30

Tiempo de falla
40 50
= 1 − pexp(8,1/5)
= 0.2018965
Departamento de Matemáticas y Estadística Pág 93
Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes

Ejemplo:
Si se instalan cinco de estos componentes, ¾cuál es la
probabilidad de que al menos dos aun funcionen al nal de ocho
años?
Y ∼ Bin (5, 0.20)

P (Y ≥ 2) = 1 − P (Y < 2)
1 
5

0.20y (1 − 0.20)5−y
X
=1−
y
y =0

= 1 − pbinom(1,5,0.20)
= 0.26272

Departamento de Matemáticas y Estadística Pág 94


Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes

Distribución Gamma:
Se dice que una v.a. X tiene distribución Gamma,
X ∼ Gamma (α, β), si su función de densidad de probabilidad
está dada por
β α α−1 −βx
f (x) = x e , x >0
Γ (α)

con α > 0 y β > 0. Además,

E (X ) = α/β, V (X ) = α/β 2

Departamento de Matemáticas y Estadística Pág 95


Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes


Gráco de la f.d.p. Gamma:

0.5
0.4

Gamma(1,0.5)
Densidad Gamma

0.3

Gamma(9,2)
0.2

Gamma(2,0.5)
0.1
0.0

0 5 10 15 20

Departamento de Matemáticas y Estadística Pág 96


Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes

En R:
Para calcular la f.d.p. en un x dado se tiene la función
dgamma(x,α,β )
Para calcular la f.d.a.

F (x) = P (X ≤ x)

se tiene la función pgamma(x,α,β )


Para generar números aleatorios: rgamma(m,α,β )
Para una probabilidad dada p los cuantiles, F −1 (p) se
pueden calcular con qgamma(p,α,β )

Departamento de Matemáticas y Estadística Pág 97


Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes


Ejemplo:
En un estudio biomédico con ratas, el tiempo de sobrevivencia
(en semanas) a una dosis de un tóxico que se descarga en la
atmósfera desde el combustible de los aviones sigue una
distribución Gamma con α = 5 y β = 0.1. ¾Cuál es la
probabilidad de que una rata no sobreviva más de 60 semanas?

Densidad Gamma(5,0.1) La probabilidad pedida es:

0.15 60 4 −0.1x
0.020

Z
P (X ≤ 60) = x e dx
Γ (5) 0
0.015
Densidad Gamma(5,0.1)

Z 60
x 4 e −0.1x dx
0.010

= 24
0
0.005

= pgamma(60,5,0.1)
0.000

= 0.7149435
0 50 100 150 200

Tiempo

Departamento de Matemáticas y Estadística Pág 98


Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes

Distribución Beta:
Se dice que una v.a. X tiene distribución Beta, X ∼ Beta (α, β),
si su función de densidad de probabilidad está dada por
Γ (α + β) α−1
f (x) = x (1 − x)β−1 0<x <1
Γ (α) Γ (β)

con α > 0 y β > 0.


Además,
α
E (X ) =
(α + β)
y
αβ
V (X ) =
(α + β + 1) (α + β)2

Departamento de Matemáticas y Estadística Pág 99


Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes


Gráco de la f.d.p. Beta:

3.0
2.5 Beta(5,1)

Beta(2,5)
2.0

Beta(6,3)
Densidad Beta

Beta(1,3) Beta(2,2)
1.5
1.0

Beta(0.5,0.5)
0.5
0.0

0.0 0.2 0.4 0.6 0.8 1.0

Departamento de Matemáticas y Estadística Pág 100


Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes

En R:
Para calcular la f.d.p. en un x dado se tiene la función
dbeta(x,α,β )
Para calcular la f.d.a.

F (x) = P (X ≤ x)

se tiene la función pbeta(x,α,β )


Para generar números aleatorios: rbeta(m,α,β )
Para una probabilidad dada p los cuantiles, F −1 (p) se
pueden calcular con qbeta(p,α,β )

Departamento de Matemáticas y Estadística Pág 101


Mario José Pacheco López Estadística Computacional

Algunas Variables Aleatorias Importantes


Ejemplo:
La proporción de unidades defectuosas en un proceso de
fabricación es una v.a. beta con α = 1 y β = 20. ¾Cuál es la
probabilidad de que la proporción de artículos defectuosos sea
mayor que un 10 %?

Densidad Beta(1,20) La probabilidad pedida es:

P (X > 0.1) = 1 − P (X ≤ 0.1)


20

Z 0.1
Γ (21) 19
15

=1− (1 − x) dx
Densidad Beta(1,20)

Γ (1) Γ (20) 0
10

Z 0.1
19
= 1 − 20 (1 − x) dx
5

0
0

0.0 0.2 0.4 0.6 0.8 1.0


= 1 − pbeta(0.1,1,20)
Proporción

= 0.1215767
Departamento de Matemáticas y Estadística Pág 102
Mario José Pacheco López Estadística Computacional

Estimación
Función de Verosimilitud
Sea x1 , x2 , ..., xn una muestra aleatoria extraida de F (x; θ) y sea

f (x1 , x2 , ..., xn | θ) = f (x1 | θ) f (x2 | θ) · · · f (xn | θ)

la función densidad de probabilidad conjunta de la muestra, la


función de verosimilitud del parámetro θ se dene como
n
Y
L (θ | x1 , x2 , ...xn ) = f (xi | θ)
i=1

En la práctica, se suele utilizar el logaritmo de esta función, la


log-verosimilitud,
n
X
` (θ | x1 , x2 , ...xn ) = log (f (xi | θ))
i=1
Departamento de Matemáticas y Estadística Pág 103
Mario José Pacheco López Estadística Computacional

Estimación

El Método de Máxima Verosimilitud


El estimador máximo verosimil del parámetro θ se consigue
como el valor θ̂ de θ que máximiza L (θ | x1 , x2 , ...xn ) o
` (θ | x1 , x2 , ...xn ). Esto es,

θ̂ = argmax {` (θ | x1 , x2 , ...xn )}
θ∈Θ

donde Θ es el espacio parametral de θ.

Departamento de Matemáticas y Estadística Pág 104


Mario José Pacheco López Estadística Computacional

Estimación

Ejemplo
Si el tiempo de vida, en años, de una muestra de 10 celulares es:
2.1, 5.4, 3.5, 0.3, 1.6, 2.8, 3.9, 0.8, 1.2, 1.7. Asumiendo que el
tiempo de vida es exponencial, la función de verosimilitud de λ
es:
10 10
f (xi | λ) = λ10
Y Y
L (λ | x1 , x2 , ...x10 ) = e −λxi
i=1 i=1
P10
10 −λ i=1 xi
=λ e

y la log-verosimilitud

` (λ | x1 , x2 , ...x10 ) = 10 log (λ) − 10λx̄ = 10 (log (λ) − λx̄)

Departamento de Matemáticas y Estadística Pág 105


Mario José Pacheco López Estadística Computacional

Estimación
Ejemplo
Para valores de λ > 0, el gráco de la log-verosimilitud es:
> lambda = seq(0,5,.01)
> x = c(2.1,5.4,3.5,0.3,1.6,2.8,3.9,0.8,1.2,1.7)
> logL = function(lamb,x) 10*(log(lamb)-lamb*mean(x))
> plot(lambda,logL(lambda,x),"l",
xlab=expression(lambda),ylab="log-verosimilitud")
−20
−40
log−verosimilitud

−60
−80
−100

0 1 2 3 4 5

Departamento de Matemáticas y Estadística Pág 106


Mario José Pacheco López Estadística Computacional

Estimación

Ejemplo
Y el máximo de la función de log-verosimilitud lo podemos
encontrar con la función optimize de R:

> optimize(logL,c(0,10),x=x,maximum=T)
$maximum
[1] 0.4291861
$objective
[1] -18.45868

Así, el estimador máximo verosimil de λ, dada la muestra es


λ̂ = 0.4292, que es equivalente a 1/x̄ .

Departamento de Matemáticas y Estadística Pág 107


Mario José Pacheco López Estadística Computacional

Estimación
Ejemplo
Consideremos ahora que el tiempo de vida de los celulares no es
exponencial sino gamma, la función de verosimilitud de
θ = (α, β)0 es:
10  10
β α 10 Y α−1 −βxi
Y 
L (θ | x1 , ...x10 ) = f (xi | θ) = xi e
Γ (α)
i=1 i=1
10 10
!
βα
 P10
xiα−1
Y
= e −β i=1 xi
Γ (α)
i=1

y la log-verosimilitud
10 10
βα
  X X
` (θ | x1 , ...x10 ) = 10 log + (α − 1) log (xi ) − β xi
Γ (α)
i=1 i=1

Departamento de Matemáticas y Estadística Pág 108


Mario José Pacheco López Estadística Computacional

Estimación
Ejemplo
Para estimar los parámetros α y β dados los datos usamos la
función optim de R:
> logL = function(theta,x){
+ a = theta[1] ; B = theta[2]
+ n = length(x)
+ 10*log(B^a/gamma(a))+(a-1)*sum(log(x))-B*sum(x)
+ }
> x = c(2.1,5.4,3.5,0.3,1.6,2.8,3.9,0.8,1.2,1.7)
> optim(c(.001,.001),logL,gr=NULL,x=x,
control=list(fnscale=-1))
$par
[1] 2.0509799 0.8804446

$value
[1] -17.22505
Departamento de Matemáticas y Estadística Pág 109
Mario José Pacheco López Estadística Computacional

Estimación
Ejemplo
Grácos de las densidades Exponencial, Gamma y Empirica:
> d = density(x,from=0.001)
> plot(d,ylim=c(0,.35))
> lines(d$x,dgamma(d$x,2.0509799,0.8804446))
> lines(d$x,dexp(d$x,0.4292))

Departamento de Matemáticas y Estadística Pág 110


Mario José Pacheco López Estadística Computacional

Intervalo de conanza para la media

Denición
Dada una muestra aleatoria x1 , x2 , ..., xn que proviene de una
distribución normal con media µ y varianza σ 2 , un intervalo del
100(1 − α) % de conanza para µ es:
σ σ
x̄ − z α2 √ < µ < x̄ + z α2 √
n n

donde z α2 es el percentil superior de la distribución normal


estándar. α generalmente toma los valores de 0.10 o 0.05.

Departamento de Matemáticas y Estadística Pág 111


Mario José Pacheco López Estadística Computacional

Intervalo de conanza para la media

Denición
Dado que en la prática el valor de la varianza σ 2 es desconocido,
un intervalo del 100(1 − α) % de conanza para µ se puede
calcular como:
s s
x̄ − t α2 ,n−1 √ < µ < x̄ + t α2 ,n−1 √
n n

donde t α2 ,n−1 es el percentil superior de la distribución t de


Student con n − 1 grados de libertad.
Los intervalos de conanza basados en la distribución t suelen
ser más amplios que los basados en la normal.

Departamento de Matemáticas y Estadística Pág 112


Mario José Pacheco López Estadística Computacional

Intervalo de conanza para la media

Ejemplo
La base de datos ToothGrowth de R contiene la longitud de los
odontoblastos (dientes) en cada uno de 10 conejillos de indias en
cada uno de tres niveles de dosis de vitamina C (0,5, 1 y 2 mg)
con cada uno de los dos métodos de administración (zumo de
naranja o ácido ascórbico).
> ToothGrowth
len supp dose
1 4.2 VC 0.5
2 11.5 VC 0.5
3 7.3 VC 0.5
4 5.8 VC 0.5
5 6.4 VC 0.5
..
.

Departamento de Matemáticas y Estadística Pág 113


Mario José Pacheco López Estadística Computacional

Intervalo de conanza para la media


Ejemplo
Un IC del 95 % para la longitud se consigue como:
> t.test(ToothGrowth$len)
One Sample t-test
data: ToothGrowth$len
t = 19.051, df = 59, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
16.83731 20.78936
sample estimates:
mean of x
18.81333
Así,

16.83731 < µ < 20.78936

Departamento de Matemáticas y Estadística Pág 114


Mario José Pacheco López Estadística Computacional

Intervalo de conanza para la media

Ejemplo
Podemos construir intervalos de conanza para cada dosis:
> t.t = function(x) t.test(x)$conf.int[1:2]
> by(ToothGrowth$len,ToothGrowth$dose,t.t)
ToothGrowth$dose: 0.5
[1] 8.499046 12.710954
--------------------------------------------
ToothGrowth$dose: 1
[1] 17.66851 21.80149
--------------------------------------------
ToothGrowth$dose: 2
[1] 24.33364 27.86636

Departamento de Matemáticas y Estadística Pág 115

S-ar putea să vă placă și