Sunteți pe pagina 1din 9

EJERCICIOS

Descriptivos / Estimación Puntual / Intervalos de Confianza

1. Análisis Descriptivo (con R)

Datos:
houseval.xlsx

Variables:
Número de variables: 14
Número de casos: 26

Descripción de variables:
Se ha recogido una muestra de precios de casas de ciertas características asociadas a éstas, dentro de
un área metropolitana homogénea de una gran ciudad de los Estados Unidos. (Relación de variables
siguiendo el orden en que aparecen en el fichero)

PRICE: Precio de la casa (en miles de dólares)


BDR: Número de dormitorios.
FLR: Superficie (en pies cuadrados)
FP: Número de chimeneas.
RMS: Número de habitaciones.
ST: Presencia de contraventanas.
LOT: Longitud de la fachada.
TAX: Impuestos que soporta.
BTH: Número de baños.
CON: Tipo de construcción.
GAR: Número de plazas de garaje.
CDN: Estado de conservación (1: necesita reparaciones, 0: no necesita)
L1: Localización (1: Zona A, 0: No zona A)
L2: Localización (1: Zona B, 0: No zona B)

Se desea realizar un análisis descriptivo de estos datos, especialmente de la variable precio.

Descripción de objetivos:
El objetivo del ejercicio es revisar herramientas disponibles en R para realizar un análisis
descriptivo, numéricas y gráficas.

a) Medidas numéricas. Calcula las principales medidas de localización y variabilidad de la variable


PRICE. Algunas de las variables del conjunto de datos son categóricas; realiza un análisis
descriptivo de CDN y BDR.
b) Gráfico de caja: estudia la variabilidad y la existencia de datos extremos de la variable PRICE.
Realiza este mismo análisis dependiendo del estado de conservación de la casa (CDN).

1
c) Histograma. Realiza un histograma con 10 particiones y dibujando la curva normal, de la variable
PRICE.
d) Diagrama de dispersión. Analiza la relación existente entre las variables PRICE y TAX y revisa
las opciones interactivas disponibles de los gráficos de puntos.
e) Dibuja el PP-plot y el QQ-plot de PRICE para comprobar el carácter normal de esta variable;
indica cuáles son las diferencias entre estos dos gráficos.

Desarrollo

Lo primero es cargar los datos y ver si están correctamente cargados.

# Chequeamos la carpeta donde está el espacio de trabajo y ponemos ahí el archivo


de datos:
> getwd ()

# Cargamos librería con Función para importar archivos Excel:


> install.packages(“readxl”)
> library(readxl)

# Importamos los datos:


> houseval <- read_excel("houseval.xlsx")
> view(houseval)

a) Medidas de tendencia central y dispersión de PRICE y descriptivo de CDN y BDR

> mean(houseval$price)
> min(houseval$price)
> max(houseval$price)
> median(houseval$price)
> range(houseval$price)
> var(houseval$price) ## Varianza se calcula con n-1
> sd(houseval$price) ## Desviación Estándar se calcula con n-1

# Curtosis y asimetría se pueden encontrar en el paquete “e1071”:


> install.packages(“e1071”)
> library(e1071)

# Curtosis y asimetría:
> kurtosis(houseval$price, type =1)
> skewness(houseval$price, type =1)

# las variables categóricas:


> table(houseval$cdn)
> hist(houseval$cdn, col=”red”)

> table(houseval$bdr)
> hist(houseval$bdr, col=”blue”)

b) Gráficos de Caja
# Para PRICE solamente
> boxplot(houseval$price, outline=TRUE, main= "Boxplot PRICE")
# Para PRICE según CDN

2
> boxplot(houseval$price ~ houseval$cdn, outline=TRUE, main= "Boxplot PR
ICE vs. CDN")

c) Histograma y diagrama de barras


# Para PRICE se usan las frecuencias relativas, para luego incluir curva normal:
> hist(houseval$price, freq=FALSE, nclass=10, col="red", ylim=c(0,0.05))
> curve(dnorm(x,mean=mean(houseval$price),sd=sd(houseval$price)), from=25
,to=95, add=TRUE, col="blue", lwd=2)

d) Diagrama de dispersión PRICE vs. TAX


> plot(houseval$price, houseval$tax)

# Otras opciones:
> plot(houseval$price, houseval$tax, type='l')
> plot(houseval$price, houseval$tax, type='s')
> plot(houseval$price, houseval$tax, type='b')
> plot(houseval$price, houseval$tax, type='p')

e) P-P Plot y Q-Q Plot de PRICE


# PP-plot se puede encontrar en el paquete “qualityTools”:
> install.packages(“qualityTools”)
> library(qualityTools)

# Los gráficos pedidos:


> ppPlot(houseval$price, "normal", main = "P-P plot Normal para PRICE", x
lab = "P(muestral)", ylab = "P(teórico)")

> qqnorm(houseval$price, main = "Q-Q Plot Normal para PRICE", xlab =


"Cuantiles Teóricos", ylab = "Cuantiles Muestra")

Observación:
Para características numéricas en R, considerar

___________________________________________________________________________

3
2. Estimación puntual

La estimación puntual es un valor numérico simple de un parámetro poblacional desconocido. En


clases se ha visto estimaciones puntuales de la media o la varianza muestrales. Tres parámetros
sobre los que con frecuencia se desea hacer inferencia son:

 La media μ de un proceso o población.


 La varianza σ2 o la desviación estándar s del proceso o población.
 La proporción p (por ejemplo, producción defectuosa).

Los estimadores puntuales (estadísticos) más recomendados para estimar estos parámetros son,
respectivamente:
 La media muestra 𝑋̅.
 La varianza muestral 𝑆 2
 La proporción muestral P.

a) Estimación puntual para la media


Para saber el número de frutos que tienen de media los árboles de una hacienda (μ), basta con sumar
el número de frutos que tiene cada árbol y dividirlo por el número total de árboles. El resultado es
la media poblacional. En la mayoría de las ocasiones, hacer esto es inviable, así que hay que se
calcula la media de una muestra.Para ello se suma el número de frutos de la muestra y se divide por
en número total de árboles de la misma. Se obtiene así la media de la muestra (𝑋̅). Si la muestra se
escoge al azar, su media es un estimador de la media de la población.

Por ejemplo, queremos saber en número de frutos que tienen de media los árboles de la hacienda. La
hacienda tiene 30.000 árboles. Supongamos que disponemos de los recursos suficientes y contamos
el número de frutos de los 30.000 y obtenemos los siguientes datos.

33set.seed(007)
Poblacion <- round(runif(30000, min = 150, max = 300),0)

MediaPoblacion <- mean(Poblacion); MediaPoblacion #Esta sería la media poblacion


al (mu).
## [1] 225.1558

Como lo normal es que no tengamos los recursos para contar los frutos de todos los árboles,
podemos optar por seleccionar 10 al azar, contar sus frutos y calcular la realización de la media
muestral.

Muestra <- sample(Poblacion, 10, replace = FALSE) ; Muestra #Mostramos todos los
datos.
## [1] 276 230 183 212 295 211 287 236 217 261
MediaMuestra <- mean(Muestra); MediaMuestra
## [1] 240.8

La media muestral en este caso sería 𝑥̅ =240,8.

4
b) Estimación puntual para la Varianza
La varianza de una población (σ2) es una medida de la dispersión de los datos alrededor de su media
(μ). Se calcula de la siguiente manera:
𝑁
1
𝜎 = ∑(𝑥𝑖 − 𝜇)2
2
𝑁
𝑖=1

La varianza de una muestra S2 es la medida de dispersión de los datos de la muestra, alrededor de su


media 𝑋̅. Se calcula:
𝑛
1
𝑆2 = ∑(𝑋𝑖 − 𝑋̅ )2
𝑛−1
𝑖=1
La desviación típica de una muestra S no es más que la raíz cuadrada de la varianza S2. Su valor nos
indica que aproximadamente 2/3 de los datos muestral (cuando éstos tienen una distribución normal),
están entre los valores de la media ± una desviación típica. (¿Qué proporción de los datos estaría entre
la media ± dos desviaciones típicas)

Siguiendo con el ejemplo anterior.

VarPoblacion <- round((var(Poblacion) * 29999 / 30000), 2); VarPoblacion #varian


za de una población (sigma^2). El comando "var" en R calcula la varianza de una
muestra, es decir, que divide en n-1. Si queremos calcular la varianza de una po
blación, hacemos la corrección que indica la asignación, o instalamos y usamos e
l comando de algún paquete que haga esta operación, por ejemplo "PopVar".
## [1] 1878.7
VarMuestra <- round(var(Muestra), 2); VarMuestra #varianza de una muestra (s^2)
## [1] 1387.07

La varianza de la población σ2 es 1878,7 y la realización del estimador Varianza Muestral S2, es


1387,07.

________________________________________________________________________________

3. Si el contenido en gr. de un determinado medicamento X sigue una distribución N(7.5, 0.3), calcular
la probabilidad de que para una muestra de tamaño n=5, se obtenga una media menor que 7, es
decir Pr ( 𝑿̅ ≤ 7).

Solución
Si la variable X es normal entonces 𝑋̅ es normal. Estandarizando 𝑋̅ se tiene que:

Donde Z sigue una normal estándar y, usando una tabla o Excel, se obtiene que Pr ( 𝑋̅ ≤ 7) = 0.0001.

________________________________________________________________________________

5
4. Un ascensor limita el peso de sus cuatro ocupantes a 300 kg. Si el peso de un individuo sigue una
distribución N(71, 7 ), calcular la probabilidad de que el peso de 4 individuos supere los 300 kg.

Solución
Como la suma de v.a. normales es normal, entonces:

________________________________________________________________________________

5. Si la altura (medida en cm) de los estudiantes de la universidad sigue una distribución normal N(176,
12), calcular la Pr(S ≤ 10) para una muestra de tamaño 8.

Solución
Consideremos que la muestra es aleatoria, y como la distribución subyacente es normal N(µ, σ) con µ = 176 y
σ = 12, entonces:

6
_____________________________________________________________________________

̅ ± 3S, para poblaciones normales y


6. Calcule la probabilidad de que la media μ se encuentre entre 𝑿
n=5.

Solución
En el muestreo aleatorio de poblaciones normales, los estadísticos muestrales 𝑋̅ y S2 son independientes y el
estadístico

sigue una distribución t de Student de n-1 grados de libertad (tn-1). En particular, si consideramos

________________________________________________________________________________

7. Calcular qué tamaño muestral debemos tomar para obtener μ con una precisión de 0.001 a partir
de una muestra de una población N(µ, 3).

Solución
El intervalo de confianza que contiene a μ en una población normal con varianza conocida, es de la forma:

7
________________________________________________________________________________

8. Calcular un intervalo de confianza al nivel α = 0.05 para la probabilidad de p de que un recién nacido
sea niño, si en una muestra de tamaño 123 se han obtenido 67 niños.

Solución

________________________________________________________________________________

9. El departamento de control de calidad de una empresa quiere determinar si ha habido un descenso


significativo de la calidad de su producto entre las producciones de dos semanas consecutivas a
consecuencia de un incidente ocurrido durante el fin de semana. Deciden tomar una muestra de la
producción de cada semana, si la calidad de cada artículo se mide en una escala de 100, obtienen los
resultados siguientes:

Semana 1: 93 86 90 90 94 91 92 96
Semana 2: 93 87 97 90 88 87 84 93

Suponiendo que las varianzas de la puntuación en las dos producciones son iguales, construye un
intervalo de confianza para la diferencia de medias al nivel de 95%. Interpreta los resultados
obtenidos.

Solución
En primer lugar, observamos que se disponen de dos poblaciones, la primera corresponde a la producción de
la primera semana mientras que la segunda corresponde a la de la segunda semana. En este sentido,
introducimos las dos variables X1 que mide la puntuación de calidad de un artículo de la primera semana, y X2
para la segunda. Además, en el caso en el que las varianzas en las dos poblaciones son desconocidas pero
iguales, X1 y X2 se asumen normales e independientes, utilizamos el estadístico:

8
donde
(𝑛1 − 1)𝑆1 2 + (𝑛2 − 1)𝑆2 2
𝑆𝑝 = √
𝑛1 + 𝑛2 − 2

En consecuencia, T sigue una distribución 𝑡𝑛1 + 𝑛2 −2 de Student de 𝑛1 + 𝑛2 − 2 grados de libertad. Así un


intervalo de confianza al 100(1-α)% para la diferencia entre medias de dos distribuciones normales con
varianzas desconocidas pero iguales es:

Por último, podemos concluir que, con los datos de la muestra, es posible que la diferencia de
las medias poblacionales, sea igual o muy próximo a cero. En consecuencia, no podemos afirmar
que ha habido un descenso significativo de la calidad entre las dos semanas.

S-ar putea să vă placă și