Documente Academic
Documente Profesional
Documente Cultură
Datos:
houseval.xlsx
Variables:
Número de variables: 14
Número de casos: 26
Descripción de variables:
Se ha recogido una muestra de precios de casas de ciertas características asociadas a éstas, dentro de
un área metropolitana homogénea de una gran ciudad de los Estados Unidos. (Relación de variables
siguiendo el orden en que aparecen en el fichero)
Descripción de objetivos:
El objetivo del ejercicio es revisar herramientas disponibles en R para realizar un análisis
descriptivo, numéricas y gráficas.
1
c) Histograma. Realiza un histograma con 10 particiones y dibujando la curva normal, de la variable
PRICE.
d) Diagrama de dispersión. Analiza la relación existente entre las variables PRICE y TAX y revisa
las opciones interactivas disponibles de los gráficos de puntos.
e) Dibuja el PP-plot y el QQ-plot de PRICE para comprobar el carácter normal de esta variable;
indica cuáles son las diferencias entre estos dos gráficos.
Desarrollo
> mean(houseval$price)
> min(houseval$price)
> max(houseval$price)
> median(houseval$price)
> range(houseval$price)
> var(houseval$price) ## Varianza se calcula con n-1
> sd(houseval$price) ## Desviación Estándar se calcula con n-1
# Curtosis y asimetría:
> kurtosis(houseval$price, type =1)
> skewness(houseval$price, type =1)
> table(houseval$bdr)
> hist(houseval$bdr, col=”blue”)
b) Gráficos de Caja
# Para PRICE solamente
> boxplot(houseval$price, outline=TRUE, main= "Boxplot PRICE")
# Para PRICE según CDN
2
> boxplot(houseval$price ~ houseval$cdn, outline=TRUE, main= "Boxplot PR
ICE vs. CDN")
# Otras opciones:
> plot(houseval$price, houseval$tax, type='l')
> plot(houseval$price, houseval$tax, type='s')
> plot(houseval$price, houseval$tax, type='b')
> plot(houseval$price, houseval$tax, type='p')
Observación:
Para características numéricas en R, considerar
___________________________________________________________________________
3
2. Estimación puntual
Los estimadores puntuales (estadísticos) más recomendados para estimar estos parámetros son,
respectivamente:
La media muestra 𝑋̅.
La varianza muestral 𝑆 2
La proporción muestral P.
Por ejemplo, queremos saber en número de frutos que tienen de media los árboles de la hacienda. La
hacienda tiene 30.000 árboles. Supongamos que disponemos de los recursos suficientes y contamos
el número de frutos de los 30.000 y obtenemos los siguientes datos.
33set.seed(007)
Poblacion <- round(runif(30000, min = 150, max = 300),0)
Como lo normal es que no tengamos los recursos para contar los frutos de todos los árboles,
podemos optar por seleccionar 10 al azar, contar sus frutos y calcular la realización de la media
muestral.
Muestra <- sample(Poblacion, 10, replace = FALSE) ; Muestra #Mostramos todos los
datos.
## [1] 276 230 183 212 295 211 287 236 217 261
MediaMuestra <- mean(Muestra); MediaMuestra
## [1] 240.8
4
b) Estimación puntual para la Varianza
La varianza de una población (σ2) es una medida de la dispersión de los datos alrededor de su media
(μ). Se calcula de la siguiente manera:
𝑁
1
𝜎 = ∑(𝑥𝑖 − 𝜇)2
2
𝑁
𝑖=1
________________________________________________________________________________
3. Si el contenido en gr. de un determinado medicamento X sigue una distribución N(7.5, 0.3), calcular
la probabilidad de que para una muestra de tamaño n=5, se obtenga una media menor que 7, es
decir Pr ( 𝑿̅ ≤ 7).
Solución
Si la variable X es normal entonces 𝑋̅ es normal. Estandarizando 𝑋̅ se tiene que:
Donde Z sigue una normal estándar y, usando una tabla o Excel, se obtiene que Pr ( 𝑋̅ ≤ 7) = 0.0001.
________________________________________________________________________________
5
4. Un ascensor limita el peso de sus cuatro ocupantes a 300 kg. Si el peso de un individuo sigue una
distribución N(71, 7 ), calcular la probabilidad de que el peso de 4 individuos supere los 300 kg.
Solución
Como la suma de v.a. normales es normal, entonces:
________________________________________________________________________________
5. Si la altura (medida en cm) de los estudiantes de la universidad sigue una distribución normal N(176,
12), calcular la Pr(S ≤ 10) para una muestra de tamaño 8.
Solución
Consideremos que la muestra es aleatoria, y como la distribución subyacente es normal N(µ, σ) con µ = 176 y
σ = 12, entonces:
6
_____________________________________________________________________________
Solución
En el muestreo aleatorio de poblaciones normales, los estadísticos muestrales 𝑋̅ y S2 son independientes y el
estadístico
sigue una distribución t de Student de n-1 grados de libertad (tn-1). En particular, si consideramos
________________________________________________________________________________
7. Calcular qué tamaño muestral debemos tomar para obtener μ con una precisión de 0.001 a partir
de una muestra de una población N(µ, 3).
Solución
El intervalo de confianza que contiene a μ en una población normal con varianza conocida, es de la forma:
7
________________________________________________________________________________
8. Calcular un intervalo de confianza al nivel α = 0.05 para la probabilidad de p de que un recién nacido
sea niño, si en una muestra de tamaño 123 se han obtenido 67 niños.
Solución
________________________________________________________________________________
Semana 1: 93 86 90 90 94 91 92 96
Semana 2: 93 87 97 90 88 87 84 93
Suponiendo que las varianzas de la puntuación en las dos producciones son iguales, construye un
intervalo de confianza para la diferencia de medias al nivel de 95%. Interpreta los resultados
obtenidos.
Solución
En primer lugar, observamos que se disponen de dos poblaciones, la primera corresponde a la producción de
la primera semana mientras que la segunda corresponde a la de la segunda semana. En este sentido,
introducimos las dos variables X1 que mide la puntuación de calidad de un artículo de la primera semana, y X2
para la segunda. Además, en el caso en el que las varianzas en las dos poblaciones son desconocidas pero
iguales, X1 y X2 se asumen normales e independientes, utilizamos el estadístico:
8
donde
(𝑛1 − 1)𝑆1 2 + (𝑛2 − 1)𝑆2 2
𝑆𝑝 = √
𝑛1 + 𝑛2 − 2
Por último, podemos concluir que, con los datos de la muestra, es posible que la diferencia de
las medias poblacionales, sea igual o muy próximo a cero. En consecuencia, no podemos afirmar
que ha habido un descenso significativo de la calidad entre las dos semanas.