Documente Academic
Documente Profesional
Documente Cultură
Tarea # 1
Tema: Estadı́stica descriptiva y exploratoria.
SOLUCIÓN
a) La tabla de frecuencias para la variable sitio se genera con mayor facilidad mediante
las siguientes instrucciones en SPSS:
Analyze → Descriptive Statistics → Frequencies
En la ventana que se abre se ejecutan los siguientes pasos:
1
Figura 1: Diagrama circular para la variable SITIO
b) Los cálculos preliminares para la agrupación se muestran en la tabla 1b. Ests va-
lores fueron obtenidos (y modificados) con la función sturges.freq del paquete
agricolae mediante las siguientes instrucciones:
library(agricolae)
by(ceramicas$RESISTENCIA,ceramicas$SITIO,sturges.freq)
Nótese que se ha tomado el mı́nimo como lı́mite inferior del primer intervalo en
cada caso (puesto que la variable es entera). A continuación se muestran las tablas
agrupadas por cada sitio y los respectivos histogramas, todos generados con el
paquete agricolae de R mediante el siguiente código:
(limitesCgrande=seq(from=13,by=11,length.out=6))
(limitesGplain=seq(from=9,by=8,length.out=7))
(limitesSacaton=seq(from=13,by=8,length.out=6))
library(agricolae)
par(mfrow=c(3,1))
with(ceramicas,print(table.freq(graph.freq(RESISTENCIA[SITIO=="Casa Grande"]
,breaks=limitesCgrande,frequency=2,xlab="Resintecia (Kg)",ylab="Proporción
de cerámicas",main="Distribución de la resistencia en Casa Grande"))))
with(ceramicas,print(table.freq(graph.freq(RESISTENCIA[SITIO=="Gila Plain"]
,breaks=limitesGplain,frequency=2,xlab="Resintecia (Kg)",ylab="Proporción de
cerámicas",main="Distribución de la resistencia en Gila Plain"))))
with(ceramicas,print(table.freq(graph.freq(RESISTENCIA[SITIO=="Sacaton"]
,breaks=limitesSacaton,frequency=2,xlab="Resintecia (Kg)",ylab="Proporción de
cerámicas",main="Distribución de la resistencia en Sacaton"))))
2
Las tablas impresas en R se muestran a continuación:
Casa Grande
Lower Upper Main freq relative CF RCF
[1,] 13 24 18.5 11 0.61111111 11 0.6111111
[2,] 24 35 29.5 4 0.22222222 15 0.8333333
[3,] 35 46 40.5 2 0.11111111 17 0.9444444
[4,] 46 57 51.5 0 0.00000000 17 0.9444444
[5,] 57 68 62.5 1 0.05555556 18 1.0000000
Gila Plain
Lower Upper Main freq relative CF RCF
[1,] 9 17 13 3 0.10714286 3 0.1071429
[2,] 17 25 21 11 0.39285714 14 0.5000000
[3,] 25 33 29 11 0.39285714 25 0.8928571
[4,] 33 41 37 1 0.03571429 26 0.9285714
[5,] 41 49 45 1 0.03571429 27 0.9642857
[6,] 49 57 53 1 0.03571429 28 1.0000000
Sacaton
Lower Upper Main freq relative CF RCF
[1,] 13 21 17 14 0.70 14 0.70
[2,] 21 29 25 2 0.10 16 0.80
[3,] 29 37 33 3 0.15 19 0.95
[4,] 37 45 41 0 0.00 19 0.95
[5,] 45 53 49 1 0.05 20 1.00
library(agricolae)
par(mfrow=c(3,1))
with(ceramicas,print(table.freq(graph.freq(RESISTENCIA[SITIO=="Casa Grande"]
,breaks=limitesCgrande,frequency=3,xlab="Resintecia (Kg)",ylab="Densidad"
,main="Distribución de la resistencia en Casa Grande"))))
with(ceramicas,print(table.freq(graph.freq(RESISTENCIA[SITIO=="Gila Plain"]
,breaks=limitesGplain,frequency=3,xlab="Resintecia (Kg)",ylab="Densidad"
,main="Distribución de la resistencia en Gila Plain"))))
with(ceramicas,print(table.freq(graph.freq(RESISTENCIA[SITIO=="Sacaton"]
,breaks=limitesSacaton,frequency=3,xlab="Resintecia (Kg)",ylab="Densidad"
,main="Distribución de la resistencia en Sacaton"))))
3
Distribución de la resistencia en Casa Grande
Proporción de cerámicas
0.6
0.5
0.4
0.3
0.2
0.1
0.0
13 24 35 46 57 68
Resintecia (Kg)
0.4
0.3
0.2
0.1
0.0
9 17 25 33 41 49 57
Resintecia (Kg)
0.8
0.6
0.4
0.2
0.0
13 21 29 37 45 53
Resintecia (Kg)
c) Por la asimetrı́a vista en los tres histogramas, la media aritmética no serı́a apro-
piada como una mediada de tendencia central. En su lugar se podrı́a optar por la
mediana o la moda, esta última no serı́a apta para el Gila Plain por haber dos
intervalos modales. Se opta por la mediana la cual puede ser calculada para cada
sitio mediante el siguiente código en R:
numSummary(ceramicas[,"RESISTENCIA"], groups=ceramicas$SITIO,
statistics=c("mean","quantiles"), quantiles=c(0,.5,1))
Usando la mediana de cada sitio se puede afirmar que la resistencia promedio más
alta la se da en la muestra de Gila Plain con 24.5 Kg; mientras que la resistencia
promedio más baja la se da en la muestra de Sacaton con 18.5 Kg.
d) En el primer caso las cerámicas mas fuertes están ubicadas en el extremo derecho
de la distribución por tanto se pide calcular el percentil 85 para la variable en cada
sitio. En el segundo caso, las cerámicas más débiles están ubicadas en el extremo
izquierdo de la distribución por tanto se pide calcular el percentil 20. El código y
la salida en R con los percentiles pedidos es la siguiente:
4
Distribución de la resistencia en Casa Grande
0.06
0.05
Densidad
0.04
0.03
0.02
0.01
0.00
13 24 35 46 68
Resintecia (Kg)
0.05
0.04
Densidad
0.03
0.02
0.01
0.00
9 17 25 33 41 49 57
Resintecia (Kg)
0.06
0.04
0.02
0.00
13 21 29 45 53
Resintecia (Kg)
numSummary(ceramicas[,"RESISTENCIA"], groups=ceramicas$SITIO,
statistics=c("quantiles"), quantiles=c(.2,.85))
Nótese que Casa Grande posee los valores más altos para dichos percentiles y
Sacaton los más pequeños.
2. ...
a) La tabla de frecuencias con las categorı́as ordenadas (de acuerdo a los errores más
frecuentes) y los porcentajes acumulados se muestra a continuación. Esta tabla fue
generada con el paquete qcc1 , importar la base de datos y llamándola Insurance.
La siguientes lı́nea de código permiten generar la tabla:
1
quality control charts, incluido en la lista de paquetes instalados con R-Commander.
5
library(qcc)
pareto.chart(table(Insurance$Tipos.de.errores))
library(qcc)
pareto.chart(table(Insurance$Tipos.de.errores),cumperc
=seq(0,100,10),main="Diagrama Pareto para las reclamaciones",
ylab="Número de reclamaciones", ylab2="Porecentaje acumulado")
abline(h=length(Insurance$Tipos.de.errores)*0.8, lty=2, col="blue")
2
http://www.qtcharts.com/?g=prtt
6
Número de reclamaciones
0 20 40 60 80 100 120
Solicitudes de contarto
Tablas de precios
7
Información del proveedor