Sunteți pe pagina 1din 7

Probabilidad y Estadı́stica Fundamental.

Tarea # 1
Tema: Estadı́stica descriptiva y exploratoria.
SOLUCIÓN

Docente: Emilo Berdugo Camacho


Universidad Nacional de Colombia-Bogotá.

1. Se importa el conjunto de datos a R y se la da el nombre de ceramics.

a) La tabla de frecuencias para la variable sitio se genera con mayor facilidad mediante
las siguientes instrucciones en SPSS:
Analyze → Descriptive Statistics → Frequencies
En la ventana que se abre se ejecutan los siguientes pasos:

Seleccionar la variable SITIO desde el cuadro de la izquierda y con la flecha


central enviarla a al cuadro de la derecha (Variables).
Marcar el campo Display frequency tables (en caso de que esté activo).
Utilizar el botón Charts y en la ventana que se abre seleccionar Pie Charts en
el campo Chart Type y la opción Percentages en el campo Chart Values.
Luego oprimir Continue y en la ventana principal OK.

la tabla generada (sin la columna de acumulados) es mostrada a continuación:

SITIO Número de cerámicas Porcentaje de cerámicas


Casa Grande 18 27,3
Gila Plain 28 42,4
Sacaton 20 30,3
Total 66 100

Tabla 1: Tabla de frecuencias para la variable SITIO

El gráfico que complementa la tabla es un diagrama circular mostrado en la figura


1, el cual es más apropiado que el diagrama de barras debido a que la variable está en
escala nominal (No hay ninguna información adicional que indique la existencia
de alguna estructura jerárquica). Este gráfico es generado en la misma salida por
SPSS:
En el gráfico se observa que el SITIO con más frecuencia es Gila Plain con un
42.4 % y el menos frecuente Casa Grande con un 27.3 %. Por ser una variable
nominal, la moda es el método más apropiado para obtener un valor representativo;
que en este caso es el sitio Gila Plain (mayor frecuencia).

1
Figura 1: Diagrama circular para la variable SITIO

b) Los cálculos preliminares para la agrupación se muestran en la tabla 1b. Ests va-
lores fueron obtenidos (y modificados) con la función sturges.freq del paquete
agricolae mediante las siguientes instrucciones:

library(agricolae)
by(ceramicas$RESISTENCIA,ceramicas$SITIO,sturges.freq)

Sitio n min max R Nc w Lo


Casa Grande 18 13 66 53 5 11 13
Gila Plain 28 9 55 46 6 8 9
Sacaton 20 13 51 38 5 8 13

Tabla 2: Cáculos preliminares al agrupamiento

Nótese que se ha tomado el mı́nimo como lı́mite inferior del primer intervalo en
cada caso (puesto que la variable es entera). A continuación se muestran las tablas
agrupadas por cada sitio y los respectivos histogramas, todos generados con el
paquete agricolae de R mediante el siguiente código:

(limitesCgrande=seq(from=13,by=11,length.out=6))
(limitesGplain=seq(from=9,by=8,length.out=7))
(limitesSacaton=seq(from=13,by=8,length.out=6))
library(agricolae)
par(mfrow=c(3,1))
with(ceramicas,print(table.freq(graph.freq(RESISTENCIA[SITIO=="Casa Grande"]
,breaks=limitesCgrande,frequency=2,xlab="Resintecia (Kg)",ylab="Proporción
de cerámicas",main="Distribución de la resistencia en Casa Grande"))))
with(ceramicas,print(table.freq(graph.freq(RESISTENCIA[SITIO=="Gila Plain"]
,breaks=limitesGplain,frequency=2,xlab="Resintecia (Kg)",ylab="Proporción de
cerámicas",main="Distribución de la resistencia en Gila Plain"))))
with(ceramicas,print(table.freq(graph.freq(RESISTENCIA[SITIO=="Sacaton"]
,breaks=limitesSacaton,frequency=2,xlab="Resintecia (Kg)",ylab="Proporción de
cerámicas",main="Distribución de la resistencia en Sacaton"))))

2
Las tablas impresas en R se muestran a continuación:

Casa Grande
Lower Upper Main freq relative CF RCF
[1,] 13 24 18.5 11 0.61111111 11 0.6111111
[2,] 24 35 29.5 4 0.22222222 15 0.8333333
[3,] 35 46 40.5 2 0.11111111 17 0.9444444
[4,] 46 57 51.5 0 0.00000000 17 0.9444444
[5,] 57 68 62.5 1 0.05555556 18 1.0000000
Gila Plain
Lower Upper Main freq relative CF RCF
[1,] 9 17 13 3 0.10714286 3 0.1071429
[2,] 17 25 21 11 0.39285714 14 0.5000000
[3,] 25 33 29 11 0.39285714 25 0.8928571
[4,] 33 41 37 1 0.03571429 26 0.9285714
[5,] 41 49 45 1 0.03571429 27 0.9642857
[6,] 49 57 53 1 0.03571429 28 1.0000000
Sacaton
Lower Upper Main freq relative CF RCF
[1,] 13 21 17 14 0.70 14 0.70
[2,] 21 29 25 2 0.10 16 0.80
[3,] 29 37 33 3 0.15 19 0.95
[4,] 37 45 41 0 0.00 19 0.95
[5,] 45 53 49 1 0.05 20 1.00

Los tres histogramas se muestran en la figura 2. En estos se puede ver asimetrı́a


positiva (sesgo a la derecha) en los tres sitios y un intervalo vacı́o en dos de ellos
(Casa Grande y Sacaton). Para el primer sitio se fusionan los dos últimos intervalos
y para el otro el cuarto con el quinto. Los nuevos gráficos (y sus tablas asociadas,
las cuales no se muestran) son generados con el siguiente código en R:

(limitesCgrande=c(13, 24, 35, 46, 68))


(limitesGplain=seq(from=9,by=8,length.out=7))
(limitesSacaton=c(13 ,21 ,29 ,45 ,53))

library(agricolae)
par(mfrow=c(3,1))
with(ceramicas,print(table.freq(graph.freq(RESISTENCIA[SITIO=="Casa Grande"]
,breaks=limitesCgrande,frequency=3,xlab="Resintecia (Kg)",ylab="Densidad"
,main="Distribución de la resistencia en Casa Grande"))))
with(ceramicas,print(table.freq(graph.freq(RESISTENCIA[SITIO=="Gila Plain"]
,breaks=limitesGplain,frequency=3,xlab="Resintecia (Kg)",ylab="Densidad"
,main="Distribución de la resistencia en Gila Plain"))))
with(ceramicas,print(table.freq(graph.freq(RESISTENCIA[SITIO=="Sacaton"]
,breaks=limitesSacaton,frequency=3,xlab="Resintecia (Kg)",ylab="Densidad"
,main="Distribución de la resistencia en Sacaton"))))

La figura 3 muestra el aspecto de los nuevos histogramas sin intervalos vacı́os.

3
Distribución de la resistencia en Casa Grande

Proporción de cerámicas
0.6
0.5
0.4
0.3
0.2
0.1
0.0

13 24 35 46 57 68

Resintecia (Kg)

Distribución de la resistencia en Gila Plain


Proporción de cerámicas

0.4

0.3

0.2

0.1

0.0

9 17 25 33 41 49 57

Resintecia (Kg)

Distribución de la resistencia en Sacaton


Proporción de cerámicas

0.8

0.6

0.4

0.2

0.0

13 21 29 37 45 53

Resintecia (Kg)

Figura 2: Distribución de la RESISTENCIA por cada SITIO.

c) Por la asimetrı́a vista en los tres histogramas, la media aritmética no serı́a apro-
piada como una mediada de tendencia central. En su lugar se podrı́a optar por la
mediana o la moda, esta última no serı́a apta para el Gila Plain por haber dos
intervalos modales. Se opta por la mediana la cual puede ser calculada para cada
sitio mediante el siguiente código en R:

numSummary(ceramicas[,"RESISTENCIA"], groups=ceramicas$SITIO,
statistics=c("mean","quantiles"), quantiles=c(0,.5,1))

Produciéndose la siguiente salida:

SITIO mean 0% 50% 100% data:n


Casa Grande 25.00 13 21.0 66 18
Gila Plain 25.00 9 24.5 55 28
Sacaton 21.15 13 18.5 51 20

Usando la mediana de cada sitio se puede afirmar que la resistencia promedio más
alta la se da en la muestra de Gila Plain con 24.5 Kg; mientras que la resistencia
promedio más baja la se da en la muestra de Sacaton con 18.5 Kg.
d) En el primer caso las cerámicas mas fuertes están ubicadas en el extremo derecho
de la distribución por tanto se pide calcular el percentil 85 para la variable en cada
sitio. En el segundo caso, las cerámicas más débiles están ubicadas en el extremo
izquierdo de la distribución por tanto se pide calcular el percentil 20. El código y
la salida en R con los percentiles pedidos es la siguiente:

4
Distribución de la resistencia en Casa Grande

0.06
0.05

Densidad
0.04
0.03
0.02
0.01
0.00

13 24 35 46 68

Resintecia (Kg)

Distribución de la resistencia en Gila Plain

0.05
0.04
Densidad

0.03
0.02
0.01
0.00

9 17 25 33 41 49 57

Resintecia (Kg)

Distribución de la resistencia en Sacaton


0.10
0.08
Densidad

0.06
0.04
0.02
0.00

13 21 29 45 53

Resintecia (Kg)

Figura 3: Distribución de la RESISTENCIA por cada SITIO (clases fusionadas)

numSummary(ceramicas[,"RESISTENCIA"], groups=ceramicas$SITIO,
statistics=c("quantiles"), quantiles=c(.2,.85))

SITIO 20% 85% n


Casa Grande 18.8 32.25 18
Gila Plain 18.4 30.95 28
Sacaton 15.0 29.15 20

Nótese que Casa Grande posee los valores más altos para dichos percentiles y
Sacaton los más pequeños.

2. ...

a) La tabla de frecuencias con las categorı́as ordenadas (de acuerdo a los errores más
frecuentes) y los porcentajes acumulados se muestra a continuación. Esta tabla fue
generada con el paquete qcc1 , importar la base de datos y llamándola Insurance.
La siguientes lı́nea de código permiten generar la tabla:
1
quality control charts, incluido en la lista de paquetes instalados con R-Commander.

5
library(qcc)
pareto.chart(table(Insurance$Tipos.de.errores))

Tipos de errores Reclamaciones Proporción Acumulados


Códigos de procedimientos 40 0,333 0,333
Solicitudes de contacto 37 0,308 0,642
Tablas de precios 17 0,142 0,783
Información del proveedor 9 0,075 0,858
Ajustes de los proveedores 7 0,058 0,917
Información del paciente 6 0,050 0,967
Otros problemas menores 4 0,033 1,000
Total general 120 1

Tabla 3: Tabla de frecuencias para los tipos de errores.

Aunque el diagrama Pareto puede ser elaborado usando EXCEL o la aplicación


web mostrada en el curso (también genera la tabla)2 , acá se muestra por medio del
paquete qcc de R. Las siguientes lı́neas de código permiten crear el gráfico mostrado
en la figura 4:

library(qcc)
pareto.chart(table(Insurance$Tipos.de.errores),cumperc
=seq(0,100,10),main="Diagrama Pareto para las reclamaciones",
ylab="Número de reclamaciones", ylab2="Porecentaje acumulado")
abline(h=length(Insurance$Tipos.de.errores)*0.8, lty=2, col="blue")

Este segmento de código también imprime la tabla anterior.


b) Observando la figura 4 se puede ver que la lı́nea horizontal que corta el 80 % deja por
debajo a los 3 primeros tipos de errores Códigos de procedimientos, Solicitudes
de contacto y Tablas de precios los cuales y según la tabla asociada acumulan
exactamente un 78.3 %, cifra bastante cercana al 80 %. En conclusión, la empresa de
seguros deberı́a centrase en estos 3 tipos de errores para disminuir las reclamaciones.

2
http://www.qtcharts.com/?g=prtt

6
Número de reclamaciones

0 20 40 60 80 100 120

Códigos de procedimientos y diagnósticos

Solicitudes de contarto

Tablas de precios

7
Información del proveedor

Ajustes de los proveedores

Información del paciente

Otros problemas menores


Diagrama Pareto para las reclamaciones

Figura 4: Diagrama Pareto para las reclamaciones


0% 20% 40% 60% 80% 100%
Porecentaje acumulado

S-ar putea să vă placă și