Documente Academic
Documente Profesional
Documente Cultură
Probabilidad y Estadstica
Licenciatura en Ciencias de la Computacin
1
El objetivo de este material es presentar a los alumnos una aplicacin de tcnicas
descriptivas a datos reales. En este ejemplo, a travs de la utilizacin de una serie de
medidas resmenes, grficos y tablas, se caracteriza a un conjunto de unidades, intentando
descubrir regularidades y singularidades de los mismos. Para obtener los resultados se utiliza
el paquete estadstico R.
1. Comentarios sobre R
Caractersticas principales:
Libre y gratuito. Se puede descargar en www.r-project.org.
Es un conjunto integrado por paquetes, cada paquete se refiere a uno o ms temas de la
estadstica, a su vez cada uno de esos paquetes est formado por sentencias que permiten
implementar las distintas tcnicas estadsticas. Los paquetes bsicos estn incluidos en R,
otros estn disponibles a travs de Internet en CRAN (buscar en la pgina del tem anterior)
Es un lenguaje orientado a objetos.
Entre otras propiedades dispone de:
almacenamiento y manipulacin efectiva de datos,
operadores para clculo sobre variables indexadas (Arrays), en particular matrices,
una amplia, coherente e integrada coleccin de herramientas para anlisis de datos,
posibilidades grficas para anlisis de datos, que funcionan directamente sobre pantalla o
impresora, y
un lenguaje de programacin bien desarrollado, simple y efectivo, que incluye
condicionales, ciclos, funciones recursivas y posibilidad de entradas y salidas.
distingue entre mayscula y minsculas. Es decir, el objeto DATOS es distinto al objeto
Datos.
3. Anlisis descriptivo
El anlisis descriptivo se realiza utilizando tablas, grficos y medidas resumen oportunas para
cada variable considerada teniendo en cuenta si es cualitativa (nominal o ordinal) o
cuantitativa (discreta o continua). Primero, se estudia cada variable por separado. En una
segunda parte, se analizan las relaciones que se crean convenientes. Para facilitar el trabajo
se usa el paquete estadstico R. Para cada resultado presentado se muestra en rojo la
sentencia que se escribe en R para obtenerlo. Tener en cuenta que R no tiene una nica
forma de pedir los resultados, aqu slo se muestra una opcin.
Cuando se cuenta con datos se aconseja que su disposicin sea la implementada en la Tabla
1 del Anexo, las filas se refieren a cada unidad que se estudia y las columnas a cada variable
que se registra.
La siguiente sentencia permite importar a R una base de datos que se encuentra en un
archivo .txt.
datos<-read.table("C:\\Users\\Mara\\Desktop\\LCC\\TAP2015.txt",header=T,sep="")
importa un archivo txt en un objeto llamado datos
datos muestra lo que hay en el objeto datos
attach(datos) toma cada columna (cada variable) como un objeto vector
R permite importar y exportar archivos con distintos formatos.
3.1. Anlisis univariado
Se comienza resumiendo la informacin de la ciudad donde est la universidad a la que
pertenecen los equipos.
Tabla de distribucin de frecuencias
Sede.ord<-ordered(Sede,levels=c("Bs_As","Cordoba","Rosario","La_Plata","Chilecito",
"Neuquen"))
frecabs<-table(Sede.ord)
frecrel<-prop.table(table(Sede))
porc<- frecrel*100
tabla<-cbind(frecabs,frecrel,porc)
Tabla 1: Equipos segn la ciudad de origen
Frecuencia Frecuencia
Sede Porcentaje
absoluta relativa
Buenos Aires 23 0.46 46
Crdoba 9 0.18 18
Rosario 6 0.12 12
La Plata 5 0.10 10
Resistencia 5 0.10 10
Chilecito 1 0.02 2
Neuqun 1 0.02 2
Total 50 1 100
Grfico de sectores
pie(table(Sede))
Grfico 2: Equipos segn la ciudad de origen
El Grfico 1 muestra que la ciudad que ms equipos aporta es Buenos Aires. En el Grfico 2
se ve claramente que casi la mitad de los equipos son de Buenos Aires, tambin hay muchos
equipos de Crdoba que se ubicaron entre los 50 mejores.
Medida de inters:
Moda=Buenos Aires
Buenos Aires es la ciudad que presenta el mayor nmero de equipos.
A continuacin se resume la informacin sobre el nmero de ejercicios resueltos por cada
equipo.
Tabla de distribucin de frecuencias
frecabs<-table(Score)
frecrel<-prop.table(table(Score))
porc<- frecrel*100
frecabsacum<-cumsum(frecabs)
frecrelacum<-cumsum(frecrel)
porcacum<-cumsum(porc)
tabla<-cbind(frecabs,frecrel,porc,frecabsacum,frecrelacum,porcacum)
Tabla 2: Ejercicios resueltos por equipos
stripchart(Score,method="stack",xlab="Score",offset=0.5,at=0.15,pch=19)
En el grfico de puntos no hay eje de ordenadas debido a que cada punto representa un
equipo.
Grfico de bastones
plot(table(Score),ylim=c(0,20),space=20,xlab="Score",ylab="Frecuencia")
Grfico 4: Ejercicios resueltos por equipos
Los Grficos 3 y 4 muestran la cantidad de equipos que resolvi correctamente 1 problema,
2 problemas, etc. La mayora de los equipos pudo resolver 2 o 3 ejercicios.
Por ltimo se resume la informacin sobre el tiempo por penalidad que recibe cada equipo
por haber excedido el tiempo para resolver cada ejercicio. Al ser sta una variable continua
con muchos valores distintos se decide crear intervalos. Se utiliza el resultado de la raz
cuadrada del nmero de equipos como gua para saber cuntos intervalos conviene. Adems
se consideran los valores mnimo y mximo de las observaciones.
Tabla de distribucin de frecuencias
Cantidad de intervalos= 50 7
Valor mnimo de penalidad=72
Valor mximo de penalidad=1135
Ayuda para crear los intervalos
Int1<-sum(Penalidad<=200)
Int2<-sum(Penalidad<=350&Penalidad>200)
Int3<-sum(Penalidad<=500&Penalidad>350)
Int4<-sum(Penalidad<=650&Penalidad>500)
Int5<-sum(Penalidad<=800&Penalidad>650)
Int6<-sum(Penalidad<=950&Penalidad>800)
Int7<-sum(Penalidad<=1100&Penalidad>950)
Int8<-sum(Penalidad>1100)
frecabs<-c(Int1,Int2,Int3,Int4,Int5,Int6,Int7,Int8)
Este procedimiento se puede simplificar
Intervalos<-cut(Penalidad,breaks<-c(50,200,350,500,650,800,950,1100,1250))
frecabs<-table(Intervalos)
frecrel<-prop.table(frecabs)
porc<- frecrel*100
frecabsacum<-cumsum(frecabs)
frecrelacum<-cumsum(frecrel)
porcacum<-cumsum(porc)
tabla<-cbind(frecabs,frecrel,porc,frecabsacum,frecrelacum,porcacum)
El Boxplot (Grfico 7) distingue un valor atpico, que pertenece al mayor valor de penalidad.
Este grfico tambin muestra la asimetra de la distribucin.
Anlisis bivariado
En esta parte del trabajo se pretende estudiar la penalidad obtenida en la competencia
segn la ciudad que representa el equipo.
Para comparar las ciudades se realiza un grfico que muestre un boxplot para cada ciudad.
Diagrama de caja
boxplot(Penalidad~Sede.ord,ylim=c(0,1200),ylab="Penalidad")
Grfico 8: Penalidad que reciben los equipos segn la ciudad que representan
La mediana de la penalidad es mayor para la ciudad de Bs As. Esta ciudad presenta un rango
intercuatlico grande, lo cual indica que los equipos varan bastante con respecto a la
penalidad. Los equipos de Crdoba no recibieron demasiada penalidad pero hay uno que se
destaca siendo el que mayor penalidad recibi. Los equipos de Rosario en comparacin con
el resto hay varios que recibieron mucha penalidad. De Chilecito y Neuqun slo un equipo
qued entre los 50 mejores, ninguno de los dos se excedieron mucho del tiempo estipulado.
En algunas ciudades hay slo un equipo, pero si el tamao de muestra fuera mayor y cada
ciudad estara representada por varios equipos resulta de inters completar la Tabla 4.
Tabla 4: Penalidad que reciben los equipos segn la ciudad que representan
Grfico de dispersin
plot(Penalidad~Score,ylim=c(0,1200),ylab="Penalidad",xlab="Score")
Grfico 9: Penalidad vs Score de los equipo