Sunteți pe pagina 1din 10

PROYECTO DE AULA PRIMER CORTE

SEBASTIÁN MUÑOZ. CÓD:

JUAN PABLO CAMARGO. COD: 1720010318

JOSE LUIS GUTIERREZ JIMÉNEZ. COD: 1810010276

JULIÁN DAVID ARISTIZÁBAL LÓPEZ. COD: 1810010576

PROBABILIDAD

PROFESOR:

INSTITUCIÓN UNIVERSITARIA POLITECNICO GRANCOLOMBIANO

BOGOTÁ D,C

2019
PROYECTO DE AULA PELÍCULAS Y SERIES EN NETFLIX VS. IMDB

1. Como primer paso en la realización del proyecto de aula se realizó un procesamiento de


datos, donde se organizaron de manera óptima descartando datos los cuales estaban
inconsistentes e incompleta la información en muchos de los casos.
Como se puede evidenciar en la siguiente tabla están distribuidos los datos uniformemente,
donde se pueden analizar e interpretar con mayor facilidad.

Después de haber realizado nuestra la limpieza y organización de datos se pudo realizar una
exploración a los datos, a pesar de ser una gran cantidad de datos se podían destacar unos
más que otros. Se analizaron y se revisaron los datos detenidamente.

Posteriormente se pudo realizar un procesamiento de datos donde con las 15 variables se


realizaron medidas estadísticas, tablas y gráficos entre otros donde se puede comunicar de
una manera más clara y exacta la información.
 Variable 1- Esta variable nos indica el número de identificación de la serie, película
o mini-serie. Esta variable fue suministrada por Netflix y es una variable cuantitativa
por intervalo. También podemos destacar datos como el dato mínimo y el dato
máximo donde el máximo es 17770, dándonos a conocer que esta es la totalidad de
las películas. No existe moda debido al tipo de variable, también podemos
identificar que la mediana es 8885 indicando que es el dato medio entre los datos.

 Variable 2- Año
Esta variable nos indica el año de estreno de la película según netflix. Es una
varable cuantitativa de razón, con un histograma podemos identificar los
intervalos y la cantidad de películas que se determinaron en el transcurrir de los
años. Podemos evidenciar como a medida del aumento del tiempo, el número de
películas estrenadas también aumenta. Podemos identificar que las películas se
estrenaron desde 1895 hasta 2010. No hay datos acerca de 7 películas en
específico.

 Variable 3- Título
Esta variable nos indica el nombre de la serie, película o mini serie, datos
suministrados por netflix. Es una variable cualitativa de escala nominal, en este
tipo de variables simplemente se pueden analizar, viendo cada uno de los títulos,
debido a que, cada una es totalmente e independiente y sin ninguna relación con
cualquier otra.
 Variable 4- IMD ID
Esta variable nos indica el número de identificación de cada serie, película o mini
serie. Es una variable cualitativa de escala de razón, en este tipo de variable no se
puede realizar ningún tipo de gráfico o tabla teniendo en cuenta que los valores
no tienen ninguna relación o predominación unos sobre otros.
 Variable 5 IMDB Title
Esta variable nos indica el nombre de la serie, película o mini serie, datos
suministrados por IMDB. Es una variable cualitativa de escala nominal, en este tipo
de variables simplemente se pueden analizar, viendo cada uno de los títulos,
debido a que, cada una es totalmente e independiente y sin ninguna relación con
cualquier otra.
 Variable 6- IMDB Year
Esta variable nos indica el año de estreno de la película según IMDN. Es una
varable cuantitativa de razón, con un histograma podemos identificar los
intervalos y la cantidad de películas que se determinaron en el transcurrir de los
años. Podemos evidenciar como a medida del aumento del tiempo, el número de
películas estrenadas también aumenta. Se puede identificar que según IMD hay
películas desde 1895 hasta 2020 siendo el año más alto de estreno. También
podemos evidenciar la falta de datos de 223 datos.

 Variable 7- Kind
Esta variable nos indica el tipo de obra es decir, se clasifican en: Película,
cortometraje, serie, mini serie, etc. Todos estos datos son suministrados por
IMDB. Esta variable es cualitativa nominal como se puede evidenciar más de la
mitad de los datos evaluados pertenecen a películas, también podemos destacar
que TV short es la categoría que menos porcentaje tiene.

 Variable 8- Genres
Esta variable nos indica el género de la obra, es decir, si es: Familiar, animación,
drama, etc. Estos datos son suministrados por IMDB. Esta variable es cualitativa
nominal. Podemos identificar que un gran porcentaje de películas, series o mini
series tienen como género la comedia o el drama. En esta variable se tomó una
muestra ya que la población es bastante extensa.

 Variable 9- Countries
Esta variable nos indica el país donde se produjo el título de la película, mini serie
o serie. Esta variable es cualitativa nominal. Podemos evidenciar que el país donde
se produjo el mayor número de nombres es en Estados Unidos, también podemos
identificar que países como Ukrania y Australia no generan tantos nombres.

 Variable 10- IMDB Rating


Esta variable nos indica el puntaje promedio de la serie, película, mini serie en una
escala de 1 a 10, siendo 10 el puntaje máximo de rating. Esta variable es
cuantitativa de razón. Como podemos evidenciar el puntaje máximo obtenido por
las películas es de 9 y el mínimo de 1, tambén podemos evidenciar que el
promedio es de 6,70. También podemos identificar que no todos los datos fueron
suministrados, sólo fueron suministrados 1621. También podemos identificar
datos atípicos los cuales se pueden evidenciar en el BloxPlot.

 Variable 11- IMDB Votes


Esta variable indica el número de votos reportados por IMDB, los votos indican la
mayor audiencia por el título de película. Esta es una variable cuantitativa de
razón. Podemos identificar que todas las películas no recibieron votos, también
podemos evidenciar el voto máximo que fue de 2122414 y el mínimo el cual fue
de 5, en la gráfica podemos identificar que a medida que los votos van
aumentando se va disminuyendo la cantidad de películas que lo obtienen,
podemos identificar que un dato que el dato máximo está muy por encima de la
media.

 Variable 12- Lenguages


Esta variable nos indica los
lenguajes hablados por cada
película reportados en IMDB. Esta
variable es cualitativa nominal.
Podemos identificar que
mayormente en las películas,
series o mini series el lenguaje más
popular el inglés, donde tiene un
porcentaje bastante notable a
comparación de los demás
lenguajes, podemos destacar que
el hebreo y el cantonese son
lenguajes no muy utilizados dentro
de las obras.
 Variable 13- Runtimes
Esta variable nos indica la duración del episodio o la película, está dada en
minutos. Los datos fueron suministrados por IMDB. Es una variable cuantitativa de
razón. Podemos identificar que la promedio de una película, serie o mini serie es
de 97,24. También identificamos la película o serie que dura más en emisión es de
1620 minutos, también podemos identificar la de menor emisión y es de 1 minuto
asumiendo que tal vez se trate de un cortometraje o metrajes con muy pocos
minutos de emisión.

 Variable 14- Certificates


Esta variable nos indica la categoría del tipo de audiencia el cuál puede ver la
determinada película, serie o mini serie. Es importante destacar que para cada
país es totalmente diferente la clasificación por lo que en esta variable no se
realizó un esquema o gráfico debido al tipo de datos que se reflejan. Esta variable
es cualitativa nominal.
 Variable 15- Number of seasson
Esta variable nos indica el número de temporadas que tiene cada obra, asumimos
que las series o mini series con las que tienen temporadas por lo que la tabla
refleja que no todos los ítems tienen información. Es una variable cuantitativa de
intervalo , podemos identificar que la serie con mayor número de temporadas es
de 51 y su nombre es NFL Films: Ice Bowl / Green Bay Packers History, también
podemos identificar que el promedio es de 4,15 temporadas.

2. Análisis total de una variable


La variable escogida fue el año de estreno suministrado por Netflix, es una variable
cuantitativa de razón. Al realizar todos los cálculos correspondientes para obtener todas
las medidas, podemos evidenciar que la promedio donde lanzaron las películas es en 1990,
también podemos evidenciar que en el año 2004 es el año donde se lanzaron más
películas. El año más antiguo donde se lanzó la primera película fue en 1895 y el año más
actuar es en el 2005. Con ayuda del BoxPlot podemos evidenciar que el 25% de los datos
se encuentran entre 1985 y 1997, deduciendo que es el primer cuartil. También podemos
identificar datos extremos, exactamente 170.
3. Preguntas realizadas
Conclusiones:

 Como podemos evidenciar en todo el trabajo realizado la Estadística es


fundamental para el análisis, la elaboración, la toma de decisiones de un evento
en específico.

S-ar putea să vă placă și