Sunteți pe pagina 1din 43

Probabilidad y

Estadística Descriptiva
Tema: distribución de frecuencias.
Realiza el proceso de recopilación,
presentación y análisis de información
económica-administrativa, para
Objetivo. interpretar estadísticas y parámetros en
muestras y poblaciones utilizando
métodos de cálculo y software
estadístico para la toma de decisiones.
 Exámenes 60%

 Tareas. 10%
Evaluación.
 Asistencia. 10%

 Trabajo final. 20%


Unidad I.
Distribuciones de
Frecuencias.
Conceptos
básicos.
 Administrar un negocio de forma efectiva
requiere la recolección de los datos apropiados.
En muchas ocasiones, los datos son medidas
Recopilación que se obtienen de los elementos de una
muestra, y las muestras se toman de la
de datos. población, de tal forma que sean lo mas
representativas posible. La técnica mas común.
para asegurar una representación adecuada es
usar una muestra aleatoria.
Existen diversas circunstancias que requieren la recolección
de datos:
 Un analista de investigación de mercados necesita evaluar
la efectividad de una nueva campaña publicitaria en
televisión.
 Un productor farmacéutico necesita determinar si un nuevo
medicamento es mas efectivo que los que actualmente se
Recopilación consumen.
 Un administrador de operaciones desea monitorear el
de datos. proceso de producci6n para comprobar si la calidad de cierto
producto satisface los estándares de la compañía.
 Un auditor desea revisar las transacciones financieras de
una empresa para determinar si esta cumple o no con
principios contables aceptables.
 Un inversionista potencial desea determinar que fumas
industriales tienen mayor probabilidad de crecer de forma
acelerada en un periodo de recuperación económica.
Existen cuatro importantes fuentes de datos:
 Los que proporciona una organización o un
Recopilación individuo.
de datos.  Un experimento diseñado.
 Una encuesta.
 Un estudio observacional.
 Las fuentes de datos se clasifican en fuentes
primarias y fuentes secundarias. Cuando el
Recopilación recolector de datos es quien los usa para el
análisis, la fuente es primaria. Cuando una
de datos. organización o individuo han compilado los
datos que utiliza otra organización o individuo,
la fuente es secundaria.
Recopilación
de datos.
 Variables categóricas: producen respuestas
categóricas, tales como si o no.
 Variables numéricas: producen respuestas
tales como la estatura en pulgadas. ¿Cuanto
piensa invertir en el ramo manufacturero?
Recopilación  Las variables continuas: producen respuestas
de datos. numéricas que surgen de un proceso de
medición. La estatura es un ejemplo de una
variable numérica continua.
 Variables discretas: producen respuestas
numéricas que surgen de un proceso de conteo.
¿a cuantas revistas esta suscrito?
 Suponga que mide el tiempo que le toma bajar de Internet un
archivo de MP3.
a) Explique por que el tiempo que le toma bajarlo es una variable
numérica.
b) ¿Esta variable es discreta o continua?
 Para cada una de las siguientes variables, determine si es
categórica o numérica. Si la variable es numerica, determine si es
Actividad 1. discreta o continua.
a) Numero de aparatos telefónicos por casa.
b) Duración (en minutos) de la llamada de larga distancia mas
prolongada hecha cada mes.
c) Si existe en la casa una línea telefónica conectada a un modém
de computadora.
d) Si hay un fax en la casa.
La distribución de frecuencia es una
disposición tabular de datos estadísticos,
ordenados ascendente o
Distribución de descendentemente, de acuerdo a la
frecuencias. frecuencia de cada dato. Las frecuencias
pueden ser:
 Frecuencia Absoluta (𝒇𝒊 ): Es el número de veces que se
repite un determinado valor de la variable (𝑥𝑖 ). Se designa
por 𝑓𝑖 .
PROPIEDAD: la suma de todas las frecuencias absolutas es
igual al total de observaciones (n).
 Frecuencia Acumulada ( 𝑭𝒊 ): Las frecuencias acumuladas de
una distribución de frecuencias son aquellas que se
Distribución de obtienen de las sumas sucesivas de las 𝑓𝑖 que integran cada
una de las filas de una distribución de frecuencia, esto se
frecuencias. logra cuando la acumulación de las frecuencias se realiza
tomando en cuenta la primera fila hasta alcanzar la ultima.
Las frecuencias acumuladas se designan con las letras 𝐹𝑖 . Se
calcula:
𝑖

𝐹1 = ෍ 𝑓𝑗 = 𝐹𝑖−1 + 𝑓𝑖
𝑗=1
 Frecuencia relativa: Es aquella que resulta de dividir
cada una de las frecuencias absolutas entre el número
total de datos. Las frecuencias relativas se designan
con las letras ℎ𝑖
𝑓𝑖
ℎ𝑖 =
𝑛
 Propiedad: la suma de todas las frecuencias relativas es
Distribución de igual a la unidad.
frecuencias.  Frecuencia relativa acumulada: Es aquella que resulta
de dividir cada una de las frecuencias acumuladas entre
número total de datos. Se designa con las letras 𝐻𝑖
𝐹𝑖
𝐻𝑖 =
𝑛
 Distribución de frecuencias absolutas: Es la
representación estructurada en forma de tabla de toda
la información que se ha recogido sobre la variable que
se estudia, es decir, es una tabla que presenta de
Distribución de manera ordenada los distintos valores de una variable y
sus correspondientes frecuencias. Su forma mas común
frecuencias. es la siguiente:
 El Municipio de Huatusco desea averiguar si el número medio
de hijos por familia ha descendido respecto de la década
anterior. Para ello ha encuestado a 50 familias respecto al
número de hijos, y ha obtenido los siguientes datos:
0,0,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,
3,3,3,3,3,3,3,4,4,4,4,4,4,5,6
Distribución de  Se pide:
 a. Construir la tabla de frecuencias absolutas
frecuencias  b. ¿Cuál es el número de familias que tiene como máximo dos
(ejem.) hijos?
 c. ¿Cuántas familias tienen más de 1 hijo pero como máximo 3?
 d. ¿Qué porcentaje de familias tiene más de 3 hijos?
xi fi Fi hi Hi
0 2 2 0.04 0.04
1 4 6 0.08 0.12
2 21 27 0.42 0.54
3 15 42 0.3 0.84
Distribución de 4 6 48 0.12 0.96
frecuencias 5 1 49 0.02 0.98
6 1 50 0.02 1
(ejem.) 50 1

b. 27 familias de acuerdo a fi= 2+3+21 o Fi=27


c. 36 familias de acuerdo a fi=21+15 o 42-6=36
d. Hi=0.12+0.02+0.02=0.16 16% 0 Hi=1-0.84= 0.16
 Es aquella distribución en la que la disposición
tabular de los datos estadísticos se encuentran
Distribución de ordenados en clases y con la frecuencia en cada
frecuencias clase; es decir, los datos originales de varios
agrupadas. valores adyacentes del conjunto se combinan
para formar un intervalo de clase.
 No existen normas establecidas para determinar
cuándo es apropiado utilizar datos agrupados o datos
no agrupados; sin embargo, se sugiere que cuando el
número total de datos (N) es igual o superior 50 y
además el rango o recorrido de la serie de datos es
mayor de 20, entonces, se utilizará la distribución de
frecuencia para datos agrupados.
Distribución de  La razón fundamental para utilizar la distribución de
frecuencias frecuencia de clases es proporcionar mejor
comunicación acerca del patrón establecido en los
agrupadas. datos y facilitar la manipulación de los mismos. Los
datos se agrupan en clases con el fin de sintetizar,
resumir, condensar o hacer que la información
obtenida de una investigación sea manejable con
mayor facilidad.
 El numero de intervalos de clase se toma entre
5 y 15 dependiendo de los datos.
 Cada observación debe estar incluida en una y
solo una clase o intervalo.
Reglas  El valor mas pequeño y mas grande deben
generales para entrar en la clasificación.
distribuciones  No deben existir brechas o vacíos entre clases
agrupadas. sucesivas.
 Los intervalos no se deben sobreponer.
 En la medida de lo posible, se debe utilizar la
misma amplitud para todos los intervalos.
 Clase o intervalo de clase: Son divisiones o
categorías en las cuales se agrupan un conjunto
de datos ordenados con características
Componentes comunes. Para organizar los valores de la serie
de una de datos hay que determinar un número de
distribución de clases que sea conveniente. A las fronteras del
intervalo, la llamaremos, límites inferior y
frecuencias de superior de la clase y los denotaremos por Li-1,
clases. Li.
 Punto medio o Marca de clase (X).- Es la semisuma del
límite inferior y superior de una clase, tal como lo indica
𝐿𝑖−1 +𝐿𝑖
la siguiente formula: 𝑋𝑖 =
2
 Amplitud, longitud o tamaño de intervalo: Los
intervalos de clases pueden ser de tres tipos: Clases de
Componentes igual tamaño, clases de tamaños desiguales y clases
abiertas. En términos generales, las clases de igual
de una tamaño son los mas utilizados y recomendados para los
distribución de cálculos estadísticos. Se designa por las letras lc.
 Nota: Al número de observaciones de una clase se le
frecuencias de llama frecuencia de clase, si dividimos esta frecuencia
clases. por el número total de observaciones, se llama
frecuencia relativa de clase, y del mismo modo que lo
hacíamos para datos sin agrupar definiríamos Hi, y Fi.
1. Determinar el máximo y mínimo entre los valores que
tenemos en la muestra y calcular el recorrido de la
variable o rango, es decir, 𝑅 = 𝑋𝑚𝑎𝑥 − 𝑋𝑚𝑖𝑛
2. Calcular el numero de clases a utilizar. Existen diversos
criterios para determinar el numero de clases, ante tanta
Procedimiento diversidad de criterios, se ha considerado que lo mas
para construir importante es dar un ancho o longitud de clases a todos
los intervalos de tal manera que respondan a la naturaleza
una de los datos y al objetivo que se persigue y esto se logra
con la practica. El método mas útil es el sugerido por
distribución de Hebert A. Sturges, el cual establece que: K= 1+3,322 log(n)
= numero de intervalos. En este curso se utilizará este
frecuencias método siempre y cuando el mismo sea aplicable.
agrupadas en 3. Determinar a amplitud o tamaño de los intervalos través
𝑅
de la siguiente formula: 𝐼𝑐 = = ancho o
intervalos tamaño de intervalo.
𝑁𝑜.𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜𝑠
 De los datos recabados de los pesos (kg) de los alumnos realizar
Actividad 2. una distribución de frecuencias.
 Grafica de barras: cada barra muestra una categoría, su
longitud representa la cantidad, frecuencia o
porcentaje de los valores que caen en cada categoría.
Las graficas de barras permiten comparar los
Gráficos para porcentajes de diferentes categorías.
 Grafica de pastel. es un circulo que se divide en partes
datos para representar las categorías. El tamaño de cada
categóricos. rebanada varia de acuerdo con el porcentaje de cada
categoría.
 Histograma: es una grafica de barras para datos
numéricos agrupados en los que las frecuencias o los
Gráficos para porcentajes de cada grupo de datos numéricos están
representados por barras individuales. En un
datos histograma, no hay brechas entre las barras
numéricos. adyacentes como en la grafica de barras de los datos
categóricos.
 Polígono de porcentaje. se crea al hacer que el punto
medio de cada clase represente los datos de esa clase y
después se conecta la secuencia de puntos medios con
Gráficos para sus respectivos porcentajes de clase.
datos  Polígono de porcentaje acumulado (ojiva): muestra la
numéricos. variable de interés a lo largo del eje X, y los porcentajes
acumulados a lo largo del eje Y.
Actividad 3.  Grafique los datos de la actividad 2.
ത Se trata del valor medio de todos
 Media aritmética (𝑋):
los valores que toma la variable estadística de una serie
Medidas de de datos. La media es el valor más representativo de la
serie de valores, es el punto de equilibrio, el centro de
tendencia gravedad de la serie de datos. Su formula es: 𝑋 =
σ𝑛
central para 𝑖=1 𝑥𝑖
𝑛
datos y datos  Media ponderada (MP): es una medida de
agrupados. centralización. Consiste en otorgar a cada observación
del conjunto de datos (X1,X2,…,XN) unos pesos
(p1,p2,…,pN) según la importancia de cada elemento
 Mediana: La mediana es el valor que divide en dos partes
iguales, al conjunto de observaciones ordenadas respecto de
sus magnitudes, de tal manera que el numero de datos por
encima de la mediana sea igual al numero de datos por
Medidas de debajo de la misma. Se designa por las letras Me.
 Para calcularla primero se deben ordenar los datos, una vez
tendencia ordenados hay que determinar si la serie es par o impar.
central para  Si es impar, será el numero central de la serie, para saber la
datos y datos posición exacta se utiliza la siguiente formula. 𝑀𝑒 = 𝑋(𝑛+1)
2

agrupados.  Si la serie es par, se calcula la media de las dos puntuaciones


centrales, para saber la ubicación exacta de esas
𝑋𝑛/2 +𝑋𝑛+2/2
puntuaciones se utiliza la formula. 𝑀𝑒 =
2
 Moda. la medida de posición que indica la magnitud del
Medidas de valor que se presenta con más frecuencia en una serie
tendencia de datos; es pues, el valor de la variable que más se
repite en un conjunto de datos. De las medidas de
central para posición la moda es la que se determina con mayor
datos y datos facilidad, ya que se puede obtener por una simple
observación de los datos en estudio.
agrupados.
 Media aritmética para datos agrupados. Se calcula
Medidas de sumando todos los productos de marca clase con la
tendencia frecuencia absoluta respectiva y su resultado dividirlo
por el número total de datos:
central para
datos y datos
agrupados.
 Moda. Es el valor que representa la mayor frecuencia
absoluta. En tablas de frecuencias con datos agrupados,
hablaremos de intervalo modal. La moda se representa
por Mo.

Medidas de
tendencia  Li Extremo inferior del intervalo modal (intervalo que tiene
mayor frecuencia absoluta).
central para  fi Frecuencia absoluta del intervalo modal.
datos y datos  fi-1 Frecuencia absoluta del intervalo anterior al modal.
agrupados.  fi+1 Frecuencia absoluta del intervalo posterior al modal.
 ti Amplitud de los intervalos
Si los intervalos tienen amplitudes distintas.
Medidas de En primer lugar tenemos que hallar las alturas.
hi= fi/ ti
tendencia Donde:
central para hi: altura correspondiente a cada intervalo.
fi: Frecuencia absoluta del intervalo (también se puede utilizar la frecuencia
datos y datos acumulada o relativa)
ti: Amplitud de los intervalos
agrupados. Luego la clase modal es la que tiene mayor altura.
 Mediana: La mediana se encuentra en el intervalo donde la
frecuencia acumulada llega hasta la mitad de la suma de las
frecuencias absolutas. Es decir tenemos que buscar el intervalo en
el que se encuentre. N / 2
Medidas de Donde:
tendencia  Li-1 es el límite inferior de la clase donde se encuentra la mediana.
central para  N / 2 es la semisuma de las frecuencias absolutas.
 Fi-1 es la frecuencia acumulada anterior a la clase mediana.
datos y datos
 fi es la frecuencia absoluta del intervalo mediano.
agrupados.  ti es la amplitud de los intervalos
 Rango. Es la medida de dispersión mas sencilla
y se define como la diferencia entre el valor
mas alto menos el valor mas pequeño y se
designa por R. Es decir, R = Xmax-Xmin para
datos no agrupados. Si los datos están
Medidas de agrupados en K clases el rango será la
dispersión para diferencia entre el limite superior de la K-esima
un conjunto de clase menos el limite inferior de la primera
clase.
datos y datos
agrupados.  El rango nos dará una primera idea sobre las
dispersión de los datos ya que si su valor es
pequeño nos indicará una gran concentración
de los datos, y si por el contrario su valor es
grande nos puede indicar una gran variabilidad
o dispersión de los datos.
 Desviación Media. La desviación media de un
Medidas de conjunto de n observaciones x1, x2, x3,. . .xn, es
el promedio de los valores absolutos de las
dispersión para desviaciones (di) con respecto a la media
un conjunto de aritmética o la mediana. Si se denomina como
datos y datos DM a la desviación media, entonces su formula
agrupados. matemática será la siguiente:
Medidas de
 Cuando los datos están en una distribución de
dispersión para clases o agrupados se aplica la siguiente
un conjunto de formula:
datos y datos
agrupados.
 Varianza. Una manera de resolver el problema
de los signos de las desviaciones respecto de la
media aritmética es elevándolos al cuadrado y
luego sumar todos los resultados obtenidos.
Esta suma se puede considerar como una
Medidas de medida de la dispersión total de los valores.
dispersión para Aquellos que estén mas alejados de la media
un conjunto de aritmética tendrán un aporte mayor a esta
suma de cuadrados.
datos y datos
agrupados.  Su mayor utilidad se presenta en la estadística
inductiva y se puede interpretar como una
medida de variación promedio (o el promedio
de la suma de los cuadrados). Se obtiene
dividiendo la variación total entre el numero de
unidades o medidas.
Medidas de
dispersión para
un conjunto de
datos y datos
agrupados.
 Desviación estándar o típica. Como la varianza es el
promedio de los desvíos respecto de la media elevados
Medidas de al cuadrado, viene entonces expresada en unidades
cuadradas. Para obtener una medida de dispersión en
dispersión para las unidades originales se le extrae la raíz cuadrada
un conjunto de (positiva) a la varianza, obteniendo así otra medida de
dispersión denominada desviación típica o estándar, la
datos y datos cual se designara por S y será igual a :
agrupados.
 Berenson, M. (2006). Estadística para administración. (4ª. ed.)
México : Pearson Educación.
 Carot, V. (2006). Control estadístico de la calidad. España :
Alfaomega.
Blibiografia.  Devore, J. L. (2012) Probabilidad y estadística para ingenierías y
ciencia. (8ª. ed.) México :Cengage Learning.
 Gamiz, B. E. (2012). Probabilidad y estadística con prácticas en
Excel. (3ª. ed). México : JIT Press.

S-ar putea să vă placă și