Documente Academic
Documente Profesional
Documente Cultură
DISTRIBUCIONES DE FRECUENCIAS
Datos. Son los hechos y los números que se reúnen, se analizan y se resumen para
su presentación e interpretación.
Los datos pueden ser Cualitativos o Cuantitativos.
Datos Cualitativos son aquellos que responden a la pregunta cual, se pueden
expresar con caracteres numéricos o alfanuméricos, y son etiquetas o nombres
asignados a un atributo.
Datos Cuantitativos son aquellos que responden a la pregunta cuánto o cuántos,
siempre serán numéricos porque a diferencia de los anteriores, estos si se pueden
cuantificar.
Elemento. Son las entidades acerca de las cuales se reúnen los datos.
Variable. Es una característica de interés de los elementos.
Observación. Es el conjunto de mediciones reunido para determinado elemento.
Población. Es el conjunto de todos los elementos que son objeto del estudio
estadístico.
Muestra es un subconjunto, extraído de la población (mediante técnicas de
muestreo), cuyo estudio sirve para inferir características de toda la población.
Escuela
Sector No. De de egreso
Nombre Edad Estatura donde habitantes de nivel
vive en casa medio
superior
1 GENOVEVA 20 1,52 SE 4 13
2 CARLA 19 1,57 NO 6 12
3 GILBERTO 19 1,60 SE 5 1
4 SAUL 20 1,60 SO 4 6
5 GUSTAVO 23 1,61 O 5 5
6 ALEJANDRO 19 1,62 SE 5 8
7 JANEET 22 1,63 SE 3 3
8 ALEXANDRA 19 1,64 SO 4 2
9 LUCERO 20 1,64 S 6 11
10 SAMANTHA 20 1,64 NE 3 9
11 BLANCA 20 1,65 SO 12 3
12 ALEJANDRO 19 1,65 SE 4 1
13 SARAI 19 1,65 SE 4 1
14 MIRIAM 19 1,65 O 7 3
15 FABIOLA 22 1,67 SE 1 12
16 PERLA 19 1,67 N 4 13
17 CRISTINA 20 1,68 SE 5 8
18 NANCY 21 1,69 NE 3 1
19 GABRIELA 19 1,70 SO 5 13
20 MARIANA 19 1,70 N 7 10
21 ALBERTO 19 1,72 SO 5 9
22 DANIEL 20 1,73 SO 3 3
23 LILIANA 19 1,74 NO 7 13
24 ABEL 19 1,75 SO 6 8
25 LEONOR 22 1,76 NO 5 9
26 CARLOS 20 1,78 O 5 8
27 EDUARDO 19 1,80 SO 4 3
28 EDGAR 19 1,82 NO 5 5
29 MATIAS 20 1.82 N 3 9
30 CARLOS 19 1.83 SO 4 10
Numero que corresponde a cada escuela
Definición de la Estadística
La enciclopedia Británica define la estadística como la ciencia encargada de
recolectar, analizar, presentar e interpretar datos.
El famoso diccionario Ingles Word Reference define la estadística como un área de
la matemática aplicada orientada a la recolección e interpretación de datos
cuantitativos y al uso de la teoría de la probabilidad para calcular los parámetros de
una población.
Una definición más completa sería la siguiente: arte y ciencia de reunir, analizar,
presentar e interpretar datos para la toma de decisiones.
Como se puede apreciar, esta última definición agrega un concepto muy importante
como lo es la toma de decisiones.
Clasificación de la Estadística
Es una técnica antigua: a través de sus sentidos, el hombre capta la realidad que lo
rodea, que luego organiza intelectualmente. Durante innumerables observaciones
sistemáticamente repetidas. El uso de nuestros sentidos es una fuente inagotable
de datos que, tanto para la actividad científica como para la vida práctica, resulta de
inestimable valor.
Calculo del Ancho de Clase. Una vez tomada la decisión del número de clases.se
procede al calcular el ancho o tamaño de clase de la siguiente manera: de la
ordenación de los datos se toma el dato mayor y se resta el dato menor, a esta
diferencia se le llama rango. Acto seguido de divide el del rango entre el numero de
clases establecidas. El resultado es el ancho de clase, el cual, si es necesario, se
redondea a la cifra más alta para garantizar que el dato más grande quede
contemplado en la última clase construida.
Cada clase tiene Limite Superior, Limite Inferior y Marca de Clase.
Los límites de clase deberán contener las mismas cifras después del punto que los
datos que se estén agrupando, lo anterior dará como resultado una clasificación
mas precisa.
1.83−1.52
𝑐= 5
𝑐 = 0.062
La operación da como resultado de 3 dígitos después del punto decimal, y los datos
en estudio solo tienen 2, esto obliga a redondear hacia arriba el resultado a 2 dígitos
C ≈ 0.07.
La primer clase tendrá como límite inferior el dato menor 1.52 y el límite superior
será 1.59 (1.52 + 0.07).
El límite inferior de la segunda clase será 1.59, al cual se le sumara de nuevo el
ancho de clase para obtener el límite superior de la segunda y así sucesivamente.
Nótese que del lado del límite inferior de cada clase aparece corchete “[“ que quiere
decir que es limite cerrado, mientras que del lado del límite superior aparece el
símbolo “)” que significa limite abierto, que significa que el límite inferior si pertenece
a la clase, mientras que el límite superior no, este pertenece a la clase siguiente.
Cálculo de las marca de clase
La manera de calcular la marca de clase correspondiente es la siguiente:
𝐿𝑆𝑖 − 𝐿𝐼𝑖
𝑀𝑐𝑖 =
2
En donde:
Mci = Marca de clase de la clase i
LSi = Limite superior de la clase i
LIi = Limite inferior de la clase i
1.52 + 1.59
= 1.555
2
El resultado de agrupar los datos de la tabal de los datos anteriores siguiendo los
criterios y cálculos anteriormente establecidos sería el siguiente:
DISTRIBUCION DE FRECUENCIAS
12
10
8
Alumnos
6
0
1.52-1.59 1.59-1.66 1.66-1.73 1.73-1.80 1.80-1.87
Estatura en Mts.
POLIGONO DE FRECUENCIA
DE ESTATURAS DE ALUMNOS
14
12
10
8
alumnos
6
0
1,555 1,625 1,695 1,765 1,835
Estatura en mts.
OJIVA "MENOR QUE"
ESTATURA DE ALUMNOS
35
30
25
20
Alumnos
15
10
0
1.52-1.59 1.59-1.66 1.66-1.73 1.73-1.80 1.80-1.87
Estatura en mts
∑𝑁
𝑖=1 𝑥𝑖
𝜇=
𝑁
En donde:
µ=media poblacional
N= cantidad de datos en la población
Media Muestral
∑𝑛𝑖=1 𝑥𝑖
𝑥̅ =
𝑛
En donde:
𝑥̅ = media muestral
𝑥𝑖 = dato i
n= cantidad de datos en la muestra
Ejemplo: Tomando los datos de la tabla de los 30 alumnos y suponiendo que los
datos de la variable edad son datos muestrales, la media sería la siguiente:
n=30
Σxi= 46.88
46.88
𝑥̅ = 30
= 1.56 mts.
Media Poblacional
∑𝑁
𝑖=1 𝑀𝑐𝑖 . 𝑓𝑖
𝜇=
𝑁
En donde:
µ=media poblacional
N= cantidad de datos en la población
Mci = marca de clase de la clase i
Fi = frecuencia de clase de la clase i
Media Muestral
∑𝑛𝑖=1 𝑀𝑐𝑖 . 𝑓𝑖
𝑥̅ =
𝑛
En donde:
𝑥̅ =media muestral
n= cantidad de datos en la muestra
Mci = marca de clase de la clase i
fi = frecuencia de clase de la clase i
Media Ponderada
Esta media toma en cuenta la importancia de cada uno de los datos analizados,
dándole mayor o menor importancia en el cálculo de esta la medida, es decir, la
media ponderada se utiliza cuando no todos los elementos componentes de los que
se pretende obtener la media tienen la misma importancia.
∑𝑛𝑖=1 𝑤𝑖 . 𝑥𝑖
𝑥̅ =
∑𝑛𝑖=1 𝑤𝑖
Donde:
Wi = valor de peso para xi o ponderación
Xi = dato i
Ejemplo: En una materia dada se asignan pesos de importancia, de la siguiente
forma: Unida I (20% del curso), Unidad II (35% del curso), Unidad III (20% del
curso), Unidad IV (15% de la calificación), Unidad V (10% de la calificación). Si las
calificaciones de un alumno son 8 en la primera unidad, 5 en la segunda, 8 en la
tercera unidad, 10 en la cuarta unidad y 8 en la última unidad. Se tienen la siguiente
tabla:
𝑥̅ = 7.25
1.4.2 Mediana.
La Mediana de Datos No Agrupados
La mediana (Me) es el dato central en un conjunto ordenado de datos. Se hace
énfasis en que el conjunto debe ser ordenado de menor a mayor antes de localizar
la mediana porque de no ser así, como la mediana es una medida de localización,
esta dependerá del acomodo que tengan los datos en el momento del análisis.
Por ejemplo, se tiene esta serie de datos:
Aquí la cantidad de datos es 6, que es numero par, por lo que la mediana se tiene
que estimar de la siguiente manera: se localizan los 2 datos centrales dividiendo el
numero de datos entre dos. 6÷2 = 3; el dato que ocupa la posición 3 y el siguiente
son los datos centrales, mismos que deben ser promediados para estimar la
mediana.
Los datos de la serie anterior que ocupan las posiciones 2 y 3, respectivamente son
el 34 y 44, que al promediarlos da como Me = 39 que viene siendo la mediana
estimada.
Ejemplo: Utilizando los datos de la tabla 1.1 para encontrar la mediana se tiene que
son 30 datos, lo cual implica que la mediana es estimada por ser un numero par en
la cantidad de datos.
La mediana es el dato que se encuentra entre la posición 15 y 16, que corresponden
a las alumnas Perla y Fabiola, respectivamente, y estos datos serán promediados.
1.67 + 1.67
𝑀𝑒 = = 1.67
2
𝑛
− ∑ 𝑓𝑚−1
2
𝑀𝑒 = 𝐿𝑖 + ( )𝑐
𝑓𝑚
En donde:
Me = mediana
Li = límite inferior de la clase mediana
n = cantidad de datos
Σfm-1 = frecuencia acumulada en la clase anterior a la clase mediana
fm = frecuencia de la clase mediana
c = ancho de clase
Como primer paso de debe identificar cual es la clase mediana. En este ejemplo se
sabe que el total de datos es 30, así lo muestra la sumatoria de las frecuencias.
Aun sin conocer los datos originales, por lógica y por concepto se sabe que la
mediana, una vez ordenados estos 30 datos, está localizada entre la posición 15 y
16, por lo que hay que encontrar en cual de la 5 clases están estas posiciones. De
acuerdo a la distribución también se sabe que la primer clase agrupa a los datos
más pequeño, es decir las posiciones 1 y 2, la segunda clase agrupa de la posición
3 a la posición 14, la clase 3 agrupa desde el dato de la posición 15 hasta la 21, y
es en esta clase en donde que se encuentra la posición buscada (entre posición 15
y 16), por lo que la clase mediana es la 3 para este ejemplo en particular.
Li = 1.66
n = 30
Σfm-1 = 14
fm = 7
c = 0.07
30
2 − 14
𝑀𝑒 = 1.66 + ( ) 0.07
7
𝑀𝑒 = 1.67
1.4.3 Moda.
La moda es el dato que en un conjunto de datos se repite con más frecuencia.
Un conjunto de datos puede tener una o más modas, e incluso puede no tener moda,
esto cuando ninguno de los datos tenga más frecuencia que los demás.
De nueva cuenta se presenta un concepto que hay que identificar antes de hacer
uso de la ecuación; clase modal. Esta clase es la clase que supuestamente incluye
a la moda, y se identifica como la clase de mayor frecuencia. Si en algún momento
se presenta la situación de 2 clases con igual frecuencia y estas sean las mas altas,
entonces el conjunto de datos será bimodal y habrá que calcular ambas modas.
Li = 1.59
Δ1 = (12-2) = 10
Δ2 = (12-7) = 5
C = 0.07
10
𝑀𝑜 = 1.59 + ( ) 0.07
10 + 5
Mo = 1.64
1.4.4 Relación entre media, mediana y moda.
Para poder establecer una relación empírica entre media, mediana y moda hay que
saber diferenciar las curvas de distribución de frecuencia de nuestros datos
estadísticos de la siguiente forma:
1.5.1 Rango.
El rango (R) es la medida más simple y como ya se vio anteriormente, es la
diferencia entre el dato mayor y el dato menor en un conjunto de datos. Esta medida
nos da la idea cuan extenso es el conjunto de datos, y no en cuanto a la cantidad
de datos, sino en cuanto de donde a donde van dichos datos.
Ya se ejemplifico esta medida cuando se tuvo que calcular el ancho de clase en la
sección 1.3
1.5.2 Varianza.
Si se quisiera medir el promedio de las desviaciones de los datos con respecto a la
media, siempre daría cero, porque la media es el valor que ajusta a todos los datos.
Para evitar esto, cada diferencia se eleva al cuadrado y la suma de estas diferencias
dividida entre el total de datos da como resultado la varianza
La varianza es pues, una medida estadística que mide la dispersión de los valores
respecto a la media, es decir, es el cuadrado de las desviaciones.
Varianza Poblacional
2
∑𝑁
𝑖=1(𝑥𝑖 − 𝜇 )
2
𝜎 =
𝑁
En donde:
𝜎 2 = La Varianza de la población
N = cantidad de datos en la población
Xi = dato i
µ = media poblacional
Varianza Muestral
2
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑠 =
𝑛−1
En donde:
S2 = La Varianza de la muestra
n = cantidad de datos en la muestra
Xi = dato i
𝑥̅ = media de la muestra
Ejemplo: Siguiendo utilizando los datos de las estaturas de los alumno y el ejemplo
1.2, a continuación de calcula la varianza.
n = 30
𝑥̅ = 1.56
30 2
2
∑𝑖=1(𝑥𝑖 − 1.56)
𝑠 =
30 − 1
𝑠 2 =0.004929 (mts)2
La Varianza de Datos Agrupados
Varianza poblacional
2
∑𝑁 2
𝑖=1(𝑀𝑐𝑖 − 𝜇 ) . 𝑓𝑖
𝜎 =
𝑁
En donde:
𝜎 2 = La Varianza de la población
N = cantidad de datos en la población
Mci = marca de clase i
fi = frecuencia de clase de la clase i
µ = media poblacional
Varianza Muestral
2
∑𝑛𝑖=1(𝑀𝑐𝑖 − 𝑥̅ )2 . 𝑓𝑖
𝑠 =
𝑛−1
S2 = La Varianza de la muestra
n = cantidad de datos en la muestra
Mci = marca de clase de la clase i
𝑥̅ = media de la muestra
N = 30
µ = 1.69
2
∑30 2
𝑖=1(𝑀𝑐𝑖 − 1.69) . 𝑓𝑖
𝜎 =
30
𝜎2 = 0.0066 (mts)2
∑𝑁
𝑖=1(𝑥𝑖 − 𝜇 )
2
𝜎=√
𝑁
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑠=√
𝑛−1
del ejemplo 1.8 la desviación estándar para ese conjunto de datos es:
S = √0.004929 mts
S = 0.07 mts.
∑𝑁
𝑖=1(𝑀𝑐𝑖 − 𝜇 )2 . 𝑓𝑖
𝜎=√
𝑁
∑𝑛𝑖=1(𝑀𝑐𝑖 − 𝑥̅ )2 . 𝑓𝑖
𝑠=√
𝑛−1
Partiendo del ejemplo 1.9, la desviación estándar para ese conjunto de datos es:
𝜎 = √0.0066 mts.
𝜎 = 0.08 mts.
La desviación estándar nos puede indicar como se comportan los datos alrededor
de una medida de tendencia central y como en ocasiones a pesar de tener la misma
media el grado de dispersión es distinto. Se pudiera tener una muestra en que su
media aritmética fuera 4 y que los datos oscilaran entre 3 y 5, y otra muestra que su
media aritmética fuera 4 y que sus datos oscilaran entre 0 y 8. Aunque ambas tienen
el mismo valor en su media, tienen distinta distribución de los datos, de aquí la
importancia de tener una medida que nos indique el grado de dispersión de los datos
con respecto a la media.