Sunteți pe pagina 1din 27

CAPITULO I.

DISTRIBUCIONES DE FRECUENCIAS

1.1 Conceptos de Estadística y su clasificación

Antes de analizar los conceptos y la clasificación de la estadística, es conveniente


entender las siguientes definiciones básicas:

Datos. Son los hechos y los números que se reúnen, se analizan y se resumen para
su presentación e interpretación.
Los datos pueden ser Cualitativos o Cuantitativos.
Datos Cualitativos son aquellos que responden a la pregunta cual, se pueden
expresar con caracteres numéricos o alfanuméricos, y son etiquetas o nombres
asignados a un atributo.
Datos Cuantitativos son aquellos que responden a la pregunta cuánto o cuántos,
siempre serán numéricos porque a diferencia de los anteriores, estos si se pueden
cuantificar.
Elemento. Son las entidades acerca de las cuales se reúnen los datos.
Variable. Es una característica de interés de los elementos.
Observación. Es el conjunto de mediciones reunido para determinado elemento.
Población. Es el conjunto de todos los elementos que son objeto del estudio
estadístico.
Muestra es un subconjunto, extraído de la población (mediante técnicas de
muestreo), cuyo estudio sirve para inferir características de toda la población.

En la siguiente se pueden ejemplificar los anteriores conceptos.


 El estudio consta de 30 elementos.
 Sobre cada uno de estos 30 elementos se recabo información de 3 variables
cuantitativas (edad, estatura y número de habitantes en casa), y 2 variables
cualitativos (sector donde viven, que es un dato alfanumérico y escuela de
egreso de nivel medio superior, que es un dato numérico)
 Por mencionar solo alguna, la observación para el elemento llamado Fabiola
es: (22, 1.67, SE, 1, 12)

TABLA: Los siguientes datos corresponden a un grupo de alumnos de la carreras


de Licenciatura en Administración, del Instituto Tecnológico de Cd. Juárez.

Escuela
Sector No. De de egreso
Nombre Edad Estatura donde habitantes de nivel
vive en casa medio
superior
1 GENOVEVA 20 1,52 SE 4 13
2 CARLA 19 1,57 NO 6 12
3 GILBERTO 19 1,60 SE 5 1
4 SAUL 20 1,60 SO 4 6
5 GUSTAVO 23 1,61 O 5 5
6 ALEJANDRO 19 1,62 SE 5 8
7 JANEET 22 1,63 SE 3 3
8 ALEXANDRA 19 1,64 SO 4 2
9 LUCERO 20 1,64 S 6 11
10 SAMANTHA 20 1,64 NE 3 9
11 BLANCA 20 1,65 SO 12 3
12 ALEJANDRO 19 1,65 SE 4 1
13 SARAI 19 1,65 SE 4 1
14 MIRIAM 19 1,65 O 7 3
15 FABIOLA 22 1,67 SE 1 12
16 PERLA 19 1,67 N 4 13
17 CRISTINA 20 1,68 SE 5 8
18 NANCY 21 1,69 NE 3 1
19 GABRIELA 19 1,70 SO 5 13
20 MARIANA 19 1,70 N 7 10
21 ALBERTO 19 1,72 SO 5 9
22 DANIEL 20 1,73 SO 3 3
23 LILIANA 19 1,74 NO 7 13
24 ABEL 19 1,75 SO 6 8
25 LEONOR 22 1,76 NO 5 9
26 CARLOS 20 1,78 O 5 8
27 EDUARDO 19 1,80 SO 4 3
28 EDGAR 19 1,82 NO 5 5
29 MATIAS 20 1.82 N 3 9
30 CARLOS 19 1.83 SO 4 10
Numero que corresponde a cada escuela

1 CBTIS 114 5 COBACH 6 9 PREPA CHAMIZAL 13 OTROS


2 CBTIS 128 6 COBACH 7 10 CETCJ
3 CTIS 61 7 COBACH 11 11 COBACH 9
4 COBACH 5 8 PREPA ALLENDE 12 CONALEP 2

Definición de la Estadística
La enciclopedia Británica define la estadística como la ciencia encargada de
recolectar, analizar, presentar e interpretar datos.
El famoso diccionario Ingles Word Reference define la estadística como un área de
la matemática aplicada orientada a la recolección e interpretación de datos
cuantitativos y al uso de la teoría de la probabilidad para calcular los parámetros de
una población.
Una definición más completa sería la siguiente: arte y ciencia de reunir, analizar,
presentar e interpretar datos para la toma de decisiones.
Como se puede apreciar, esta última definición agrega un concepto muy importante
como lo es la toma de decisiones.

Clasificación de la Estadística

La estadística se clasificar en dos grandes ramas:

 Estadística descriptiva o deductiva.


 Estadística inferencial o inductiva.

La Estadística Descriptiva o Deductiva se emplea simplemente para resumir de


forma numérica o gráfica un conjunto de datos. Se restringe a describir los datos
que se analizan. Si aplicamos las herramientas ofrecidas por la estadística
descriptiva a una muestra, solo nos limitaremos a describir los datos encontrados
en dicha muestra, no se podrá generalizar la información hacia la población.
La Estadística Inferencial permite realizar conclusiones o inferencias, basándose
en los datos simplificados y analizados de una muestra hacia la población o
universo. Por ejemplo, a partir de una muestra representativa tomada a los
habitantes de una ciudad, se podrá inferir la votación de todos los ciudadanos que
cumplan los requisitos con un error de aproximación.

1.2 Recopilación de datos.

Métodos de recolección de datos en la investigación cuantitativa


Una vez definido acerca de que tema se quiere realizar el ejercicio estadístico, es
necesario definir las técnicas de recolección de datos para construir los
instrumentos que nos permitan obtenerlos de la realidad.

Un instrumento de recolección de datos es cualquier recurso de que se vale el


investigador para acercarse a los fenómenos y extraer de ellos información.

Dentro de cada instrumento pueden distinguirse dos aspectos:

 La forma: se refiere a las técnicas que utilizamos para la tarea de


aproximación a la realidad (observación, entrevista).
 El contenido: queda expresado en la especificación de los datos que
necesitamos conseguir. Se concreta en una serie de ítems que no son otra
cosa que los indicadores que permiten medir a las variables, pero que
asumen ahora la forma de preguntas, puntos a observar, elementos para
registrar, etc.

El instrumento sintetiza en sí toda la labor previa de investigación: resume los


aportes del marco teórico al seleccionar datos que corresponden a los indicadores
y, por lo tanto, a las variables y conceptos utilizados; pero también sintetiza el diseño
concreto elegido para el trabajo. Mediante una adecuada construcción de los
instrumentos de recolección, la investigación alcanza la necesaria correspondencia
entre teoría y hechos.
Datos Primarios Y Secundarios.

 Datos primarios: son aquellos que el investigador obtiene directamente de la


realidad, recolectándolos con sus propios instrumentos.
 Datos secundarios: son registros escritos que proceden también de un
contacto con la práctica, pero que ya han sido elegidos y procesados por
otros investigadores.

Los datos primarios y secundarios no son dos clases esencialmente diferentes de


información, sino partes de una misma secuencia: todo dato secundario ha sido
primario en sus orígenes, y todo dato primario, a partir del momento en que el
investigador concluye su trabajo, se convierte en dato secundario para los demás.

Técnicas De Recolección De Datos Primarios.


 La Observación. Consiste en el uso sistemático de nuestros sentidos
orientados a la captación de la realidad que queremos estudiar.

Es una técnica antigua: a través de sus sentidos, el hombre capta la realidad que lo
rodea, que luego organiza intelectualmente. Durante innumerables observaciones
sistemáticamente repetidas. El uso de nuestros sentidos es una fuente inagotable
de datos que, tanto para la actividad científica como para la vida práctica, resulta de
inestimable valor.

 La Entrevista. Consiste en una interacción entre dos personas, en la cual el


investigador formula determinadas preguntas relativas al tema en
investigación, mientras que el investigado proporciona verbalmente o por
escrito la información que le es solicitada.

Existen además otros procedimientos de recolección de datos primarios, entre los


que figuran el llamado cuestionario de auto- aplicación, los test, los diagramas socio
métricos, las escalas y diferenciales semánticos, etc. sin embargo, todos tienen su
origen, en última instancia, en las dos principales técnicas mencionadas.
1.3 Distribución de frecuencias.
Después de contar con la lista de datos (tal y como fueron recolectados), es
conveniente y necesario ordenar estos de acuerdo a la variable que se vaya a
analizar. A este ordenamiento se le llama justamente ordenación.
Además de la conveniencia de ordenar los datos, se presenta otra conveniencia
como lo es el agrupamiento de estos de acuerdo a su valor, es decir, crear clases o
grupos de cierto tamaño, para así contabilizar cuantos datos quedan agrupados en
cada clase y facilitar la interpretación de los datos, a este ejercicio se le llama
Distribución de frecuencias.

Determinación de Número de Clases. La primer pregunta que surge al querer


clasificar los datos es en cuantos grupos se va a clasificar los datos, pues bien,
aunque hay ciertas formulas que arrojan el numero idóneo para agrupar los datos,
la verdad que la cantidad de clases la determina la persona que hace el estudio de
acuerdo a la necesidad de lo que quiera analizar, para alguien la necesidad podría
ser únicamente 2 clases, los datos pequeños y los datos grandes, o 3 clases, o 10,
etc., y es también importante comentar que no necesariamente el tamaño de estas
tienen que ser igual. Los autores de libros sugieren que sea entre 5 y 5 o 20 clases
dependiendo de los datos, pero debe predominar la necesidad del estudio. Para
fines del presente texto, en cada ejemplo se señalara el numero de clases, y estas
serán de igual tamaño.

Calculo del Ancho de Clase. Una vez tomada la decisión del número de clases.se
procede al calcular el ancho o tamaño de clase de la siguiente manera: de la
ordenación de los datos se toma el dato mayor y se resta el dato menor, a esta
diferencia se le llama rango. Acto seguido de divide el del rango entre el numero de
clases establecidas. El resultado es el ancho de clase, el cual, si es necesario, se
redondea a la cifra más alta para garantizar que el dato más grande quede
contemplado en la última clase construida.
Cada clase tiene Limite Superior, Limite Inferior y Marca de Clase.
Los límites de clase deberán contener las mismas cifras después del punto que los
datos que se estén agrupando, lo anterior dará como resultado una clasificación
mas precisa.

Construcción de las clases. El límite inferior de la primer clase es el dato más


bajo, el mismo que se utilizo para calcular el ancho de clase. Este límite y el de
todas
las clases, es cerrado, es decir, el valor está incluido en la clase. No así el límite
superior que es abierto, y aunque aparece en la clase, este valor no pertenece a la
misma.
Al límite inferior se le suma el ancho de clase para encontrar el límite superior, este
límite superior será el límite inferior de la siguiente clase y así sucesivamente hasta
completar las clases requeridas.

Distribución de Frecuencias. La tarea siguiente es distribuir los datos de acuerdo


a su valor en la clase que le corresponda. La cantidad de datos que agrupe cada
clase se le conoce como Frecuencia Absoluta de Clase, que, siendo esta las más
utilizada, cada vez que se diga frecuencia se estará haciendo referencia a esta.

Frecuencia Relativa. Es la frecuencia de clase en relación al total de datos con que


se cuenta. Se obtiene dividiendo la frecuencia entre el número de datos.

Frecuencia Acumulada. Es la frecuencia de todos los valores menores a cada uno


de los límites superiores. Se obtiene situándose en todos y cada uno de los limites
superiores y hacerse la pregunta ”¿Cuántos valores son menores a este?
Ejemplo
Cálculo del ancho de clase
Tomando como base a los datos proporcionados en la tabla 1.1, la agrupación de
los datos referente a la estatura en 5 clases, de igual tamaño sería la siguiente:
Dato Mayor = 1.83
Dato Menor = 1.52
Numero de clases deseado: 5

𝐷𝑎𝑡𝑜 𝑀𝑎𝑦𝑜𝑟−𝐷𝑎𝑡𝑜 𝑀𝑒𝑛𝑜𝑟


𝐴𝑛𝑐ℎ𝑜 𝑑𝑒 𝐶𝑙𝑎𝑠𝑒 (𝑐) =
𝑁𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝐶𝑙𝑎𝑠𝑒𝑠

1.83−1.52
𝑐= 5

𝑐 = 0.062
La operación da como resultado de 3 dígitos después del punto decimal, y los datos
en estudio solo tienen 2, esto obliga a redondear hacia arriba el resultado a 2 dígitos
C ≈ 0.07.

Construcción de los intervalos de clase

La primer clase tendrá como límite inferior el dato menor 1.52 y el límite superior
será 1.59 (1.52 + 0.07).
El límite inferior de la segunda clase será 1.59, al cual se le sumara de nuevo el
ancho de clase para obtener el límite superior de la segunda y así sucesivamente.
Nótese que del lado del límite inferior de cada clase aparece corchete “[“ que quiere
decir que es limite cerrado, mientras que del lado del límite superior aparece el
símbolo “)” que significa limite abierto, que significa que el límite inferior si pertenece
a la clase, mientras que el límite superior no, este pertenece a la clase siguiente.
Cálculo de las marca de clase
La manera de calcular la marca de clase correspondiente es la siguiente:

𝐿𝑆𝑖 − 𝐿𝐼𝑖
𝑀𝑐𝑖 =
2
En donde:
Mci = Marca de clase de la clase i
LSi = Limite superior de la clase i
LIi = Limite inferior de la clase i

Ejemplificando el cálculo de la marca de clase de la primer clase, quedaría así:

1.52 + 1.59
= 1.555
2

De manera similar se calculan las marcas de clase de las demás clases.

El resultado de agrupar los datos de la tabal de los datos anteriores siguiendo los
criterios y cálculos anteriormente establecidos sería el siguiente:

DISTRIBUCION DE FRECUENCIAS

No. de Intervalo de Marca de Frecuencia Frecuencia Frecuencia


clase Clase Clase Absoluta Relativa Acumulada
1 [1.52, 1.59) 1.555 2 2÷30 = 0.07 2
2 [1.59, 1.66) 1.625 12 12÷30= 0.40 14
3 [1.66, 1.73) 1.695 7 7÷30= 0.23 21
4 [1.73, 1.80) 1.765 5 5÷30= 0.17 26
5 [1.80, 1.87) 1.835 4 4÷30= 0.13 30
Totales 30 1.00
La suma de las frecuencias debe ser igual al número total de datos en el estudio.
La suma de las frecuencias relativas debe ser igual 1 o aproximarse cuando las
cifras son redondeadas.
La frecuencia de la última clase debe ser igual al número total de datos.

1.3.1 Polígonos de frecuencia, histogramas y ojivas.


La tabla de distribución de frecuencias es útil en la presentación del resumen de
datos, pero además sirve para presentar los datos pero ahora de manera grafica
Existe una gran cantidad de gráficos, pero aquí solo se mencionaran 3 de ellos.

Un histograma es un conjunto de rectángulos con bases en el eje horizontal,


centros en las marcas de clase, longitudes iguales a los anchos de clase y áreas
proporcionales a las frecuencias de clase

Un Polígono de Frecuencia es un grafico de trozos o segmentos de la frecuencia


de clase con relación a la marca de clase.

La Ojiva es un polígono de frecuencias acumuladas y se grafica relacionando la


frecuencia acumulada de cada clase con el límite superior de cada clase.
HISTOGRAMA
DISTRIBUCION DE ALUMOS POR ESTATURA
14

12

10

8
Alumnos
6

0
1.52-1.59 1.59-1.66 1.66-1.73 1.73-1.80 1.80-1.87
Estatura en Mts.

POLIGONO DE FRECUENCIA
DE ESTATURAS DE ALUMNOS
14

12

10

8
alumnos
6

0
1,555 1,625 1,695 1,765 1,835
Estatura en mts.
OJIVA "MENOR QUE"
ESTATURA DE ALUMNOS
35

30

25

20
Alumnos
15

10

0
1.52-1.59 1.59-1.66 1.66-1.73 1.73-1.80 1.80-1.87
Estatura en mts

1.4 Medidas de tendencia central. para un conjunto de datos


no agrupados y datos agrupados.

La estadística descriptiva en su función básica de reducir datos, propone una serie


de indicadores que permiten tener una percepción rápida de lo que ocurre en un
fenómeno.
La primera gama de indicadores corresponde a las “Medidas de Tendencia Central”.
Existen varios procedimientos para expresar matemáticamente las medidas de
tendencia central, de los cuales, los más conocidos son: la media aritmética, la
moda y la mediana.
Los índices calculados para una población se llaman parámetros, mientras que los
calculados para una muestra se llaman estadísticos.

1.4.1 Media, Media ponderada.


La Media
La media, la media aritmética y el promedio son el mismo concepto, y equivale al
cálculo del promedio simple de un conjunto de datos.
El cálculo para la media de datos no agrupados es el siguiente:
Media para Datos No Agrupados
Media Poblacional

∑𝑁
𝑖=1 𝑥𝑖
𝜇=
𝑁
En donde:
µ=media poblacional
N= cantidad de datos en la población

Media Muestral

∑𝑛𝑖=1 𝑥𝑖
𝑥̅ =
𝑛
En donde:

𝑥̅ = media muestral
𝑥𝑖 = dato i
n= cantidad de datos en la muestra

El cálculo de estas dos medidas es exactamente el mismo, la diferencia es la


nomenclatura que se utiliza justamente para hacer notar que se trata de un
parámetro o un estadístico.

Ejemplo: Tomando los datos de la tabla de los 30 alumnos y suponiendo que los
datos de la variable edad son datos muestrales, la media sería la siguiente:
n=30
Σxi= 46.88
46.88
𝑥̅ = 30
= 1.56 mts.

El resultado anterior significa que la media o el promedio de la estatura de los 30


alumnos del listado es, 1.56 mts.

Media Para Datos Agrupados


Cuando no se cuenta con la información de la totalidad de los datos originales, sino
con una distribución de frecuencias, y se quiere conocer la media, se aplica la
formula siguiente:

Media Poblacional

∑𝑁
𝑖=1 𝑀𝑐𝑖 . 𝑓𝑖
𝜇=
𝑁
En donde:
µ=media poblacional
N= cantidad de datos en la población
Mci = marca de clase de la clase i
Fi = frecuencia de clase de la clase i

Media Muestral

∑𝑛𝑖=1 𝑀𝑐𝑖 . 𝑓𝑖
𝑥̅ =
𝑛
En donde:
𝑥̅ =media muestral
n= cantidad de datos en la muestra
Mci = marca de clase de la clase i
fi = frecuencia de clase de la clase i

Ejemplo: Retomando los datos de la tabla, referente a la estatura de los 30 alumnos,


se calculara la media suponiendo que dichos datos son poblacionales, o sea, todos
los elementos de interés en el estudio.

(1.555)(2) + (1.625)(12) + (1.695)(7) + (1.765)(5) + (1.835)(4)


𝑥̅ =
30
𝑥̅ = 1.688 ≈ 1.69

Evidentemente el resultado de la media para datos no agrupados y para datos


agrupados es muy diferente, esto debido a la forma en que distribuyen los datos,
tema que se verá en el capítulo IV.

Media Ponderada
Esta media toma en cuenta la importancia de cada uno de los datos analizados,
dándole mayor o menor importancia en el cálculo de esta la medida, es decir, la
media ponderada se utiliza cuando no todos los elementos componentes de los que
se pretende obtener la media tienen la misma importancia.

∑𝑛𝑖=1 𝑤𝑖 . 𝑥𝑖
𝑥̅ =
∑𝑛𝑖=1 𝑤𝑖
Donde:
Wi = valor de peso para xi o ponderación
Xi = dato i
Ejemplo: En una materia dada se asignan pesos de importancia, de la siguiente
forma: Unida I (20% del curso), Unidad II (35% del curso), Unidad III (20% del
curso), Unidad IV (15% de la calificación), Unidad V (10% de la calificación). Si las
calificaciones de un alumno son 8 en la primera unidad, 5 en la segunda, 8 en la
tercera unidad, 10 en la cuarta unidad y 8 en la última unidad. Se tienen la siguiente
tabla:

Unidad Ponderación (W i) Datos (W i)


I 20% = 0.20 8
II 35% = 0.35 5
III 20% = 0.20 8
IV 15% = 0.15 10
V 10% = 0.10 8

(0.2)8 + (0.35)5 + (0.2)8 + (0.15)10 + (0.10)8


𝑥̅ =
0.2 + 0.35 + 0.2 + 0.15 + 0.10

𝑥̅ = 7.25

1.4.2 Mediana.
La Mediana de Datos No Agrupados
La mediana (Me) es el dato central en un conjunto ordenado de datos. Se hace
énfasis en que el conjunto debe ser ordenado de menor a mayor antes de localizar
la mediana porque de no ser así, como la mediana es una medida de localización,
esta dependerá del acomodo que tengan los datos en el momento del análisis.
Por ejemplo, se tiene esta serie de datos:

34, 56, 21, 19, 44


si no se tiene la precaución de ordenar los datos se dirá que la mediana es 21, lo
cual es falso porque si se ordenan los datos quedaría así y la media será 34

19, 21, 34, 44, 56

Cuando la cantidad de datos en el conjunto es un número impar, se tendrá una


mediana real como fue el pequeño ejemplo anterior; cuando la cantidad de
elementos sea par se tendrá una mediana estimada, que se ejemplifica en la
siguiente serie de datos.

19, 21, 34, 44, 56, 70

Aquí la cantidad de datos es 6, que es numero par, por lo que la mediana se tiene
que estimar de la siguiente manera: se localizan los 2 datos centrales dividiendo el
numero de datos entre dos. 6÷2 = 3; el dato que ocupa la posición 3 y el siguiente
son los datos centrales, mismos que deben ser promediados para estimar la
mediana.
Los datos de la serie anterior que ocupan las posiciones 2 y 3, respectivamente son
el 34 y 44, que al promediarlos da como Me = 39 que viene siendo la mediana
estimada.
Ejemplo: Utilizando los datos de la tabla 1.1 para encontrar la mediana se tiene que
son 30 datos, lo cual implica que la mediana es estimada por ser un numero par en
la cantidad de datos.
La mediana es el dato que se encuentra entre la posición 15 y 16, que corresponden
a las alumnas Perla y Fabiola, respectivamente, y estos datos serán promediados.

1.67 + 1.67
𝑀𝑒 = = 1.67
2

La Mediana de Datos Agrupados


Cuando se tenga una distribución de frecuencias y a partir de ella se quiera localizar
la mediana, se utiliza la siguiente fórmula:

𝑛
− ∑ 𝑓𝑚−1
2
𝑀𝑒 = 𝐿𝑖 + ( )𝑐
𝑓𝑚
En donde:
Me = mediana
Li = límite inferior de la clase mediana
n = cantidad de datos
Σfm-1 = frecuencia acumulada en la clase anterior a la clase mediana
fm = frecuencia de la clase mediana
c = ancho de clase

En la definición de las variables de la formula anterior, aparece un concepto que es


de vital importancia entender, la clase mediana, esta es la clase en la cual se
encuentra la mediana.
Ejemplo: Para ejemplificar lo anterior, a continuación se reproduce de manera
parcial la tabla de distribución de frecuencias

No. de Intervalo de Frecuencia Frecuencia


clase Clase Absoluta Acumulada
1 [1.52, 1.59) 2 2
2 [1.59, 1.66) 12 14
3 [1.66, 1.73) 7 21
4 [1.73, 1.80) 5 26
5 [1.80, 1.87) 4 30
Totales 30

Como primer paso de debe identificar cual es la clase mediana. En este ejemplo se
sabe que el total de datos es 30, así lo muestra la sumatoria de las frecuencias.
Aun sin conocer los datos originales, por lógica y por concepto se sabe que la
mediana, una vez ordenados estos 30 datos, está localizada entre la posición 15 y
16, por lo que hay que encontrar en cual de la 5 clases están estas posiciones. De
acuerdo a la distribución también se sabe que la primer clase agrupa a los datos
más pequeño, es decir las posiciones 1 y 2, la segunda clase agrupa de la posición
3 a la posición 14, la clase 3 agrupa desde el dato de la posición 15 hasta la 21, y
es en esta clase en donde que se encuentra la posición buscada (entre posición 15
y 16), por lo que la clase mediana es la 3 para este ejemplo en particular.
Li = 1.66
n = 30
Σfm-1 = 14
fm = 7
c = 0.07
30
2 − 14
𝑀𝑒 = 1.66 + ( ) 0.07
7
𝑀𝑒 = 1.67

1.4.3 Moda.
La moda es el dato que en un conjunto de datos se repite con más frecuencia.
Un conjunto de datos puede tener una o más modas, e incluso puede no tener moda,
esto cuando ninguno de los datos tenga más frecuencia que los demás.

La Moda de Datos No Agrupados


Cuando se cuenta con un ordenamiento de datos es fácil localizar la moda
observando la repetición de cada dato.
En el ejemplo que se ha estado viendo a lo largo de la unidad, la moda es 1.65 con
una frecuencia igual a 4, aunque hay otros datos que también se repiten pero con
menor frecuencia. Si hubiera otro dato con frecuencia 4 sería también moda y de
diría que el conjunto de datos es bimodal, es decir, que tiene 2 modas.

La Moda de Datos Agrupados


Al igual que la media y la mediana, la moda se puede encontrar para datos
agrupados utilizando la formula
Δ1
𝑀𝑜 = 𝐿𝑖 + ( )𝑐
Δ1 + Δ2
En donde:
Mo = moda
Li = límite inferior de la clase modal
Δ1 = diferencia de la frecuencia de la clase modal y la clase inmediata anterior
Δ2 = diferencia de la frecuencia de la clase modal y la clase inmediata siguiente
C = ancho de clase

De nueva cuenta se presenta un concepto que hay que identificar antes de hacer
uso de la ecuación; clase modal. Esta clase es la clase que supuestamente incluye
a la moda, y se identifica como la clase de mayor frecuencia. Si en algún momento
se presenta la situación de 2 clases con igual frecuencia y estas sean las mas altas,
entonces el conjunto de datos será bimodal y habrá que calcular ambas modas.

Ejemplo: Utilizando de nuevo el ejercicio de la distribución de frecuencias que ha


venido sirviendo para ejemplificar cada calculo de las medidas, se tiene entonces
que la moda será la siguiente:
Paso inicial hay que localizar la clase modal, que de manera clara es la segunda
clase con una frecuencia de 12.

Li = 1.59
Δ1 = (12-2) = 10
Δ2 = (12-7) = 5
C = 0.07

10
𝑀𝑜 = 1.59 + ( ) 0.07
10 + 5

Mo = 1.64
1.4.4 Relación entre media, mediana y moda.

Para poder establecer una relación empírica entre media, mediana y moda hay que
saber diferenciar las curvas de distribución de frecuencia de nuestros datos
estadísticos de la siguiente forma:

En el caso de distribuciones unimodales, la mediana está con frecuencia


comprendida entre la media y la moda (incluso más cerca de la media).

En distribuciones que presentan cierta inclinación, es más aconsejable el uso de la


mediana. Sin embargo en estudios relacionados con propósitos estadísticos y de
inferencia suele ser más apta la media

Cuando una distribución de frecuencia es simétrica, la media, mediana y moda


coinciden en su valor (µ = Me = Mo). En el caso de una distribución binomial
simétrica, es necesario calcular el promedio de las modas.

En una distribución sesgada a la izquierda, la moda es menor a la mediana, y esta


a su vez menor que la media (µ < Mo < Me)

En una distribución sesgada a la derecha la relación se invierte, la moda es mayor


a la mediana, y esta a su vez mayor que la media (Mo > Me >).

1.5 Medidas de dispersión para un conjunto de datos y datos


agrupados.
En secciones anteriores se ha discutido sobre tres medidas de tendencia central.
Sin embargo, estas medidas no son suficientes para entender un conjunto de datos
y sobre él tomar decisiones, puesto que otro aspecto que debe ser tomar en cuenta
es la variabilidad o la dispersión de las observaciones.
Con el propósito de medir la dispersión o variabilidad, se discutirán en este apartado
las medidas de: Rango (llamado también amplitud o recorrido), Varianza y
Desviación Estándar (también llamada desviación típica).

1.5.1 Rango.
El rango (R) es la medida más simple y como ya se vio anteriormente, es la
diferencia entre el dato mayor y el dato menor en un conjunto de datos. Esta medida
nos da la idea cuan extenso es el conjunto de datos, y no en cuanto a la cantidad
de datos, sino en cuanto de donde a donde van dichos datos.
Ya se ejemplifico esta medida cuando se tuvo que calcular el ancho de clase en la
sección 1.3

1.5.2 Varianza.
Si se quisiera medir el promedio de las desviaciones de los datos con respecto a la
media, siempre daría cero, porque la media es el valor que ajusta a todos los datos.
Para evitar esto, cada diferencia se eleva al cuadrado y la suma de estas diferencias
dividida entre el total de datos da como resultado la varianza
La varianza es pues, una medida estadística que mide la dispersión de los valores
respecto a la media, es decir, es el cuadrado de las desviaciones.

Varianza de Datos No Agrupados


Es importante saber si los datos a operar son datos poblacionales o datos
muestrales, porque además de la nomenclatura, hay también diferencia en el
cálculo de la varianza.

Varianza Poblacional

2
∑𝑁
𝑖=1(𝑥𝑖 − 𝜇 )
2
𝜎 =
𝑁
En donde:
𝜎 2 = La Varianza de la población
N = cantidad de datos en la población
Xi = dato i
µ = media poblacional

Varianza Muestral

2
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑠 =
𝑛−1
En donde:
S2 = La Varianza de la muestra
n = cantidad de datos en la muestra
Xi = dato i
𝑥̅ = media de la muestra

La diferencia en el cálculo d la varianza poblacional y la varianza muestral se puede


apreciar en el denominador.

Ejemplo: Siguiendo utilizando los datos de las estaturas de los alumno y el ejemplo
1.2, a continuación de calcula la varianza.

n = 30

𝑥̅ = 1.56
30 2
2
∑𝑖=1(𝑥𝑖 − 1.56)
𝑠 =
30 − 1

𝑠 2 =0.004929 (mts)2
La Varianza de Datos Agrupados
Varianza poblacional

2
∑𝑁 2
𝑖=1(𝑀𝑐𝑖 − 𝜇 ) . 𝑓𝑖
𝜎 =
𝑁
En donde:
𝜎 2 = La Varianza de la población
N = cantidad de datos en la población
Mci = marca de clase i
fi = frecuencia de clase de la clase i
µ = media poblacional

Varianza Muestral

2
∑𝑛𝑖=1(𝑀𝑐𝑖 − 𝑥̅ )2 . 𝑓𝑖
𝑠 =
𝑛−1

S2 = La Varianza de la muestra
n = cantidad de datos en la muestra
Mci = marca de clase de la clase i
𝑥̅ = media de la muestra

fi = frecuencia de clase de la clase i

Ejemplo: Si los datos agrupados de la estatura de los alumnos fueran datos


poblacionales, la el ejemplo 1.3 seria la base para calcular la varianza de dichos
datos.

N = 30
µ = 1.69
2
∑30 2
𝑖=1(𝑀𝑐𝑖 − 1.69) . 𝑓𝑖
𝜎 =
30

𝜎2 = 0.0066 (mts)2

1.5.3 Desviación Estándar.


La varianza se expresa en unidades cuadráticas, así como se puede aprecia en los
pasados ejemplos, esto debido a que como ya se menciono, todas las diferencias
entre los datos y la media se elevan al cuadrado. Es difícil poder interpretar o
imaginarse un resultado en unidades cuadrática, es por eso que, si a la varianza se
le extrae la raíz cuadrada se tendrían unidades lineales, las cuales son de fácil
entendimiento. Pues bien, la raíz cuadrada de la varianza es la Desviación
Estándar o Desviación Típica.
Esta medida es de suma importancia y es la que en temas y unidades posteriores
se utilizara como herramienta estadística para entender y calcular otros conceptos.

Desviación Estándar de Datos No Agrupados.


Básicamente las formulas de la varianza y la desviación estándar son las mismas,
diferenciadas únicamente en la potencia de cada una.

Desviación Estándar Poblacional

∑𝑁
𝑖=1(𝑥𝑖 − 𝜇 )
2
𝜎=√
𝑁

Desviación Estándar Muestral

∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑠=√
𝑛−1
del ejemplo 1.8 la desviación estándar para ese conjunto de datos es:

S = √0.004929 mts
S = 0.07 mts.

Desviación Estándar para Datos Agrupados

Desviación Estándar Poblacional

∑𝑁
𝑖=1(𝑀𝑐𝑖 − 𝜇 )2 . 𝑓𝑖
𝜎=√
𝑁

Desviación Estándar Muestral

∑𝑛𝑖=1(𝑀𝑐𝑖 − 𝑥̅ )2 . 𝑓𝑖
𝑠=√
𝑛−1
Partiendo del ejemplo 1.9, la desviación estándar para ese conjunto de datos es:

𝜎 = √0.0066 mts.

𝜎 = 0.08 mts.
La desviación estándar nos puede indicar como se comportan los datos alrededor
de una medida de tendencia central y como en ocasiones a pesar de tener la misma
media el grado de dispersión es distinto. Se pudiera tener una muestra en que su
media aritmética fuera 4 y que los datos oscilaran entre 3 y 5, y otra muestra que su
media aritmética fuera 4 y que sus datos oscilaran entre 0 y 8. Aunque ambas tienen
el mismo valor en su media, tienen distinta distribución de los datos, de aquí la
importancia de tener una medida que nos indique el grado de dispersión de los datos
con respecto a la media.

S-ar putea să vă placă și