Documente Academic
Documente Profesional
Documente Cultură
Las técnicas tabulares y gráficas, como se ha visto, permiten resumir masas o conjuntos grandes de datos en tablas y sus representaciones
gráficas, estos objetos proporcionan información valiosa acerca de algunas de las características importantes del conjunto de datos.
En esta sección desarrollaremos las técnicas numéricas de análisis de datos estadísticos, éstas permiten reducir masas de datos
correspondientes a variables cuantitativas a unos pocos valores numéricos que contienen información acerca de características relevantes de
los datos.
Desde el punto de vista del análisis descriptivo de datos cuantitativos univariantes son importantes tres características: Posición, Dispersión
y Forma de la distribución.
Dado que los conceptos de Posición, Dispersión y Forma de distribuciones de frecuencia constituyen conceptos básicos, explicaremos con
la ayuda de gráficas en qué consiste cada uno de ellos.
En la figura 01 se presenta la gráfica de dos distribuciones de frecuencias, si consideramos que la edad es una variable que toma valores
positivos de la recta real, se observa que la distribución de las edades de los estudiantes se posiciona entre 16 y 25 años, en cambio la
distribución de las edades de los profesores se posicionan entre los valores de 28 a 51 años. Un conjunto de datos correspondiente a una
variable siempre tendrá un posicionamiento o ubicación en la recta de números reales.
En la misma figura 01 se observa otra característica importante, la de la dispersión: Las edades de los estudiantes son más homogéneos, no
varían mucho entre ellos, pues los valores se encuentran dispersos entre 16 y 25 años en un rango de 25 – 16 = 9 años. En cambio las edades
de los profesores son más heterogéneos, se dispersan entre los valores de 29 y 51 años, en un rango de 51 – 25 = 26 años.
Distribución simétrica unimodal Distribución unimodal con asimetría negativa Distribución unimodal con asimetría positiva
14 14 14
12 12 12
10 10 10
Frecuencia
Frecuencia
Frecuencia
8 8 8
6 6 6
4 4 4
2 2 2
0 0 0
20 22 24 26 28 30 32 20 22 24 26 28 30 32 20 22 24 26 28 30 32
edad en años edad en años edad en años
14
12
10
Frecuencia
0
20 22 24 26 28 30 32
edad en años
14 14 14
12 12 12
10 10 10
Frecuencia
Frecuencia
Frecuencia
8 8 8
6 6 6
4 4 4
2 2 2
0 0 0
20 22 24 26 28 30 32 20 22 24 26 28 30 32 20 22 24 26 28 30 32
edad en años edad en años edad en años
Son valores de resumen de un conjunto de datos correspondientes a variables cuantitativas, son valores alrededor del cual se
agrupan los datos, son una especie de índices que señalan el posicionamiento de un conjunto de datos o su distribución.
Existe un conjunto amplio de medidas de tendencia central, estudiaremos sólo aquellas que son de uso más frecuente.
Conviene tener presente que el estudio de la metodología estadística tiene, en general, tres aspectos:
1) Concepto
2) Cálculo
3) Interpretación
En los que sigue proporcionaremos una breve descripción de los conceptos. En principio, el cálculo de cualquier medida
estadística descriptiva se puede realizar manualmente, con la ayuda de una calculadora de bolsillo o mediante el uso de
programas especiales de cómputo.
En esta ocasión usaremos una vez más las funciones especiales y el complemento MegaStat del programa EXCEL de Microsoft.
De modo que las fórmulas, que atemorizan a no pocos se presentarán para ser conocidas, pero dejaremos que EXCEL use las
fórmulas, haga los cálculos y nos muestre los resultados para centrar nuestra atención en las interpretaciones.
Para ilustrar el cálculo y la interpretación de las medidas de tendencia central usaremos dos bases de datos que se encuentran
en el Aula Virtual
MODA (Mo)
Concepto
La moda, que simbolizaremos por Mo, de un conjunto de datos estadísticos es el valor que se presenta con mayor frecuencia. Un
conjunto de datos puede no tener moda, tener una moda (unimodal), tener dos modas (bimodal) o poseer más de dos modas
(multimodal). La moda puede hallarse también para datos de variables cualitativas.
Si X1, X2, X3,…, Xn son n valores de una variable cuantitativa X, y n relativamente pequeño, entonces la moda o modas se
determina por simple inspección de los datos.
Ejemplo.
Calcular e interpretar la moda del ingreso familiar mensual de los estudiantes encuestados
Solución
Dado un conjunto de datos no agrupados, la moda puede ser calculada usando la función Moda de EXCEL
1° Abrir base de datos en EXCEL, que contiene los datos los datos de la variable cuya moda se desea calcular
2° Ubíquese una celda vacía de Excel, en la cual deseamos que aparezca la moda de los datos, en nuestro caso, nos
ubicamos en la columna V y la fila 10
3° escriba el signo = escriba de la palabra moda y dentro del paréntesis seleccionar el rango de los datos que contienen los
datos del ingresa familiar mensual. Véase la figura:
4° Presionar Enter. Como resultado aparece en la celda V10 el valor 1450, que es la moda que se quería conocer.
Interpretación: El ingreso familiar típico o más frecuente de los encuestados es 1450 nuevos soles.
Observación, Si un conjunto de datos posee más de dos modas, la función Moda de EXCEL sólo detecta la una de ellas.
Para ilustrar este hecho consideremos el siguiente conjunto de datos respecto al número de mensajes de texto recibidos por
20 personas en un día:
5 8 10 1 5 6 8 10 6 7 9 13 2 10 4 6 0 12 10 6
Este conjunto de datos posee dos modas, los valores 6 y 10; sin embargo, si usamos la función moda de EXCEL sólo detecta
la moda Mo = 10, obsérvese que este valor aparece antes que 6 en el conjunto de datos. Si hacemos un pequeño cambio
en el orden de los datos de modo que el 6 aparezca antes que el 10, por ejemplo permutando los valores de 8 y 6, como se
muestra en seguida
5 6 10 1 5 8 8 10 6 7 9 13 2 10 4 6 0 12 10 6
La función Moda de EXCEL muestra Mo = 6.
Cuando los datos se encuentran en una tabla de frecuencias, para calcular el valor de la moda:
1° El primer paso es identificar la clase o intervalo modal, que no es más que la clase que posee la mayor frecuencia absoluta
simple, a esta clase la identificamos como la clase i.
d1
Mo Li 1 c
d1 d 2
Donde
Frecuencia
Ingreso mensual (ni)
500 - 1000 12
1000 - 1500 20
1500 - 2000 30
2000 - 2500 24
2500 - 3000 18
3000 - 3500 10
3500 - 4000 8
Total 122
Solución
- En primer lugar identificamos la clase modal, La clase que tiene la mayor frecuencia es la clase 3, por lo tanto
moda se encuentra en la clase 1500 – 2000.
Li 1 : 1500
d1 ni ni 1 = 30 – 20 = 10
d 2 ni ni 1 = 30 – 24 = 6
c = 2000 – 1500 = 500
d1 10
Mo Li 1 c 1500 x500
d1 d 2 10 6
Mo = 1812.5
El ingreso más frecuente de los jefes de hogar encuestados es S/. 1812.50 nuevos soles.
MEDIANA (Me)
Concepto
La mediana, que simbolizaremos por Me, de un conjunto de datos estadísticos es el valor que se ubica en el centro de los datos
ordenados en forma creciente (o decreciente), este valor divide al conjunto de datos en dos grupos, de modo que 50% de los
datos serán menores o iguales que ma mediana y 50% mayores o iguales que la mediana. Un conjunto de datos siempre tiene
mediana y es única.
Cálculo de la mediana de un conjunto de datos.
Me X n 1
( )
2
b) Si el número de datos, n, es par, la mediana es igual a la media aritmética de los dos datos centrales, esto es,
X n X n
( ) ( 1)
Me 2 2
2
Ejemplo
Calcular e interpretar la mediana del ingreso familiar mensual de los encuestados.
Solución
Cálculo de la mediana usando la función Mediana de EXCEL.
Proceda igual que en cálculo de la moda, en el paso 2° ubíquese en la celada V11, (recuerde que puede usar cualquier celda vacía). 3°
escriba el signo = escriba de la palabra mediana y dentro del paréntesis seleccionar el rango de los datos que contienen los datos del
ingresa familiar mensual. Véase la figura:
4° Presionar Enter, como resultado aparece en la celda V11 el valor 1410, que es la mediana que se quería conocer.
Interpretación: El ingreso familiar mediano de los encuestados es 1410 nuevos soles. El 50% de los encuestados tienen
ingreso familiar menor o igual a 1410 nuevos los y los restantes 50% tienen ingresos mayores o iguales a 1410 nuevos
soles.
2) Cálculo de la mediana para datos agrupados
1° Hallar las frecuencias absolutas acumuladas Identificar la clase mediana (intervalo mediano), que es aquella que contiene
al dato que ocupa la posición n/2,
n
N i 1
Me Li 1 2 c . Las cantidades que intervienen en esta fórmula son:
ni
Li 1 : Límite inferior de la clase mediana
n: número total de datos
Ejemplo. La tabla que sigue es la distribución de los ingresos de una muestra de 122 jefes de hogar. Calcúlese e interprétese
la mediana
Frecuencia
Frecuencia Acumulada
Ingreso mensual (ni) (Ni)
500 - 1000 12 12
1000 - 1500 20 32
1500 - 2000 30 62
2000 - 2500 24 86
2500 - 3000 18 104
3000 - 3500 10 114
3500 - 4000 8 122
Total 122
Solución
El dato que ocupa la posición n/2 = 122/2 = 61 se encuentra en la clase 3, quiere decir que la mediana también se
encuentra entre 1500 y 2000.
n 122
N i 1 32
Me Li 1 2 c 1500 2 x500
ni 30
Me = 1983.33
El ingreso mediano de los jefes de hogar encuestados es S/. 1983.33 nuevos soles.
MEDIA ARITMÉTICA ( X )
Concepto
La mediana aritmética o brevemente media, que se simboliza con X , de un conjunto de datos estadísticos es el valor que
expresa el centro de gravedad de la masa de datos. Dado un conjunto de datos correspondientes a una variable cuantitativa, la
media aritmética siempre existe y también es única.
N n
x i x i
i 1
X i 1
Calcular e interpretar la media aritmética del ingreso familiar mensual de los encuestados.
Solución
Proceda igual que en los casos anteriores (cálculo de la moda y la mediana), en el paso 2° ubíquese en la celada V12, (recuerde
que puede usar cualquier celda vacía). 3° escriba el signo = escriba de la palabra promedio y dentro del paréntesis seleccionar
el rango de los datos que contienen los datos del ingresa familiar mensual. Véase la figura:
4° Presionar Enter, como resultado aparece en la celda V12 el valor 1409.26 (redondeando a los centésimos), que es la
media aritmética que se quería conocer.
m n
ni x i n x i i
N n
Donde las xi son las marcas de clase (puntos medios) y las ni son las frecuencias absolutas simples y N y n son los tamaños de
población y de la muestra, respectivamente.
Ejemplo. La tabla que sigue es la distribución de los ingresos de una muestra de 122 jefes de hogar. Calcúlese e interprétese
la mediana
Frecuencia Marca de
Ingreso mensual (ni) clase (Xi) Xi.ni
500 - 1000 12 750 9000
1000 - 1500 20 1250 25000
1500 - 2000 30 1750 52500
2000 - 2500 24 2250 54000
2500 - 3000 18 2750 49500
3000 - 3500 10 3250 32500
3500 - 4000 8 3750 30000
Total 122 252500
Solución
Para calcular la media aritmética de datos agrupados solo requerimos las marcas de clase o puntos medios y las frecuencias
simples, calculamos la suma de los productos de las marcas de clase por sus respectivas frecuencias simples y remplazamos
en la fórmula
n 7
ni x i n x i i
252500
X i 1
i 1
2069.67213
n n 122
Interpretación: El ingreso medio mensual de los jefes de hogar entrevistados es S/. 2069.67 nuevos soles.
Como se ha hecho notar antes, otra característica importante de un conjunto de datos de variables cuantitativas. Como su nombre
lo indica, estas expresan el grado de dispersión o variabilidad de la distribución de un conjunto de datos. Es interesante conocer
la ubicación o posición de los datos, que se consigue mediante las medidas de tendencia central, sin embargo, si no se conoce
qué tan dispersos son los datos, puede no ser apropiado. De allí la necesidad de cuantificar también la magnitud de la dispersión
de los datos, empleando justamente las medidas de dispersión.
El Rango o Recorrido
Es una medida de dispersión absoluta que se define como la diferencia entre los valores máximo y mínimo de un conjunto de
datos
La desviación estándar es una medida de dispersión absoluta de un conjunto de datos, es un índice que cuantifica la desviación
promedio de los datos con respecto a su media aritmética. El valor de la desviación estándar está expresado en las mismas
unidades en que están expresados los datos.
La varianza es también una medida de dispersión de un conjunto de datos, al igual que la desviación estándar mide el grado de
dispersión de los datos con respecto a la media aritmética, a diferencia de la desviación estándar, la varianza se expresa en
unidades cuadradas. La varianza es el cuadrado de la desviación estándar.
1 X X i / n
2 2 2
_
S
i
Xi X
n 1 n 1
Cálculo de la Varianza.
Como puede observarse, la varianza es el valor de la desviación estándar elevada al cuadrado. La fórmula para calcularla es:
1 _ 2
X X i / n
2 2
S Xi X
2 i
n 1 n 1
= Var(rango de datos)
Cuando los datos están agrupados en una tabla de distribución de frecuencias, la desviación estándar y la varianza se calcula
con estas fórmulas:
1
_ 2
1
S2
Xi X ni xi2 ni ( xi n.i ) 2 / n
n 1 n 1
Cálculo de la Varianza
1
_ 2
S
2
Xi X ni
n 1
S2
1
n 1
xi2 ni ( xi n.i ) 2 / n
Coeficiente de Variación (CV)
El coeficiente de variación es una medida de dispersión relativa, se expresa en unidades abstractas, como proporción o
porcentaje.
Se usa generalmente para comparar las dispersiones de dos conjuntos de datos de la misma variable o de variables diferentes,
expresadas en unidades diferentes. La fórmula para calcular el coeficiente de variación es:
S Desviación estándar
CV x100 x100
X Mediaaritm ética
MEDIDAS DE DISTRIBUCIÓN
ASIMETRÍA
Algunas de las diversas formas que puede tomar una distribución de frecuencias de los datos de una variable cuantitativa se
muestran a continuación:
Distribución simétrica unimodal Distribución unimodal con asimetría negativa Distribución unimodal con asimetría positiva
14 14 14
12 12 12
10 10 10
Frecuencia
Frecuencia
Frecuencia
8 8 8
6 6 6
4 4 4
2 2 2
0 0 0
20 22 24 26 28 30 32 20 22 24 26 28 30 32 20 22 24 26 28 30 32
edad en años edad en años edad en años
La asimetría de un conjunto de datos o de su distribución se evalúa a través del Coeficiente de Asimetría, cuya fórmula es:
• g1 > 0 (distribución asimétrica positiva; existe mayor concentración de valores a la derecha de la media que a su
izquierda)
• g1 < 0 (distribución asimétrica negativa; existe mayor concentración de valores a la izquierda de la media que a su
derecha)
Ejemplo:
Calcular e interpretar el coeficiente de asimetría de los ingresos mensuales de los jefes de hogar encuestados.
Solución:
CURTOSIS
La curtosis hace referencia al apuntamiento o elevación de la distribución de frecuencias de una variable cuantitativa
• El Coeficiente de Curtosis analiza el grado de concentración que presentan los valores alrededor de la zona central de
la distribución.
• g2 = 0 (distribución mesocúrtica).
14
12
10
Frecuencia
0
20 22 24 26 28 30 32
edad en años