Documente Academic
Documente Profesional
Documente Cultură
ESTADÍSTICA DESCRIPTIVA
Como se ha enfatizado, la desviación estándar es útil para describir un conjunto de datos midiendo
el grado de dispersión de las observaciones individuales alrededor de su media. Existen dos
aplicaciones adicionales para la desviación estándar:
1) Teorema de Chebyshev
2) La Regla empírica
3) Sesgo
4) Coeficiente de variación
1) TEOREMA DE CHEBYSHEV
El teorema de Chebyshev fue formulado por el matemático ruso P.L. Chebyshev. Establece que
para todo conjunto de datos, por lomenos 1-1/K2% de las observaciones están dentro de k
desviaciones estándar de la media, en donde K es cualquier número mayor que.
1
1−[ ]
𝐾2
Así, por ejemplo, si se forma un intervalo de K=tres desviaciones estándar por encima de la media
hasta tres deviaciones estándar por debajo de la media, entonces por lo menos
1
1−[ ] = 88.89%
32
Ejemplo:
Para cierta aerolínea un estudio reveló una media de 78.7 pasajeros por día, con una desviación
estándar de 12.14. Para programar los tiempos para una nueva ruta que abrió, la gerencia desea
saber con qué frecuencia los pasajeros están dentro de k=dos desviaciones estándar de la media, y
cuál es dicho intervalo.
Solución:
Si se transportan dos desviaciones estándar (2X12.14)=24.28 pasajeros por encima y por debajo de
la media de 78.7, se tendrá un intervalo de (78.7-24.28)=54.42 a (78.7+24.28)=102.98 pasajeros.
Se puede estar seguro de que por lo menos
1
1−[ ] = 75%
22
Interpretación:
En por lo menos el 75% de los días (es decir, 75% de los días (es decir, 75% de 50 es igual a 37
días), el número de pasajeros estuvo entre 54 y 103. Esto proporciona a la gerencia una valiosa
información sobre para cuántos pasajeros deben prepararse en términos de operaciones de vuelo.
Una distribución normal es una distribución de datos continuos (no discretos) que produce una
curva simétrica en forma de campana.
En una distribución normal las observaciones en cada extremo ocurrirán relativamente de forma
poco frecuente, pero las observaciones que están más cerca de la mitad ocurrirán con una
frecuencia alta, por tanto se produce la curva simétrica en forma de campana. En una distribución
normal, la media, la mediana y la moda son todas iguales.
Ejemplo:
Una muestra de tarifas de renta de los departamentos University Park se asemeja a una
distribución simétrica con forma de campana. La media de la muestra es de $500; la desviación
estándar de $20. De acuerdo con la regla empírica conteste las siguientes preguntas:
1) ¿Entre qué dos cantidades se encuentra aproximadamente 68% de los gastos mensuales de
alimentos?
X1s=$5001($20).
2) ¿Entre qué dos cantidades se encuentra cerca del 95% de los gastos mensuales en alimentos?
X2s=$5002($20).
3) ¿Entre qué dos cantidades se encuentran casi todos los gastos mensuales en alimentos?
Casi todas (99.7%) se encuentran entre $440 y $560, calculado de la siguiente manera:
X3s=$5003($20).
3) SESGO
No todas las distribuciones son normales, como lo mencionamos en las notas pasadas algunas
están sesgadas a la izquierda o a la derecha.
3(𝑀𝑒𝑑𝑖𝑎 − 𝑚𝑒𝑑𝑖𝑎𝑛𝑎)
𝑃=
𝑠
Ejemplo:
Utilizando los siguientes datos donde la media es igual a 78.7, la desviación estándar igual a 12.14
y la mediana igual a 78.33 se puede indicar que los datos están sesgados a la derecha (debido a
que la media excede a la mediana), sin embargo se desea conocer una medida del grado del sesgo.
Solución:
3(78.7 − 78.33)
𝑃= = 0.03
12.14
Interpretación:
Debido a que P>0, los datos están como se presumió, sesgados a la derecha. El grado hasta el cual
están sesgados se refleja en el valor del coeficiente de Pearson.
4) COEFICIENTE DE VARIACIÓN
Una comparación de dos o más medidas de dispersión –digamos la desviación estándar de una
distribución de ingresos anuales y la desviación estándar de una distribución de ausentismo del
mismo grupo de empleados- es imposible. ¿Podemos decir quela desviación estándar $1200 de la
distribución de ingresos sea mayor que la desviación estándar 4.5 días de la distribución del
ausentismo? Obviamente no, porque no podemos comparar directamente dólares y días de
ausencia en el trabajo. Para hacer una comparación entre la dispersión de los ingresos y
ausentismo podemos convertir cada una de estas medidas en un valor relativo –esto es, en un por
ciento-. Karl Pearson, quien contribuyó significativamente a la ciencia estadística, desarrollo una
medida relativa, llamada coeficiente de variación (CV). Ésta es una medida muy útil cuando:
1. Los datos están en unidades diferentes (como por ejemplo, dólares y días de ausencia).
2. Los datos están en las mismas unidades, pero as medias son muy distintas (como por
ejemplo, los ingresos de los ejecutivos de alto nivel y los ingresos de los empleados no
calificados).
Ejemplo:
Solución:
Las distribuciones tienen unidades diferentes (puntuaciones de examen y años de servicio). Por lo
que se convierten en coeficientes de variación.
Ejemplo:
La variación en los ingresos anuales de ejecutivos se va a comparar con la variación en los ingresos
anuales de empleados no calificados. En una muestra de ejecutivos la media muestral es igual a
$500 000 y s=$50 000. En una muestra de empleados no calificados, la media muestral es igual a
$22 000 y s=$2 200. Estamos tentados a decir que hay mayor dispersión en los ingresos anuales de
los ejecutivos porque $50 000 > $2 200. Sin embargo, las medias son tan diferentes que
necesitamos convertir los estadísticos en coeficientes de variación para poder hacer una
comparación de las variaciones en los ingresos anuales.
Solución:
50 000
CV = 500 000 (100)
= 10 por ciento
$2 200
CV = $22 000 (100)
= 10 por ciento
La varianza y la desviación estándar son las medidas de dispersión más ampliamente usadas. Sin
embargo, hay otras maneras de describir la desviación o la dispersión de un conjunto de datos. Un
método es determinar la localización de valores que dividen al conjunto de observaciones en
partes iguales. Entre estas medidas tenemos los cuartiles, los deciles y los percentiles.
Los cuartiles dividen a un conjunto de observaciones en cuatro partes iguales. Para explicarlo un
poco mejor, piense en cualquier conjunto de observaciones ordenadas de menor a mayor. Al valor
de en medio de un conjunto de datos ordenados de menor a mayor le llamamos la mediana. Esto
es, 50 por ciento de las observaciones son mayores que la mediana y 50 por ciento son menores.
La mediana es una medida de posición porque indica precisamente el centro de los datos. De
manera similar los cuartiles dividen a un conjunto de observaciones en cuatro partes iguales. El
primer cuartil, al que se le llama Q1, es valor por debajo del cual se encuentra 25 por ciento de las
observaciones, y el tercer cuartil, usualmente llamado Q3, es el valor por debajo del cual se
encuentran 75 por ciento de las observaciones. Q2 es la mediana. Los valores correspondientes a
Q1, Q2 y Q3 dividen al conjunto de datos en cuatro partes iguales. Q1 se puede entender como la
“mediana” de la mitad inferior de los datos y Q3 como la “mediana” de la mitad superior de los
datos.
De manera similar los deciles dividen a un conjunto de observaciones en 10 partes iguales, y los
percentiles en 100 partes iguales. Entonces, si usted encuentra que su GPA estuvo en el 8º. decil
de su universidad puede usted concluir que 80 por ciento de los estudiantes obtuvieron un GPA
inferior al suyo y 20 por ciento tuvieron un GPA superior. Un GPA en el 33er. Percentil significa que
33 por ciento de los estudiantes tienen un GPA inferior y 67 por ciento tienen un GPA superior. Los
percentiles se usan con frecuencia para dar los resultados de exámenes estandarizados a nivel
nacional (Estados Unidos) como SAT, ACT, GMAT (exámenes de admisión en muchas maestrías de
administración de negocios), y LSAT (prueba de admisión en escuelas de leyes).
DATOS NO AGRUPADOS
Fórmulas:
𝒙 𝟏
𝑸𝒙 = 𝟒 𝒏 + 𝟐
𝒙 𝟏
𝑫𝒙 = 𝒏+
𝟏𝟎 𝟐
𝒙 𝟏
𝑷𝒙 = 𝒏+
𝟏𝟎𝟎 𝟐
Ejemplo:
a) El tercer decil
b) El segundo cuartil
c) El percentil 50
3 4 7 9 10 10 19 27 34 38 48 56 67
𝑥 1
a) 𝐷𝑥 = 10 𝑛 + 2
3 1
𝐷3 = 13 +
10 2
= 4.4 (POSICIÓN)
Interpolación de Lagrange
4 - 9
4.4 - x
5 - 10
4.4 − 4 𝑥−9
=
5−4 10 − 9
0.4 𝑥 − 9
=
1 1
0.4 = x-9
x = 9.4 (VALOR
𝑥 1
b) 𝑄𝑥 = 4 𝑛 + 2
2 1
𝑄2 = 13 +
4 2
= 7 (POSICIÓN)
= 19 (VALOR)
𝑥 1
c) 𝑃𝑥 = 100 𝑛 + 2
50 1
𝑃50 = 100 13 + 2
= 7 (POSICIÓN)
= 19 (VALOR)
DATOS AGRUPADOS
Sabemos que los cuartiles dividen la distribución en 4 partes iguales, Q1 es el primer cuartil, es
decir es la posición que divide a la distribución en 1 de 4 partes iguales. Cada posición del cuartil se
obtiene multiplicando el número del cuartil por n/4 y sumándole ½.
Por lo que se puede observar en la figura el dato que le corresponde al Q1 es 1(40/4)+1/2 = 10.5
ahora encontramos el dato 10 en la distribución de frecuencias para obtener la clase del cuartil.
Fórmulas:
𝑸𝒙
𝒏 −𝑭𝑨𝒂𝒏𝒕𝒆𝒓𝒊𝒐𝒓
Valor = Límite inferior del intervalo + 𝟒 (ancho del intervalo)
𝒇𝒄𝒍𝒂𝒔𝒆
Valor = 15
3
(40)−26
Valor = 25 + 4
(5)
8
Valor = 27.5
9
(40)−34
Valor = 30 + 10 (5)
6
Valor = 31.666
a) Para calcular los percentiles, se utiliza el mismo razonamiento que con los cuartiles, se
multiplica el número del percentil por n/100, por lo que el dato que le pertenece a
P68=68(n/100) + 1/2. En nuestro ejemplo P68=68(40/100)+1/2=27.7
68
(40)−26
Valor = 25 + 100
(5)
8
Valor = 25.75