Sunteți pe pagina 1din 12

OTRAS MEDIDAS DE DESCRIPCIÓN.

ESTADÍSTICA DESCRIPTIVA

USOS FRECUENTES DE LA DESVIACIÓN ESTÁNDAR

Como se ha enfatizado, la desviación estándar es útil para describir un conjunto de datos midiendo
el grado de dispersión de las observaciones individuales alrededor de su media. Existen dos
aplicaciones adicionales para la desviación estándar:

1) Teorema de Chebyshev

2) La Regla empírica

3) Sesgo

4) Coeficiente de variación

1) TEOREMA DE CHEBYSHEV

El teorema de Chebyshev fue formulado por el matemático ruso P.L. Chebyshev. Establece que
para todo conjunto de datos, por lomenos 1-1/K2% de las observaciones están dentro de k
desviaciones estándar de la media, en donde K es cualquier número mayor que.

El teorema se expresa como:

1
1−[ ]
𝐾2

Así, por ejemplo, si se forma un intervalo de K=tres desviaciones estándar por encima de la media
hasta tres deviaciones estándar por debajo de la media, entonces por lo menos

1
1−[ ] = 88.89%
32

De todas las observaciones estarán dentro de dicho intervalo.

M.E. Fátima Luz María Herrera Castillo Página 1


OTRAS MEDIDAS DE DESCRIPCIÓN. ESTADÍSTICA DESCRIPTIVA

Ejemplo:

Para cierta aerolínea un estudio reveló una media de 78.7 pasajeros por día, con una desviación
estándar de 12.14. Para programar los tiempos para una nueva ruta que abrió, la gerencia desea
saber con qué frecuencia los pasajeros están dentro de k=dos desviaciones estándar de la media, y
cuál es dicho intervalo.

Solución:

Si se transportan dos desviaciones estándar (2X12.14)=24.28 pasajeros por encima y por debajo de
la media de 78.7, se tendrá un intervalo de (78.7-24.28)=54.42 a (78.7+24.28)=102.98 pasajeros.
Se puede estar seguro de que por lo menos

1
1−[ ] = 75%
22

Del tiempo, el número de pasajeros diarios estuvo entre 54 y 103.

Interpretación:

En por lo menos el 75% de los días (es decir, 75% de los días (es decir, 75% de 50 es igual a 37
días), el número de pasajeros estuvo entre 54 y 103. Esto proporciona a la gerencia una valiosa
información sobre para cuántos pasajeros deben prepararse en términos de operaciones de vuelo.

2) LA DISTRIBUCIÓN NORMAL Y LA REGLA EMPÍRICA

Una distribución normal es una distribución de datos continuos (no discretos) que produce una
curva simétrica en forma de campana.

En una distribución normal las observaciones en cada extremo ocurrirán relativamente de forma
poco frecuente, pero las observaciones que están más cerca de la mitad ocurrirán con una
frecuencia alta, por tanto se produce la curva simétrica en forma de campana. En una distribución
normal, la media, la mediana y la moda son todas iguales.

En cualquier distribución de frecuencias SIMÉTRICA con forma de campana, aproximadamente


68% de las observaciones se encontrarán entre más y menos una desviación estándar de la media,
cerca de 95% de las observaciones se encontrarán entre más y menos dos desviaciones estándares
de la media y, de hecho todas (99.7%), estarán entre más y menos tres desviaciones estándares de
la media.

M.E. Fátima Luz María Herrera Castillo Página 2


OTRAS MEDIDAS DE DESCRIPCIÓN. ESTADÍSTICA DESCRIPTIVA

Si las observaciones están altamente dispersas, la curva en forma de campana se aplanará y se


esparcirá.

Ejemplo:

Una muestra de tarifas de renta de los departamentos University Park se asemeja a una
distribución simétrica con forma de campana. La media de la muestra es de $500; la desviación
estándar de $20. De acuerdo con la regla empírica conteste las siguientes preguntas:

1) ¿Entre qué dos cantidades se encuentra aproximadamente 68% de los gastos mensuales de
alimentos?

Cerca de 68% se encuentra entre $480 y $520, calculado de la siguiente manera:

X1s=$5001($20).

2) ¿Entre qué dos cantidades se encuentra cerca del 95% de los gastos mensuales en alimentos?

Aproximadamente 95% se encuentra entre $460 y $540, calculado de la siguiente manera:

X2s=$5002($20).

3) ¿Entre qué dos cantidades se encuentran casi todos los gastos mensuales en alimentos?

Casi todas (99.7%) se encuentran entre $440 y $560, calculado de la siguiente manera:

X3s=$5003($20).

M.E. Fátima Luz María Herrera Castillo Página 3


OTRAS MEDIDAS DE DESCRIPCIÓN. ESTADÍSTICA DESCRIPTIVA

3) SESGO

No todas las distribuciones son normales, como lo mencionamos en las notas pasadas algunas
están sesgadas a la izquierda o a la derecha.

El sesgo puede medirse mediante el coeficiente de sesgo de Pearson:

3(𝑀𝑒𝑑𝑖𝑎 − 𝑚𝑒𝑑𝑖𝑎𝑛𝑎)
𝑃=
𝑠

Si P<0 los datos están sesgados a la izquierda.

Si P>0 los datos están sesgados a la derecha.

Si P=0 los datos están distribuidos normalmente.

Ejemplo:

Utilizando los siguientes datos donde la media es igual a 78.7, la desviación estándar igual a 12.14
y la mediana igual a 78.33 se puede indicar que los datos están sesgados a la derecha (debido a
que la media excede a la mediana), sin embargo se desea conocer una medida del grado del sesgo.

Solución:

3(78.7 − 78.33)
𝑃= = 0.03
12.14

Interpretación:

Debido a que P>0, los datos están como se presumió, sesgados a la derecha. El grado hasta el cual
están sesgados se refleja en el valor del coeficiente de Pearson.

4) COEFICIENTE DE VARIACIÓN

Una comparación de dos o más medidas de dispersión –digamos la desviación estándar de una
distribución de ingresos anuales y la desviación estándar de una distribución de ausentismo del
mismo grupo de empleados- es imposible. ¿Podemos decir quela desviación estándar $1200 de la
distribución de ingresos sea mayor que la desviación estándar 4.5 días de la distribución del
ausentismo? Obviamente no, porque no podemos comparar directamente dólares y días de
ausencia en el trabajo. Para hacer una comparación entre la dispersión de los ingresos y
ausentismo podemos convertir cada una de estas medidas en un valor relativo –esto es, en un por
ciento-. Karl Pearson, quien contribuyó significativamente a la ciencia estadística, desarrollo una
medida relativa, llamada coeficiente de variación (CV). Ésta es una medida muy útil cuando:

1. Los datos están en unidades diferentes (como por ejemplo, dólares y días de ausencia).

M.E. Fátima Luz María Herrera Castillo Página 4


OTRAS MEDIDAS DE DESCRIPCIÓN. ESTADÍSTICA DESCRIPTIVA

2. Los datos están en las mismas unidades, pero as medias son muy distintas (como por
ejemplo, los ingresos de los ejecutivos de alto nivel y los ingresos de los empleados no
calificados).

Coeficiente de variación. La relación entre la desviación estándar y la media, expresada como un


por ciento.

Expresado en una fórmula para una muestra:


𝑠
CV=𝑋 (100)

Ejemplo:

En un estudio de las puntuaciones en un examen de un curso en la empresa sobre principios de


administración, y de los años de servicio de los empleados en el curso, se obtuvieron estos
estadísticos: La puntuación media fue 200; la desviación estándar fue 40. El número medio de
años de servicio fue 20 años; la desviación estándar fue 2 años. Compare la dispersión relativa en
las dos distribuciones usando el coeficiente de variación.

Solución:

Las distribuciones tienen unidades diferentes (puntuaciones de examen y años de servicio). Por lo
que se convierten en coeficientes de variación.

• Para las puntuaciones de examen:


40
CV = 200 (100)

=20 por ciento

• Para los años de servicio:


2
CV = 20 (100)

=10 por ciento

Interpretando, hay más dispersión relativa a la media en la distribución de las puntuaciones de


exámenes que en la distribución de los años de servicio (porque 20 por ciento > 10 por ciento).

M.E. Fátima Luz María Herrera Castillo Página 5


OTRAS MEDIDAS DE DESCRIPCIÓN. ESTADÍSTICA DESCRIPTIVA

Ejemplo:

La variación en los ingresos anuales de ejecutivos se va a comparar con la variación en los ingresos
anuales de empleados no calificados. En una muestra de ejecutivos la media muestral es igual a
$500 000 y s=$50 000. En una muestra de empleados no calificados, la media muestral es igual a
$22 000 y s=$2 200. Estamos tentados a decir que hay mayor dispersión en los ingresos anuales de
los ejecutivos porque $50 000 > $2 200. Sin embargo, las medias son tan diferentes que
necesitamos convertir los estadísticos en coeficientes de variación para poder hacer una
comparación de las variaciones en los ingresos anuales.

Solución:

• Para los ejecutivos se tiene:

50 000
CV = 500 000 (100)

= 10 por ciento

• Para los empleados no calificados se tiene:

$2 200
CV = $22 000 (100)

= 10 por ciento

No hay diferencia en las dispersiones relativas de los dos grupos.

M.E. Fátima Luz María Herrera Castillo Página 6


OTRAS MEDIDAS DE DESCRIPCIÓN. ESTADÍSTICA DESCRIPTIVA

OTRAS MEDIDAS DE DISPERSIÓN

La varianza y la desviación estándar son las medidas de dispersión más ampliamente usadas. Sin
embargo, hay otras maneras de describir la desviación o la dispersión de un conjunto de datos. Un
método es determinar la localización de valores que dividen al conjunto de observaciones en
partes iguales. Entre estas medidas tenemos los cuartiles, los deciles y los percentiles.

Los cuartiles dividen a un conjunto de observaciones en cuatro partes iguales. Para explicarlo un
poco mejor, piense en cualquier conjunto de observaciones ordenadas de menor a mayor. Al valor
de en medio de un conjunto de datos ordenados de menor a mayor le llamamos la mediana. Esto
es, 50 por ciento de las observaciones son mayores que la mediana y 50 por ciento son menores.
La mediana es una medida de posición porque indica precisamente el centro de los datos. De
manera similar los cuartiles dividen a un conjunto de observaciones en cuatro partes iguales. El
primer cuartil, al que se le llama Q1, es valor por debajo del cual se encuentra 25 por ciento de las
observaciones, y el tercer cuartil, usualmente llamado Q3, es el valor por debajo del cual se
encuentran 75 por ciento de las observaciones. Q2 es la mediana. Los valores correspondientes a
Q1, Q2 y Q3 dividen al conjunto de datos en cuatro partes iguales. Q1 se puede entender como la
“mediana” de la mitad inferior de los datos y Q3 como la “mediana” de la mitad superior de los
datos.

De manera similar los deciles dividen a un conjunto de observaciones en 10 partes iguales, y los
percentiles en 100 partes iguales. Entonces, si usted encuentra que su GPA estuvo en el 8º. decil
de su universidad puede usted concluir que 80 por ciento de los estudiantes obtuvieron un GPA
inferior al suyo y 20 por ciento tuvieron un GPA superior. Un GPA en el 33er. Percentil significa que
33 por ciento de los estudiantes tienen un GPA inferior y 67 por ciento tienen un GPA superior. Los
percentiles se usan con frecuencia para dar los resultados de exámenes estandarizados a nivel
nacional (Estados Unidos) como SAT, ACT, GMAT (exámenes de admisión en muchas maestrías de
administración de negocios), y LSAT (prueba de admisión en escuelas de leyes).

M.E. Fátima Luz María Herrera Castillo Página 7


OTRAS MEDIDAS DE DESCRIPCIÓN. ESTADÍSTICA DESCRIPTIVA

DATOS NO AGRUPADOS

Fórmulas:

𝒙 𝟏
𝑸𝒙 = 𝟒 𝒏 + 𝟐

𝒙 𝟏
𝑫𝒙 = 𝒏+
𝟏𝟎 𝟐
𝒙 𝟏
𝑷𝒙 = 𝒏+
𝟏𝟎𝟎 𝟐

Ejemplo:

Del siguiente conjunto de datos calcule

a) El tercer decil
b) El segundo cuartil
c) El percentil 50

3 4 7 9 10 10 19 27 34 38 48 56 67

𝑥 1
a) 𝐷𝑥 = 10 𝑛 + 2
3 1
𝐷3 = 13 +
10 2

= 4.4 (POSICIÓN)

Interpolación de Lagrange

4 - 9

4.4 - x

5 - 10

4.4 − 4 𝑥−9
=
5−4 10 − 9
0.4 𝑥 − 9
=
1 1

0.4 = x-9

x = 9.4 (VALOR

M.E. Fátima Luz María Herrera Castillo Página 8


OTRAS MEDIDAS DE DESCRIPCIÓN. ESTADÍSTICA DESCRIPTIVA

𝑥 1
b) 𝑄𝑥 = 4 𝑛 + 2
2 1
𝑄2 = 13 +
4 2
= 7 (POSICIÓN)
= 19 (VALOR)

𝑥 1
c) 𝑃𝑥 = 100 𝑛 + 2

50 1
𝑃50 = 100 13 + 2

= 7 (POSICIÓN)
= 19 (VALOR)

Como se observa tanto el segundo cuartil como el percentil 50 corresponden al valor de la


mediana que es igual a 19.

M.E. Fátima Luz María Herrera Castillo Página 9


OTRAS MEDIDAS DE DESCRIPCIÓN. ESTADÍSTICA DESCRIPTIVA

DATOS AGRUPADOS

Sabemos que los cuartiles dividen la distribución en 4 partes iguales, Q1 es el primer cuartil, es
decir es la posición que divide a la distribución en 1 de 4 partes iguales. Cada posición del cuartil se
obtiene multiplicando el número del cuartil por n/4 y sumándole ½.

Clase Intervalo Punto Medio de Clase Frecuencia absoluta


1 10-15 12.5 10
2 15-20 17.5 12
3 20-5 22.5 4
4 25-30 27.5 8
5 30-35 32.5 6
Σ40

Clase Intervalo Punto Medio de Frecuencia absoluta Frecuencia


Clase absoluta
acumulada (FA) Este intervalo
1 10-15 12.5 10 10 contiene el dato
10.5 por lo que
2 15-20 17.5 12 22
ésta es la clase
3 20-5 22.5 4 26 que contiene
4 25-30 27.5 8 34 Q1.
5 30-35 32.5 6 40
Σ40

Por lo que se puede observar en la figura el dato que le corresponde al Q1 es 1(40/4)+1/2 = 10.5
ahora encontramos el dato 10 en la distribución de frecuencias para obtener la clase del cuartil.

M.E. Fátima Luz María Herrera Castillo Página 10


OTRAS MEDIDAS DE DESCRIPCIÓN. ESTADÍSTICA DESCRIPTIVA

Fórmulas:
𝑸𝒙
𝒏 −𝑭𝑨𝒂𝒏𝒕𝒆𝒓𝒊𝒐𝒓
Valor = Límite inferior del intervalo + 𝟒 (ancho del intervalo)
𝒇𝒄𝒍𝒂𝒔𝒆

a) El dato correspondiente a Q1 es:


1
(40)−10
Valor = 15 + 4
(5)
12

Valor = 15

b) Como ahora ya sabemos el dato correspondiente a Q3 es 3(n/4) + ½ = 30.5 y procedemos


a buscarlo en la distribución.
Clase Intervalo Punto Medio de Frecuencia absoluta Frecuencia
Clase absoluta
acumulada (FA)
1 10-15 12.5 10 10
2 15-20 17.5 12 22 Este intervalo
3 20-5 22.5 4 26 contiene el dato
4 25-30 27.5 8 34 30.5 por lo que
ésta es la clase
5 30-35 32.5 6 40
que contiene
Σ40 Q3.

3
(40)−26
Valor = 25 + 4
(5)
8

Valor = 27.5

M.E. Fátima Luz María Herrera Castillo Página 11


OTRAS MEDIDAS DE DESCRIPCIÓN. ESTADÍSTICA DESCRIPTIVA

c) El dato D9 es 9(40/10) + 1/2 = 36.5, lo buscamos en la distribución de frecuencias.

Clase Intervalo Punto Medio de Frecuencia absoluta Frecuencia


Clase absoluta
acumulada (FA)
1 10-15 12.5 10 10
2 15-20 17.5 12 22
3 20-5 22.5 4 26 Este intervalo
4 25-30 27.5 8 34 contiene el dato
36.5 por lo que
5 30-35 32.5 6 40
ésta es la clase
Σ40 que contiene
D9.

9
(40)−34
Valor = 30 + 10 (5)
6

Valor = 31.666

a) Para calcular los percentiles, se utiliza el mismo razonamiento que con los cuartiles, se
multiplica el número del percentil por n/100, por lo que el dato que le pertenece a
P68=68(n/100) + 1/2. En nuestro ejemplo P68=68(40/100)+1/2=27.7

Clase Intervalo Punto Medio de Frecuencia absoluta Frecuencia


Clase absoluta
acumulada (FA)
1 10-15 12.5 10 10
2 15-20 17.5 12 22 Este intervalo
3 20-5 22.5 4 26 contiene el dato
27.7 por lo que
4 25-30 27.5 8 34
ésta es la clase
5 30-35 32.5 6 40 que contiene
Σ40 P68.

68
(40)−26
Valor = 25 + 100
(5)
8

Valor = 25.75

M.E. Fátima Luz María Herrera Castillo Página 12

S-ar putea să vă placă și