Sunteți pe pagina 1din 34

CLASE05: MEDIDAS DE DISPERSION

Material de Clases © Germán Pomachagua Perez 10/7/19


MEDIDAS DE DISPERSIÓN
Una de las características importantes en el
análisis de los datos es la DISPERSIÓN ó
VARIABILIDAD.
La dispersión es la cantidad de variación, de los
datos en torno al promedio.
Las medidas de Dispersión más usadas son:

 RANGO
 RANGO INTERCUARTILIC0
 VARIANZA
 DESVIACION ESTANDAR
 COEFICIENTE DE VARIACION
Material de Clases © Germán Pomachagua Perez 10/7/19
MEDIDAS DE DISPERSIÓN

Nos permiten
cuantificar cuan
separados están los
datos de una
distribución.

A
B

m A=m B
Dispersión A > B
Material de Clases © Germán Pomachagua Perez 10/7/19
2 : RANGO INTERCUARTILICO

 Permite ubicar 50% de los datos

0.05
Mín. P25 P50 P75 Máx.

que se encuentran en el centro de

0.04
la distribución
R.I.= Q3 – Q1

0.03
 Mide la dispersión en la parte 25% 25% 25% 25%

0.02
central de los datos, así que no se Rango intercuartílico

ve influenciada por los valores

0.01
extremos.
Rango

0.00

150 160 170 180 190

Material de Clases © Germán Pomachagua Perez 10/7/19


Ejemplo2: La tabla muestra la experiencia (en años) del personal que
labora en el Hospital Central.
Experiencia Trabajadores F
(años) a)¿Entre qué valores se encuentra el
0–4 18 18 50% intermedio de estos datos?
4-8 42 60
Rpta:
8 - 12 68 128
12 - 16 120 248
b)¿Cuál es el rango intercuartílico?
16 - 20 40 288 Rpta:
20 - 24 34 322
24 - 27 12 334
50 % 25 %
Total 334
25 %

Q1 Q3

Rango
Intercuartílico

Material de Clases © Germán Pomachagua Perez 10/7/19


Ejemplo 2: La siguiente tabla muestra información de los precios del artículo de
perfumería (en nuevos soles) en establecimientos elegidos al azar en el distrito
de Surco.

Material de Clases © Germán Pomachagua Perez 10/7/19


ANALISIS EXPLORATORIO DE DATOS
El análisis exploratorio de datos es el proceso de utilizar herramientas estadísticas
(como gráficas. medidas de tendencia central y medidas de variación)
con la finalidad de investigar conjuntos de datos para comprender sus
características importantes
Antes de proceder a cualquier análisis se debe hacer un Análisis Exploratorio que
nos permita ver la naturaleza de los datos.
El Análisis exploratorio se usa para detectar valores atípicos (outliers) es decir
valores que no son igual al resto

Material de Clases © Germán Pomachagua Perez 10/7/19


PROCEDIMIENTO DE CALCULO

 Es un dato atípico si cae fuera del intervalo

<P25 -1.5xR.I. , P75+1.5xR.I.> en la grafica se indica como °


 Es un dato atípico extremo si cae fuera del intervalo

<P25 -3xR.I. , P75+3xR.I.> en la grafica se indica como *

Material de Clases © Germán Pomachagua Perez 10/7/19


Ejemplo 1: Sean los puntajes de un grupo de trabajadores. Calcular el RI y ver si y
ver si hay datos atípicos
150 151 150 147 155 145 151 152 150 149
166 142 158 153 144 190 145 147 151 156
SOLUCION: Primero ordenar los datos
ORDEN PUNTAJES
1 142
2 144
3 145
4 145
5 147
6 147
7 149
Boxplot of PUNTAJES
8 150
9 150
10 150
166 190

11 151
12 151
13 151
140 150 160 170 180 190
PUNTAJES
14 152
Material de Clases © Germán Pomachagua Perez 10/7/19
3. VARIANZA: La varianza se define como la media
de las diferencias cuadráticas de todas las
observaciones con respecto a su media aritmética.
Se usa
• Para comparar dos o más poblaciones.
• En inferencia estadística
• Para calcular el tamaño de muestra

Material de Clases © Germán Pomachagua Perez 10/7/19


Población Muestra (Xj)
(X) Estimado
Parámetro
x1j
r
x1 s2
x2 x2j S2
. .
.
. .
. xnj
nj

.
xN

N n

�( xi - m ) 2
 i
( x - x ) 2

s2 = i =1
s2 = 1=1
N n -1

De esta manera S2 es estimador de s 2


Material de Clases © Germán Pomachagua Perez 10/7/19
MEDIDAS DE DISPERSIÓN
DATOS SIN AGRUPAR
2
 n

n   xi 
 i - 2 n
( x x )  i =1 
Calculo
abreviado  xi
2
-
n
S2 = i =1
S2 = i =1
n -1 n -1

DATOS AGRUPADOS
SIN INTERVALOS CON INTERVALOS
m m

 f i ( xi - x ) 2  f i ( X i - x ) 2
S2 = i =1
S2 = i =1

n -1 n -1

Material de Clases © Germán Pomachagua Perez 10/7/19


• Ejemplo1 :
Calcular la varianza de los siguientes valores numéricos:
5, 9, 11, 7
n

 i
( x - x ) 2

• Primero calculamos el promedio S2 = i =1


n -1
5 + 9 + 11 + 7
x= =8
4

• Entonces la varianza será


(5 - 8) 2
+ (9 - 8) 2
+ (11 - 8) 2
+ (7 - 8) 2
9 +1+ 9 +1
S =
2
= = 6.667
3 3

• Utilizando la fórmula simplificada:


(5 2
+ 9 2
+ 112
+ 7 2
) - 4(8) 2
S2 = = 6.667
3
Material de Clases © Germán Pomachagua Perez 10/7/19
Ejemplo2: La siguiente información se refiere al número de
radiografías reprocesadas durante una semana.
Calcule la varianza. 8, 10, 5, 12, 10, 15
Primero, elaboramos un cuadro de la forma siguiente:
n

 Xi - x   i - 2
Xi Xi - x 2 ( x x )
s2 = 1=1

n -1

60
x= = 10
6
 X = 60   Xi - x  = 0   Xi - x 
2
= 58 2 58
S = 6 - 1 = 11 .6

Material de Clases © Germán Pomachagua Perez 10/7/19


Ejemplo3: Se uso dos tipos de máquinas para la producción de un tipo de agujas
descartables. Se tomo una muestra de 5 y se muestran los tiempos en segundos.
2
 n 
A: 14, 24, 46, 50, 70
n
  xi 
B: 15, 38, 46, 52, 53
 xi2 -  i =1 
¿En qué grupo hay mas dispersión? n
S 2 = i =1
n -1

Reemplazando

Material de Clases © Germán Pomachagua Perez 10/7/19


n

Usando la fórmula en  i
( x - x ) 2

maquina A S2 = i =1

n -1
Reemplazando

1964.8
S2 = = 491.2
4
1964.8
s2 = = 491.2
4

=
i =1

Material de Clases © Germán Pomachagua Perez 10/7/19


DATOS AGRUPADOS: sin intervalos
m

 f i ( xi - x ) 2
S2 = i =1

n -1
Ejemplo: En cierta clínica, muestra los días de
permanencia que se distribuye entre sus paciente

Días (xi) Nº Pacientes(fi) Xifi


1 3 3
5 3 15
6 3 18
9 4 36
12 1 12
14 84

Calcular varianza desviación estándar y coeficiente de variación

Material de Clases © Germán Pomachagua Perez 10/7/19


X i

DATOS AGRUPADOS: con intervalos


 f i ( X i - X ) 2
S2 = i =1
n -1
Li - Ls f
[39 - 46] 3
<46 - 53] 2
<53 - 60] 7
<60 - 67] 3
<67 - 74] 6
21

Calcular varianza desviación estándar y coeficiente de variación

Material de Clases © Germán Pomachagua Perez 10/7/19


PROPIEDADES DE LA VARIANZA
Se X una variable tal que Xi : x1 , x2 ,…….., xn
1. La varianza de una constante es cero
En este caso Xi : k, k,……..,k i:1, 2……..n
V ( X ) = V (K ) = 0
2. La varianza de una constante multiplicada por una variable, es igual
a la constante al cuadrado multiplicada por la varianza de la variable.
Yi = kxi i:1, 2……..n

V (Y ) = V (kX ) = k V ( X ) 2

3. La varianza de una constante multiplicada por una variable mas(o


menos) una constante es igual a:
En este caso Yi = axi ±b i:1, 2……..n

V (Y ) = V (aX  b) = V (aX ) = a V ( X ) 2

Material de Clases © Germán Pomachagua Perez 10/7/19


Material de Clases © Germán Pomachagua Perez 10/7/19
MEDIDAS DE DISPERSIÓN

4. DESVIACIÓN ESTÁNDAR (TÍPICA): Es la raíz cuadrada


de la varianza
n
2
 i )
( x - x
S= i =1
n -1
A es S = 491.2 = 22.16
Luego la desviación estándar de
B es S = 243.7 = 15.61

Material de Clases © Germán Pomachagua Perez 10/7/19


5. COEFICIENTE DE VARIACIÓN: Es una medida de dispersión relativa
que es fácilmente comparable con otro coeficiente de variabilidad,
correspondiente a un distinto conjunto de observaciones. El resultado se
expresa en porcentaje. Mientras menor es el Coefciente de Variación,
menor es la dispersión de los datos (Mayor homogeneidad)
Si el Coeficiente de Variación es:
< 5% ----> datos muy homogéneos, Media
s
C.V . =  100 aritmética muy representativa
X
5%  CV  20% ----> datos con
homogeneidad aceptable. La media
aritmética es representativa

Si el CV  20% ----> datos heterogéneos, la


media aritmética es poco representativa

Tipo X s C.V.
A 40.8 22.16 0.5432
B 40.8 15.61 0.3826
Material de Clases © Germán Pomachagua Perez 10/7/19
Material de Clases © Germán Pomachagua Perez 10/7/19
MEDIDAS DE FORMA

Las medidas de forma permiten comprobar si una distribución de frecuencia


tiene características especiales como simetría, asimetría, nivel de concentración
de datos y nivel de apuntamiento que la clasifiquen en un tipo particular de
distribución.

Las medidas de forma son necesarias para determinar el comportamiento de los


datos y así, poder adaptar herramientas para el análisis probabilístico.

En este capitulo analizaremos dos medidas de forma:


1) Coeficiente de asimetría
2) Curtosis

Material de Clases © Germán Pomachagua Perez 10/7/19


Estadísticos para detectar asimetría

 Hay diferentes estadísticos que sirven para detectar asimetría.


– Coeficiente de simetría de Pearson: Se usa solo en datos unimodales

– Basado en la diferencia entre el 1º y 2º cuartiles y 2º y 3º.


– Basados en desviaciones con signo al cubo con respecto a la media.

• Calculados con software. Es pesado de hacer a mano .


 En función del signo del estadístico diremos que la asimetría es positiva o
negativa.

Material de Clases © Germán Pomachagua Perez 10/7/19


Las medidas de asimetría se dirigen a elaborar un indicador que
permita establecer el grado de simetría (asimetría) que presenta la
distribución, sin la necesidad de llevar a cabo su representación
grafica (histograma)

Asimetría nula Asimetría positiva


Asimetría negativa (simétrica) As=0 As>0
As<0
m <Me<Mo m =Me=Mo m >Me>Mo

0.20
0.5
0.20

0.4

0.15
0.15

0.3

0.10
0.10

0.2

0.05
0.05

0.1

xs xs
xs
66 % 78 %
78 %
0.00

0.00
0.0

8 10 12 14 16 18 20 -2 -1 0 1 2 3 0 2 4 6 8 10 12 14

x x x
Material de Clases © Germán Pomachagua Perez 10/7/19
Sean las ganancias por acción del año 2014 en una muestra de 15 empresas
0.09 0.13 0.41 0.51 1.12 1.20 1.49 3.18 3.50 6.36 7.83 8.92
10.13 12.99 16.40
Calcular la asimetría

Por fórmula

Minitab

Las ganancias por acción tienen asimetría positiva

Material de Clases © Germán Pomachagua Perez 10/7/19


Curtosis
• La curtosis nos indica el grado de apuntamiento
(aplastamiento) de una distribución con respecto a la
distribución normal (distribución simétrica).
• Indican el nivel de concentración de los datos respecto
a su media.

1 n

n i =1
( x i - x ) 4

K= 4
-3
s

Material de Clases © Germán Pomachagua Perez 10/7/19


Apuntamiento o curtosis
Platicúrtica (aplanada): curtosis < 0
serán de especial
interés las mesocúrticas
Mesocúrtica (como la normal): curtosis = 0 y simétricas (parecidas a
la normal).

Leptocúrtica (apuntada): curtosis > 0


Aplanada Apuntada como la normal
Apuntada
2.0

0.8
0.3
1.5

0.6
0.2
1.0

0.4
0.1
0.5

0.2
x s
xs x s
68 %
57 % 82 %
0.0

0.0

0.0

0.0 0.2 0.4 0.6 0.8 1.0 -3 -2 -1 0 1 2 3 -2 -1 0 1 2

Material de Clases © Germán Pomachagua Perez 10/7/19


Material de Clases © Germán Pomachagua Perez 10/7/19
Ejemplo2: Un grupo de 47 personas fueron sometidas a un
tratamiento para disminuir el nivel de colesterol en la sangre. Se
registró el nivel de colesterol de los 47 antes y después de realizado
el tratamiento. Calcular si hay datos atípicos

Antes
146 160 182 186 186 190 200 200 202 210 214 216
218 218 220 220 220 226 234 234 236 236 238 240
242 244 244 248 248 258 266 270 270 272 276 276
278 278 282 288 288 294 294 350 385 401 420
Después
142 156 160 162 164 166 168 170 178 178 182 182
182 182 182 182 184 186 188 188 196 198 198 198
198 200 200 204 204 206 212 214 216 218 230 232
236 238 242 242 248 256 256 264 264 280 294

31

Material de Clases © Germán Pomachagua Perez 10/7/19


Ejemplo 1: Los trabajadores de cierta empresa tienen un sueldo promedio de $383.29,
con una varianza de 30.571 ($)2. Si a cada trabajador se le aumenta el sueldo en 8%
más un bono de $10.5.
a) Determine el sueldo promedio y la varianza luego del aumento.
b) En porcentaje en cual hay mas variabilidad antes o después del aumento

Ejemplo 2: En una Empresa donde los salarios tienen una media de $100 y una
desviación estándar de $10, el sindicato solicita que cada salario X, se transforme en Y,
mediante la siguiente relación Y = 2,5 X +10. El Gerente acoge la petición rebajando los
salarios propuestos por el sindicato en10%, lo que es aceptado. ¿Qué distribución de
salarios es más homogénea? ¿Qué propuesta prefieren los trabajadores?

Ejemplo 3 : El coeficiente de variación de los salarios pagados a 200 trabajadores de


una empresa es del 30%. Con el aumento de 100 soles a cada trabajador, el nuevo
coeficiente de variación sería del 25% ¿Qué cantidad debe tener disponible la
compañía para hacer efectiva la nueva planilla? .Rpta: S/.120,000

Material de Clases © Germán Pomachagua Perez 10/7/19


Ejemplo4: En un proceso de reorganización una empresa pública fue sometida a
evaluación mediante una prueba de conocimientos con escala de calificación
centesimal. Las puntuaciones obtenidas fueron tabuladas en un cuadro de
frecuencias con 7 clases de igual amplitud. Si la puntuación mínima es de 30
puntos, la media aritmética es de 61.5 y las frecuencias acumuladas porcentuales
de los intervalos del 1 al 6 son respectivamente: 8, 23, 43, 73, 91 y 97.
Identificar el tipo de asimetría que presenta esta distribución.
a) Calcular e interpretar el coeficiente de variación..
b) Si la empresa tiene 2000 trabajadores y el directorio acuerda promocionar a
todos los empleados con una puntuación superior a la media + S. ¿ Cuántos
trabajadores serán promovidos?.

Material de Clases © Germán Pomachagua Perez 10/7/19


Ejemplo 6: : Si los datos del archivo Herramientas es del año 2018. Para
el año 2019, los sueldos aumentaran en un 10% mas una bonificación de
150 soles.
a) Determine el sueldo promedio y la varianza luego del aumento.
b) En porcentaje en cual hay mas variabilidad antes o después del
aumento

Material de Clases © Germán Pomachagua Perez 10/7/19

S-ar putea să vă placă și