Documente Academic
Documente Profesional
Documente Cultură
En este tema veremos medidas de descripcin numrica que se basan en la ordenacin de los datos. Al igual que en el tema anterior, veremos medidas de posicin y de dispersin.
x 1 , x 2 ,..., x
N 1
,x
Observaciones
ordenadas
1)
de
menor
mayor:
x (1 ) , x (2 ) , ... , x ( N
Ejemplo:
, x(N
x1 = 5, x2 = 3, x3 = 6, x4 = 2 x (1 ) = 2 , x ( 2 ) = 3 , x ( 3 ) = 5 , x (4 ) = 6
La Mediana
La mediana es una medida de posicin que expresa el centro de los datos, en el sentido de que separa las observaciones ordenadas de menor a mayor en dos grupos con igual nmero de elementos.
La mediana de un conjunto de N observaciones ordenadas de menor a mayor ser la observacin que ocupa la posicin:
N impar (N+1)/2:
m ed x = xN
2
+1
N par
xN + xN m ed x =
2
+ 1 2
Ejemplo 1: Puntuaciones obtenidas por 10 alumnos en un examen: 5,3 2,8 3,4 7,2 8,3 1,7 6,2 9,3 3,2 5,9
las ordenamos de menor a mayor: 1,7 2,8 3,2 3,4 5,3 5,9 6,2 7,2 8,3 9,3
xN + xN m ed x =
2
+ 1 2
x (5 ) + x (6 ) 2
5 ,3 + 5 ,9 = 5 ,6 2
Ejemplo 2: Los salarios anuales (en euros) de los jefes de ventas de una empresa pequea son: 34.500 32.500 Los ordenamos de menor a mayor: 30.700 32.500 32.900 33.800 34.100 34.500 36.000 30.700 32.900 36.000 34.100 33.800
m ed x = xN
+1 2
= x ( 4 ) = 3 3 .8 0 0
x = 3 3 .5 0 0
En este caso x y m e d x son muy parecidos por lo que para hacernos una idea del centro de las observaciones no habr mucha diferencia entre usar como medida de posicin la media o la mediana.
x =
19 + 20 + 20 + 41 = 25 4 xN + xN
2 + 1 2
m ed x =
x (2 ) + x (3 ) 2
20 + 20 = 20 2
La mediana es ms estable ante la existencia de datos atpicos (como el 41), se dice que es ms robusta que la media.
Ejemplo: Si volvemos al ejemplo de las puntuaciones obtenidas por 10 alumnos en un examen: 5,3 2,8 3,4 7,2 8,3 1,7 6,2 9,3 3,2 5,9 tenamos que:
m e d x = 5 ,6
x = 5 ,3
Supongamos que cometemos un error al escribirlos y ponemos 83 en vez de 8,3, tendremos: 5,3 2,8 3,4 7,2 83 1,7 6,2 9,3 3,2 5,9
que ordenados de menor a mayor sern: 1,7 2,8 3,2 3,4 5,3 5,9 6,2 7,2 9,3 83 Entonces:
xN + xN m ed x = x =
2
+ 1 2
x (5 ) + x (6 ) 2
5 ,3 + 5 ,9 = 5 ,6 2
5 ,3 + 2 ,8 + 3 , 4 + 7 , 2 + 8 3 + 1 ,7 + 6 ,2 + 9 ,3 + 3 ,2 + 5 ,9 = 1 2 ,8 10
La sensibilidad de la media a las observaciones extremas explica la posicin relativa de la media y la mediana en distribuciones asimtricas (ver Figura 5.8 de Pea y Romo):
x = m e d x Distribucin Simtrica x > m e d x Distribucin asimtrica a la derecha x < m e d x Distribucin asimtrica a la izquierda
Qu empleamos la media o la mediana? En distribuciones simtricas y sin atpicos podemos usar la media, pero en otros casos es preferible la mediana.
Ejemplo: renta de las familias asimtrica a la derecha - Mediana: nivel de renta superado por la mitad de las familias - Media: al verse influida por las familias muy ricas nos dara una visin muy optimista de la renta de las familias.
Si tenemos datos extremos o atpicos otra posibilidad es emplear la media recortada que consiste en disminuir el efecto de los atpicos en el clculo de la media eliminando las observaciones ms extremas. Ejemplo: Volvamos a los datos de las notas con la observacin extrema: 5,3 2,8 3,4 7,2 83
x
que tenan m e d
= 5 , 6 y x = 1 2 ,8 .
Para este conjunto de observaciones, la media recortada al 10% es la media calculada sobre los datos que quedan despus de eliminar el 10% de los datos ms grandes y el 10% de los ms pequeos. Como hay 10 datos deberamos quitar la observacin mayor y menor (1,7 y 83): 1,7 2,8 3,2 3,4 5,3 5,9 6,2 7,2 9,3 83
x =
2 ,8 + 3 ,2 + 3 ,4 + 5 ,3 + 5 ,9 + 6 , 2 + 7 , 2 + 9 , 3 = 5 ,4 1 8
En general, las medidas (de posicin, dispersin) basadas en el orden (como la mediana) son robustas, mientras que las basadas en sumas (como la media, desviacin tpica,) se ven ms afectadas por las observaciones extremas, son poco robustas.
m ed
= m ed
ax +b
= am ed x + b
La Mediana de las Desviaciones Absolutas (MEDA) La MEDA es una medida de dispersin o variabilidad alrededor de la mediana. Calculamos las desviaciones de los datos respecto a la mediana:
x 1 m e d x , x 2 m e d x ,..., x
N 1
m ed x, x
m ed
x 1 m e d x , x 2 m e d x ,..., x
N 1
m ed x ,
m ed
M E D A x = m e d ( x 1 m e d x , ..., x
m ed
M E D A y = M E D A ax +b = a M E D A
Ejemplo: Volviendo al ejemplo de las puntuaciones obtenidas por 10 personas: 5,3 2,8 3,4 7,2 8,3 1,7 6,2 9,3 3,2 5,9
x
con m e d sern:
xi m ed
5,3-5,6=-0,3 2,8-5,6=-2,8 3,4-5,6=-2,2 7,2-5,6=1,6 8,3-5,6=2,7 1,7-5,6=-3,9 6,2-5,6=0,6 9,3-5,6=3,7 3,2-5,6=-2,4 5,9-5,6=0,3
xi m ed
0,3 2,8 2,2 1,6 2,7 3,9 0,6 3,7 2,4 0,3
que ordenados de menor a mayor son: 0,3 0,3 0,6 1,6 2,2 2,4 2,7 2,8 3,7 3,9 entonces, la MEDA, que es la mediana de estos valores ser:
M ED Ax =
2 ,2 + 2 ,4 = 2 ,3 2
10
Ejercicio 5.2 (de Pea y Romo) Con los siguientes datos (del ejercicio 3.3): 0 9 2 2 5 4 0 0 3 2 1 9 8 3 0 0 3 1 1 9 1 8
a) Calcular la mediana.
0 0 0 0 0 1 1 1 1 2 2 2 3 3 3 4 5 8 8 9 9 9
xN + xN m ed x =
2
+ 1 2
x (1 1 ) + x (1 2 ) 2
2 + 2 = 2 2
b) Hallar las desviaciones de los datos a la mediana suman cero dichas desviaciones?
11
xi m ed
0-2=-2 0-2=-2 0-2=-2 0-2=-2 0-2=-2 1-2=-1 1-2=-1 1-2=-1 1-2=-1 2-2=0 2-2=0 2-2=0 3-2=1 3-2=1 3-2=1 4-2=2 5-2=3 8-2=6 8-2=6 9-2=7 9-2=7 9-2=7
xi m ed
2 2 2 2 2 1 1 1 1 0 0 0 1 1 1 2 3 6 6 7 7 7
22
xi m ed x = 27
i=1
c) Obtener la MEDA Ordenamos las desviaciones absolutas de menor a mayor y calculamos su mediana: 0 0 0 1 1 1 1 1 1 1 2 2 2 2 2 2 3 6 6 7 7 7
M ED Ax =
2 + 2 = 2 2
12
Ejercicio 5.4 (Pea y Romo) Se sabe que la media de las calificaciones de una prueba es 5,2 y la mediana 6,3 qu forma tendr la distribucin de las calificaciones? Como x < m e d x Distribucin asimtrica a la izquierda
x =
11
xi
i=1
11
1 + 3 + 4 +5 + 2 + 2 + 6 + 7 + 2 + 0 +1 = 3 11
1
+1 2
m ed x = xN
= x (6) = 2
El Rango o Recorrido
El rango es la medida de dispersin de un conjunto de observaciones ms obvia. Es la diferencia entre el mayor y el menor de los datos:
R = x ( N ) x (1)
Su valor se ve muy influido por: - el n de observaciones (generalmente si hay ms datos el recorrido es mayor) - observaciones muy extremas Inconveniente: si comparamos estos dos conjuntos de notas:
0 4 5 5 5 5 5 4 10 0 1 2 4 5 6 7 8 10
R=10-0=10 R=10-0=10
14
El Rango Intercuartlico
Para superar el inconveniente del rango que puede verse muy influido por alguna observacin extrema, se define el rango intercuartlico (RI).
La idea consiste en ordenar las observaciones de menor a mayor, eliminar las ms grandes y las ms pequeas y calcular el rango de las restantes. Cmo se hace? Se dividen los datos ordenados de menor a mayor en 4 grupos iguales. A los tres valores que dividen las observaciones en esos 4 grupos se les llama cuartiles: - Primer Cuartil Q1: es la mediana de la mitad con los datos ms pequeos
= m ed
15
Igual que ocurra con la mediana, estos valores no tienen por qu ser nicos. Aunque las diferencias son pequeas, no todos los programas los calculan igual. El rango intercuartlico es la diferencia entre el tercer y el primer cuartil:
RI = Q3 Q
Ejemplo: Salarios anuales jefes de ventas (N=7) 34.500 32.500 Los ordenamos de menor a mayor: 30.700 32.500 32.900 33.800 34.100 34.500 36.000 Como N es impar: 30.700 32.900 36.000 34.100 33.800
= m ed x = xN
+1 4
+1 2
= x ( 4 ) = 3 3 .8 0 0
Q 1 = xN
= x ( 2 ) = 3 2 .5 0 0 = x ( 6 ) = 3 4 .5 0 0
Q 3 = x 3(N
+1) 4
R I = Q 3 Q 1 = 3 4 .5 0 0 3 2 .5 0 0 = 2 . 0 0 0
16
Ejemplo: Puntuaciones obtenidas por 10 alumnos en un examen: 5,3 2,8 3,4 7,2 8,3 1,7 6,2 9,3 3,2 5,9
las ordenamos de menor a mayor: 1,7 2,8 3,2 3,4 5,3 5,9 6,2 7,2 8,3 9,3
xN + xN Q
2
= m ed x =
+ 1 2
x (5 ) + x (6 ) 2
5 ,3 + 5 ,9 = 5 ,6 2
Como
N +1 = 2 ,7 5 4
3( N + 1) = 8 , 2 5 no son nmeros 4
1
y Q 3 , por
N +1 4
3( N + 1) al entero ms 4
Q 1 = x (3 ) = 3 ,2
Q 3 = x (8 ) = 7 ,2
17
R I = Q 3 Q 1 = 7 ,2 3 ,2 = 4
Si transformamos una variable x en y=ax+b el RI de la nueva variable ser:
R I y = R I ax +b = a R I x
Percentiles: Anlogamente a los cuartiles (que dividan las observaciones en 4 partes) se pueden definir los percentiles, que dividen los datos ordenados de menor a mayor en 100 partes. Percentil de orden p es el menor dato que supera al p por ciento de los datos. Por ejemplo: El percentil de orden 10 (P0,10) es el valor que deja por debajo el 10 % de las observaciones o el percentil de orden 88 (P0,88) el que deja por debajo el 88% de los datos. Ejemplo: Puntuaciones de examen ordenadas de menor a mayor: 1,7 2,8 3,2 3,4 5,3 5,9 6,2 7,2 8,3 9,3
18
Percentil de orden 60 (10x0,6=6): P 0 , 6 = x ( 6 ) = 5 , 9 Ejercicio: Se ha preguntado a 12 estudiantes el nmero de horas que estudiaron Estadstica la semana antes del examen:
12 7 4 16 21 5 9 3 11 14 10 6
a) Calcular la media
x =
12
xi
i=1
12
1 2 + 7 + 4 + ...+ 1 0 + 6 1 1 8 = = 9 ,8 3 12 12
10
11
12
14
16
21
xN + xN m ed x = Q
2
+ 1 2
x (6 ) + x (7 ) 2
9 +10 = 9 ,5 2
12
x i2 = 1 2 2 + 7 2 + 4 2 + . . . + 1 0 2 + 6 2 = 1 . 3 9 3
i=1
Sx =
x i2 N
i=1
1 .3 9 3 9 ,8 3 2 = 4 ,4 1 12
19
d) Hallar la MEDA
xi m ed
12-9,5=2,5 7-9,5=-2,5 4-9,5=-5,5 16-9,5=6,5 21-9,5=11,5 5-9,5=-4,5 9-9,5=-0,5 3-9,5=-6,5 11-9,5=1,5 14-9,5=4,5 10-9,5=0,5 6-9,5=-3,5
xi m ed
2,5 2,5 5,5 6,5 11,5 4,5 0,5 6,5 1,5 0,5 0,5 3,5
M ED Ax =
2 ,5 + 3 ,5 = 3 2
12 yQ
3
14
16
21
N +1 3( N + 1) = 3 ,2 5 y = 9 , 7 5 no son enteros: 4 4
20
Q 1 = x (3) = 5
Q 3 = x (1 0 ) = 1 4 RIx = Q 3 Q1 = 14 4 = 9
N +1 3( N + 1) y 4 4
decir, como
Q 1 = x (3 ) + ( x (4 ) x (3 ) ) 0 ,2 5 = 5 + ( 6 5 ) 0 ,2 5 = 5 ,2 5
Anlogamente, como
3( N + 1) = 9 , 7 5 el tercer cuartil 4
ser el dato que est a tres cuartos (0,75) de la distancia entre la observacin 9 y la 10:
Q 3 = x ( 9 ) + ( x (1 0 ) x ( 9 ) ) 0 , 7 5 = 1 2 + ( 1 4 1 2 ) 0 ,7 5 = 1 3 ,5
21
R I x = Q 3 Q 1 = 1 3 ,5 5 , 2 5 = 8 ,2 5
Diagramas de Caja
Es un grfico basado en los cuartiles. Contiene informacin sobre la simetra de la distribucin y sobre la presencia de datos atpicos.
- Se dibuja una caja cuyos lados verticales estn en Q 1 y Q 3 con una linea vertical sobre la mediana. - A la izquierda de Q 1 se trazan dos lneas verticales a 1,5
(barrera interior) y 3 (barrera exterior) veces RI. Se hace lo mismo a la derecha de Q 3 . - A cada lado de la caja, se traza un segmento a la altura del ltimo dato que aparezca dentro de las barreras interiores.
22
- La caja contiene la mitad central de los datos. La otra mitad de los datos quedan un cuarto a cada lado de la caja. - Las observaciones que estn fuera de las barreras interiores (a ms de 1,5 veces RI) se les llama datos atpicos. - Las que estn ms all de las barreras exteriores (a ms de 3 veces RI) se les llama datos atpicos extremos. - Nos permite hacernos una idea de cmo se distribuyen las observaciones y por tanto de la simetra o asimetra de la distribucin (posicin de los segmentos). - La amplitud de la caja nos informa sobre la dispersin respecto a la mediana.
23
Ejercicio: Los siguientes datos son de las notas obtenidas en un examen por 27 estudiantes: 8,4 8,1 7,4 6,6 7,7 9,3 7,7 5,6 7,6 7,7 7,2 2,1 6,7 8,9 2,8 8,9 9,4 9,4 7,7 8,0 8,1 9,3 9,0 8,8 5,8 7,8 7,9
x =
27
xi
i=1
27
8 , 4 + 8 ,1 + . . . + 7 , 8 + 7 , 9 2 0 3 , 9 = = 7 ,5 5 1 8 5 27 27
Ordenamos los datos de menor a mayor: 2,1 2,8 5,6 5,8 6,6 6,7 7,2 7,4 7,6 7,7 7,7 7,7 7,7 7,8 7,9 8,0 8,1 8,1 8,4 8,8 8,9 8,9 9,0 9,3 9,3 9,4 9,4
m ed x = xN
+1 2
= x (1 4 ) =
7,8
La Moda es 7,7
24
R x = x ( 2 7 ) x ( 1 ) = 9 , 4 2 ,1 = 7 , 3
Q 1 = xN
+1 4
= x (7 ) = 7 ,2
Q 3 = x 3(N
+1) 4
= x (21) = 8 ,9
R I x = Q 3 Q 1 = 8 ,9 7 ,2 = 1 ,7
27
x i2 = 8 , 4 2 + 8 , 1 2 + . . . + 7 , 8 2 + 7 , 6 2 = 1 6 2 2 , 8 1
i=1
Sx =
x i2 N
i=1
1 6 2 2 ,8 1 7 ,5 5 2 = 1 ,7 6 27
25
Box-and-Whisker Plot
10
notas
f) Es simtrica la distribucin?
26
Cuando no conocemos los datos originales y slo tenemos la distribucin de frecuencias, a partir de ella pueden definirse medidas anlogas a las anteriores.
Mediana: Dada una distribucin de frecuencias, mediana es cualquier valor que divida la distribucin (el histograma) en 2 partes con igual superficie (frecuencia). Primer Cuartil: Dada una distribucin de frecuencias, es el valor que deja por debajo una cuarta parte del rea del histograma (de la frecuencia). Tercer Cuartil: Dada una distribucin de frecuencias, es el valor que deja por debajo tres cuartas partes del rea del histograma (de la frecuencia). Moda: Es un pico o mximo de la distribucin.
27
Ejercicio 5.7 (de Pea y Romo) Empleando los datos de salarios del Ejercicio 4.5 (en miles de pesetas): 65 18 14 0 4 7 80 15 19 7 5 84 12 28 3 5 92 16 14 3 3 85 15 14 3 2 315 83 81 99
a) Hallar la mediana y el rango intercuartlico. Ordenamos los datos de menor a mayor: 80 92 14 7 81 99 15 3 83 12 15 3 7 84 14 16 2 3 85 14 18 3 4 Como N=19: 195 285 315 650
m ed x = xN
+1 2
= x (1 0 ) = 1 4 3
28
Q 1 = xN
+1 4
= x (5) = 8 5 = x (15 ) = 1 8 4
Q 3 = x 3(N
+1) 4
RIx = Q 3 Q1 = 184 85 = 99
b) Qu ocurre con la mediana y el rango intercuartlico si se aumentan todos los sueldos en 50.000 pesetas? y = x +50 Los nuevos datos ordenados de menor a mayor sern: 13 14 19 245 0 2 7 13 14 20 335 1 9 3 13 17 20 365 3 3 7 13 19 21 700 4 2 3 13 19 23 5 3 4 Como seguimos teniendo N=19: m ed Q Q
1( y ) y
= m ed = Q = Q
x +5 0
= y (1 0 ) = 1 9 3 = 5 0 + m e d
1(x)
1( x +5 0 )
= y (5) = 1 3 5 = 5 0 + Q
3(y)
3 ( x +5 0 )
= y (1 5 ) = 2 3 4 = 5 0 + Q
3(x)
29
R I y = R I x +50 = Q
3(y)
1( y)
= 234 135 = 99 = R
c) Qu ocurre si slo variamos el salario del director en 200.000 pesetas? Los nuevos datos ordenados de menor a mayor sern: 80 92 14 195 7 81 99 15 285 3 83 12 15 315 3 7 84 14 16 850 2 3 85 14 18 3 4 Luego la mediana, los cuartiles y el RI son los mismos que en el apartado a).
d) Representar los tres conjuntos de datos con diagramas de caja. Existen atpicos en el conjunto inicial? Y en los otros?
30
Box-and-Whisker Plot
200
400
600
800
Salarios
En el conjunto inicial existe un dato atpico extremo que es el salario del director (650>481=184+99x3).
Box-and-Whisker Plot
200
400
600
800
Salarios+50
31
En el segundo conjunto de datos tambin existe un dato atpico extremo, el salario del director
(700>531=234+99x3).
Box-and-Whisker Plot
0,2
0,4
0,6
0,8
Salarios (director+200)
1 (X 1000)
32