Sunteți pe pagina 1din 32

TEMA 4: DESCRIPCIN NUMRICA DE VARIABLES CUANTITATIVAS (II)

En este tema veremos medidas de descripcin numrica que se basan en la ordenacin de los datos. Al igual que en el tema anterior, veremos medidas de posicin y de dispersin.

Notacin: Conjunto de observaciones:

x 1 , x 2 ,..., x

N 1

,x

Observaciones

ordenadas
1)

de

menor

mayor:

x (1 ) , x (2 ) , ... , x ( N
Ejemplo:

, x(N

x1 = 5, x2 = 3, x3 = 6, x4 = 2 x (1 ) = 2 , x ( 2 ) = 3 , x ( 3 ) = 5 , x (4 ) = 6

La Mediana

La mediana es una medida de posicin que expresa el centro de los datos, en el sentido de que separa las observaciones ordenadas de menor a mayor en dos grupos con igual nmero de elementos.

La mediana de un conjunto de N observaciones ordenadas de menor a mayor ser la observacin que ocupa la posicin:

N impar (N+1)/2:

m ed x = xN
2

+1

N par

la media de las observaciones N/2 y (N/2)+1

xN + xN m ed x =
2

+ 1 2

Ejemplo 1: Puntuaciones obtenidas por 10 alumnos en un examen: 5,3 2,8 3,4 7,2 8,3 1,7 6,2 9,3 3,2 5,9

las ordenamos de menor a mayor: 1,7 2,8 3,2 3,4 5,3 5,9 6,2 7,2 8,3 9,3

Como N=10 es par entonces:

xN + xN m ed x =
2

+ 1 2

x (5 ) + x (6 ) 2

5 ,3 + 5 ,9 = 5 ,6 2

Ejemplo 2: Los salarios anuales (en euros) de los jefes de ventas de una empresa pequea son: 34.500 32.500 Los ordenamos de menor a mayor: 30.700 32.500 32.900 33.800 34.100 34.500 36.000 30.700 32.900 36.000 34.100 33.800

Como N=7 es impar entonces:

m ed x = xN

+1 2

= x ( 4 ) = 3 3 .8 0 0

Recordemos que para este conjunto de salarios tenamos:

x = 3 3 .5 0 0
En este caso x y m e d x son muy parecidos por lo que para hacernos una idea del centro de las observaciones no habr mucha diferencia entre usar como medida de posicin la media o la mediana.

Ocurre siempre as? Veamos un ejemplo: Hemos visto la temperatura en 4 termmetros: 19 20 20 41

x =

19 + 20 + 20 + 41 = 25 4 xN + xN
2 + 1 2

m ed x =

x (2 ) + x (3 ) 2

20 + 20 = 20 2

En este caso ambas medidas son muy diferentes por qu?

La mediana es ms estable ante la existencia de datos atpicos (como el 41), se dice que es ms robusta que la media.

Ejemplo: Si volvemos al ejemplo de las puntuaciones obtenidas por 10 alumnos en un examen: 5,3 2,8 3,4 7,2 8,3 1,7 6,2 9,3 3,2 5,9 tenamos que:

m e d x = 5 ,6

x = 5 ,3

Supongamos que cometemos un error al escribirlos y ponemos 83 en vez de 8,3, tendremos: 5,3 2,8 3,4 7,2 83 1,7 6,2 9,3 3,2 5,9

que ordenados de menor a mayor sern: 1,7 2,8 3,2 3,4 5,3 5,9 6,2 7,2 9,3 83 Entonces:

xN + xN m ed x = x =
2

+ 1 2

x (5 ) + x (6 ) 2

5 ,3 + 5 ,9 = 5 ,6 2

5 ,3 + 2 ,8 + 3 , 4 + 7 , 2 + 8 3 + 1 ,7 + 6 ,2 + 9 ,3 + 3 ,2 + 5 ,9 = 1 2 ,8 10

La sensibilidad de la media a las observaciones extremas explica la posicin relativa de la media y la mediana en distribuciones asimtricas (ver Figura 5.8 de Pea y Romo):

x = m e d x Distribucin Simtrica x > m e d x Distribucin asimtrica a la derecha x < m e d x Distribucin asimtrica a la izquierda

Qu empleamos la media o la mediana? En distribuciones simtricas y sin atpicos podemos usar la media, pero en otros casos es preferible la mediana.

Ejemplo: renta de las familias asimtrica a la derecha - Mediana: nivel de renta superado por la mitad de las familias - Media: al verse influida por las familias muy ricas nos dara una visin muy optimista de la renta de las familias.

Si tenemos datos extremos o atpicos otra posibilidad es emplear la media recortada que consiste en disminuir el efecto de los atpicos en el clculo de la media eliminando las observaciones ms extremas. Ejemplo: Volvamos a los datos de las notas con la observacin extrema: 5,3 2,8 3,4 7,2 83
x

1,7 6,2 9,3 3,2 5,9

que tenan m e d

= 5 , 6 y x = 1 2 ,8 .

Para este conjunto de observaciones, la media recortada al 10% es la media calculada sobre los datos que quedan despus de eliminar el 10% de los datos ms grandes y el 10% de los ms pequeos. Como hay 10 datos deberamos quitar la observacin mayor y menor (1,7 y 83): 1,7 2,8 3,2 3,4 5,3 5,9 6,2 7,2 9,3 83

y calcular la media con las 8 restantes:

x =

2 ,8 + 3 ,2 + 3 ,4 + 5 ,3 + 5 ,9 + 6 , 2 + 7 , 2 + 9 , 3 = 5 ,4 1 8

En general, las medidas (de posicin, dispersin) basadas en el orden (como la mediana) son robustas, mientras que las basadas en sumas (como la media, desviacin tpica,) se ven ms afectadas por las observaciones extremas, son poco robustas.

Si transformamos una variable x en y=ax+b la mediana de la nueva variable ser:

m ed

= m ed

ax +b

= am ed x + b

La Mediana de las Desviaciones Absolutas (MEDA) La MEDA es una medida de dispersin o variabilidad alrededor de la mediana. Calculamos las desviaciones de los datos respecto a la mediana:

x 1 m e d x , x 2 m e d x ,..., x

N 1

m ed x, x

m ed

y se toman valores absolutos para eliminar los signos:

x 1 m e d x , x 2 m e d x ,..., x

N 1

m ed x ,

m ed

la MEDA es la mediana de esos valores, es decir,

M E D A x = m e d ( x 1 m e d x , ..., x

m ed

Si transformamos una variable x en y=ax+b la MEDA de la nueva variable ser:

M E D A y = M E D A ax +b = a M E D A

Ejemplo: Volviendo al ejemplo de las puntuaciones obtenidas por 10 personas: 5,3 2,8 3,4 7,2 8,3 1,7 6,2 9,3 3,2 5,9
x

con m e d sern:

= 5 , 6 , las desviaciones respecto a la mediana

xi m ed
5,3-5,6=-0,3 2,8-5,6=-2,8 3,4-5,6=-2,2 7,2-5,6=1,6 8,3-5,6=2,7 1,7-5,6=-3,9 6,2-5,6=0,6 9,3-5,6=3,7 3,2-5,6=-2,4 5,9-5,6=0,3

xi m ed
0,3 2,8 2,2 1,6 2,7 3,9 0,6 3,7 2,4 0,3

que ordenados de menor a mayor son: 0,3 0,3 0,6 1,6 2,2 2,4 2,7 2,8 3,7 3,9 entonces, la MEDA, que es la mediana de estos valores ser:

M ED Ax =

2 ,2 + 2 ,4 = 2 ,3 2

10

Ejercicio 5.2 (de Pea y Romo) Con los siguientes datos (del ejercicio 3.3): 0 9 2 2 5 4 0 0 3 2 1 9 8 3 0 0 3 1 1 9 1 8

a) Calcular la mediana.

En primer lugar los ordenamos de menor a mayor:

0 0 0 0 0 1 1 1 1 2 2 2 3 3 3 4 5 8 8 9 9 9

Como N=22 es par,

xN + xN m ed x =
2

+ 1 2

x (1 1 ) + x (1 2 ) 2

2 + 2 = 2 2

b) Hallar las desviaciones de los datos a la mediana suman cero dichas desviaciones?

11

xi m ed
0-2=-2 0-2=-2 0-2=-2 0-2=-2 0-2=-2 1-2=-1 1-2=-1 1-2=-1 1-2=-1 2-2=0 2-2=0 2-2=0 3-2=1 3-2=1 3-2=1 4-2=2 5-2=3 8-2=6 8-2=6 9-2=7 9-2=7 9-2=7

xi m ed
2 2 2 2 2 1 1 1 1 0 0 0 1 1 1 2 3 6 6 7 7 7

22

xi m ed x = 27

i=1

c) Obtener la MEDA Ordenamos las desviaciones absolutas de menor a mayor y calculamos su mediana: 0 0 0 1 1 1 1 1 1 1 2 2 2 2 2 2 3 6 6 7 7 7

M ED Ax =

2 + 2 = 2 2

12

Ejercicio 5.4 (Pea y Romo) Se sabe que la media de las calificaciones de una prueba es 5,2 y la mediana 6,3 qu forma tendr la distribucin de las calificaciones? Como x < m e d x Distribucin asimtrica a la izquierda

Ejercicio: Se presentan datos sobre el n de accidentes de trabajo al mes en 11 empresas: 1 3 4 5 2 2 6 7 2 0 1

Calcular la media, la mediana y la moda.

x =

11

xi

i=1

11

1 + 3 + 4 +5 + 2 + 2 + 6 + 7 + 2 + 0 +1 = 3 11

Para calcular la mediana ordenamos los datos de menor a mayor: 0 1


1
+1 2

m ed x = xN

= x (6) = 2

La Moda es el valor ms frecuente que es 2.


13

El Rango o Recorrido

El rango es la medida de dispersin de un conjunto de observaciones ms obvia. Es la diferencia entre el mayor y el menor de los datos:

R = x ( N ) x (1)
Su valor se ve muy influido por: - el n de observaciones (generalmente si hay ms datos el recorrido es mayor) - observaciones muy extremas Inconveniente: si comparamos estos dos conjuntos de notas:

0 4 5 5 5 5 5 4 10 0 1 2 4 5 6 7 8 10

R=10-0=10 R=10-0=10

En ambos coincide R sin embargo parece que la dispersin es mayor en el segundo.

14

El Rango Intercuartlico

Para superar el inconveniente del rango que puede verse muy influido por alguna observacin extrema, se define el rango intercuartlico (RI).

La idea consiste en ordenar las observaciones de menor a mayor, eliminar las ms grandes y las ms pequeas y calcular el rango de las restantes. Cmo se hace? Se dividen los datos ordenados de menor a mayor en 4 grupos iguales. A los tres valores que dividen las observaciones en esos 4 grupos se les llama cuartiles: - Primer Cuartil Q1: es la mediana de la mitad con los datos ms pequeos

- Segundo Cuartil Q2: es la mediana Q

= m ed

- Tercer Cuartil Q3: es la mediana de la mitad con los datos ms grandes

15

Igual que ocurra con la mediana, estos valores no tienen por qu ser nicos. Aunque las diferencias son pequeas, no todos los programas los calculan igual. El rango intercuartlico es la diferencia entre el tercer y el primer cuartil:

RI = Q3 Q

Ejemplo: Salarios anuales jefes de ventas (N=7) 34.500 32.500 Los ordenamos de menor a mayor: 30.700 32.500 32.900 33.800 34.100 34.500 36.000 Como N es impar: 30.700 32.900 36.000 34.100 33.800

= m ed x = xN
+1 4

+1 2

= x ( 4 ) = 3 3 .8 0 0

Q 1 = xN

= x ( 2 ) = 3 2 .5 0 0 = x ( 6 ) = 3 4 .5 0 0

Q 3 = x 3(N

+1) 4

R I = Q 3 Q 1 = 3 4 .5 0 0 3 2 .5 0 0 = 2 . 0 0 0

16

Ejemplo: Puntuaciones obtenidas por 10 alumnos en un examen: 5,3 2,8 3,4 7,2 8,3 1,7 6,2 9,3 3,2 5,9

las ordenamos de menor a mayor: 1,7 2,8 3,2 3,4 5,3 5,9 6,2 7,2 8,3 9,3

Como N=10 es par entonces:

xN + xN Q
2

= m ed x =

+ 1 2

x (5 ) + x (6 ) 2

5 ,3 + 5 ,9 = 5 ,6 2

Como

N +1 = 2 ,7 5 4

3( N + 1) = 8 , 2 5 no son nmeros 4
1

enteros hay diferentes formas de calcular Q

y Q 3 , por

ejemplo redondeando prximo:

N +1 4

3( N + 1) al entero ms 4

Q 1 = x (3 ) = 3 ,2
Q 3 = x (8 ) = 7 ,2

17

R I = Q 3 Q 1 = 7 ,2 3 ,2 = 4
Si transformamos una variable x en y=ax+b el RI de la nueva variable ser:

R I y = R I ax +b = a R I x
Percentiles: Anlogamente a los cuartiles (que dividan las observaciones en 4 partes) se pueden definir los percentiles, que dividen los datos ordenados de menor a mayor en 100 partes. Percentil de orden p es el menor dato que supera al p por ciento de los datos. Por ejemplo: El percentil de orden 10 (P0,10) es el valor que deja por debajo el 10 % de las observaciones o el percentil de orden 88 (P0,88) el que deja por debajo el 88% de los datos. Ejemplo: Puntuaciones de examen ordenadas de menor a mayor: 1,7 2,8 3,2 3,4 5,3 5,9 6,2 7,2 8,3 9,3

Percentil de orden 40 (10x0,4=4): P 0 , 4 = x ( 4 ) = 3 , 4

18

Percentil de orden 60 (10x0,6=6): P 0 , 6 = x ( 6 ) = 5 , 9 Ejercicio: Se ha preguntado a 12 estudiantes el nmero de horas que estudiaron Estadstica la semana antes del examen:
12 7 4 16 21 5 9 3 11 14 10 6

a) Calcular la media

x =

12

xi

i=1

12

1 2 + 7 + 4 + ...+ 1 0 + 6 1 1 8 = = 9 ,8 3 12 12

b) Calcular la mediana Ordenamos los datos de menor a mayor 3 4 5 6 7 9


2

10

11

12

14

16

21

xN + xN m ed x = Q
2

+ 1 2

x (6 ) + x (7 ) 2

9 +10 = 9 ,5 2

c) Calcular la desviacin tpica

12

x i2 = 1 2 2 + 7 2 + 4 2 + . . . + 1 0 2 + 6 2 = 1 . 3 9 3

i=1

Sx =

x i2 N

i=1

1 .3 9 3 9 ,8 3 2 = 4 ,4 1 12

19

d) Hallar la MEDA

xi m ed
12-9,5=2,5 7-9,5=-2,5 4-9,5=-5,5 16-9,5=6,5 21-9,5=11,5 5-9,5=-4,5 9-9,5=-0,5 3-9,5=-6,5 11-9,5=1,5 14-9,5=4,5 10-9,5=0,5 6-9,5=-3,5

xi m ed
2,5 2,5 5,5 6,5 11,5 4,5 0,5 6,5 1,5 0,5 0,5 3,5

Las ordenamos de menor a mayor:


0,5 0,5 0,5 1,5 2,5 2,5 3,5 4,5 5,5 6,5 6,5 11,5

M ED Ax =

2 ,5 + 3 ,5 = 3 2

e) Calcular el Rango Intercuartlico Ordenamos los datos de menor a mayor 3 4 5 6 7 9 10 11


1

12 yQ
3

14

16

21

Tendremos que calcular Q Como

N +1 3( N + 1) = 3 ,2 5 y = 9 , 7 5 no son enteros: 4 4
20

Q 1 = x (3) = 5

Q 3 = x (1 0 ) = 1 4 RIx = Q 3 Q1 = 14 4 = 9

Otra forma de calcular los cuartiles en los casos en que

N +1 3( N + 1) y 4 4

no son enteros es interpolando. Es

decir, como

N +1 = 3 , 2 5 tomaramos como primer cuartil 4

al dato que est a un cuarto (0,25) de la distancia entre la observacin 3 y la 4:

Q 1 = x (3 ) + ( x (4 ) x (3 ) ) 0 ,2 5 = 5 + ( 6 5 ) 0 ,2 5 = 5 ,2 5
Anlogamente, como

3( N + 1) = 9 , 7 5 el tercer cuartil 4

ser el dato que est a tres cuartos (0,75) de la distancia entre la observacin 9 y la 10:

Q 3 = x ( 9 ) + ( x (1 0 ) x ( 9 ) ) 0 , 7 5 = 1 2 + ( 1 4 1 2 ) 0 ,7 5 = 1 3 ,5
21

R I x = Q 3 Q 1 = 1 3 ,5 5 , 2 5 = 8 ,2 5
Diagramas de Caja

Es un grfico basado en los cuartiles. Contiene informacin sobre la simetra de la distribucin y sobre la presencia de datos atpicos.

Cmo se construye? Ver Figura 5.2 de Pea y Romo

- Se dibuja una caja cuyos lados verticales estn en Q 1 y Q 3 con una linea vertical sobre la mediana. - A la izquierda de Q 1 se trazan dos lneas verticales a 1,5
(barrera interior) y 3 (barrera exterior) veces RI. Se hace lo mismo a la derecha de Q 3 . - A cada lado de la caja, se traza un segmento a la altura del ltimo dato que aparezca dentro de las barreras interiores.

22

Qu informacin nos proporciona?

- La caja contiene la mitad central de los datos. La otra mitad de los datos quedan un cuarto a cada lado de la caja. - Las observaciones que estn fuera de las barreras interiores (a ms de 1,5 veces RI) se les llama datos atpicos. - Las que estn ms all de las barreras exteriores (a ms de 3 veces RI) se les llama datos atpicos extremos. - Nos permite hacernos una idea de cmo se distribuyen las observaciones y por tanto de la simetra o asimetra de la distribucin (posicin de los segmentos). - La amplitud de la caja nos informa sobre la dispersin respecto a la mediana.

Ver Figuras 5.3, 5.4, 5.5 y 5.6 de Pea y Romo

23

Ejercicio: Los siguientes datos son de las notas obtenidas en un examen por 27 estudiantes: 8,4 8,1 7,4 6,6 7,7 9,3 7,7 5,6 7,6 7,7 7,2 2,1 6,7 8,9 2,8 8,9 9,4 9,4 7,7 8,0 8,1 9,3 9,0 8,8 5,8 7,8 7,9

a) Calcular la media, la mediana y la moda.

x =

27

xi

i=1

27

8 , 4 + 8 ,1 + . . . + 7 , 8 + 7 , 9 2 0 3 , 9 = = 7 ,5 5 1 8 5 27 27

Ordenamos los datos de menor a mayor: 2,1 2,8 5,6 5,8 6,6 6,7 7,2 7,4 7,6 7,7 7,7 7,7 7,7 7,8 7,9 8,0 8,1 8,1 8,4 8,8 8,9 8,9 9,0 9,3 9,3 9,4 9,4

Como N=27 es impar:

m ed x = xN

+1 2

= x (1 4 ) =

7,8

La Moda es 7,7
24

b) Calcular el Rango y el Rango intercuartlico

R x = x ( 2 7 ) x ( 1 ) = 9 , 4 2 ,1 = 7 , 3

Q 1 = xN

+1 4

= x (7 ) = 7 ,2

Q 3 = x 3(N

+1) 4

= x (21) = 8 ,9

R I x = Q 3 Q 1 = 8 ,9 7 ,2 = 1 ,7

c) Calcular la desviacin tpica

27

x i2 = 8 , 4 2 + 8 , 1 2 + . . . + 7 , 8 2 + 7 , 6 2 = 1 6 2 2 , 8 1

i=1

Sx =

x i2 N

i=1

1 6 2 2 ,8 1 7 ,5 5 2 = 1 ,7 6 27

25

d) Dibujar un diagrama de caja

Box-and-Whisker Plot

10

notas

e) Existen valores atpicos en este conjunto de datos?

Hay 2 valores atpicos (2,1 y 2,8)

f) Es simtrica la distribucin?

Es asimtrica a la izquierda (CAx=-1,88)

26

Descripcin numrica de distribuciones de frecuencia

Cuando no conocemos los datos originales y slo tenemos la distribucin de frecuencias, a partir de ella pueden definirse medidas anlogas a las anteriores.

Mediana: Dada una distribucin de frecuencias, mediana es cualquier valor que divida la distribucin (el histograma) en 2 partes con igual superficie (frecuencia). Primer Cuartil: Dada una distribucin de frecuencias, es el valor que deja por debajo una cuarta parte del rea del histograma (de la frecuencia). Tercer Cuartil: Dada una distribucin de frecuencias, es el valor que deja por debajo tres cuartas partes del rea del histograma (de la frecuencia). Moda: Es un pico o mximo de la distribucin.

27

Ejercicio 5.7 (de Pea y Romo) Empleando los datos de salarios del Ejercicio 4.5 (en miles de pesetas): 65 18 14 0 4 7 80 15 19 7 5 84 12 28 3 5 92 16 14 3 3 85 15 14 3 2 315 83 81 99

a) Hallar la mediana y el rango intercuartlico. Ordenamos los datos de menor a mayor: 80 92 14 7 81 99 15 3 83 12 15 3 7 84 14 16 2 3 85 14 18 3 4 Como N=19: 195 285 315 650

m ed x = xN

+1 2

= x (1 0 ) = 1 4 3

28

Q 1 = xN

+1 4

= x (5) = 8 5 = x (15 ) = 1 8 4

Q 3 = x 3(N

+1) 4

RIx = Q 3 Q1 = 184 85 = 99

b) Qu ocurre con la mediana y el rango intercuartlico si se aumentan todos los sueldos en 50.000 pesetas? y = x +50 Los nuevos datos ordenados de menor a mayor sern: 13 14 19 245 0 2 7 13 14 20 335 1 9 3 13 17 20 365 3 3 7 13 19 21 700 4 2 3 13 19 23 5 3 4 Como seguimos teniendo N=19: m ed Q Q
1( y ) y

= m ed = Q = Q

x +5 0

= y (1 0 ) = 1 9 3 = 5 0 + m e d
1(x)

1( x +5 0 )

= y (5) = 1 3 5 = 5 0 + Q

3(y)

3 ( x +5 0 )

= y (1 5 ) = 2 3 4 = 5 0 + Q

3(x)

29

R I y = R I x +50 = Q

3(y)

1( y)

= 234 135 = 99 = R

c) Qu ocurre si slo variamos el salario del director en 200.000 pesetas? Los nuevos datos ordenados de menor a mayor sern: 80 92 14 195 7 81 99 15 285 3 83 12 15 315 3 7 84 14 16 850 2 3 85 14 18 3 4 Luego la mediana, los cuartiles y el RI son los mismos que en el apartado a).

d) Representar los tres conjuntos de datos con diagramas de caja. Existen atpicos en el conjunto inicial? Y en los otros?

30

Box-and-Whisker Plot

200

400

600

800

Salarios

En el conjunto inicial existe un dato atpico extremo que es el salario del director (650>481=184+99x3).

Box-and-Whisker Plot

200

400

600

800

Salarios+50

31

En el segundo conjunto de datos tambin existe un dato atpico extremo, el salario del director

(700>531=234+99x3).

Box-and-Whisker Plot

0,2

0,4

0,6

0,8

Salarios (director+200)

1 (X 1000)

Igual ocurre si slo aumentamos el salario del director.

32

S-ar putea să vă placă și