Sunteți pe pagina 1din 29

ESTADSTICA Grado en Relaciones Laborares y Recursos Humanos Curso 2010-11

Luis J. Imedio Olmedo y E. Macarena Parrado Gallardo

Leccin 3. ANLISIS DESCRIPTIVO DE UNA VARIABLE (II)

3.1 Introduccin. 3.2 Medidas de dispersin absoluta. 3.3 Medidas de dispersin relativa. 3.4 Asimetra. Medidas de forma. 3.5 Valores atpicos. 3.6 Desigualdad. Curva de Lorenz e ndice de concentracin de Gini.

Luis J. Imedio Olmedo y E. Macarena Parrado Gallardo

Objetivos

Calcular e interpretar las medidas de dispersin, de asimetra y de desigualdad. Explicar las caractersticas y limitaciones de las medidas anteriores, indicando cundo es aconsejable su clculo. Detectar valores atpicos.

Luis J. Imedio Olmedo y E. Macarena Parrado Gallardo

3.1. Introduccin Las medidas de dispersin cuantifican el grado de proximidad existente entre los valores de las observaciones o entre dichos valores y la media de la distribucin. En trminos de las distancias entre los valores : Rango o Recorrido Recorridos Intercuantlicos. En trminos de las distancias entre los valores y la media: Varianza. Desviacin Tpica. Coeficiente de variacin.
3

Luis J. Imedio Olmedo y E. Macarena Parrado Gallardo

3. 2. Medidas de dispersin absoluta El recorrido es la diferencia entre el mayor y el menor valor observado: Re = xmx xmn. Es una medida que no utiliza toda la informacin disponible y se ve afectada por la presencia de algn valor extremadamente grande o pequeo.

Luis J. Imedio Olmedo y E. Macarena Parrado Gallardo

3. 2. Medidas de dispersin absoluta


El recorrido intercuartlico es la diferencia entre el tercer cuartil y el primero: R Q = Q3 Q1 Nos indica la amplitud del intervalo que contiene el 50% de las observaciones centrales. En su clculo no interviene el 25% de los valores ms pequeos ni el 25% de los ms grandes. Por lo tanto, no le afectan los valores atpicos. Es evidente que un valor pequeo de RQ, con respecto a las unidades de la variable, es indicio de poca dispersin. El recorrido interdeclico es: RD = D9 D1 Es la amplitud del intervalo donde se encuentra el 80% de las observaciones centrales.
5

Luis J. Imedio Olmedo y E. Macarena Parrado Gallardo

3. 2. Medidas de dispersin absoluta El recorrido intercentlico es la diferencia entre el percentil 99 y el primero: RC = P99 P1 Proporciona la amplitud del intervalo que contiene el 98% de las observaciones centrales. En su clculo no interviene el 1% de los valores ms pequeos que toma la variable, ni el 1% de los ms grandes.
Todos los recorridos se expresan en las mismas unidades que la variable.

Luis J. Imedio Olmedo y E. Macarena Parrado Gallardo

3. 2. Medidas de dispersin absoluta Dos distribuciones pueden tener la misma media pero en una de ellas los datos pueden estar ms alejados de la media que en la otra. Los promedios no nos facilitan esa informacin.

10 11 12 13 14 15 16 17 18 19 20 Media=9

10 11 12 13 14 15 16 17 18 19 20 Media=9
7

Luis J. Imedio Olmedo y E. Macarena Parrado Gallardo

3. 2. Medidas de dispersin absoluta


Aunque la media es la misma, 9, en ambas distribuciones, en la segunda los datos estn ms alejados de ese valor que en la primera. Necesitamos medidas que cuantifiquen la dispersin respecto de la media.

La varianza, S2 X , se define como:


2 (x x ) ni i i =1 k 2 x i ni k

S2 X =

i =1

x2

La desviacin tpica, SX , es la raz cuadrada positiva de la varianza.


8

Luis J. Imedio Olmedo y E. Macarena Parrado Gallardo

3. 2. Medidas de dispersin absoluta Ambas medidas, Estn basadas en los cuadrados de las desviaciones de los valores de la variable respecto a la media. Son no negativas. Al aumentar su valor, mayor es la dispersin respecto a x. Son nulas si todos los valores de la variable coinciden. Son invariantes ante cambios de origen.

Y =X+a
Y = bX
2 Y

2 S2 = S Y X

SY = SX
SY = b S X
9

Ante cambios de escala, se cumple:

S =b S

2 2 X

Luis J. Imedio Olmedo y E. Macarena Parrado Gallardo

3. 2. Medidas de dispersin absoluta Variable tipificada Dada la variable X con media x y desviacin tpica variable tipificada de X, ZX, se define como:

s X,

la

Xx ZX = . sX
Al tipificar se realiza un cambio de origen y un cambio de escala. Toda variable tipificada tiene media 0 y desviacin tpica 1. Una variable tipificada es adimensional. Las variables tipificadas sirven para comparar valores de distintas variables en el contexto de su propia distribucin. 10

Luis J. Imedio Olmedo y E. Macarena Parrado Gallardo

3. 2. Medidas de dispersin absoluta Ejemplo Un alumno obtuvo una calificacin de 8.4 puntos en Derecho sindical y de 9 puntos Estadstica. Sabiendo que:

x DS = 7.6; s DS = 1; x E = 8.2; s E = 1.6

Determine en cul de las dos asignaturas tiene el alumno mejor calificacin con respecto al conjunto del grupo. Para hacer la comparacin hemos de tipificar:
z DS = x DS x DS 8.4 7.6 x x E 9 8.2 = = 0.8 y z IE = E = = 0.5 s DS 1 sE 1.6

Por lo tanto, con respecto al grupo, el alumno obtuvo mejor calificacin en Derecho sindical.
11

Luis J. Imedio Olmedo y E. Macarena Parrado Gallardo

3. 3. Medidas de dispersin relativa Las medidas de dispersin estudiadas son medidas absolutas, se expresan en las mismas unidades que la variable (o en su cuadrado, en el caso de la varianza). No son adecuadas para realizar comparaciones entre distintas distribuciones. Se necesitan medidas relativas, que no dependan de las unidades de la variable. La ms importante de este tipo es coeficiente de variacin, CVX. Se define como:

sx CVX = ; si x 0. x

Es frecuente expresarlo como porcentaje, multiplicndolo por 100. 12

Luis J. Imedio Olmedo y E. Macarena Parrado Gallardo

3. 2. Medidas de dispersin relativa Propiedades del Coeficiente de Variacin. Indica el porcentaje de la media que representa la desviacin tpica. Se cumple:

(CVX = 0) (s X = 0) (x1 = = x k = x)
Cuanto menor sea CVX, ms representativa es x . Es adimensional, por lo que permite comparar la dispersin de variables con distintas unidades de medida. Su utilidad es doble: es una medida de dispersin que tambin sirve para comparar la representatividad de la media en diferentes distribuciones. 13

Luis J. Imedio Olmedo y E. Macarena Parrado Gallardo

3. 4. Asimetra. Medidas de forma Hasta ahora hemos realizado el anlisis estadstico de una distribucin de frecuencias utilizando medidas de posicin y de dispersin. Otra caracterstica importante de una distribucin es su forma, que se obtiene a partir del histograma o del polgono de frecuencias. De la forma depende, por ejemplo, la eleccin del promedio ms adecuado para resumir la informacin. Una forma habitual es la campaniforme (se asemeja al perfil de una campana). Se presenta cuando los valores centrales son los ms frecuentes.
14

Luis J. Imedio Olmedo y E. Macarena Parrado Gallardo

3. 4. Asimetra. Medidas de forma Tambin son usuales las distribuciones en forma de L (los valores menores son los de mayor frecuencia), de J (los ms frecuentes son los valores mayores) o de U (los valores extremos son los ms frecuentes y los intermedios los de menor frecuencia). Dentro de las medidas de forma, vamos a considerar las de asimetra. Miden el grado de asimetra que presenta la distribucin respecto de los valores centrales. Esta caracterstica tambin se puede apreciar grficamente a partir del diagrama de barras o del histograma de la distribucin.
15

Luis J. Imedio Olmedo y E. Macarena Parrado Gallardo

3. 4. Asimetra. Medidas de forma


hi 45 40 35 30 25 20 15 10 5 0
hi 60

50 40 30 20 10 0

100

200

300

400

500
Xi

100

200

300

400
Xi

hi 90

hi 50

80 70 60 50 40 30 20 10 0 0 100 200 300 400


Xi

40 30 20 10 0 0 100 200 300 400


Xi

16

Luis J. Imedio Olmedo y E. Macarena Parrado Gallardo

3. 4. Asimetra. Medidas de forma Para una distribucin campaniforme y unimodal se define el coeficiente de asimetra de Pearson, AP, como:

x Mo AP = sX
Es una medida adimensional. Si la distribucin es simtrica, x = Mo , AP =0. Si es asimtrica a la derecha, x > Mo , AP > 0. Si es asimtrica a la izquierda, x < Mo , AP < 0.
17

Luis J. Imedio Olmedo y E. Macarena Parrado Gallardo

3. 5. Valores atpicos Los valores atpicos son aquellos que se alejan significativamente del resto de las observaciones de una distribucin de frecuencias, por ser muy elevados o muy reducidos. Pueden ser resultado de: un error en la observacin, una observacin afectada por un suceso extraordinario o simplemente existen elementos de la poblacin que se diferencian sustancialmente del resto respecto del carcter estudiado.

18

Luis J. Imedio Olmedo y E. Macarena Parrado Gallardo

3. 5. Valores atpicos Es muy importante su deteccin y anlisis porque muchas de las tcnicas estadsticas convencionales se ven seriamente afectadas por la presencia de valores atpicos. Si un valor atpico es el fruto de un error de medicin o de codificacin est justificada la eliminacin de dicho valor para realizar los anlisis estadsticos pertinentes. No obstante, si no es as, no se debe eliminar este valor, sin olvidar que su presencia puede afectar a las tcnicas estadsticas utilizadas.

19

Luis J. Imedio Olmedo y E. Macarena Parrado Gallardo

3. 5. Valores atpicos
Entre las medidas de posicin central, la media aritmtica es la ms afectada por la presencia de valores atpicos, ya que la mediana y la moda son poco sensibles a este tipo de observaciones. Las medidas de dispersin basadas en las desviaciones respecto a la media (varianza, desviacin tpica y coeficiente de variacin) son tambin muy sensibles a la presencia de valores atpicos, as como el recorrido y el coeficiente de asimetra de Pearson. El recorrido intercuartlico es poco sensible a los valores atpicos, al prescindir de las observaciones extremas. Por ello, en distribuciones con valores atpicos o muy asimtricas, la media aritmtica como promedio y las medidas de dispersin basadas en ella deben tomarse con precaucin y complementarse con medidas de posicin central, como la mediana, y de dispersin como el recorrido intercuantlico o 20 interdeclico.

Luis J. Imedio Olmedo y E. Macarena Parrado Gallardo

3. 5. Valores atpicos En una distribucin se consideran atpicos los valores de la variable que estn fuera del intervalo de valores admisibles, [LI, LS], siendo:

L I = Q1 1.5 R Q
donde R Q = Q 3 Q1

L S = Q 3 + 1 .5 R Q
es el recorrido intercuartlico.

21

Luis J. Imedio Olmedo y E. Macarena Parrado Gallardo

3. 6. Desigualdad. Curva de Lorenz e ndice de concentracin de Gini


Las medidas de desigualdad (o de concentracin) cuantifican el grado de equidad en el reparto del volumen total de una variable entre los elementos de la poblacin. Se utilizan este tipo de medidas al considerar variables como la renta, los salarios,Tambin en demografa (reparto de poblacin por reas geogrficas) y en otros muchos casos. Ejemplo. Si se estudia el reparto de la masa salarial de una empresa entre sus empleados, hay poca desigualdad si todos los empleados perciben salarios muy parecidos. hay mucha desigualdad si unos pocos empleados tienen salarios altos y el resto (la mayora) salarios bajos.
22

Luis J. Imedio Olmedo y E. Macarena Parrado Gallardo

3. 6. Desigualdad. Curva de Lorenz e ndice de concentracin de Gini Si los valores de la variable X, ordenados de menor a N mayor son x1x2xN, siendo el total, V = xi
i =1

No existe desigualdad (caso de equidistribucin o de perfecta igualdad) si todos los elementos de la poblacin perciben la misma cantidad: x1 = x2= = xN. La desigualdad es mxima si un solo elemento de la poblacin percibe el total: x1 = x2 = = xN-1= 0, xN=V.
En la prctica se presentan casos intermedios entre los dos anteriores.
23

Luis J. Imedio Olmedo y E. Macarena Parrado Gallardo

3. 6. Desigualdad. Curva de Lorenz e ndice de concentracin de Gini


Una medida grfica de la desigualdad viene dada por la curva de Lorenz. Se obtiene, ordenados los valores de la variable de menor a mayor, al representar en el plano los puntos (Pi, Qi) y unir cada dos consecutivos. Los Pi son los porcentajes acumulados de poblacin

Pi =

Ni 100 N

Los Qi son los correspondientes porcentajes acumulados del volumen total de la variable.

x 1n 1 + + x i n i Qi = 100 x 1n 1 + + x k n k
Es evidente que la curva de Lorenz pasa por los puntos (0, 0) y (100, 100). Se cumple Pi Qi. Por ejemplo, si se trata de salarios no puede ocurrir que el 30% de los trabajadores que menos cobran perciban el 40% de la masa salarial total. La curva de Lorenz puede pasar por el punto (40, 30), pero no por el (30, 40). 24

Luis J. Imedio Olmedo y E. Macarena Parrado Gallardo

3. 6. Desigualdad. Curva de Lorenz e ndice de concentracin de Gini Curva de Lorenz

Qi : Porcentaje acumulado del volumen total de la variable

100 80 60 40 20 0 0 20 40 Pi 60 80 100
Qi

100 80 60 40 20 0 0 20 40 Pi 60 80 100

Qi

(ordenados en sentido creciente segn la variable)

Pi : Porcentaje acumulado de elementos

25

Luis J. Imedio Olmedo y E. Macarena Parrado Gallardo

3. 6. Desigualdad. Curva de Lorenz e ndice de concentracin de Gini


En caso de equidistribucin, la curva de Lorenz es la bisectriz del primer cuadrante. Si la concentracin es mxima, coincide con el eje de abcisas y salta a (100, 100). Una de las utilidades de esta curva es la de realizar comparaciones entre distribuciones, lo que no es posible realizar si sus curvas se cortan en un punto interior. Este problema se subsana con una medida que cuantifique la desigualdad numricamente. El ndice de Gini, la medida de desigualdad ms utilizada, se define como el cociente entre el rea de Lorenz (rea de la superficie limitada por la diagonal del cuadrado y la curva de Lorenz) y el rea del tringulo cuya hipotenusa es la diagonal de ese cuadrado.

26

Luis J. Imedio Olmedo y E. Macarena Parrado Gallardo

3. 6. Desigualdad. Curva de Lorenz e ndice de concentracin de Gini


G= rea de Lorenz , 0 G 1 5000

1 0 0

8 0

rea de Lorenz

6 0 Q i 4 0 2 0 0 0 2 0 4 0 P i 6 0 8 0 1 0 0

27

Luis J. Imedio Olmedo y E. Macarena Parrado Gallardo

3. 6. Desigualdad. Curva de Lorenz e ndice de concentracin de Gini


100 80 60 Qi 40 20 0 0 20 40 Pi
28

G=0,4 Equidistribucin G=0 Mxima Concentracin G=1


60 80 100

Luis J. Imedio Olmedo y E. Macarena Parrado Gallardo

3. 6. Desigualdad. Curva de Lorenz e ndice de concentracin de Gini El ndice de Gini, se puede calcular a partir de los puntos {(Pi, Qi)}i=1,k, mediante la siguiente expresin:

PQ
i

k 1 i =1

i +1

Pi +1Q i
i =1

k 1

G=

10000

29

S-ar putea să vă placă și