Documente Academic
Documente Profesional
Documente Cultură
3.1 Introduccin. 3.2 Medidas de dispersin absoluta. 3.3 Medidas de dispersin relativa. 3.4 Asimetra. Medidas de forma. 3.5 Valores atpicos. 3.6 Desigualdad. Curva de Lorenz e ndice de concentracin de Gini.
Objetivos
Calcular e interpretar las medidas de dispersin, de asimetra y de desigualdad. Explicar las caractersticas y limitaciones de las medidas anteriores, indicando cundo es aconsejable su clculo. Detectar valores atpicos.
3.1. Introduccin Las medidas de dispersin cuantifican el grado de proximidad existente entre los valores de las observaciones o entre dichos valores y la media de la distribucin. En trminos de las distancias entre los valores : Rango o Recorrido Recorridos Intercuantlicos. En trminos de las distancias entre los valores y la media: Varianza. Desviacin Tpica. Coeficiente de variacin.
3
3. 2. Medidas de dispersin absoluta El recorrido es la diferencia entre el mayor y el menor valor observado: Re = xmx xmn. Es una medida que no utiliza toda la informacin disponible y se ve afectada por la presencia de algn valor extremadamente grande o pequeo.
3. 2. Medidas de dispersin absoluta El recorrido intercentlico es la diferencia entre el percentil 99 y el primero: RC = P99 P1 Proporciona la amplitud del intervalo que contiene el 98% de las observaciones centrales. En su clculo no interviene el 1% de los valores ms pequeos que toma la variable, ni el 1% de los ms grandes.
Todos los recorridos se expresan en las mismas unidades que la variable.
3. 2. Medidas de dispersin absoluta Dos distribuciones pueden tener la misma media pero en una de ellas los datos pueden estar ms alejados de la media que en la otra. Los promedios no nos facilitan esa informacin.
10 11 12 13 14 15 16 17 18 19 20 Media=9
10 11 12 13 14 15 16 17 18 19 20 Media=9
7
S2 X =
i =1
x2
3. 2. Medidas de dispersin absoluta Ambas medidas, Estn basadas en los cuadrados de las desviaciones de los valores de la variable respecto a la media. Son no negativas. Al aumentar su valor, mayor es la dispersin respecto a x. Son nulas si todos los valores de la variable coinciden. Son invariantes ante cambios de origen.
Y =X+a
Y = bX
2 Y
2 S2 = S Y X
SY = SX
SY = b S X
9
S =b S
2 2 X
3. 2. Medidas de dispersin absoluta Variable tipificada Dada la variable X con media x y desviacin tpica variable tipificada de X, ZX, se define como:
s X,
la
Xx ZX = . sX
Al tipificar se realiza un cambio de origen y un cambio de escala. Toda variable tipificada tiene media 0 y desviacin tpica 1. Una variable tipificada es adimensional. Las variables tipificadas sirven para comparar valores de distintas variables en el contexto de su propia distribucin. 10
3. 2. Medidas de dispersin absoluta Ejemplo Un alumno obtuvo una calificacin de 8.4 puntos en Derecho sindical y de 9 puntos Estadstica. Sabiendo que:
Determine en cul de las dos asignaturas tiene el alumno mejor calificacin con respecto al conjunto del grupo. Para hacer la comparacin hemos de tipificar:
z DS = x DS x DS 8.4 7.6 x x E 9 8.2 = = 0.8 y z IE = E = = 0.5 s DS 1 sE 1.6
Por lo tanto, con respecto al grupo, el alumno obtuvo mejor calificacin en Derecho sindical.
11
3. 3. Medidas de dispersin relativa Las medidas de dispersin estudiadas son medidas absolutas, se expresan en las mismas unidades que la variable (o en su cuadrado, en el caso de la varianza). No son adecuadas para realizar comparaciones entre distintas distribuciones. Se necesitan medidas relativas, que no dependan de las unidades de la variable. La ms importante de este tipo es coeficiente de variacin, CVX. Se define como:
sx CVX = ; si x 0. x
3. 2. Medidas de dispersin relativa Propiedades del Coeficiente de Variacin. Indica el porcentaje de la media que representa la desviacin tpica. Se cumple:
(CVX = 0) (s X = 0) (x1 = = x k = x)
Cuanto menor sea CVX, ms representativa es x . Es adimensional, por lo que permite comparar la dispersin de variables con distintas unidades de medida. Su utilidad es doble: es una medida de dispersin que tambin sirve para comparar la representatividad de la media en diferentes distribuciones. 13
3. 4. Asimetra. Medidas de forma Hasta ahora hemos realizado el anlisis estadstico de una distribucin de frecuencias utilizando medidas de posicin y de dispersin. Otra caracterstica importante de una distribucin es su forma, que se obtiene a partir del histograma o del polgono de frecuencias. De la forma depende, por ejemplo, la eleccin del promedio ms adecuado para resumir la informacin. Una forma habitual es la campaniforme (se asemeja al perfil de una campana). Se presenta cuando los valores centrales son los ms frecuentes.
14
3. 4. Asimetra. Medidas de forma Tambin son usuales las distribuciones en forma de L (los valores menores son los de mayor frecuencia), de J (los ms frecuentes son los valores mayores) o de U (los valores extremos son los ms frecuentes y los intermedios los de menor frecuencia). Dentro de las medidas de forma, vamos a considerar las de asimetra. Miden el grado de asimetra que presenta la distribucin respecto de los valores centrales. Esta caracterstica tambin se puede apreciar grficamente a partir del diagrama de barras o del histograma de la distribucin.
15
50 40 30 20 10 0
100
200
300
400
500
Xi
100
200
300
400
Xi
hi 90
hi 50
16
3. 4. Asimetra. Medidas de forma Para una distribucin campaniforme y unimodal se define el coeficiente de asimetra de Pearson, AP, como:
x Mo AP = sX
Es una medida adimensional. Si la distribucin es simtrica, x = Mo , AP =0. Si es asimtrica a la derecha, x > Mo , AP > 0. Si es asimtrica a la izquierda, x < Mo , AP < 0.
17
3. 5. Valores atpicos Los valores atpicos son aquellos que se alejan significativamente del resto de las observaciones de una distribucin de frecuencias, por ser muy elevados o muy reducidos. Pueden ser resultado de: un error en la observacin, una observacin afectada por un suceso extraordinario o simplemente existen elementos de la poblacin que se diferencian sustancialmente del resto respecto del carcter estudiado.
18
3. 5. Valores atpicos Es muy importante su deteccin y anlisis porque muchas de las tcnicas estadsticas convencionales se ven seriamente afectadas por la presencia de valores atpicos. Si un valor atpico es el fruto de un error de medicin o de codificacin est justificada la eliminacin de dicho valor para realizar los anlisis estadsticos pertinentes. No obstante, si no es as, no se debe eliminar este valor, sin olvidar que su presencia puede afectar a las tcnicas estadsticas utilizadas.
19
3. 5. Valores atpicos
Entre las medidas de posicin central, la media aritmtica es la ms afectada por la presencia de valores atpicos, ya que la mediana y la moda son poco sensibles a este tipo de observaciones. Las medidas de dispersin basadas en las desviaciones respecto a la media (varianza, desviacin tpica y coeficiente de variacin) son tambin muy sensibles a la presencia de valores atpicos, as como el recorrido y el coeficiente de asimetra de Pearson. El recorrido intercuartlico es poco sensible a los valores atpicos, al prescindir de las observaciones extremas. Por ello, en distribuciones con valores atpicos o muy asimtricas, la media aritmtica como promedio y las medidas de dispersin basadas en ella deben tomarse con precaucin y complementarse con medidas de posicin central, como la mediana, y de dispersin como el recorrido intercuantlico o 20 interdeclico.
3. 5. Valores atpicos En una distribucin se consideran atpicos los valores de la variable que estn fuera del intervalo de valores admisibles, [LI, LS], siendo:
L I = Q1 1.5 R Q
donde R Q = Q 3 Q1
L S = Q 3 + 1 .5 R Q
es el recorrido intercuartlico.
21
3. 6. Desigualdad. Curva de Lorenz e ndice de concentracin de Gini Si los valores de la variable X, ordenados de menor a N mayor son x1x2xN, siendo el total, V = xi
i =1
No existe desigualdad (caso de equidistribucin o de perfecta igualdad) si todos los elementos de la poblacin perciben la misma cantidad: x1 = x2= = xN. La desigualdad es mxima si un solo elemento de la poblacin percibe el total: x1 = x2 = = xN-1= 0, xN=V.
En la prctica se presentan casos intermedios entre los dos anteriores.
23
Pi =
Ni 100 N
Los Qi son los correspondientes porcentajes acumulados del volumen total de la variable.
x 1n 1 + + x i n i Qi = 100 x 1n 1 + + x k n k
Es evidente que la curva de Lorenz pasa por los puntos (0, 0) y (100, 100). Se cumple Pi Qi. Por ejemplo, si se trata de salarios no puede ocurrir que el 30% de los trabajadores que menos cobran perciban el 40% de la masa salarial total. La curva de Lorenz puede pasar por el punto (40, 30), pero no por el (30, 40). 24
100 80 60 40 20 0 0 20 40 Pi 60 80 100
Qi
100 80 60 40 20 0 0 20 40 Pi 60 80 100
Qi
25
26
1 0 0
8 0
rea de Lorenz
6 0 Q i 4 0 2 0 0 0 2 0 4 0 P i 6 0 8 0 1 0 0
27
3. 6. Desigualdad. Curva de Lorenz e ndice de concentracin de Gini El ndice de Gini, se puede calcular a partir de los puntos {(Pi, Qi)}i=1,k, mediante la siguiente expresin:
PQ
i
k 1 i =1
i +1
Pi +1Q i
i =1
k 1
G=
10000
29