Documente Academic
Documente Profesional
Documente Cultură
Psicologa UPV
Antofagasta
Estadsticos de tendencia central,
posicin, dispersin y forma.
Grficos estadsticos.
Marcelo Avalos Tejeda
Marzo de 2013
Estadsticos y parmetros
Los estadsticos (o estadgrafos) son nmeros
que resumen el conjunto de datos de una
muestra (p.e. el promedio).
Cuando esos nmeros se obtienen de una
poblacin, se les denomina parmetros.
Se clasifican en tres (o cuatro) tipos:
Tendencia central (TC).
Dispersin y posicin (DP).
Forma (F).
La moda
Se define como el valor de variable que presenta la ms alta
frecuencia.
Lo ideal es que exista slo una moda, pero eso no siempre sucede.
Cuando hay dos o ms modas, la distribucin de frecuencia se
denomina multimodal.
Aparte de los estadsticos de una tabla de frecuencia, es el nico
que puede calcularse en una variable nominal.
En las tablas con intervalos corresponde a la marca de clase del
intervalo modal.
xi
fi
pi
Pi
Mujer
20
0,4
40
Hombre
30
0,6
60
La mediana
Se define como el valor de variable que presenta la observacin que
ocupa la posicin central en la distribucin.
Puede obtenerse en variables ordinales o mtricas, no en
nominales.
Para identificarla (o calcularla) se debe conocer cul es la posicin
central de la distribucin.
Esto se conoce como profundidad de la mediana y se define
como:
+1
=
2
Definimos la mediana, entonces, de la siguiente manera:
= =(+1)/2
La d es por deep: profundidad en ingls.
La mediana
Definimos la mediana, entonces, de la siguiente manera:
= =(+1)/2
Ntese que, si es impar, el resultado ser un valor entero; pero si
es par, entonces el resultado ser un valor intermedio entre dos
enteros.
Ante esto, para muestras de tamao par la mediana se define como
el promedio de los dos valores centrales.
En estos casos, la mediana tendr una profundidad inferior y una
superior:
+2
= ; =
2
2
Con lo que definimos la mediana de la siguiente manera:
=/2 + =(+2)/2
=
2
La mediana
Ejemplo: Nmero de hijos.
Tenemos un nmero par de observaciones ( = 50), por lo tanto:
=/2 + =(+2)/2 =50/2 + =(50+2)/2
=
=
2
2
=50/2 + =(50+2)/2 25 + 26
=
=
2
2
1+1 2
=
= =1
2
2
xi
fi
fai
pi
pai
Pi
Pai
20
20
0,4
0,4
40
40
15
35
0,3
0,7
30
70
10
45
0,2
0,9
20
90
50
0,1
1,0
10
100
La mediana
En el caso de tablas con intervalos, la mediana debe calcularse
utilizando la siguiente frmula:
2
= +
donde:
= lmite inferior del intervalo mediano.
= tamao de la muestra.
= frecuencia absoluta acumulada del intervalo bajo el mediano.
= frecuencia absoluta del intervalo mediano.
= amplitud del intervalo.
Para utilizarse se asume que todas las observaciones dentro del
intervalo mediano se distribuyen uniformemente: la distancia entre
cada observacin es igual a la amplitud del intervalo dividida por la
frecuencia de ste.
La mediana
50
15
25 15
2
2
= +
= 1,6 +
0,2 = 1,6 +
0,2
20
20
= 1,6 +
10
0,2 = 1,6 + 0,5 0,2 = 1,6 + 0,1 = ,
20
xi
xci
fi
fai
Pi
Pai
[1,4:1,6)
1,5
15
15
30
30
[1,6:1,8)
1,7
20
35
40
70
[1,8:2,0)
1,9
15
50
30
100
La media aritmtica
Es un estadstico que slo puede calcularse en
variables mtricas.
Es el centro de gravedad de la distribucin de
frecuencias: la suma de los valores de las
observaciones bajo ella es igual a la de los valores
de las observaciones sobre ella.
Se define la media muestral como:
=1
=
La media aritmtica
xi
fi
20
15
10
0 20 + 1 15 + 2 10 + 3 5
=1
=
=
50
0 + 15 + 20 + 15 50
=
=
=1
50
50
xi
xci
fi
[1,4:1,6)
1,5
15
[1,6:1,8)
1,7
20
[1,8:2,0)
1,9
15
50
22,5 + 34 + 28,5 85
=
=
= 1,7
50
50
Estadsticos de posicin
Separan la distribucin en segmentos de igual
porcentaje de observaciones.
Nos permiten saber qu tan lejanas en valor de
variable estn las observaciones a intervalos de
frecuencia regulares.
Con eso podemos hacernos una idea de la forma
de la distribucin.
Los tres ms utilizados son:
Cuartiles.
Deciles.
Percentiles o centiles.
Cuartiles
Dividen a la distribucin en cuatro secciones de
igual porcentaje de observaciones.
Son tres:
Cuartil 1 (Q1): valor de variable que deja bajo de s al
25% de las observaciones.
Cuartil 2 (Q2): valor de variable que deja bajo de s al
50% de las observaciones (coincide con la mediana).
Cuartil 3 (Q3): valor de variable que deja bajo de s al
75% de las observaciones.
Cuartiles
La profundidad del cuartil k se define como:
( + 1)/4.
4
= +
Cuartiles
Si la tabla es sin intervalos y la profundidad del cuartil en
cuestin no es un nmero entero, puede utilizarse la
siguiente frmula
+1
= +
( )
4
donde, adems de lo ya definido antes:
= valor de variable bajo el cuartil.
= valor de variable sobre el cuartil.
= frecuencia absoluta acumulada del valor bajo el
cuartil.
Cuartiles
3
3 50
35
4
4
4
= +
3 = +
= 1,8 +
0,2
15
3 = 1,8 +
37,5 35
2,5
0,2 = 1,8 +
0,2 = 1,8 + 0,16 0,2 = 1,8 + 0, 3 = ,
15
15
xi
xci
fi
fai
Pi
Pai
[1,4:1,6)
1,5
15
15
30
30
[1,6:1,8)
1,7
20
35
40
70
[1,8:2,0)
1,9
15
50
30
100
Cuartiles
En el siguiente ejemplo buscamos conocer el cuartil 3 (Q3) de
la variable salario (en miles de pesos) en una muestra de 14
observaciones:
247 250 255 300 320 387 388 415 422 480 625 734 738 777
(+1)
4
3(14+1)
4
315
4
Tenemos
=
=
= 11,25; por lo que
sabemos que Q3 se encuentra entre la observacin 11 y la 12,
es decir, entre 625 y 734.
As, tenemos:
14 + 1
3 = 625 + 3
11 734 625
4
3 = 625 + 11,25 11 109
3 = 625 + 0,25 109 = 625 + 27,25 = ,
Deciles
Dividen a la distribucin en 10 secciones de igual
porcentaje de observaciones.
Son nueve:
Decil 1 (D1): valor de variable que deja bajo de s al 10% de
las observaciones.
Decil 2 (D2): valor de variable que deja bajo de s al 20% de
las observaciones.
Percentiles
Dividen a la distribucin en 100 secciones de igual
porcentaje de observaciones.
Son noventa y nueve:
Percentil 1 (P1): valor de variable que deja bajo de s al 1%
de las observaciones.
Percentil 23 (P23): valor de variable que deja bajo de s al
23% de las observaciones.
Deciles y percentiles
Para obtener deciles y percentiles se utilizan frmulas
similares a las de los cuartiles
La profundidad del decil o percentil k se define,
respectivamente, como:
+1
10
+1
100
10
= +
100
Deciles y percentiles
Si la tabla es sin intervalos y la profundidad del decil o
percentil en cuestin no es un nmero entero, puede
utilizarse la siguiente frmula
+1
= +
10
+1
= +
( )
100
Estadsticos de dispersin
Nos indican si las observaciones estn
cercanas o lejanas entre s.
Los ms utilizados son:
Desviacin estndar y varianza.
Coeficiente de variacin.
Rango intercuartlico (RIQ) y rango
semiintercuartlico (RSIQ).
Desviacin absoluta mediana (MAD) y desviacin
absoluta mediana normalizada (NMAD).
=1
=1
2
1
2
2 2
=1
=1
2 = 2 =
=
1
1
=1
2
2
=1
=
=
2
2
2
=1
=1
2
2
= =
=
2
2,1
4,41
5,1
26,01
6,1
37,21
5,1
26,01
4,6
21,16
6,1
37,21
6,5
42,25
5,0
25,00
3,6
12,96
Suma:
232,22
2 =
2 =
2
=1
2 232,22 9 4,912
=
1
91
= 2 =
1,9058875 ,
Coeficiente de variacin
Una de las desventajas de la desviacin estndar y de
la varianza es que su valor (y, por ende, su
interpretacin) depende de la escala de la variable.
Otra desventaja es que estn expresadas en la unidad
de la variables (cms, pesos, gramos, etc), por lo que no
permiten comparar la dispersin de dos variables
distintas.
El coeficiente de variacin (cv) expresa la relacin entre
el tamao de la media y de la d.e., expresando esta
ltima como proporcin o porcentaje de la primera:
=
=
100
RIQ y RSIQ
Ambas son medidas de dispersin que se utilizan junto a la
mediana cuando se describe una variable mtrica.
El RIQ es la diferencia entre el Q3 y el Q1. Nos indica la distancia
que contiene al 50% central de la distribucin:
= 3 1
El RSIQ es la mitad del RIQ, que podramos considerar un
homlogo a la d.e. para la mediana:
3 1
=
2
Otras medidas de dispersin utilizadas son el rango percentil 1090 y el rango percentil 5-95, que indican la distancia entre estos
percentiles.
Todas estas medidas son tiles cuando existen algunos valores
extremos que distorsionan la media y/o la desviacin estndar.
4,91
Para calcular el RIQ y el RSIQ necesitamos conocer los cuartiles 1 y 3:
2,1
3,6
4,6
Q1=4,1
5,0
9+1
9+1
=1
= 2,5 ; 3 = 3
= 7,5
4
4
Entonces:
= 6,1 4,1 =
5,1
5,1
6,1
6,1
6,5
Q3=6,1
6,1 4,1
=
2
MAD y NMAD
Comparten con el RIQ, el RSIQ y los rangos
percentiles mencionados anteriormente la
propiedad de ser robustos ante valores
extremos.
La MAD (median absolute deviation:
desviacin absoluta mediana) se define como
la mediana de las desviaciones absolutas
respecto de la mediana:
= ( () )
MAD y NMAD
Se puede utilizar la MAD para estimar la
desviacin estndar si la multiplicamos por
una constante k:
Para el caso de la distribucin normal esa
constante es 1,4826; obteniendo la desviacin
absoluta mediana normalizada (NMAD):
= 1,4826
MAD y NMAD
2,1
3,6
3,0
de los datos originales ya que es el mismo conjunto de
0,0
1,5
0,0
observaciones:
4,6
0,5
0,1
5,0
0,1
0,5
5,1
0,0
1,0
5,1
0,0
1,0
6,1
1,0
1,4
6,1
1,0
1,5
6,5
1,4
3,0
= = 5,1
= =
Obtenida la MAD podemos ahora hacer lo propio con la NMAD:
= 1,4826 MAD = 1,4826 1 = ,
Estadsticos de forma
Nos indican el grado en que la forma de la
distribucin de frecuencias se asemeja a la
distribucin normal.
Son slo dos:
Asimetra (skewness).
Apuntamiento o curtosis (kurtosis)
Asimetra
Si dividimos cualquier distribucin por un punto de referencia
central (eje de simetra) y comparamos ambas partes, la
distribucin ser simtrica si ambas partes parecen el reflejo de la
otra, mientras que ser asimtrica en caso contrario.
En general, se observa asimetra cuando existen valores alejados en
una cola de la distribucin.
Si estos valores se alejan hacia abajo de la media, se denomina
asimetra negativa.
Si estos valores se alejan hacia arriba de la media, se denomina
asimetra positiva.
Apuntamiento o curtosis
Es una medida de forma que nos informa si la
dispersin de la distribucin es mayor o menor que la
esperada para un distribucin normal.
Si la dispersin es menor, la distribucin presentar
una forma apuntada, denominndose leptocrtica.
Si la dispersin es normal se denomina mesocrtica.
Si la dispersin es mayor, la distribucin presentar una
forma aplanada, denominndose platicrtica.
Asimetra y curtosis
Existen diversos ndices para calcular la asimetra y la
curtosis, pero revisaremos slo uno de cada uno.
Definimos el ndice de asimetra como:
3/
3 =
3
Si 3 < 0, la asimetra es negativa. Si 3 > 0, es positiva.
Si 3 = 0, es simtrica.
Definimos el ndice de curtosis como:
4/
4 =
3
4
Asimetra y curtosis
Continuando con el ejemplo de las notas de estadstica de una muestra de
9 alumnos, sabemos que = 4,91 y = 1,38.
Calculamos, entonces, la asimetra:
3/ 17,061/9 1,896
3 =
=
=
= ,
3
1,383
2,628
Podemos concluir que la distribucin presenta asimetra negativa
2,1
-22,188
62,348
3,6
-2,248
2,945
4,6
-0,030
0,009
5,0
0,001
0,000
5,1
0,007
0,001
5,1
0,007
0,001
6,1
1,685
2,005
6,1
1,685
2,005
6,5
4,020
6,391
-17,061
75,705
Suma:
3
=
3
4
4
1,38
8,412
4 =
3 = 2,319 3 = ,
3,627
Podemos concluir que la distribucin es platicrtica.
Ntese que en este ejemplo ambos ndices
presentan magnitudes menores a la unidad.
Podemos decir, entonces, que tanto la asimetra
como la curtosis (negativas ambas) son leves.
Puntuacin tpica:
-1
-3
= ( )/
0,5
-0,5
-1,5
1,5