Sunteți pe pagina 1din 4

DEPARTAMENTO DE MATEMATICA, FISICA Y ESTADISTICA

ESTADISTICA DESCRIPTIVA
ANALISIS DE DATOS
MEDIDAS DE TENDENCIA CENTRAL
Al describir grupos de observaciones, con frecuencia
es conveniente resumir la informacin con un solo
nmero. Este nmero que, para tal fin, suele situarse
hacia el centro de la distribucin de datos se
denomina medida o parmetro de tendencia
central o de centralizacin
- MODA( x ): Es el dato de mayor frecuencia f

- MEDIA ARITMETICA( ) o x : Es el valor
promedio del conjunto total de datos.

1 1

( ) ( )
n n
i i
i i
x x
x
n n
muestral poblacional

= =
= =



- RANGO MEDIO (Rm): Es el valor promedio
entre el dato mayor y el dato menor.


2
dato mayor dato menor
Rm
+
=


- MEDIANA ( x ): Al ordenarse los datos de
menor a mayor (o viceversa), la mediana es
aquel dato que ocupa la posicin central.

Si el numero (n) de datos es impar, la
mediana es ocupa la posicin
1
2
n+
dentro de
la ordenacin.

Si el numero (n) de datos es par, la mediana
es el valor promedio de los datos que
ocupan las posiciones
2
1
n
+ y
2
n
dentro de
la ordenacin.

MEDIDAS DE POSICION RELATIVA
Al describir grupos de observaciones, es frecuente
que la informacin se resuma con referencia
nicamente a la posicin de parmetros dentro de la
distribucin, independientemente de que sta est
ms o menos centrada, se habla de estas medidas
como medidas de posicin
Entre las medidas de posicin ms importantes estn
los cuantiles.
El cuantil de orden p (o p-punto percentil) de una
distribucin (con 0 < p < 1) es el valor de la
variable x
p
que marca un corte de modo que una
proporcin p de valores de la poblacin es menor o
igual que x
p
.
Los Cuartiles (Q
i
), dividen a la distribucin
en cuatro partes iguales (El primer cuartil Q
1

es el 25-avo percentil, el segundo cuartil Q
2

es el 50-avo percentil y El tercer cuartil Q
3
es
el 75-avo percentil).

Los Deciles (D
i
), que dividen a la distribucin
en diez partes (asi: el primer decil D
1

equivale al 10-mo percentil, el 20-avo
percentil viene a ser el D
2
segundo decil, y
as ,)

Los Percentiles(p
i
), que dividen a la
distribucin en cien partes (p
5
es es quinto
percentil, p
16
es el 16-avo percentil ,)
Para conocer cualquier medida de posicin relativa
se sigue:
Ordenar los datos en forma ascendente
Expresar dicha medida en percentiles.
Determinar un ndice de posicin (i)
100
np
i =
(donde p es el percentil buscado)
Tener en cuenta que si i es no entero, se
aproxima al entero siguiente, y en caso de
que i sea entero, el percentil deseado es el
dato promedio de los datos determinados
por las posiciones i, e i+1 dentro de la
ordenacin.

DIAGRAMA DE TALLO Y HOJAS
Es una forma rpida de obtener una representacin
visual del conjunto de datos, es usado cuando hay un
nmero no muy pequeo de datos. Los diagramas de
tallos y hojas nos dan una idea de la localizacin de
los datos y de la forma de la distribucin.
Pasos para construir un diagrama de tallo y hojas:
1. Seleccionar uno o ms dgitos iniciales para
los valores de tallo. El dgito(s) final(es) se
convierte (n) en hojas. Para facilitar la
determinacin de la forma de la distribucin
de los datos se necesitan al menos 5 tallos.
2. Hacer una lista de valores de tallo en una
columna vertical.
3. Registrar las hojas por cada observacin
junto al valor correspondiente del tallo.
4. Indicar las unidades para tallos y hojas en
algn lugar del diagrama.
Esta tcnica funciona bien para los conjuntos de
datos que no tienen una dispersin muy grande. Si el
conjunto de datos tiene una distribucin
aproximadamente normal, el diagrama de tallos y
hojas tiene forma de campana.
Ejemplo 1:
Determine moda, media, mediana, rango medio,
primer y tercer cuartil, y sexto decil (interpretarlo)
para el siguiente conjunto de datos.
33 12 24 24 25 44 13 19 22 51 50
42 43 33 31 33 48 17 30 33 41 29
(Sugerencia: elaborar un diagrama de tallo y hojas)
Solucin:

Tallo hojas

1|2 3 7 9
2|2 4 4 5 9
3|0 1 3 3 3 3
4|1 2 3 4 8
5|0 1
Moda x = 33
Rango medio Rm = (12 + 51)/2 = 31,5
Media x = (12 + 13 +17 + +50 + 51)/22 = 31.68
Mediana: como el numero de datos es par n = 22, x
es el promedio de los datos en las posiciones
22
2 2
1 1 12
n
+ = + = y
22
2 2
11
n
= = , de la ordenacin
esto es: x =(31 + 33)/2 = 32
Q
1
= ?
Q
1
es el percentil 25. Es decir p = 25, entonces
22*25
100 100
5, 5 6
np
i = = = , por tanto el primer cuartil
ocupa la posicin 6 de la ordenacin, es decir Q
1
= 24
Q
3
= ?
Q
3
es el percentil 75. Es decir p = 75, entonces
22*75
100 100
16, 5 17
np
i = = = , por tanto el tercer cuartil
esta en posicin 17 de la ordenacin, es decir Q
3
= 42
D
6
= ?
D
6
es el percentil 60. Es decir p = 60, entonces
22*60
100 100
13.2 14
np
i = = = , por tanto el sexto decil
ocupa posicin 14 de la ordenacin, es decir D
6
= 33
Interpretacin: El 60% de los datos toman valores
menores o iguales a 33, o el 40% de los datos toman
valores superiores e iguales a 33.
MEDIDAS DE DISPERSION
Las medidas de dispersin cuantifican la separacin,
la dispersin, la variabilidad de los valores de la
distribucin respecto a un valor central (media,
mediana), cuanto mayor sea ese valor, mayor ser la
variabilidad, cuanto menor sea, ms homognea ser
a la media, mediana. As se sabe si todos los casos
son parecidos o varan mucho entre ellos.
- DESVIACION:

i
D dato media D x x = =


- DESVIACION MEDIA:
i
i
m
x x
D
n

=


- RANGO: R = Dato mayor dato menor

- RANGO INTERCUARTIL: RI = Q
3
Q
1


- VARIANZA: es el promedio del cuadrado de
las distancias entre cada observacin y la
media aritmtica del conjunto de
observaciones.

( ) ( )
2 2
2 2


1
i i
i i
muestral poblacional
x x x
s
n n

o

= =





- DESVIACION ESTANDAR:

( ) ( )
2 2


1
i i
i i
muestral poblacional
x x x
s
n n

o

= =




- COEFICIENTE DE VARIACION: Cuando se
quiere comparar el grado de dispersin de
dos distribuciones que no vienen dadas en
las mismas unidades o que las medias no
son iguales se utiliza el coeficiente de
variacin de Pearson que se define como el
cociente entre la desviacin tpica y el valor
absoluto de la media aritmtica
100%
v
s
C
x
=

CV representa el nmero de veces que la desviacin
tpica contiene a la media aritmtica y por lo tanto
cuanto mayor es CV mayor es la dispersin y menor
la representatividad de la media.
MEDIDAS DE DISTRIBUCION O ASIMETRIA:
Diremos que una distribucin es simtrica cuando su
mediana, su moda y su media aritmtica coinciden.
Diremos que una distribucin es asimtrica a la
derecha si las frecuencias (absolutas o relativas)
descienden ms lentamente por la derecha que por
la izquierda.
Si las frecuencias descienden ms lentamente por la
izquierda que por la derecha diremos que la
distribucin es asimtrica a la izquierda.
Existen varias medidas de la asimetra de una
distribucin de frecuencias.
El Coeficiente de asimetra, se representa mediante
la ecuacin matemtica,

( )
( )
3
1 3
2
3
1
*
1
*
i i
i
i i
i
x x n
n
g
x x n
n

=
| |

|
\ .




Donde (g1) representa el coeficiente de asimetra de
Fisher, (Xi) cada uno de los valores, ( ) la media de
la muestra y (ni) la frecuencia de cada valor.

Coeficiente de Asimetra de Pesaron: Slo se puede
utilizar en distribuciones uniformes, unimodales y
moderadamente asimtricas. Se basa en que en
distribuciones simtricas la media de la distribucin
es igual a la moda.
moda
o
p p
x x
A A
s

o

= =


Su valor es cero cuando la distribucin es simtrica,
positivo cuando existe asimetra a la derecha y
negativo cuando existe asimetra a la izquierda.

Ejemplo 2:
Determinar varianza, desviacin estndar,
coeficiente de variacin y la distribucin de los datos
del ejemplo 1.
Varianza (s
2
)
( )
( ) ( ) ( )
2
2 2 2
2
12 31.68 13 31.68 + 51 31.68
1 22 1
i
i
x x
s
n

+ +
= =


S
2
= 134,989
Desviacin estndar (s)
S =
2
var 134,989 11,6185 ianza s = = =

(Cv ) Coeficiente De variacin:
11.6135
100% 100% 36,6724%
31.68
v
s
C
x
= = =

Dado que la distribucin es unimodal (una moda),
para determinar la distribucin de los datos, se
puede apelar al coeficiente de variacin de Pearson

31.5 33
0.1291
11.6185
p
x x
A
s

= = =

Dado que Su valor es negativo existe asimetra a la
izquierda.
DIAGRAMA DE CAJA Y BIGOTES
Los diagramas de Caja-Bigotes (boxplots o box and
whiskers) son una presentacin visual que describe
caractersticas importantes, tales como la dispersin
y la simetra.

Consiste en una caja rectangular, donde los lados
ms largos muestran el recorrido intercuartlico
(rango intercuartil: RI). Este rectngulo est dividido
por un segmento vertical que indica donde se
posiciona la mediana y por lo tanto su relacin con
los cuartiles primero y tercero (recordemos que el
segundo cuartil coincide con la mediana).
Esta caja se ubica a escala sobre un segmento que
tiene como extremos los valores mnimo y mximo
de la variable. Las lneas que sobresalen de la caja se
llaman bigotes
Ejemplo 3:
Vamos a construir el respectivo diagrama de caja
para los datos del ejemplo 1, as:
1. Hacer un resumen de cinco nmeros:
Dato menor (d) 12
1er cuartil (Q
1
) 24
Mediana ( x )
32
3er cuartil (Q
2
) 42
Dato mayor (D) 51

2. Trazar una recta numrica, donde se hallan
ubicados los cinco nmeros el resumen.


d Q
1
x
Q
3
D
3. Entre Q
1
y Q
3
trace un rectngulo o caja, de
altura moderada.


Q
1
Q
3
4. Dentro de la caja, traza un segmento
perpendicular a la recta numrica y que
pase por la mediana.

Q
1

x
Q
3
5. Para determinar los bigotes, se halla el
rango intercuartil, RI = Q
3
Q
1
= 42 -24 = 18
y seguidamente se tiene:
Bigote largo a izquierda Bi = Q
1
3RI = - 30
bigote corto izquierdo bi = Q
1
1.5RI = - 3
bigote corto derecho bd = Q
3
+ 1,5RI = 69
Bigote largo derecho Bi = Q
3
+ 3RI = 96
Dado que en los datos del ejercicio de estudio, no
existen valores inferiores a 3 , ni superiores a 69, se
dice que no existen datos atpicos, por lo cual solo
basta trazar los bigotes cortos, as que finalmente
nuestro diagrama de caja y bigotes (boxplots o box
and whiskers) se tiene:


(-3) 12 24 32 42 51 (69)
6. Para representar a la media ( x ) dentro de
la caja con su respectiva posicin, se
emplea el signo +. Esto permite
determinar la simetra de los datos. (i) si el
signo + , se ubica a la izquierda de la barra
que representa a la mediana, se dice que
existe asimetra a izquierda. (ii) si el signo
+, queda a la derecha de x , se dice que
existe asimetra a positiva. y (iii) en caso que
el signo + caiga sobre la barra de x
, se
dice que la distribucin es simtrica

7.

S-ar putea să vă placă și