Documente Academic
Documente Profesional
Documente Cultură
Exploratorio de Datos
Analisis
Exploratorio de Datos
Universidad de Talca
Facultad de Ingeniera
Probabilidades y Estadstica
Bustamante
Mg. Eduardo Alarcon
eduardo.alarcon.b@gmail.com
Analisis
Exploratorio de Datos
1 Introduccion
de la Informacion
2 Organizacion
Conceptos basicos
Tipos de variable
3 Proceso de la informacion
de la informacion
mediante Tablas de frecuencia
Organizacion
de frecuencias para variables cualitativas
Tablas de distribucion
Graficos
para variables cualitativas
Metodos
para describir variables cuantitativas
Tablas de frecuencia para variables cuantitativas
de datos mediante distribucion
de frecuencias (Variables
Organizacion
cuantitativas continuas)
Metodo
grafico
para describir variables cuantitativas
Medidas numericas
entre media, mediana y moda segun
Relacion
el sesgo de la distribucion
de valores extremos
Deteccion
Z
Regla emprica y metodo
de puntuacion
de valores extremos mediante el Metodo
Deteccion
de Tuckey
Analisis
Exploratorio de Datos
Introduccion
La estadstica se encarga de
necesaria.
1 Reunir la informacion
2
3
4
5
Procesar la informacion
tablas resumen o
numericamente.
en el contexto que se esta trabajando
Analizar la informacion
correspondiente
Tomar la decision
y
Podemos definir estadstica como la ciencia de la recoleccion
analisis
de datos para la toma de decisiones 1
1 Ferreiro,
O. y Fernandez
de la Reguera, P. (1988) La estadstica, una ciencia en la
controversia. Revista Universitaria 25: 13-17
Analisis
Exploratorio de Datos
Introduccion
El fin ultimo
de la estadstica es la toma eficiente de decisiones, la
cual, teniendo en cuenta que los datos ya fueron tomados, pasa por
tres procesos fundamentales:
y proceso de la
Analisis
exploratorio de los datos (Organizacion
informacion)
Caclulo
de Probabilidades (Analisis
de la informacion)
Analisis
Confirmatorio (Toma de decisiones)
Analisis
Exploratorio de Datos
Introduccion
Analisis
Exploratorio de Datos
Introduccion
se
Antes de comenzar con el analisis
descriptivo de la informacion,
algunos conceptos importantes dentro de la estadstica.
definiran
(Poblacion)
Definicion
Es el conjunto de elementos, individuos o entes sujetos a estudio y
Analisis
Exploratorio de Datos
Introduccion
Analisis
Exploratorio de Datos
de la Informacion
Organizacion
Conceptos basicos
Analisis
Exploratorio de Datos
de la Informacion
Organizacion
Conceptos basicos
Analisis
Exploratorio de Datos
de la Informacion
Organizacion
Conceptos basicos
Analisis
Exploratorio de Datos
de la Informacion
Organizacion
Conceptos basicos
analisis
Analisis
Exploratorio de Datos
de la Informacion
Organizacion
Tipos de variable
cualitativa.
Los obtenidos a partir de una poblacion
cuantitativa.
Los obtenidos a partir de una poblacion
Analisis
Exploratorio de Datos
de la Informacion
Organizacion
Tipos de variable
numerica,
esta
se denomina Variable cuantitativa (Saldo en la
cuenta corriente, edad, velocidad, temperatura, cantidad de clientes
que prefieren cierto producto, etc).
Analisis
Exploratorio de Datos
de la Informacion
Organizacion
Tipos de variable
Analisis
Exploratorio de Datos
de la Informacion
Organizacion
Tipos de variable
Analisis
Exploratorio de Datos
de la Informacion
Organizacion
Tipos de variable
un orden jerarquico
entre las categoras.
2
Observe el siguiente tem de un Formulario de Evaluacion
evauacion.
en la variable.
2 Conferencia Regional: Construyendo Compromiso, Eficiencia y Equidad para
Analisis
Exploratorio de Datos
de la Informacion
Organizacion
Tipos de variable
Analisis
Exploratorio de Datos
de la Informacion
Organizacion
Tipos de variable
Analisis
Exploratorio de Datos
de la Informacion
Organizacion
Tipos de variable
Analisis
Exploratorio de Datos
de la Informacion
Organizacion
Tipos de variable
Analisis
Exploratorio de Datos
de la Informacion
Organizacion
Tipos de variable
Niveles de medicion
Una variable puede ser originalmente cuantitativamente continua o
discreta, pero la podemos medir como una variable ordinal. Por
ejemplo la edad o la Escolaridad
Analisis
Exploratorio de Datos
Proceso de la informacion
de la informacion
mediante Tablas de frecuencia
Organizacion
(Distribucion
de frecuencias)
Definicion
de frecuencia es un resumen tabular de datos que
Una distribucion
muestra el numero
(frecuencia) de elementos en cada una de las
Analisis
Exploratorio de Datos
Proceso de la informacion
de la informacion
mediante Tablas de frecuencia
Organizacion
Corresponde al numero
de unidades de analisis
que pertenecen a la
ni = n
i=1
(Frecuencia relativa)
Definicion
de unidades de analisis
Corresponde a la proporcion
que pertenecen
a la clase ci y se denota por fi , i = 1, . . . , k (i = 1, . . . , k) donde:
fi =
k
X
ni
;
fi = 1
n
i=1
Analisis
Exploratorio de Datos
Proceso de la informacion
de la informacion
mediante Tablas de frecuencia
Organizacion
Observacion
En algunos casos, para un mejor entendimiento, las frecuencias
relativas suelen transformarse en frecuencias porcentuales de la
siguiente forma:
Pk
hi = fi 100, donde i=1 hi = 100%
(Frecuencia Acumulada Absoluta)
Definicion
Corresponde al numero
acumulado de unidades de analisis
que
i
X
j=1
As N1 = n1 y Nk = n
nj , i = 1, 2, . . . , k
Analisis
Exploratorio de Datos
Proceso de la informacion
de la informacion
mediante Tablas de frecuencia
Organizacion
Corresponde a la proporcion
que
pertenecen a las clases c1 , c2 , . . . , ci y se denota por
Fi , (i = 1, 2, . . . , k), donde
Fi =
i
X
j=1
fj o Fi =
Ni
, i = 1, 2, . . . , k
n
As F1 = f1 y Fk = 1
En forma analoga,
es posible definir frecuencias acumuladas
porcentuales por: Hi = Fi 100, con H1 = h1 y Hk = 100%
Nota: La frecuencia acumulada para variables cualitativas tiene
en el nivel ordinal.
sentido solo
Analisis
Exploratorio de Datos
Proceso de la informacion
de frecuencias para variables cualitativas
Tablas de distribucion
de frecuencia de la valoracion
general del taller realizada
Tabla : Distribucion
a los participantes de la conferencia Regional sobre el agua potable en
Santiago de Chile en marzo de 2011.
Opinion
Muy malo
Malo
Regular
Bueno
Muy bueno
Total
Nro. part.
22
34
17
12
8
93
% part.
23,65
36,55
18,27
12,90
8,60
100
% acum. part.
23,65
60,2
78,47
91,37
100
Analisis
Exploratorio de Datos
Proceso de la informacion
de frecuencias para variables cualitativas
Tablas de distribucion
Sexo
Femenino
Masculino
Total
Nro. alumnos.
16
20
36
% alumnos.
44,4
55,6
100
Analisis
Exploratorio de Datos
Proceso de la informacion
Graficos
para variables cualitativas
Como
podemos presentar estos mismos datos
en un grafico?
Analisis
Exploratorio de Datos
Proceso de la informacion
Graficos
para variables cualitativas
Universidad Catolica
del Maule
Analisis
Exploratorio de Datos
Proceso de la informacion
Graficos
para variables cualitativas
Grafico
de Barras
Analisis
Exploratorio de Datos
Proceso de la informacion
Graficos
para variables cualitativas
Grafico
de Barras
Analisis
Exploratorio de Datos
Proceso de la informacion
Graficos
para variables cualitativas
Grafico
de Barras
Figure : Grafico
de barras: Sexo en la base de datos 1
Analisis
Exploratorio de Datos
Proceso de la informacion
Graficos
para variables cualitativas
Grafico
de Barras
Figure : Grafico
de barras: Sexo en la base de datos 1
Analisis
Exploratorio de Datos
Proceso de la informacion
Graficos
para variables cualitativas
Ejemplo Resumen
de frecuencias de de formas de hojas simples de una
Tabla : Distribucion
muestra de 39 hojas del parque de la Universidad de Talca, sector del
edificio Prosperidad, I semestre 2001.
Analisis
Exploratorio de Datos
Proceso de la informacion
Graficos
para variables cualitativas
Ejemplo Resumen
Figure : Grafico
de barras que muestra la frecuencia de formas de hojas
simples
Analisis
Exploratorio de Datos
Proceso de la informacion
Graficos
para variables cualitativas
Ejemplo Resumen
Figure : Grafico
circular que muestra la frecuencia de formas de hojas
simples
Analisis
Exploratorio de Datos
Proceso de la informacion
Metodos
para describir variables cuantitativas
Metodos
graficos
y numericos
para describir variables
cuantitativas
Analisis
Exploratorio de Datos
Proceso de la informacion
Metodos
para describir variables cuantitativas
Analisis
Exploratorio de Datos
Proceso de la informacion
Tablas de frecuencia para variables cuantitativas
Analisis
Exploratorio de Datos
Proceso de la informacion
Tablas de frecuencia para variables cuantitativas
de frecuencias tiene el
Para el primer caso, la tabla de distribucion
de frecuencias
mismo comportamiento que la tabla de distribucion
para variables cualitativas ordinales.
de frecuencias sufre
Para el segundo caso la tabla de distribucion
que esta relacionada con la creacion
de los
una leve modificacion
es utilizada para variables
intervalos de clases. Esta tabla tambien
cuantitativas del tipo continuo, por lo que veremos en la siguiente
la creacion
de estas tablas de frecuencia.
seccion
Analisis
Exploratorio de Datos
Proceso de la informacion
de datos mediante distribucion
de frecuencias (Variables cuantitativas continuas)
Organizacion
Marca de clase
m1
m2
..
.
ni
n1
n2
..
.
fi
f1
f2
..
.
Ni
N1
N2
..
.
Fi
F1
F2
..
.
ck
mk
nk
fk
Nk = n
Fk = 1
Analisis
Exploratorio de Datos
Proceso de la informacion
de datos mediante distribucion
de frecuencias (Variables cuantitativas continuas)
Organizacion
Meodo
para crear intervalos de clase
Se supone que la amplitud de los intervalos es la misma, se puede
de tablas de
seguir los siguientes pasos para la construccion
frecuencias de variables continuas.
Paso 1: Se debe definir el numero
de intervalos de clase para la
k n
Escoger el numero
de clases (intervalos). Se sugiere ,el entero
proximo
mas
de la Formula
de Sturges, dada por
k = 1 + 3, 3 log(n)
donde log() es el logaritmo en base 10.
especificaciones propias.
Analisis
Exploratorio de Datos
Proceso de la informacion
de datos mediante distribucion
de frecuencias (Variables cuantitativas continuas)
Organizacion
maximos
de los datos, respectivamente.
Paso 3: Calcular la amplitud (a)
a
R
k
Re R
2
Analisis
Exploratorio de Datos
Proceso de la informacion
de datos mediante distribucion
de frecuencias (Variables cuantitativas continuas)
Organizacion
Metodo
para crear intervalos de clase
Analisis
Exploratorio de Datos
Proceso de la informacion
de datos mediante distribucion
de frecuencias (Variables cuantitativas continuas)
Organizacion
Analisis
Exploratorio de Datos
Proceso de la informacion
de datos mediante distribucion
de frecuencias (Variables cuantitativas continuas)
Organizacion
40
k 6, 32
k 6
Paso 2: Calcular el Recorrido de la variable (Valor mayor, menos
valor menor de los datos).
R = xmax xmin
R = 6, 1 3, 3 = 2, 8
Analisis
Exploratorio de Datos
Proceso de la informacion
de datos mediante distribucion
de frecuencias (Variables cuantitativas continuas)
Organizacion
R
k
2, 8
6
a 0, 467
a
a 0, 5
Paso 4: Recalcular el recorrido (Recorrido efectivo)
Re = a k
Re = 0, 5 6
Re = 3
Analisis
Exploratorio de Datos
Proceso de la informacion
de datos mediante distribucion
de frecuencias (Variables cuantitativas continuas)
Organizacion
Li = xmin
Li = 3, 2
de frecuencias de las notas obtenidas por los alumnos del curso de
Distribucion
2011.
probabilidades y estadstica en el primer certamen del ano
Analisis
Exploratorio de Datos
Proceso de la informacion
de datos mediante distribucion
de frecuencias (Variables cuantitativas continuas)
Organizacion
Observe lo siguiente:
31 de los alumnos obtuvo una nota inferior a 5,2
35 de los alumnos obtuvo una nota inferior a 5,7
Aproximadamente, Cuantos
alumnos obtuvieron una nota inferior a
5,4?
Analisis
Exploratorio de Datos
Proceso de la informacion
de datos mediante distribucion
de frecuencias (Variables cuantitativas continuas)
Organizacion
35 31
(5, 4 5, 2) + 31 = 32, 6
5, 7 5, 2
Por lo que 32,6 (aprox. 33) estudiantes, correspondientes al 81,5%, obtuvo una nota
inferior a 5,4.
y=
Analisis
Exploratorio de Datos
Proceso de la informacion
de datos mediante distribucion
de frecuencias (Variables cuantitativas continuas)
Organizacion
y Ni1
Ni Ni1
=
; Observe que Ni Ni1 = ni y Ls Li = ai . As
x Li
Ls Li
n
y = Ni1 + i (x Li)
ai
y Ni1
x = Li +
ai
ni
Donde x es la variable en estudio e y es el porcentaje acumulado hasta x.
Analisis
Exploratorio de Datos
Proceso de la informacion
Metodo
grafico
para describir variables cuantitativas
Histograma
(Histograma)
Definicion
grafica
Es una representacion
para variables cuantitativas continuas
(o variables cuantitativas discretas con un recorrido de alta
Que el area
de las barras son proporcionales a la frecuencia del
Analisis
Exploratorio de Datos
Proceso de la informacion
Metodo
grafico
para describir variables cuantitativas
Analisis
Exploratorio de Datos
Proceso de la informacion
Metodo
grafico
para describir variables cuantitativas
Analisis
Exploratorio de Datos
Proceso de la informacion
Metodo
grafico
para describir variables cuantitativas
Analisis
Exploratorio de Datos
Proceso de la informacion
Analisis
Exploratorio de Datos
Proceso de la informacion
Analisis
Exploratorio de Datos
Proceso de la informacion
Analisis
Exploratorio de Datos
Proceso de la informacion
Analisis
Exploratorio de Datos
Proceso de la informacion
Analisis
Exploratorio de Datos
Proceso de la informacion
f (x)dx
a
Analisis
Exploratorio de Datos
Proceso de la informacion
es 1)
Analisis
Exploratorio de Datos
Proceso de la informacion
en C o , para un
Suponga que el error en la temperatura de reaccion,
experimento de laboratorio controlado es una varialbe continua X
cuyas frecuencias relativas pueden ser modeladas mediante la
siguiente funcion:
2
x
si 1 < x < 2
f (x) = 3
0
e.o.c.
Analisis
Exploratorio de Datos
Proceso de la informacion
Analisis
Exploratorio de Datos
Proceso de la informacion
Graficamente:
Analisis
Exploratorio de Datos
Proceso de la informacion
en C o , para un experimento de
Suponga que el error en la temperatura de reaccion,
laboratorio controlado es una varialbe continua X cuyas frecuencias relativas pueden
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
(Estadstica)
Definicion
Definicion
Un parametro
es una medida descriptiva numerica
calculada a partir de
distribucion.
de los datos
Miden la dispersion
Medidas de Dispersion:
relativa de una
Relativa: Describen la posicion
Medidas de Posicion
dentro de un conjunto de datos.
observacion
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Tendencia Central
Promedio
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Tendencia Central
Promedio
n.
(Promedio)
Definicion
Si x1 , x2 , . . . , xn denota una muestra de n observaciones, entonces el
promedio de la muestra se llama x-barra y se denota por
Pn
xi
x1 + x2 + + xn
x = i=1 =
n
n
Nota: Para datos tabulados, el promedio tiene un valor aproximado dado por:
X
n
X
ni mi
n
i=1
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Tendencia Central
Promedio
el promedio de la
Si se tienen TODOS los valores de una poblacion,
es la suma de todos los valores dividida por cuantos son.
poblacion
(N)
El parametro,
Promedio poblacional se denota por la letra Griega
(Mu)
PN
X =
i=1
xi
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Tendencia Central
Propiedades del promedio
(xi X ) = 0
i=1
xi
1
2
4
5
6
9
Promedio
4,5
xi x
-3,5
-2,5
-0,5
0,5
1,5
4,5
Suma
0
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Tendencia Central
Propiedades del promedio
La media aritmetica
del producto entre una constante k y una
variable X es igual al producto de esta constante por la media
aritmetica:
kX = k X
xi
1
2
4
5
6
9
Promedio
4,5
24,5=9
2 xi
2
4
8
10
12
18
Promedio
9
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Tendencia Central
Propiedades del promedio
aritmetica
de la variable X :
k +X =k +X
xi
1
2
4
5
6
9
Promedio
4,5
4,5+3=7,5
xi + 3
4
5
7
8
9
12
Promedio
7,5
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Tendencia Central
Propiedades del promedio
aritmetica
de la suma de estas variables es igual a la suma de las
medias respectivas, es decir:
X +Y =X +Y
xi
1
2
4
5
6
9
Promedio
4,5
4,5+5=9,5
yi
5
4
1
6
5
9
Promedio
5
xi + yi
6
6
5
11
11
18
Promedio
9,5
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Tendencia Central
Algunas consideraciones sobre el promedio
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Tendencia Central
Algunas consideraciones sobre el promedio
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Tendencia Central
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Tendencia Central
Algunas consideraciones sobre el promedio
es simetrica,
Si la distribucion
el promedio sera
mas
grande se mueve
Si la observacion
a la derecha (sesgada a la derecha), el
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Tendencia Central
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Tendencia Central
Definicion
Sea X una variable aleatoria cuantitativa descrita en un vector de n datos:
X = (x1 , x2 , x3 , . . . , xn )
Se define el vector de orden como un vector que tiene los valores de X
ordenados de menor a mayor y se denota por X() .
Si X = (x1 , x2 , x3 , . . . , xn ), entonces X() = (x(1) , x(2) , x(3) , . . . , x(n) )
Ejemplo
Sea X una variable que representa las alturas de 5 alumnos tomados al azar:
X = (1, 78; 1, 56; 1, 84; 1, 67; 1, 61)
Entonces
X() = (1, 56; 1, 61; 1, 67; 1, 78; 1, 84)
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Tendencia Central
Mediana
b) Mediana
(Mediana)
Definicion
La mediana de un conjunto de n observaciones, ordenadas de menor
a mayor, es un valor tal que la mitad de las observaciones son
menores o iguales que tal valor y la mitad de las observaciones son
mayores o iguales que ese valor.
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Tendencia Central
Mediana
( h
Me =
1
2
x( n ) + x( n +1)
2
2
x( n+1 )
2
si n es par
si n es impar
El calculo
de la mediana para datos tabulados se dara mas
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Tendencia Central
Mediana
Ejemplo
Numero
hde datos: 20 i
1
Me = 2 x( 20 ) + x( 20 +1) =
2
1
2
x(10) + x(11) =
43+44
2
= 43, 5 anos.
de 43,5 anos.
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
en C o , para un
Suponga que el error en la temperatura de reaccion,
experimento de laboratorio controlado es una varialbe continua X
cuyas frecuencias relativas pueden ser modeladas mediante la
siguiente funcion:
2
x
si 1 < x < 2
f (x) = 3
0
e.o.c.
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Tendencia Central
c) Moda
(Moda)
Definicion
frecuente
La moda de un conjunto de observaciones es el valor mas
La moda del conjunto: {0,0,0,0,1,1,2,2,3,4} es 0.
El conjunto {0,0,0,1,1,2,2,2,3,4} tiene dos modas: 0 y 2
(bimodal)
El conjunto {0,1,2,4,5,8} no tiene moda
La moda a menudo no es utilizada como medida de tendencia
central para datos cuantitativos.
La moda para datos tabulaos suele ser la marca de clase que
presenta la mayor frecuencia.
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Tendencia Central
Moda
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Tendencia Central
Moda
Sea
f (x) =
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Tendencia Central
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Dispersion
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Dispersion
a) Rango
mas
simple y se
El Rango es la medida de variabilidad o dispersion
Rango=maximo-m
nimo
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Dispersion
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Dispersion
Estandar
b) Desviacion
de las observaciones a la
Es una medida de entrega la dispersion
media y se interpreta como un Promedio de la distancia de las
observaciones a la media
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Dispersion
desviacion
16+1+9
2
varianza muestral =
= 13
13 3, 6
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
de la desviacion
Estandar
Interpretacion
estandar
Pensemos la desviacion
como aproximadamente un
promedio de las distancias de las observaciones a la media.
estandar
es cero.
estandar
alejados
La desviacion
es positiva y mientras mas
los valors del promedio, mayor sera la desviacion
estandar.
estan
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Dispersion
(Desviacion
Estandar)
Definicion
Si x1 , x2 , . . . , xn denota una muestra de n observaciones, entonces la
estandar
desviacion
muestral se denota por
sP
r
n
2
(x1 x)2 + (x2 x)2 + + (xn x)2
i=1 (xi x)
sX =
=
n1
n1
sX2
1 X
ni (mi x)2
n1
i=1
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Dispersion
la Desviacion
estandar
poblacional, se denota por la letra Griega (sigma) y se
calcula como
s
PN
2
i=1 (xi X )
X =
N
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Dispersion
Notas
estandar
La varianza y la desviacion
no son medidas de
variabilidad distintas, debido a que la ultima
no puede
con la
A menudo se prefiere la desviacion
en relacion
varianza, ya que se expresa en las mismas unidades fsicas de
las observaciones.
As como el promedio es una medida de tendencia central que
tampoco es
estandar,
que utiliza el promedio en su definicion,
resistente a valores extremos.
una medida de dispersion
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
sy2 = a2 sx2
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Dispersion
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Dispersion
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Dispersion
Notas:
Cuando el numero
de observaciones es impar, entonces la
Si la distribucion
los cuartiles deben
estar a la misma distancia de la mediana.
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Dispersion
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Dispersion
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
(CV )
Coeficiente de variacion
sX
100%
x
Mientras mas
son
los datos.
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Ejercicio
En una empresa de dispositivos para computador, el coeficiente de
(C.V.) de los sueldos (en U.F.) de n empleados es de 6,1%.
variacion
Segun
la ley, todos los sueldos deben ser reajustados en un 12%.
debido a las utilidades que ha tenido la empresa, la
Ademas,
de una U.F. por empleado, con
gerencia decide dar una bonificacion
lo cual, el C.V. queda en un 5,6%. Determine el promedio y la
estandar
desviacion
de los sueldos de los n empleados, antes de las
modificaciones salariales.
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
relativa
Medidas de Posicion
Definicion
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
relativa
Medidas de Posicion
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
relativa
Medidas de Posicion
(Quintiles)
Definicion
Los quintiles dividen el conjunto ordenado de datos en cinco partes
iguales
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
relativa
Medidas de Posicion
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
relativa
Medidas de Posicion
Fuente:http://www.fundacionpobreza.cl/EditorFiles/File/Umbrales/cap1.pdf
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
relativa
Medidas de Posicion
Percentiles para datos tabulados
Recordemos que
x = Li +
As
P = Li +
y Ni1
ai
ni
n
100
Ni1
ni
ai
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
relativa
Medidas de Posicion
Percentiles para datos tabulados
Del ejemplo de las notas obtenidas por los alumnos del curso de
2011.
probabilidades y estadstica en el primer certamen del ano
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
relativa
Medidas de Posicion
Percentiles para funciones
f (x)dx =
100
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Forma
Coeficiente de Asimetra de Pearson
(Sesgo sk )
Definicion
Indice que expresa el grado de asimetra de la distribucion
de los
3(X Me )
S
es simtrica.
Si sk = 0; entonces la distribucion
es asimetrica
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Forma
Coeficiente de Asimetra de Pearson
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
sesgo de la distribucion
de los datos es simetrica
Caso 1: Si la distribucion
(No sesgada)
x = Me = Mo
de los datos es asimetrica
Caso 2: Si la distribucion
hacia la derecha
(Sesgo positivo)
Mo < Me < x
de los datos es asimetrica
Caso 3: Si la distribucion
hacia la
izquierda (Sesgo negativo)
x < Me < Mo
Nota: La mediana (Me ) siempre se hallara entre el promedio (x) y la
moda (Mo ) ya que no es afectada por datos extremos.
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Forma
Coeficiente de Curtosis basado en percentiles
(Curtosis ())
Definicion
indica el grado de Apuntamiento de la distribucion.
Su interpretacion
con apuntamiento muy bajo (Distribucion
aplanada), se puede
Para una distribucion
de los es muy dispersa, por el contrario para una distribucion
P75 P25
2(P90 P10 )
es mas
puntiaguda (Leptocurtica).
Si > 0, 263; entonces la distribucion
Si = 0, 263; (proximos
a cero) entonces indican semejanza con la curva
normal (Mesocurtica).
es mas
aplanada (Platicurtica).
Si < 0, 263; entonces la distribucion
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Medidas numericas
Medidas de Forma
Coeficiente de Curtosis basado en percentiles
Analisis
Exploratorio de Datos
Proceso de la informacion
Medidas numericas
Analisis
Exploratorio de Datos
Proceso de la informacion
de valores extremos
Deteccion
Analisis
Exploratorio de Datos
Proceso de la informacion
de valores extremos
Deteccion
x 2s
x 3s
z
Metodo
de la puntuacion
Si consideramos la regla emprica, sabemos que aproximadamente
el 100% de los datos esta en el intervalo [x 3s; x + 3s]. Es muy
improbable que un dato esta fuera de este intervalo, y en caso que
fuese, este
se llamara un dato atpico. Es decir, un dato es no
atpico si:
xi x
xi x
3
xi [x 3s; x + 3s]
[3, 3]
s
s
.
zi = xi x
As, Si consideramos la transformacion
s , entonces un datos
xi se considera como atpico si |zi | > 3
Analisis
Exploratorio de Datos
Proceso de la informacion
de valores extremos
Deteccion
xi > Q3 + 1, 5 (Q3 Q1 )
de las
Identifique si existen o no valores atpicos en la distribucion
edades de los 20 sujetos.
Analisis
Exploratorio de Datos
Proceso de la informacion
de valores extremos
Deteccion
de datos atpicos
Metodo
grafico
para la deteccion
Grafico
de caja (boxplot)
Analisis
Exploratorio de Datos
Proceso de la informacion
de valores extremos
Deteccion
de datos atpicos
Metodo
grafico
para la deteccion
Grafico
de caja (boxplot)
Se traza un rectangulo
cuyos extremos se ubican en el primer y tercer cuartil.
xi > Q3 + 1, 5 (Q3 Q1 )
maximo
dato que se encuentran dentro de las barreras internas. Desde los
extremos de la caja se trazan lneas hasta los respectivos valores adyacentes. A
estas lneas se les llama antenas o bigotes.
Analisis
Exploratorio de Datos
Proceso de la informacion
de valores extremos
Deteccion
de datos atpicos
Metodo
grafico
para la deteccion
Grafico
de caja (boxplot)
Grafico
de cajas para la edad: Las medidas que necesitamos son:
min = 32;
Q1 = 41;
Mediana = 43, 5;
Q3 = 46, 5;
max = 51
mas
como vimos antes en el histograma.
Analisis
Exploratorio de Datos
Proceso de la informacion
de valores extremos
Deteccion
de datos atpicos
Metodo
grafico
para la deteccion
Grafico
de caja (boxplot)
medico
Analisis
Exploratorio de Datos
Proceso de la informacion
de valores extremos
Deteccion
de datos atpicos
Metodo
grafico
para la deteccion
Grafico
de caja (boxplot)
Analisis
Exploratorio de Datos
Proceso de la informacion
de valores extremos
Deteccion
de datos atpicos
Metodo
grafico
para la deteccion
Grafico
de caja (boxplot)
grupos.
dos o mas