Sunteți pe pagina 1din 128

Analisis

Exploratorio de Datos

Analisis
Exploratorio de Datos
Universidad de Talca
Facultad de Ingeniera
Probabilidades y Estadstica
Bustamante
Mg. Eduardo Alarcon
eduardo.alarcon.b@gmail.com

Primer Semestre 2015


Analisis
Exploratorio de Datos

1 Introduccion
de la Informacion

2 Organizacion

Conceptos basicos
Tipos de variable

3 Proceso de la informacion
de la informacion
mediante Tablas de frecuencia
Organizacion
de frecuencias para variables cualitativas
Tablas de distribucion

Graficos
para variables cualitativas

Metodos
para describir variables cuantitativas
Tablas de frecuencia para variables cuantitativas
de datos mediante distribucion
de frecuencias (Variables
Organizacion
cuantitativas continuas)

Metodo
grafico
para describir variables cuantitativas

Frecuencias de una variable cuantitativa continua como una funcion

Medidas numericas
entre media, mediana y moda segun

Relacion
el sesgo de la distribucion
de valores extremos
Deteccion

Z
Regla emprica y metodo
de puntuacion
de valores extremos mediante el Metodo

Deteccion
de Tuckey


Analisis
Exploratorio de Datos

Introduccion

La estadstica se encarga de
necesaria.
1 Reunir la informacion
2
3

4
5

mediante una base de datos.


Organizar u ordenar la informacion
mediante graficos,

Procesar la informacion
tablas resumen o

numericamente.
en el contexto que se esta trabajando
Analizar la informacion
correspondiente
Tomar la decision

y
Podemos definir estadstica como la ciencia de la recoleccion

analisis
de datos para la toma de decisiones 1

1 Ferreiro,

O. y Fernandez
de la Reguera, P. (1988) La estadstica, una ciencia en la
controversia. Revista Universitaria 25: 13-17


Analisis
Exploratorio de Datos

Introduccion

El fin ultimo
de la estadstica es la toma eficiente de decisiones, la

cual, teniendo en cuenta que los datos ya fueron tomados, pasa por
tres procesos fundamentales:

y proceso de la
Analisis
exploratorio de los datos (Organizacion

informacion)

Caclulo
de Probabilidades (Analisis
de la informacion)

Analisis
Confirmatorio (Toma de decisiones)


Analisis
Exploratorio de Datos

Introduccion


Analisis
Exploratorio de Datos

Introduccion

se
Antes de comenzar con el analisis
descriptivo de la informacion,
algunos conceptos importantes dentro de la estadstica.
definiran
(Poblacion)

Definicion
Es el conjunto de elementos, individuos o entes sujetos a estudio y

de los cuales queremos obtener un valor (parametro).


El tamano
poblacional lo denotaremos por N.
(Muestra)
Definicion
que se estudia para determinar el valor
Subconjunto de la poblacion
(estadstico) que describe la caracterstica deseada de la misma. El
muestral lo denotaremos por n.
tamano


Analisis
Exploratorio de Datos

Introduccion

Para poder realizar un analisis


descriptivo necesitamos datos, los

cuales son obtenidos desde los entes pertenecientes a la poblacion,

los que en estadstica se denominan Unidad de analisis.


Analisis
Exploratorio de Datos
de la Informacion

Organizacion

Conceptos basicos

A cada unidad de analisis


se le mide una caracterstica de interes
(por ejemplo: Edad, Sexo, Cantidad de Hermanos, Altura, etc...) el

conjunto de caractersticas medidas a las n unidades de analisis


se
le denomina Base de datos.
(Base de datos)
Definicion
basica

obtenida para realizar una


Orgnizacion
de la informacion
La estructra es rectangular compuesta por n filas y p
investigacion.
columnas.

Donde n es la cantidad de unidades de analisis


medidas y p es la
cantidad de caractersticas medidas.


Analisis
Exploratorio de Datos
de la Informacion

Organizacion

Conceptos basicos


Analisis
Exploratorio de Datos
de la Informacion

Organizacion

Conceptos basicos

BASE DE DATOS 1= Datos de 36 alumnos de un curso de


Estadstica en la UCM


Analisis
Exploratorio de Datos
de la Informacion

Organizacion

Conceptos basicos

Cada una de estas caractersticas que se encuentran en la base de


datos se denomina Variable estadstica
(Variable Estadstica)
Definicion
Caracterstica medida que puede cambiar de unidad en unidad de

analisis


Analisis
Exploratorio de Datos
de la Informacion

Organizacion
Tipos de variable

Dentro de una base de datos nos podemos encontrar con muchas


variables, por lo que es indispensable clasificarlas segun
su origen.
Nos encontramos con dos tipos de variable segun
su origen
1
2

cualitativa.
Los obtenidos a partir de una poblacion
cuantitativa.
Los obtenidos a partir de una poblacion


Analisis
Exploratorio de Datos
de la Informacion

Organizacion
Tipos de variable

Cuando la variable en estudio es no numerica,


esta
se denomina

estado civil, lugar de


Variable cualitativa (genero,
religion,

nacimiento, nivel socio economico,


color de preferencia, nivel de
riesgo, etc).
Cuando la variable estudiada puede ser expresada de forma

numerica,
esta
se denomina Variable cuantitativa (Saldo en la
cuenta corriente, edad, velocidad, temperatura, cantidad de clientes
que prefieren cierto producto, etc).


Analisis
Exploratorio de Datos
de la Informacion

Organizacion
Tipos de variable

Tipos de Variable Cualitativa


Analisis
Exploratorio de Datos
de la Informacion

Organizacion
Tipos de variable

Variables cualitativas nominales


La caracterstica de esta variable es que sus valores no necesariamente

tienen un orden jerarquico


entre las categoras.

Figure : Ejemplo de una variable cualitativa nominal

Que a esta persona le hayan rechazado su licencia medica


por Reposo
injustificado (1), no quiere decir que su motivo de rechazo es menos grave
o menos significativo que si hubiera sido rechazada por Incumplimiento (4).
El numero
asignado a cada categora no tiene una jerarqua asignada.


Analisis
Exploratorio de Datos
de la Informacion

Organizacion
Tipos de variable

Variables cualitativas ordinales


La caracterstica de esta variable es que sus valores necesariamente tienen

un orden jerarquico
entre las categoras.
2
Observe el siguiente tem de un Formulario de Evaluacion

Figure : Ejemplo de una variable cualitativa ordinal


del contenido sustantivo del taller,
Si ud asigna el valor 1 en su evaluacion
entonces estara evaluando peor que si hubiera asignado el valor 3 a su
Esto quiere decir que las categoras tienen un orden jerarquico

evauacion.
en la variable.
2 Conferencia Regional: Construyendo Compromiso, Eficiencia y Equidad para

Servicios Sustentables de Agua Potable y Saneamiento en America


Latina y el Caribe
(Sede de la CEPAL en Santiago de Chile, los das 15 y 16 de marzo de 2011.)


Analisis
Exploratorio de Datos
de la Informacion

Organizacion
Tipos de variable

Tipos de Variable Cuantitativa


Analisis
Exploratorio de Datos
de la Informacion

Organizacion
Tipos de variable

Variable cuantitativas Discretas

Si la variable cuantitativa toma valores en un conjunto contable


(conjunto finito o infinito numerable) entonces se dice que es de tipo
discreta. Por ejemplo, El numero
de respuestas correctas en una

prueba de 5 preguntas de Verdadero o Falso

Figure : Ejemplo de una variable cuantitativa discreta


Analisis
Exploratorio de Datos
de la Informacion

Organizacion
Tipos de variable

Variable cuantitativas Continuas


Si la variable cuantitativa toma valores en un conjunto no contable
(intervalo) (conjunto infinito no numerable) entonces se dice que es
de tipo continua. Por ejemplo: Cantidad de agua en un vaso de 50
ml.

Figure : Ejemplo de una variable cuantitativa continua


Analisis
Exploratorio de Datos
de la Informacion

Organizacion
Tipos de variable


Analisis
Exploratorio de Datos
de la Informacion

Organizacion
Tipos de variable

Niveles de medicion
Una variable puede ser originalmente cuantitativamente continua o
discreta, pero la podemos medir como una variable ordinal. Por
ejemplo la edad o la Escolaridad


Analisis
Exploratorio de Datos

Proceso de la informacion
de la informacion
mediante Tablas de frecuencia
Organizacion

(Distribucion
de frecuencias)
Definicion
de frecuencia es un resumen tabular de datos que
Una distribucion
muestra el numero
(frecuencia) de elementos en cada una de las

diferentes clases disjuntas.


Se distinguen 3 tipos de frecuencia
Frecuencia Absoluta
Frecuencia Relativa
Frecuencia Acumulada (Absoluta y Relativa)


Analisis
Exploratorio de Datos

Proceso de la informacion
de la informacion
mediante Tablas de frecuencia
Organizacion

Supongamos que se desea estudiar una variable que esta agrupada


en k clases excluyentes c1 , c2 , . . . , ck , entonces se define
(Frecuencia absoluta)
Definicion

Corresponde al numero
de unidades de analisis
que pertenecen a la

clase ci y se denota por ni , (i = 1, . . . , k ) donde:


k
X

ni = n

i=1

(Frecuencia relativa)
Definicion
de unidades de analisis

Corresponde a la proporcion
que pertenecen
a la clase ci y se denota por fi , i = 1, . . . , k (i = 1, . . . , k) donde:
fi =

k
X
ni
;
fi = 1
n
i=1


Analisis
Exploratorio de Datos

Proceso de la informacion
de la informacion
mediante Tablas de frecuencia
Organizacion

Observacion
En algunos casos, para un mejor entendimiento, las frecuencias
relativas suelen transformarse en frecuencias porcentuales de la
siguiente forma:
Pk
hi = fi 100, donde i=1 hi = 100%
(Frecuencia Acumulada Absoluta)
Definicion

Corresponde al numero
acumulado de unidades de analisis
que

pertenecen a las clases c1 , c2 , . . . , ci y se denota por


Ni , (i = 1, 2, . . . , k), donde
Ni =

i
X
j=1

As N1 = n1 y Nk = n

nj , i = 1, 2, . . . , k


Analisis
Exploratorio de Datos

Proceso de la informacion
de la informacion
mediante Tablas de frecuencia
Organizacion

(Frecuencia Acumulada Relativa)


Definicion
acumulada de unidades de analisis

Corresponde a la proporcion
que
pertenecen a las clases c1 , c2 , . . . , ci y se denota por
Fi , (i = 1, 2, . . . , k), donde
Fi =

i
X
j=1

fj o Fi =

Ni
, i = 1, 2, . . . , k
n

As F1 = f1 y Fk = 1

En forma analoga,
es posible definir frecuencias acumuladas
porcentuales por: Hi = Fi 100, con H1 = h1 y Hk = 100%
Nota: La frecuencia acumulada para variables cualitativas tiene
en el nivel ordinal.
sentido solo


Analisis
Exploratorio de Datos

Proceso de la informacion
de frecuencias para variables cualitativas
Tablas de distribucion

de frecuencia de la valoracion
general del taller realizada
Tabla : Distribucion
a los participantes de la conferencia Regional sobre el agua potable en
Santiago de Chile en marzo de 2011.

Opinion
Muy malo
Malo
Regular
Bueno
Muy bueno
Total

Nro. part.
22
34
17
12
8
93

% part.
23,65
36,55
18,27
12,90
8,60
100

Nro. acum. part.


22
56
73
85
93

% acum. part.
23,65
60,2
78,47
91,37
100


Analisis
Exploratorio de Datos

Proceso de la informacion
de frecuencias para variables cualitativas
Tablas de distribucion

de Frecuencias del Sexo de la Base de Datos 1


Tabla : Tabla de Distribucion

Sexo
Femenino
Masculino
Total

Nro. alumnos.
16
20
36

% alumnos.
44,4
55,6
100


Analisis
Exploratorio de Datos

Proceso de la informacion

Graficos
para variables cualitativas

Como
podemos presentar estos mismos datos

en un grafico?


Analisis
Exploratorio de Datos

Proceso de la informacion

Graficos
para variables cualitativas

Diagrama Sectorial o de tortas

del Sexo de los alumnos de Estadstica de la


Figure : Distribucion

Universidad Catolica
del Maule


Analisis
Exploratorio de Datos

Proceso de la informacion

Graficos
para variables cualitativas

Grafico
de Barras

Fuente: El Mercurio, marzo de 2005


Analisis
Exploratorio de Datos

Proceso de la informacion

Graficos
para variables cualitativas

Grafico
de Barras

Fuente: El Mercurio, 1 de agosto de 2010


Analisis
Exploratorio de Datos

Proceso de la informacion

Graficos
para variables cualitativas

Grafico
de Barras

Compare los siguientes graficos,


cuales
son las diferencias?

Figure : Grafico
de barras: Sexo en la base de datos 1


Analisis
Exploratorio de Datos

Proceso de la informacion

Graficos
para variables cualitativas

Grafico
de Barras

Compare los siguientes graficos,


cuales
son las diferencias?

Figure : Grafico
de barras: Sexo en la base de datos 1


Analisis
Exploratorio de Datos

Proceso de la informacion

Graficos
para variables cualitativas

Ejemplo Resumen
de frecuencias de de formas de hojas simples de una
Tabla : Distribucion
muestra de 39 hojas del parque de la Universidad de Talca, sector del
edificio Prosperidad, I semestre 2001.


Analisis
Exploratorio de Datos

Proceso de la informacion

Graficos
para variables cualitativas

Ejemplo Resumen

Figure : Grafico
de barras que muestra la frecuencia de formas de hojas
simples


Analisis
Exploratorio de Datos

Proceso de la informacion

Graficos
para variables cualitativas

Ejemplo Resumen

Figure : Grafico
circular que muestra la frecuencia de formas de hojas
simples


Analisis
Exploratorio de Datos

Proceso de la informacion

Metodos
para describir variables cuantitativas

Metodos
graficos
y numericos
para describir variables
cuantitativas


Analisis
Exploratorio de Datos

Proceso de la informacion

Metodos
para describir variables cuantitativas


Analisis
Exploratorio de Datos

Proceso de la informacion
Tablas de frecuencia para variables cuantitativas

En el caso de las variables cuantitativas discretas se observa que


existen dos tipos:
1

Donde la variable tiene un bajo rango de variabilidad, por


ejemplo: Nro. de hermanos que tienen los alumnos de ingeniera
(0,1,2,3,4,5), Nro. de artculos defectuosos en un pedido
(0,1,2,3), Nro. de computadores por familia (0,1,2,3), etc...

Donde la variable tiene un recorrido de alta variabilidad, como


por ejemplo Nro. de pisos que tienen los edificios de Chile
(2,3,6,7,8,10,...,33,34,35,etc...), Cantidad de dinero en la cuenta
corriente de los alumnos de la Universidad de Talca
(0,,10.000,11.000,11.100,12.000,12.100,51.100,51.110,etc...).


Analisis
Exploratorio de Datos

Proceso de la informacion
Tablas de frecuencia para variables cuantitativas

de frecuencias tiene el
Para el primer caso, la tabla de distribucion
de frecuencias
mismo comportamiento que la tabla de distribucion
para variables cualitativas ordinales.
de frecuencias sufre
Para el segundo caso la tabla de distribucion
que esta relacionada con la creacion
de los
una leve modificacion
es utilizada para variables
intervalos de clases. Esta tabla tambien
cuantitativas del tipo continuo, por lo que veremos en la siguiente
la creacion
de estas tablas de frecuencia.
seccion


Analisis
Exploratorio de Datos

Proceso de la informacion
de datos mediante distribucion
de frecuencias (Variables cuantitativas continuas)
Organizacion

Si la variable bajo estudio es cuantitativa continua (o discreta con un


alto rango de variabilidad), entonces el esquema de tabla anterior
que esta relacionada con la creacion
de
sufre un leve modificacion
los intervalos de clases. En este caso el esquema de la tabla es el
siguiente:
Intervalos (Clases)
c1
c2
..
.

Marca de clase
m1
m2
..
.

ni
n1
n2
..
.

fi
f1
f2
..
.

Ni
N1
N2
..
.

Fi
F1
F2
..
.

ck

mk

nk

fk

Nk = n

Fk = 1

Donde la marca de clase i-esima


(mi ) corresponde al promedio

del intervalo i-esimo


(i = 1, ..., k ).
Donde cj = [Li; Ls) con j = 1, . . . , k


Analisis
Exploratorio de Datos

Proceso de la informacion
de datos mediante distribucion
de frecuencias (Variables cuantitativas continuas)
Organizacion

Meodo
para crear intervalos de clase
Se supone que la amplitud de los intervalos es la misma, se puede
de tablas de
seguir los siguientes pasos para la construccion
frecuencias de variables continuas.
Paso 1: Se debe definir el numero
de intervalos de clase para la

variable en estudio. Existen muchas formas de establecer este


numero,
como por ejemplo:

Raz cuadrada de n: A partir de la raz cuadrada del numero


de

datos, decidimos, redondeando el numero


de intervalos.

k n
Escoger el numero
de clases (intervalos). Se sugiere ,el entero

proximo

mas
de la Formula
de Sturges, dada por
k = 1 + 3, 3 log(n)
donde log() es el logaritmo en base 10.

El investigador puede elegir el nomero


de clases segun

especificaciones propias.


Analisis
Exploratorio de Datos

Proceso de la informacion
de datos mediante distribucion
de frecuencias (Variables cuantitativas continuas)
Organizacion

Paso 2: Calcular el recorrido de la variable (R);


R = xmax xmin
donde xmax y xmin corresponden a los valores mnimos y

maximos
de los datos, respectivamente.
Paso 3: Calcular la amplitud (a)
a

R
k

Paso 4: Recalcular el Recorrido (Recorrido efectivo)


Re = a k
Paso 5: Recalcular el primer lmite inferior Li :
Li = xmin

Re R
2


Analisis
Exploratorio de Datos

Proceso de la informacion
de datos mediante distribucion
de frecuencias (Variables cuantitativas continuas)
Organizacion

Metodo
para crear intervalos de clase

Paso 6: Para obtener las restantes clases (cj ), se suma


sucesivamente la amplitud obtenida (a) al lmite inferior (Li),
donde el lmite inferior de las sucesivas clases correspondera a
lmite superior de la clase anterior.


Analisis
Exploratorio de Datos

Proceso de la informacion
de datos mediante distribucion
de frecuencias (Variables cuantitativas continuas)
Organizacion

Los siguientes datos corresponden a las notas obtenidas por los


alumnos del curso de probabilidades y estadstica en el primer
2011.
certamen del ano


Analisis
Exploratorio de Datos

Proceso de la informacion
de datos mediante distribucion
de frecuencias (Variables cuantitativas continuas)
Organizacion

Paso 1: Calcular el numero


de intervalos de clase

Cuando no se nos dice nada el numero


de intervalos debemos

calcular una cantidad. Una manera de hacerlo es calculando la raz


cuadrada del numero
de datos observados (n).

40

k 6, 32
k 6
Paso 2: Calcular el Recorrido de la variable (Valor mayor, menos
valor menor de los datos).
R = xmax xmin
R = 6, 1 3, 3 = 2, 8


Analisis
Exploratorio de Datos

Proceso de la informacion
de datos mediante distribucion
de frecuencias (Variables cuantitativas continuas)
Organizacion

Paso 3: Calcular la amplitud (a)


a

R
k

2, 8
6
a 0, 467
a

a 0, 5
Paso 4: Recalcular el recorrido (Recorrido efectivo)
Re = a k
Re = 0, 5 6
Re = 3


Analisis
Exploratorio de Datos

Proceso de la informacion
de datos mediante distribucion
de frecuencias (Variables cuantitativas continuas)
Organizacion

Paso 5: Recalcular el primer lmite inferior Li:


Re R
2
3 2, 8
Li = 3, 3
2
Li = 3, 3 0, 1

Li = xmin

Li = 3, 2
de frecuencias de las notas obtenidas por los alumnos del curso de
Distribucion
2011.
probabilidades y estadstica en el primer certamen del ano


Analisis
Exploratorio de Datos

Proceso de la informacion
de datos mediante distribucion
de frecuencias (Variables cuantitativas continuas)
Organizacion

Observe lo siguiente:
31 de los alumnos obtuvo una nota inferior a 5,2
35 de los alumnos obtuvo una nota inferior a 5,7

Aproximadamente, Cuantos
alumnos obtuvieron una nota inferior a
5,4?


Analisis
Exploratorio de Datos

Proceso de la informacion
de datos mediante distribucion
de frecuencias (Variables cuantitativas continuas)
Organizacion

Por semejanza de triangulos


tenemos lo siguiente:
y 31
35 31
=
5, 4 5, 2
5, 7 5, 2
As

35 31
(5, 4 5, 2) + 31 = 32, 6
5, 7 5, 2
Por lo que 32,6 (aprox. 33) estudiantes, correspondientes al 81,5%, obtuvo una nota
inferior a 5,4.
y=


Analisis
Exploratorio de Datos

Proceso de la informacion
de datos mediante distribucion
de frecuencias (Variables cuantitativas continuas)
Organizacion

En general, tenemos lo siguiente:

y Ni1
Ni Ni1
=
; Observe que Ni Ni1 = ni y Ls Li = ai . As
x Li
Ls Li
n
y = Ni1 + i (x Li)
ai
y Ni1
x = Li +
ai
ni
Donde x es la variable en estudio e y es el porcentaje acumulado hasta x.


Analisis
Exploratorio de Datos

Proceso de la informacion

Metodo
grafico
para describir variables cuantitativas

Histograma

(Histograma)
Definicion
grafica

Es una representacion
para variables cuantitativas continuas
(o variables cuantitativas discretas con un recorrido de alta

variabilidad), donde el area


de las barras son proporcionales a la
frecuencia del intervalo.

Que el area
de las barras son proporcionales a la frecuencia del

intervalo significa que el area


de cada barra representa la
Frecuencia Relativa de cada intervalo.


Analisis
Exploratorio de Datos

Proceso de la informacion

Metodo
grafico
para describir variables cuantitativas

Veamos el histograma para la edad, lo primero es tener una tabla de


de frecuencias.
distribucion


Analisis
Exploratorio de Datos

Proceso de la informacion

Metodo
grafico
para describir variables cuantitativas


Analisis
Exploratorio de Datos

Proceso de la informacion

Metodo
grafico
para describir variables cuantitativas

Histograma v/s Grafico


de barras
Debemos tener cuidado al utilizar los histogramas para variables
cuantitativas.


Analisis
Exploratorio de Datos

Proceso de la informacion

Frecuencias de una variable cuantitativa continua como una funcion

Observe los siguientes histogramas


Analisis
Exploratorio de Datos

Proceso de la informacion

Frecuencias de una variable cuantitativa continua como una funcion


Analisis
Exploratorio de Datos

Proceso de la informacion

Frecuencias de una variable cuantitativa continua como una funcion


Analisis
Exploratorio de Datos

Proceso de la informacion

Frecuencias de una variable cuantitativa continua como una funcion


Analisis
Exploratorio de Datos

Proceso de la informacion

Frecuencias de una variable cuantitativa continua como una funcion


Analisis
Exploratorio de Datos

Proceso de la informacion

Frecuencias de una variable cuantitativa continua como una funcion

Podemos observar que a medida que se aumenta la cantidad de


encerradas bajo un curva
intervalos, entonces las barras quedaran
aproximada que puede ser representada por f (x) donde X es una
variable cuantitativa.
As, para calcular una frecuencia relativa aproximada entre a y b
podemos pensar en que
Z
Frecuencia Relativa entre a y b

f (x)dx
a


Analisis
Exploratorio de Datos

Proceso de la informacion

Frecuencias de una variable cuantitativa continua como una funcion

que representa aproximadamente las


Como f (x) es una funcion
frecuencias relativas de X , entonces f (X ) debe cumplir con 2
condiciones:
1
2

f (x) 0; x R (pues las frecuencias deben ser positivas)


Z
f (x)dx = 1 (Pues la suma total de las frecuencias relativas

es 1)


Analisis
Exploratorio de Datos

Proceso de la informacion

Frecuencias de una variable cuantitativa continua como una funcion

en C o , para un
Suponga que el error en la temperatura de reaccion,
experimento de laboratorio controlado es una varialbe continua X
cuyas frecuencias relativas pueden ser modeladas mediante la

siguiente funcion:
 2
x
si 1 < x < 2
f (x) = 3
0
e.o.c.


Analisis
Exploratorio de Datos

Proceso de la informacion

Frecuencias de una variable cuantitativa continua como una funcion

que representa las frecuencias


Verifique que f (x) es una funcion
relativas de X .

Encuentre la frecuencia relativa aproximada de las temperaturas


que se encuentran entre 0 y 1.


Analisis
Exploratorio de Datos

Proceso de la informacion

Frecuencias de una variable cuantitativa continua como una funcion

sera la forma que toma F (x)?


Si podemos representar f (x) como una integral, cual
que representa las frecuencias relativas acumuladas hasta un
F (x) es una funcion
valor x, por lo que debera tomar la siguiente forma:
Z x
F (x) =
f (t)dt

Graficamente:


Analisis
Exploratorio de Datos

Proceso de la informacion

Frecuencias de una variable cuantitativa continua como una funcion

en C o , para un experimento de
Suponga que el error en la temperatura de reaccion,
laboratorio controlado es una varialbe continua X cuyas frecuencias relativas pueden

ser modeladas mediante la siguiente funcion:


(
2
x
si 1 < x < 2
3
f (x) =
0
e.o.c.

Que porcentaje de las temperaturas son inferiores a 1, 2o ?


El 35% de las medidas, bajo que temperatura se encuentran?


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
(Estadstica)
Definicion

Una estadstica es una medida descriptiva numerica


calculada a partir de
datos de una muestra.
(Parametro)

Definicion

Un parametro
es una medida descriptiva numerica
calculada a partir de

datos de una poblacion.


1

Medidas de Tendencia Central: Ayudan a encontrar el centro de la

distribucion.

de los datos
Miden la dispersion
Medidas de Dispersion:

relativa de una
Relativa: Describen la posicion
Medidas de Posicion
dentro de un conjunto de datos.
observacion

Medidas de Forma: Describen la forma de la curva que representa a


los datos.


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
Medidas de Tendencia Central
Promedio

Las medidas de Tendencia Central son valores numericos


que
desean mostrar el centro de un conjunto de datos.

El promedio o media aritmetica.


La mediana o valor del centro.
frecuente.
La moda, modo o valor mas


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
Medidas de Tendencia Central
Promedio

a) Promedio o Media aritmetica


El promedio de un conjunto de n observaciones se define como la
suma de las observaciones dividida por el numero
de observaciones

n.
(Promedio)
Definicion
Si x1 , x2 , . . . , xn denota una muestra de n observaciones, entonces el
promedio de la muestra se llama x-barra y se denota por
Pn
xi
x1 + x2 + + xn
x = i=1 =
n
n
Nota: Para datos tabulados, el promedio tiene un valor aproximado dado por:
X

n
X
ni mi
n
i=1


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
Medidas de Tendencia Central
Promedio

el promedio de la
Si se tienen TODOS los valores de una poblacion,
es la suma de todos los valores dividida por cuantos son.
poblacion
(N)

El parametro,
Promedio poblacional se denota por la letra Griega
(Mu)
PN
X =

i=1

xi


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
Medidas de Tendencia Central
Propiedades del promedio

La sumatoria de la diferencia de los n valores de la variable X


(x1 , x2 , . . . , xn ) con respecto a la media de la variable X es nula:
n
X

(xi X ) = 0

i=1

xi
1
2
4
5
6
9
Promedio
4,5

xi x
-3,5
-2,5
-0,5
0,5
1,5
4,5
Suma
0


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
Medidas de Tendencia Central
Propiedades del promedio

La media aritmetica
del producto entre una constante k y una
variable X es igual al producto de esta constante por la media

aritmetica:
kX = k X
xi
1
2
4
5
6
9
Promedio
4,5
24,5=9

2 xi
2
4
8
10
12
18
Promedio
9


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
Medidas de Tendencia Central
Propiedades del promedio

Linealidad de la media: La media aritmetica


de la suma (o diferencia)
entre k y la variable X es la suma (o diferencia) de k y la media

aritmetica
de la variable X :
k +X =k +X
xi
1
2
4
5
6
9
Promedio
4,5
4,5+3=7,5

xi + 3
4
5
7
8
9
12
Promedio
7,5


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
Medidas de Tendencia Central
Propiedades del promedio

Variables con el mismo numero


de observaciones, entonces la media

aritmetica
de la suma de estas variables es igual a la suma de las
medias respectivas, es decir:
X +Y =X +Y
xi
1
2
4
5
6
9
Promedio
4,5
4,5+5=9,5

yi
5
4
1
6
5
9
Promedio
5

xi + yi
6
6
5
11
11
18
Promedio
9,5


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
Medidas de Tendencia Central
Algunas consideraciones sobre el promedio

en una muestra tomada


Los datos siguientes son el numero
de ninos

aleatoriamente de 10 casa en un vecindario:


2 3 0 2 1 0 3 0 1 4


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
Medidas de Tendencia Central
Algunas consideraciones sobre el promedio

El promedio de estas 10 observaciones esta dado por


2+3+0+2+1+0+3+0+1+4
= 1, 6
10
en una
El resultado es 1,6 aunque no sea posible observar 1,6 ninos

casa. El promedio es 1,6 ninos.


x=


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
Medidas de Tendencia Central

se anoto como 40 en vez de 4.


Suponga que la ultima
observacion

Que pasa con el promedio?


2 + 3 + 0 + 2 + 1 + 0 + 3 + 0 + 1 + 40
= 5, 2
10
Note que en existen 9 de las 10 observaciones menores que el
promedio.
x=

El promedio es sensible a las observaciones extremas


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
Medidas de Tendencia Central
Algunas consideraciones sobre el promedio

es simetrica,

Si la distribucion
el promedio sera

exactamente el centro de la distribucion.

mas
grande se mueve
Si la observacion
a la derecha (sesgada a la derecha), el

promedio se mueve con la observacion


extrema


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
Medidas de Tendencia Central

de los datos es sesgada, queremos usar una


Si la distribucion
resistente para mostrar el centro.
medida que sea mas
resistente a los valores
La medida de tendencia central que es mas
extremos es la mediana


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
Medidas de Tendencia Central

Definicion
Sea X una variable aleatoria cuantitativa descrita en un vector de n datos:
X = (x1 , x2 , x3 , . . . , xn )
Se define el vector de orden como un vector que tiene los valores de X
ordenados de menor a mayor y se denota por X() .
Si X = (x1 , x2 , x3 , . . . , xn ), entonces X() = (x(1) , x(2) , x(3) , . . . , x(n) )
Ejemplo
Sea X una variable que representa las alturas de 5 alumnos tomados al azar:
X = (1, 78; 1, 56; 1, 84; 1, 67; 1, 61)
Entonces
X() = (1, 56; 1, 61; 1, 67; 1, 78; 1, 84)


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
Medidas de Tendencia Central
Mediana

b) Mediana
(Mediana)
Definicion
La mediana de un conjunto de n observaciones, ordenadas de menor
a mayor, es un valor tal que la mitad de las observaciones son
menores o iguales que tal valor y la mitad de las observaciones son
mayores o iguales que ese valor.


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
Medidas de Tendencia Central
Mediana

( h
Me =

1
2

x( n ) + x( n +1)
2
2
x( n+1 )
2

si n es par
si n es impar

El uso de esta medida es para variables cuantitativas o


cualitativas ordinales

El calculo
de la mediana para datos tabulados se dara mas

adelante (en el calculo


de cuantiles).


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
Medidas de Tendencia Central
Mediana

Ejemplo

Considere las edades de los 20 sujetos en la base de datos medica.


32 37 39 40 41 41 41 42 42 43 44 45 45 45 46 47 47 49 50 51

Numero

hde datos: 20 i
1
Me = 2 x( 20 ) + x( 20 +1) =
2

1
2



x(10) + x(11) =

43+44
2

= 43, 5 anos.

de 43,5 anos.

El 50% de los sujetos tiene menos (mas)


que hubiera pasado con la mediana si en vez de anotar 51,
anotamos 510?, Si hubieramos anotado -32 en vez de 32?
La mediana es resistente (robusta), es decir, no cambia o cambia
muy poco con observaciones extremas.


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

en C o , para un
Suponga que el error en la temperatura de reaccion,
experimento de laboratorio controlado es una varialbe continua X
cuyas frecuencias relativas pueden ser modeladas mediante la

siguiente funcion:
 2
x
si 1 < x < 2
f (x) = 3
0
e.o.c.

Calcule e interprete la mediana de las temperaturas.


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
Medidas de Tendencia Central

c) Moda
(Moda)
Definicion
frecuente
La moda de un conjunto de observaciones es el valor mas
La moda del conjunto: {0,0,0,0,1,1,2,2,3,4} es 0.
El conjunto {0,0,0,1,1,2,2,2,3,4} tiene dos modas: 0 y 2
(bimodal)
El conjunto {0,1,2,4,5,8} no tiene moda
La moda a menudo no es utilizada como medida de tendencia
central para datos cuantitativos.
La moda para datos tabulaos suele ser la marca de clase que
presenta la mayor frecuencia.


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
Medidas de Tendencia Central
Moda

La moda es LA medida de tendencia central que puede ser calculada


en datos cualitativos.

Figure : Ciudad de origen de 36 alumnos


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
Medidas de Tendencia Central
Moda

Sea


f (x) =

12x 2 (1 x) si 0 < x < 1


0
e.o.c.

Calcule e interprete la moda de f


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
Medidas de Tendencia Central

medida de Tendencia Central utilizar?


Cual


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas

Medidas de Dispersion

Figure : Un incauto ahogandose


en un ro con una profundidad promedio de
90 centmetros


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas

Medidas de Dispersion

a) Rango
mas
simple y se
El Rango es la medida de variabilidad o dispersion

calcula tomando la diferencia entre el valor maximo


y el mnimo
observado.

Rango=maximo-m
nimo


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas

Medidas de Dispersion

Analice cuales seran las ventajas y desventajas de utilizar el Rango


como medida de variabilidad.


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas

Medidas de Dispersion

Estandar

b) Desviacion
de las observaciones a la
Es una medida de entrega la dispersion
media y se interpreta como un Promedio de la distancia de las
observaciones a la media


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas

Medidas de Dispersion

Se define la varianza muestral como la suma de las desviaciones al cuadrado


divididas en n 1.
varianza muestral=
estandar=

desviacion

(4)2 +(1)2 +(3)2


31

16+1+9
2

varianza muestral =

= 13

13 3, 6


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

de la desviacion
Estandar

Interpretacion
estandar

Pensemos la desviacion
como aproximadamente un
promedio de las distancias de las observaciones a la media.

Si todas las observaciones son iguales, entonces la desviacion

estandar
es cero.
estandar

alejados
La desviacion
es positiva y mientras mas
los valors del promedio, mayor sera la desviacion
estandar.

estan


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas

Medidas de Dispersion

(Desviacion
Estandar)

Definicion
Si x1 , x2 , . . . , xn denota una muestra de n observaciones, entonces la
estandar

desviacion
muestral se denota por
sP
r
n
2
(x1 x)2 + (x2 x)2 + + (xn x)2
i=1 (xi x)
sX =
=
n1
n1

Por otro lado, si los datos se encuentran tabulados, la varianza se


obtiene de la siguiente forma:
n

sX2

1 X

ni (mi x)2
n1
i=1

Nota: Tenemos argumentos estadsticos para demostrar que


dividimos por n 1 en vez de n.


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas

Medidas de Dispersion

la Desviacion

Si se tienen TODOS los valores de una poblacion,

estandar
poblacional, se denota por la letra Griega (sigma) y se
calcula como
s
PN
2
i=1 (xi X )
X =
N


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas

Medidas de Dispersion

Notas
estandar

La varianza y la desviacion
no son medidas de
variabilidad distintas, debido a que la ultima
no puede

determinarse a menos que se conozca la primera.


estandar

con la
A menudo se prefiere la desviacion
en relacion
varianza, ya que se expresa en las mismas unidades fsicas de
las observaciones.
As como el promedio es una medida de tendencia central que

no es resistente a las observaciones extremas, la desviacion

tampoco es
estandar,
que utiliza el promedio en su definicion,
resistente a valores extremos.
una medida de dispersion


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Propiedades lineales de la media y varianza

Sean x1 , x2 , . . . , xn un conjunto de n observaciones donde a cada una


lineal:
se le aplica la siguiente transformacion
yi = axi + b i = 1, 2, . . . , n
donde a R (6= 0) y b R
Sean x y Sx2 el promedio y la varianza de las observaciones
x1 , x2 , . . . , xn . Luego el promedio y la varianza de los datos
dados por:
transformados y1 , y2 , . . . , yn estan
y = ax + b

sy2 = a2 sx2


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas

Medidas de Dispersion

c) Rango entre Cuartiles o Rango Intercuartlico


Cuartiles:

(Rango entre cuartiles)


Definicion
Se define Rango entre cuartiles a la diferencia entre el tercer y el
primer cuartil, se denota por RQ = Q3 Q1
El Rango entre cuartiles mide la variabilidad del 50% central de la
de los datos
distribucion


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas

Medidas de Dispersion

Pasos para el calculo


de cuartiles:
1
2

Encontrar la mediana de todas las observaciones (Q2 ).


Encontrar el primer cuartil (Q1 ), el cual sera la mediana de las
observaciones menores a la mediana del conjunto de datos.
Encontrar el tercer cuartil (Q3 ), el cual sera la mediana de las
observaciones mayores a la mediana del conjunto de datos.


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas

Medidas de Dispersion

Notas:
Cuando el numero
de observaciones es impar, entonces la

del medio. Esta observacion


no se
mediana sera la observacion

incluye luego en los calculos


de Q1 y Q3 .

Pueden encontrar diferentes formulas


en libros, calculadoras o
computadores, pero todas se basan en el mismo concepto.
de los datos es simetrica,

Si la distribucion
los cuartiles deben
estar a la misma distancia de la mediana.


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas

Medidas de Dispersion

Cuartiles para la edad de los pacientes del estudio medico


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas

Medidas de Dispersion


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

(CV )
Coeficiente de variacion

relativa a la media. Esta


Corresponde a una medida de dispersion
dada por
CV =

sX
100%
x

No depende de la unidad de medida de los datos.


para comparar variabilidad de grupos (con o sin la misma
Util
unidad de medida).
pequeno
es el valor del CV mas
homogeneos

Mientras mas
son
los datos.


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Ejercicio
En una empresa de dispositivos para computador, el coeficiente de
(C.V.) de los sueldos (en U.F.) de n empleados es de 6,1%.
variacion
Segun
la ley, todos los sueldos deben ser reajustados en un 12%.
debido a las utilidades que ha tenido la empresa, la
Ademas,
de una U.F. por empleado, con
gerencia decide dar una bonificacion
lo cual, el C.V. queda en un 5,6%. Determine el promedio y la
estandar

desviacion
de los sueldos de los n empleados, antes de las
modificaciones salariales.


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
relativa
Medidas de Posicion

Definicion

relativa son medidas que describen la posicion


Las medidas de posicion
con el resto de los datos.
que tiene un valor o dato especfico en relacion
Vimos los cuartiles que dividen un conjunto de datos en cuatro partes
iguales.
podemos dividir el conjunto de datos en 100 partes iguales y los
Tambien
se conocen como percentiles.
puntos de division

As es como los cuartiles, en realidad son los percentiles 25, 50 y 75.


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
relativa
Medidas de Posicion

Sea 0 100, entonces, el -esimo


percentil es un valor tal que
y el (100 )%
el % de los datos son menores o iguales que el,

restante son mayores o iguales el.


Ejemplo
Si su nota en la ultima
prueba estuvo en el percentil 84, entonces el

84% de las notas fueron inferiores a la suya y el 16% superiores.


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
relativa
Medidas de Posicion

(Quintiles)
Definicion
Los quintiles dividen el conjunto ordenado de datos en cinco partes
iguales


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
relativa
Medidas de Posicion


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
relativa
Medidas de Posicion

Fuente:http://www.fundacionpobreza.cl/EditorFiles/File/Umbrales/cap1.pdf


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
relativa
Medidas de Posicion
Percentiles para datos tabulados

Recordemos que
x = Li +
As
P = Li +

y Ni1
ai
ni
n
100

Ni1
ni

ai


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
relativa
Medidas de Posicion
Percentiles para datos tabulados

Del ejemplo de las notas obtenidas por los alumnos del curso de
2011.
probabilidades y estadstica en el primer certamen del ano

El 85% de los alumnos, bajo que nota se encuentran?


Que porcentaje de los alumnos obtuvo una nota inferior a 5,0?
Calcule e interprete la mediana de las notas
Calule e interprete el coeficiente de asimetra de Pearson
Calcule e interprete el Primer cuartil.


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
relativa
Medidas de Posicion
Percentiles para funciones

de F (x) es: El % de los datos se


Note que la interpretacion
encuentra bajo x.
con la de un Percentil , por lo que
Coinciediendo esta interpretacion
Z

f (x)dx =

100

Del ejemplo de las temperaturas:


Que porcentaje de las temperaturas se encuentra bajo 1, 5o ?
Bajo que temperatura se encuentra el 35% de las
temperaturas?


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
Medidas de Forma
Coeficiente de Asimetra de Pearson

(Sesgo sk )
Definicion
Indice que expresa el grado de asimetra de la distribucion
de los

datos (histograma). La asimetra positiva indica que los valores mas


extremos se encuentran por encima de la media. La asimetra
extremos se encuentran por
negativa indica que los valores mas
debajo de la media.
sk

3(X Me )
S

es simtrica.
Si sk = 0; entonces la distribucion
es asimetrica

Si sk < 0; entonces la distribucion


negativa.
es asimetrica

Si sk > 0; entonces la distribucion


positiva.


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
Medidas de Forma
Coeficiente de Asimetra de Pearson


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

entre media, mediana y moda segun


Relacion
el

sesgo de la distribucion
de los datos es simetrica

Caso 1: Si la distribucion
(No sesgada)
x = Me = Mo
de los datos es asimetrica

Caso 2: Si la distribucion
hacia la derecha
(Sesgo positivo)
Mo < Me < x
de los datos es asimetrica

Caso 3: Si la distribucion
hacia la
izquierda (Sesgo negativo)
x < Me < Mo
Nota: La mediana (Me ) siempre se hallara entre el promedio (x) y la
moda (Mo ) ya que no es afectada por datos extremos.


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
Medidas de Forma
Coeficiente de Curtosis basado en percentiles

(Curtosis ())
Definicion
indica el grado de Apuntamiento de la distribucion.

Su interpretacion
con apuntamiento muy bajo (Distribucion
aplanada), se puede
Para una distribucion
de los es muy dispersa, por el contrario para una distribucion

inferir que la distribucion


puntiaguda) se puede inferir que los
con apuntamiento muy pronunciado (Distribucion
de los es muy homogenea.
datos la distribucion

P75 P25
2(P90 P10 )

es mas
puntiaguda (Leptocurtica).
Si > 0, 263; entonces la distribucion

Si = 0, 263; (proximos
a cero) entonces indican semejanza con la curva
normal (Mesocurtica).

es mas
aplanada (Platicurtica).
Si < 0, 263; entonces la distribucion


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

Medidas numericas
Medidas de Forma
Coeficiente de Curtosis basado en percentiles


Analisis
Exploratorio de Datos

Proceso de la informacion

Medidas numericas

el porcentaje (Y ) de pureza de oxgeno


En un proceso qumico de destilacion,
producido esta relacionado con el porcentaje (X ) de hidrocarburo, presente en el

condensador principal de la unidad de destilacion.


Se efectuaron 55 mediciones, en las cuales se observaron conjuntamente las
variables X e Y , cuyos resultados se incluyen en la siguiente tabla:
Nivel de hidrocarburo (%)
0,87-1,07
1,07-1,27
1,27-1,47
1,47-1,67

Nivel de pureza del oxgeno (%)


87-90 90-93
93-96 96-100
10
5
0
0
5
12
2
1
1
4
9
2
0
1
2
1

a) En que porcentaje de las mediciones se observa un nivel de hidrocarburo


superior a 1,2% en el condensador principal, cuando en nivel de pureza de oxgeno
es por lo menos 90%?
b) Calcule el porcentaje de variabilidad del nivel de pureza del oxgeno para los casos
en que se observa en el condensador principal un nivel de hidrocarburo inferior a
1,27%
c) Calcule e interprete el valor del coeficiente de Asimetra del nivel de pureza del
oxgeno para los casos en que se observa en el condensador principal un nivel de
hidrocarburo inferior a 1,27%
d) Calcule e interprete el valor del coeficiente de Curtosis del nivel de pureza del
oxgeno para los casos en que se observa en el condensador principal un nivel de
hidrocarburo inferior a 1,27%


Analisis
Exploratorio de Datos

Proceso de la informacion
de valores extremos
Deteccion

Un dato atpico (fuera de lo comun)


puede deberse, por ejemplo, a
una mala lectura, mal registro, causa fortuita, etc. Este tipo de datos

no puede eliminarse inmediatamente sin un analisis


preliminar de las
causas que lo originan.

La idea es buscar un metodo,


tanto algebraico como geometrico,
para detectar datos atpicos.


Analisis
Exploratorio de Datos

Proceso de la informacion
de valores extremos
Deteccion

Regla emprica Para un conjunto de valores que tienen un


histograma en forma de campana, el intervalo:
x s

Contiene aproximadamente al 68% de los valores

x 2s

Contiene aproximadamente al 95% de los valores

x 3s

Contiene aproximadamente al 100% de los valores

z
Metodo
de la puntuacion
Si consideramos la regla emprica, sabemos que aproximadamente
el 100% de los datos esta en el intervalo [x 3s; x + 3s]. Es muy
improbable que un dato esta fuera de este intervalo, y en caso que

fuese, este
se llamara un dato atpico. Es decir, un dato es no
atpico si:


xi x
xi x

3
xi [x 3s; x + 3s]
[3, 3]
s
s
.
zi = xi x
As, Si consideramos la transformacion
s , entonces un datos
xi se considera como atpico si |zi | > 3


Analisis
Exploratorio de Datos

Proceso de la informacion
de valores extremos
Deteccion

(Valores extremos (Datos atpicos))


Definicion
Valores que se alejan del conjunto de datos
(Regla para identificar valores extremos)
Vamos a definir un valor xi como extremo (atpico) si
xi < Q1 1, 5 (Q3 Q1 )

xi > Q3 + 1, 5 (Q3 Q1 )

Considere las edades de los 20 sujetos en la base de datos medica.


32 37 39 40 41 41 41 42 42 43 44 45 45 45 46 47 47 49 50 51

de las
Identifique si existen o no valores atpicos en la distribucion
edades de los 20 sujetos.


Analisis
Exploratorio de Datos

Proceso de la informacion
de valores extremos
Deteccion

de datos atpicos
Metodo
grafico
para la deteccion

Grafico
de caja (boxplot)


Analisis
Exploratorio de Datos

Proceso de la informacion
de valores extremos
Deteccion

de datos atpicos
Metodo
grafico
para la deteccion

Grafico
de caja (boxplot)

Pasos para crear el grafico


de caja
1

Se traza un rectangulo
cuyos extremos se ubican en el primer y tercer cuartil.

En la caja se traza una recta horizontal en el lugar de la mediana.

Detecte datos atpicos con la regla vista anteriormente: un valor xi es extremo


(atpico) si
xi < Q1 1, 5 (Q3 Q1 )

xi > Q3 + 1, 5 (Q3 Q1 )

Identifique los puntos adyacentes: Se llaman puntos adyacentes al mnimo y

maximo
dato que se encuentran dentro de las barreras internas. Desde los
extremos de la caja se trazan lneas hasta los respectivos valores adyacentes. A
estas lneas se les llama antenas o bigotes.

Identifique los puntos atpicos (Marquelos


con ).


Analisis
Exploratorio de Datos

Proceso de la informacion
de valores extremos
Deteccion

de datos atpicos
Metodo
grafico
para la deteccion

Grafico
de caja (boxplot)

Grafico
de cajas para la edad: Las medidas que necesitamos son:
min = 32;

Q1 = 41;

Mediana = 43, 5;

Q3 = 46, 5;

max = 51

La distancia entre la mediana y los cuartiles es aproximadamente la


de los datos es
misma, lo que nos hace pensar que la distribucion
o menos simetrica

mas
como vimos antes en el histograma.


Analisis
Exploratorio de Datos

Proceso de la informacion
de valores extremos
Deteccion

de datos atpicos
Metodo
grafico
para la deteccion

Grafico
de caja (boxplot)

Diagrama de caja de SPSS en la edad de los pacientes del estudio

medico


Analisis
Exploratorio de Datos

Proceso de la informacion
de valores extremos
Deteccion

de datos atpicos
Metodo
grafico
para la deteccion

Grafico
de caja (boxplot)


Analisis
Exploratorio de Datos

Proceso de la informacion
de valores extremos
Deteccion

de datos atpicos
Metodo
grafico
para la deteccion

Grafico
de caja (boxplot)

Los diagrama de caja son muy utiles


para comparar distribuciones de

grupos.
dos o mas

S-ar putea să vă placă și