Sunteți pe pagina 1din 27

ANALISIS EXPLORATORIO DE DATOS

AED
QUE ES UN A E D
Es examinar los datos previamente a la aplicacin de cualquier
tcnica estadstica. De esta forma el analista consigue un
entendimiento bsico de sus datos y de las relaciones
existentes entre las variables analizadas.
Es un conjunto de tcnicas cuya finalidad es conseguir un
entendimiento bsico de los datos y de las relaciones
existentes entre las variables analizadas.
El AED proporciona mtodos sencillos para organizar y
preparar los datos, detectar fallos en el diseo y recogida de
datos, tratamiento y evaluacin de datos ausentes (missing)
identificacin de casos atpicos (outliers) y comprobacin de
los supuestos subyacentes en la mayor parte de las tcnicas
multivariantes (normalidad, linealidad, homocedasticidad).
QUE BUSCO EN UN A E D?
Existe algn tipo de estructura (normalidad,
multimodalidad, asimetra, curtosis, linealidad,
homogeneidad entre grupos, homocedasticidad, etc.)
en los datos que voy a analizar?
Existe algn sesgo en los datos recogidos?
Hay errores en la codificacin de los datos?
Cmo se sintetiza y presenta la informacin contenida
en un conjunto de datos?
Existen datos atpicos (outliers)? Cules son? Cmo
tratarlos?
Hay datos ausentes (missing)? Tienen algn patrn
sistemtico? Cmo tratarlos?
ETAPAS PREVIAS A LA ESTIMACIN DE
RESERVAS
OBJETIVOS PRINCIPALES

- Validacin de la base de datos

- Confrontacin de la base de datos con los modelos


Geolgicos Morfolgicos del yacimiento

- Familiarizacin i sensibilizacin de los evaluadores con los


datos que se utilizaran.
ETAPAS DEL A E D
Para poder cumplir con los objetivos, se puede
distinguir tres etapas principales:
- Creacin de una base de datos
- Validacin de la informacin
- Determinacin de las variables que
representan mayor inters
DESARROLLO DE LAS ETAPAS DE UN A E D

1) Creacin de una base de datos y preparar los datos para hacerlos accesibles a
cualquier tcnica estadstica.
2) Seleccin de un paquete estadstico
3) Realizar un examen grfico de la naturaleza de las variables individuales a
analizar y un anlisis descriptivo numrico que permita cuantificar algunos
aspectos grficos de los datos.
4) Realizar un examen grfico de las relaciones entre las variables analizadas y un
anlisis descriptivo numrico que cuantifique el grado de interrelacin existente
entre ellas.
5) Evaluar, si fuera necesario, algunos supuestos bsicos subyacentes a muchas
tcnicas estadsticas como, por ejemplo, la normalidad, linealidad y
homocedasticidad.
6) Identificar los posibles casos atpicos (outliers) y ausentes (missing) evaluando
el impacto potencial que puedan ejercer en anlisis estadsticos posteriores.
ANEXO ETAPAS DE UN A. E. D.
La codificacin depende del tipo de variable
Los paquetes estadsticos existentes en el mercado proporcionan diversas
posibilidades (datos tipo cadena, numricos, nominales, ordinales, etc),
permitiendo realizar manipulaciones de los datos previas a un anlisis de los
mismos:
- Combinar conjuntos de datos de dos archivos distintos
- Seleccionar subconjuntos de los datos
- Dividir el archivo de los datos en varias partes
- Transformar variables
- Ordenar casos
- Agregar nuevos datos y/o variables
- Eliminar datos y/o variables
- Guardar datos y/o resultados
Finalmente, y con el fin de aumentar la inteligibilidad de los datos almacenados,
conviene asociar a la base de datos utilizada, un libro de cdigos en el que se
detallen los nombres de las variables utilizadas, su tipo y su rango de valores, su
significado as como las fuentes de donde se han sacado los datos.
INFORMACIN NECESARIA
- Identificador de la muestra (sondaje, galera, pozo, etc)
- Coordenadas del collar del sondaje
- Inclinacin y azimut de los sondajes
- Desviacin de los sondajes
- Recuperacin de las muestras
- Interpretaciones geolgicas morfolgicas
- Resultados de las muestras recolectadas (leyes, litologas,
profundidades)
- Informacin topogrfica del sector de inters.
-
VARIABLES
Variables y Tipos de variables
- Variable: cada una de las caractersticas de los elementos de una
poblacin y que varan de una unidad a otra.
- Variables cualitativas o nominales (o categricas): aquellas que no
tienen medida numrica; se representan por categoras o atributos (tipo
de suelo, de vegetacin, textura, raza, religin).
- Variables cuantitativas: las que pueden expresarse numricamente
(temperatura, precipitacin, profundidad suelo, altitud, pendiente, .)
# Variables discretas u ordinales: son el resultado de contar y slo
toman valores enteros (nmero de puntos, de cuadrculas, de pxeles,
dureza de un mineral).
# Variables continuas: son el resultado de medir, y pueden contener
decimales (temperatura, profundidad, altura). Se pueden subdividir a
voluntad.
Pueden tomar, entonces, cualquier valor de un determinado intervalo
MEDIDAS DESCRIPTIVAS NUMERICAS Y REPRESENTACIONES GRFICAS

Aconsejadas en funcin de la escala de medida de la variable


HERRAMIENTAS DE ANLISIS
EXPLORATORIO DE DATOS
MEDIDAS DE TENDENCIA CENTRAL
Media: Es la media aritmtica de la distribucin
Moda: Es el valor ms frecuente de la distribucin
Mediana: Es el valor para el cual la mitad de los
datos son menores y la otra mitad estn por encima
de este valor.
La mediana es tambin llamada percentil 50
Cuartiles: donde Q1 = percentil 25, Q2 = Mediana y
Q3 = percentil 75.
Deciles: si los datos se dividen en 10.
INTERPRETACIN DE LOS CUARTILES
MEDIDAS DE VARIABILIDAD O DISPERCIN
Rango de la distribucin: Es la diferencia entre el valor mximo y el
mnimo observados.
Varianza: Describe la variabilidad de la distribucin. Es la medida de la
desviacin o dispersin de la distribucin .
Se divide por (n-1) y no por n y se representa por S2 cuando se calcula con
una muestra observada porque proporciona mejor estimacin de la
varianza de la poblacin (estimacin insesgada)
Esto significa que si un experimento fuera repetido muchas veces se
podra esperar que el promedio de los valores as obtenidos para S2 (valor
muestral) igualara a 2.
Desviacin estndar: Tambin describe dispersin de la distribucin. Es la
raz de la medida de desviacin alrededor de la media.
MEDIDAS DE VARIABILIDAD O DISPERCIN
Error estndar: que se comete al estimar la media de la
variable medida con los n observaciones de la muestra. A
mayor tamao muestral menor error

Coeficiente de variacin: Es una medida de la variacin


relativa de los datos en porcentaje.
MEDIDAS DE ESTRUCTURA O FORMA
Coeficiente de asimetra
MEDIDAS DE ESTRUCTURA O FORMA
Curtosis (o apuntamiento): Describe el grado de esbeltez de la
distribucin, en relacin a una distribucin normal
GRFICOS ESTADSTICOS
Permiten ilustrar y entender las distribuciones de los datos, identificar
datos errados, valores extremos, tendencias en la variacin de los datos,
relaciones entre variables

GRAFICO DE DISPERSIN
scatterplot X-Y
GRFICOS ESTADSTICOS

Histogramas Grficos de cuantiles


Para una variable
GRFICOS ESTADSTICOS
Grfico de cuantiles para verificar el ajuste de los datos a la
distribucin Normal: (Q-Q Normal)

Para una variable

Eje Vertical.- Valores de la funcin de distribucin normal


Eje Horizontal.- Valores de la variable con los valores de probabilidad acumulada de ocurrencia segn la
distribucin normal

La proximidad de los valores observados a la recta indica que


los datos se pueden considerar con distribucin Normal
GRFICOS ESTADSTICOS

Grfico de cajas (box-plot) 1 v


GRFICOS ESTADSTICOS
Comparacin grfica de la variable silt (sedimento) en
los distintos puntos de muestreo (1 a 4):
TRANSFORMACIONES
Para modelos de interpolacin del tipo regresin, las hiptesis requieren,
entre otras condiciones:
- Normalidad de los datos
- Homogeneidad en la varianza
Si en el anlisis exploratorio no se observa simetra en el histograma y con
un contraste de bondad de ajuste (prueba chi-cuadrado o Kolmogorov-
Smirnov) se confirma la falta de normalidad, se tendr que recurrir a algn
tipo de transformacin normalizante de los datos.
TRANSFORMACIONES BOX-COX
O DE POTENCIA

Se busca que la variable transformada se parezca a una distribucin normal


Ejemplo X ~ Exp(3)
Rango: [0, 10] pasos de 0.05.
La mejor fue = 3.05
Ejemplo: X ~ Beta(5, 2.5)
Rango: [-10, 10] pasos de 1.
La mejor fue >= 10
Ejemplo: X ~ U(0.01, 1)
Rango: [-10, 10] pasos de 0.5.
La mejor fue >= 10

S-ar putea să vă placă și