Documente Academic
Documente Profesional
Documente Cultură
datos
Tema 5
Objetivos
Presentar la importancia de la exploracin
de los datos
Discutir la necesidad de preparar los datos
Explorar
Obtener estadsticas bsicas
Valores extremos
Valores perdidos
Distribuciones
Histogramas
Explorar
Haga lista de asuntos sorprendentes o
que no estn claros
Pregunte al proveedor de los datos
Explorar
Observar
Nmero de registros (observaciones)
Nmero de variables (columnas)
Explorar relaciones
Ingreso por hogar 1999
Ingreso por familia 1999
Ejemplo
Archivo de datos de censo sobre adultos
de los Estados Unidos
Variable
x1
x5
x11
x12
x13
Label
age
education-num
capital-gain
capital-loss
hour-per-week
Mean
38.582
10.081
1077.650
87.304
40.437
Std Dev
13.640
2.573
7385.290
402.960
12.347
Range
73.000
15.000
99999.000
4356.000
98.000
10
Age
1000
800
600
400
Count
200
M 2 2 2 3 3 4 4 4 5 5 6 6 6 7 7 8 8 8
is 0 4 8 2 6 0 4 8 2 6 0 4 8 2 6 0 4 8
s i .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0
ng 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
AGE
Minera de datos
Dr. Francisco J. Mata
11
Education-number
12000
10000
8000
6000
4000
Count
2000
0
Missing
2.00
1.00
4.00
3.00
6.00
5.00
8.00
7.00
10.00
9.00
Minera de datos
Dr. Francisco J. Mata
EDUCN
12.00
11.00
14.00
13.00
16.00
15.00
12
Gain
40000
30000
20000
Count
10000
GAIN
Minera de datos
Dr. Francisco J. Mata
13
Loss
40000
30000
20000
Count
10000
M 4 9
13 15 15 16 17 17 18 19 20 21 22 22 23 24 26 37
is 19 7
s i . 4. 80 39 94 51 21 55 48 74 42 49 05 58 77 67 03 70
ng 00 00 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
LOSS
Minera de datos
Dr. Francisco J. Mata
14
Hours
20000
Count
10000
M
is5 10 15 20 25 30 35 40 45 50 55 60 65 72 77 84 89 95
s.i0
n0g .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00
HOURS
Minera de datos
Dr. Francisco J. Mata
15
Frequency
Percent
Cumulative
Frequency
960
2093
7
22696
1116
2541
1298
14
3.12
6.81
0.02
73.87
3.63
8.27
4.22
0.05
960
3053
3060
25756
26872
29413
30711
30725
Cumulative
Percent
3.12
9.94
9.96
83.83
87.46
95.73
99.95
100.00
16
Frequency
933
1175
433
168
333
646
514
1067
1382
5355
413
10501
1723
51
576
7291
Cumulative
Cumulative
Percent
Frequency
Percent
2.87
933
2.87
3.61
2108
6.47
1.33
2541
7.80
0.52
2709
8.32
1.02
3042
9.34
1.98
3688
11.33
1.58
4202
12.91
3.28
5269
16.18
4.24
6651
20.43
16.45
12006
36.87
1.27
12419
38.14
32.25
22920
70.39
5.29
24643
75.68
0.16
24694
75.84
1.77
25270
77.61
22.39
32561
100.00
Chi-Square 66643.3355
DF
15
Pr > ChiSq
<.0001
17
education*education-num
18
education*education-num
19
Frequency
Percent
Cumulative
Frequency
311
1039
3124
271
27816
0.96
3.19
9.59
0.83
85.43
311
1350
4474
4745
32561
Chi-Square
DF
Pr > ChiSq
Cumulative
Percent
0.96
4.15
13.74
14.57
100.00
87941.8892
4
<.0001
20
Frequency
10771
21790
Percent
33.08
66.92
Cumulative
Frequency
10771
32561
Chi-Square
DF
Pr > ChiSq
Cumulative
Percent
33.08
100.00
3728.9506
1
<.0001
21
Frequency
19
121
75
59
95
70
28
106
90
29
137
29
64
44
1
13
Percent
0.06
0.38
0.23
0.18
0.30
0.22
0.09
0.33
0.28
0.09
0.43
0.09
0.20
0.14
0.00
0.04
Cumulative
Frequency
19
140
215
274
369
439
467
573
663
692
829
858
922
966
967
980
Cumulative
Percent
0.06
0.44
0.67
0.86
1.15
1.37
1.46
1.79
2.07
2.16
2.59
2.68
2.88
3.02
3.02
3.06
22
x14
Frequency
Hong
20
Hungary
13
India
100
Iran
43
Ireland
24
Italy
73
Jamaica
81
Japan
62
Laos
18
Mexico
643
Nicaragua
34
Outlying-US(Guam-USVI-etc) 14
Peru
31
Philippines
198
Poland
60
Portugal
37
Puerto-Rico
114
Scotland
12
Percent
0.06
0.04
0.31
0.13
0.08
0.23
0.25
0.19
0.06
2.01
0.11
0.04
0.10
0.62
0.19
0.12
0.36
0.04
Cumulative
Frequency
1000
1013
1113
1156
1180
1253
1334
1396
1414
2057
2091
2105
2136
2334
2394
2431
2545
2557
Cumulative
Percent
3.13
3.17
3.48
3.61
3.69
3.92
4.17
4.37
4.42
6.43
6.54
6.58
6.68
7.30
7.49
7.60
7.96
8.00
23
Frequency
12
80
51
18
19
29170
67
16
Percent
0.04
0.25
0.16
0.06
0.06
91.22
0.21
0.05
Cumulative
Frequency
2557
2637
2688
2706
2725
31895
31962
31978
Cumulative
Percent
8.00
8.25
8.41
8.46
8.52
99.74
99.95
100.00
1059744.4599
40
<.0001
24
Preparacin de datos
Datos pueden ser
Incompletos: valores para una variable
perdidos
Ruidosos: contienen errores o valores extremos
Inconsistentes: esquemas de codificacin
diferentes
25
Preparacin de datos
Actividades
Limpieza de datos
Integracin de datos
Transformacin de datos
Reduccin de datos
26
Limpieza de datos
Dar valores a datos perdidos
Suavizar el ruido en los datos
identificando valores extremos
Corregir inconsistencias
27
Valores perdidos
Valores para una variable no fueron
registrados
28
Valores perdidos
Opciones
Eliminar registros con valores perdidos: puede sesgar la
muestra
Reemplazar valores perdidos por un valor especial 999.99: modelos no pueden distinguir este valor de uno
perdido
Utilizar la media, mediana o moda: puede cambiar la
distribucin de los datos
Generar un valor aleatoriamente: puede ser difcil
conocer la distribucin de los valores particularmente si
existe un patrn en los valores perdidos
29
Valores perdidos
Opciones
Predecir el valor utilizando rboles de decisin
o redes neuronales
Particionar los registros y construir varios
modelos: posible cuando se puede conocer la
causa de la falta de registro de los datos
Utilizar procedimientos que puedan manipular
datos perdidos
30
31
800
600
400
Count
200
Valor extremo
0
M 2 2 2 3 3 4 4 4 5 5 6 6 6 7 7 8 8 8
is 0 4 8 2 6 0 4 8 2 6 0 4 8 2 6 0 4 8
s i .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0
ng 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
AGE
Minera de datos
Dr. Francisco J. Mata
32
33
Mtodos de regresin
34
Corregir inconsistencias
Inconsistencias pueden existir debido a la
forma en que fueron registrados lo datos
Correccin
Errores de entrada de datos pueden ser
corregidos buscando los registros originales
Uso de dependencias funcionales
35
Integracin de datos
Combinacin de datos de mltiples fuentes para
crear nuevos registros
Problemas
Identificacin de entidades
Claves para hacer uniones
Redundancia
Valores que pueden ser derivados de otras variables o
atributos
Algunas redundancias se pueden detectar mediante anlisis de
correlacin o tablas de contingencia
36
education*education-num
37
education*education-num
38
Transformacin de datos
Datos son transformados o consolidados
en formas apropiadas para minera de
datos
Mtodos
Discretizacin
Generalizacin
Normalizacin
Construccin de atributos o variables
Dr. Francisco J. Mata
39
Discretizacin
Tomar un valor contino y representarlo
en valores discretos
Ejemplo: transformar edad en
Joven
Edad medio
Adulto mayor
40
Generalizacin
Tomar un valor ms detallado y
generalizarlo de acuerdo con una
jerarqua 15 valores
Pas
365 valores
Provincia o estado
3,567 valores
Ciudad
674,339 valores
Calle
41
Normalizacin
Valores de una variable o atributo se
convierten para que caigan en un intervalo
pequeo
-1.0 a 1.0
0.0 a 1.0
42
Normalizacin
Mtodos
Normalizacin min-max
Normalizacin z-score
43
Normalizacin
Normalizacin min-max
v = ((v minA) / (maxA-minA)) (new_maxAnew_minA) + new_minA
Ejemplo:
Mnimo y mximo para ingreso es $12,000 y
$98,000, respectivamente
Se quiere transformar ingreso al intervalo [0.0,1.0]
El valor 73,600 se convierte en
((73,600-12,000) / (98,000-12,000)) (1.0-0) + 0 = 0.716
44
Normalizacin
Normalizacin z-score
v = (v media_A) / dev_est_A
Ejemplo:
Media y desviacin estndar para ingreso es
$54,000 y $16,000, respectivamente
El valor 73,600 se convierte en
(73,600-54,000) / 16,000 = 1.225
45
Construccin de atributos
Nuevos atributos son construidos a partir
de atributos existentes
Ejemplo: venta = cantidad * precio
46
Reduccin de datos
Obtener una representacin reducida del
conjunto de datos que es mucho ms
pequea en volumen pero mantiene la
integridad de los datos originales
47
Reduccin de datos
Tcnicas
Muestreo
Agregacin
Reduccin de dimensin
48
Reduccin de datos
Muestreo
Seleccionar un subconjunto de registros o
tuples pequeo pero representativo de la
poblacin
Existen tcnicas estadsticas para seleccionar
muestras representativas
49
Reduccin de datos
Agregacin
Sumarizar informacin usualmente sobre
perodos de tiempo
Ejemplo: sumar las ventas por trimestre para obtener
ventas anuales
50
Reduccin de datos
Reduccin de dimensin
Eliminar atributos o variables irrelevantes o
redundantes o reducir el nmero de estos
mediante rotacin de ejes
Tcnicas
Decision tree induction
Anlisis de componentes principales
51
Medir tres
especies X1 (S1),
X2 (S2) y X3 (S3)
en diferentes puntos
espaciales
Tomado de
http://ordination.okstate.edu/
PCA.htm
52
53
Varianza
explicada
1
2
3
1.8907
0.9951
0.1142
63%
33%
4%
Total
3.0063
100%
Dr. Francisco J. Mata
54
55
Dr. Francisco J. Mata
PCA1
PCA2
PCA3
X1-S1
0.9688
0.0664
-0.2387
X2-S2
0.9701
0.0408
0.2391
X3-S3
-0.1045
0.9945
0.0061
56
57