Sunteți pe pagina 1din 57

Exploracin y preparacin de

datos
Tema 5

Dr. Francisco J. Mata

Objetivos
Presentar la importancia de la exploracin
de los datos
Discutir la necesidad de preparar los datos

Dr. Francisco J. Mata

Explorar
Obtener estadsticas bsicas
Valores extremos
Valores perdidos

Distribuciones
Histogramas

Comparar valores con descripciones


Aparecen todos los cdigos para una variable categrica?
Distribucin de valores es esperada para variables
categricas?
Valores mnimos y mximos para una variable son razonables?

Relaciones entre variables

Dr. Francisco J. Mata

Explorar
Haga lista de asuntos sorprendentes o
que no estn claros
Pregunte al proveedor de los datos

Dr. Francisco J. Mata

Explorar
Observar
Nmero de registros (observaciones)
Nmero de variables (columnas)

Dr. Francisco J. Mata

Ver la tabla de datos es otra buena forma


de iniciar la exploracin

Dr. Francisco J. Mata

Explorar una variable


Penetracin de producto

Dr. Francisco J. Mata

Explorar relaciones
Ingreso por hogar 1999
Ingreso por familia 1999

Dr. Francisco J. Mata

Ejemplo
Archivo de datos de censo sobre adultos
de los Estados Unidos

Dr. Francisco J. Mata

Estadsticas descriptivas para


variables continuas

Variable
x1
x5
x11
x12
x13

Label
age
education-num
capital-gain
capital-loss
hour-per-week

Mean
38.582
10.081
1077.650
87.304
40.437

Dr. Francisco J. Mata

Std Dev
13.640
2.573
7385.290
402.960
12.347

Range
73.000
15.000
99999.000
4356.000
98.000

10

Age
1000

800

600

400

Count

200

M 2 2 2 3 3 4 4 4 5 5 6 6 6 7 7 8 8 8
is 0 4 8 2 6 0 4 8 2 6 0 4 8 2 6 0 4 8
s i .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0
ng 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

AGE

Minera de datos
Dr. Francisco J. Mata

11

Education-number
12000

10000

8000

6000

4000

Count

2000

0
Missing

2.00

1.00

4.00

3.00

6.00

5.00

8.00

7.00

10.00

9.00

Minera de datos
Dr. Francisco J. Mata

EDUCN

12.00

11.00

14.00

13.00

16.00

15.00
12

Gain
40000

30000

20000

Count

10000

M 9 14 17 20 22 24 26 29 33 34 39 46 50 60 67 78 105 150 251


is 91 0 9 6 9 1 5 6 2 7 4 5 1 9 6 9
s i . 9 7 2 0 4 3 4 5 1 2 0 3 7 7 6 66 20 24
ng 00 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 .00 .00 .00

GAIN

Minera de datos
Dr. Francisco J. Mata

13

Loss
40000

30000

20000

Count

10000

M 4 9
13 15 15 16 17 17 18 19 20 21 22 22 23 24 26 37
is 19 7
s i . 4. 80 39 94 51 21 55 48 74 42 49 05 58 77 67 03 70
ng 00 00 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

LOSS

Minera de datos
Dr. Francisco J. Mata

14

Hours
20000

Count

10000

M
is5 10 15 20 25 30 35 40 45 50 55 60 65 72 77 84 89 95
s.i0
n0g .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00

HOURS

Minera de datos
Dr. Francisco J. Mata

15

Estadsticas Descriptivas para


Variables Discretas
Workclass
x2
Federal-gov
Local-gov
Never-worked
Private
Self-emp-inc
Self-emp-not-inc
State-gov
Without-pay

Frequency

Percent

Cumulative
Frequency

960
2093
7
22696
1116
2541
1298
14

3.12
6.81
0.02
73.87
3.63
8.27
4.22
0.05

960
3053
3060
25756
26872
29413
30711
30725

Cumulative
Percent
3.12
9.94
9.96
83.83
87.46
95.73
99.95
100.00

Frequency Missing = 1836


Chi-Square 107220.7383
DF
7
Pr > ChiSq
<.0001
Dr. Francisco J. Mata

16

Estadsticas Descriptivas para


Variables Discretas
Education
x4
10th
11th
12th
1st-4th
5th-6th
7th-8th
9th
Assoc-acdm
Assoc-voc
Bachelors
Doctorate
HS-grad
Masters
Preschool
Prof-school
Some-college

Frequency
933
1175
433
168
333
646
514
1067
1382
5355
413
10501
1723
51
576
7291

Cumulative
Cumulative
Percent
Frequency
Percent
2.87
933
2.87
3.61
2108
6.47
1.33
2541
7.80
0.52
2709
8.32
1.02
3042
9.34
1.98
3688
11.33
1.58
4202
12.91
3.28
5269
16.18
4.24
6651
20.43
16.45
12006
36.87
1.27
12419
38.14
32.25
22920
70.39
5.29
24643
75.68
0.16
24694
75.84
1.77
25270
77.61
22.39
32561
100.00
Chi-Square 66643.3355
DF
15
Pr > ChiSq
<.0001
17

Dr. Francisco J. Mata

education*education-num

Dr. Francisco J. Mata

18

education*education-num

Dr. Francisco J. Mata

19

Estadsticas Descriptivas para


Variables Discretas
Race
x9
Amer-Indian-Eskimo
Asian-Pac-Islander
Black
Other
White

Frequency

Percent

Cumulative
Frequency

311
1039
3124
271
27816

0.96
3.19
9.59
0.83
85.43

311
1350
4474
4745
32561

Chi-Square
DF
Pr > ChiSq

Dr. Francisco J. Mata

Cumulative
Percent
0.96
4.15
13.74
14.57
100.00

87941.8892
4
<.0001

20

Estadsticas Descriptivas para


Variables Discretas
Sex
x10
Female
Male

Frequency
10771
21790

Percent
33.08
66.92

Cumulative
Frequency
10771
32561

Chi-Square
DF
Pr > ChiSq

Dr. Francisco J. Mata

Cumulative
Percent
33.08
100.00

3728.9506
1
<.0001

21

Estadsticas Descriptivas para


Variables Discretas
Native-country
x14
Cambodia
Canada
China
Columbia
Cuba
Dominican-Republic
Ecuador
El-Salvador
England
France
Germany
Greece
Guatemala
Haiti
Holand-Netherlands
Honduras

Frequency
19
121
75
59
95
70
28
106
90
29
137
29
64
44
1
13

Percent
0.06
0.38
0.23
0.18
0.30
0.22
0.09
0.33
0.28
0.09
0.43
0.09
0.20
0.14
0.00
0.04

Dr. Francisco J. Mata

Cumulative
Frequency
19
140
215
274
369
439
467
573
663
692
829
858
922
966
967
980

Cumulative
Percent
0.06
0.44
0.67
0.86
1.15
1.37
1.46
1.79
2.07
2.16
2.59
2.68
2.88
3.02
3.02
3.06
22

Estadsticas Descriptivas para


Variables Discretas
Native-country

x14
Frequency
Hong
20
Hungary
13
India
100
Iran
43
Ireland
24
Italy
73
Jamaica
81
Japan
62
Laos
18
Mexico
643
Nicaragua
34
Outlying-US(Guam-USVI-etc) 14
Peru
31
Philippines
198
Poland
60
Portugal
37
Puerto-Rico
114
Scotland
12

Percent
0.06
0.04
0.31
0.13
0.08
0.23
0.25
0.19
0.06
2.01
0.11
0.04
0.10
0.62
0.19
0.12
0.36
0.04

Cumulative
Frequency
1000
1013
1113
1156
1180
1253
1334
1396
1414
2057
2091
2105
2136
2334
2394
2431
2545
2557

Cumulative
Percent
3.13
3.17
3.48
3.61
3.69
3.92
4.17
4.37
4.42
6.43
6.54
6.58
6.68
7.30
7.49
7.60
7.96
8.00
23

Dr. Francisco J. Mata

Estadsticas Descriptivas para


Variables Discretas
Native-country
x14
Scotland
South
Taiwan
Thailand
Trinadad&Tobago
United-States
Vietnam
Yugoslavia

Frequency
12
80
51
18
19
29170
67
16

Percent
0.04
0.25
0.16
0.06
0.06
91.22
0.21
0.05

Cumulative
Frequency
2557
2637
2688
2706
2725
31895
31962
31978

Cumulative
Percent
8.00
8.25
8.41
8.46
8.52
99.74
99.95
100.00

Frequency Missing = 583


Chi-Square
DF
Pr > ChiSq

1059744.4599
40
<.0001

Dr. Francisco J. Mata

24

Preparacin de datos
Datos pueden ser
Incompletos: valores para una variable
perdidos
Ruidosos: contienen errores o valores extremos
Inconsistentes: esquemas de codificacin
diferentes

Dr. Francisco J. Mata

25

Preparacin de datos
Actividades
Limpieza de datos
Integracin de datos
Transformacin de datos
Reduccin de datos

Dr. Francisco J. Mata

26

Limpieza de datos
Dar valores a datos perdidos
Suavizar el ruido en los datos
identificando valores extremos
Corregir inconsistencias

Dr. Francisco J. Mata

27

Valores perdidos
Valores para una variable no fueron
registrados

Dr. Francisco J. Mata

28

Valores perdidos
Opciones
Eliminar registros con valores perdidos: puede sesgar la
muestra
Reemplazar valores perdidos por un valor especial 999.99: modelos no pueden distinguir este valor de uno
perdido
Utilizar la media, mediana o moda: puede cambiar la
distribucin de los datos
Generar un valor aleatoriamente: puede ser difcil
conocer la distribucin de los valores particularmente si
existe un patrn en los valores perdidos

Dr. Francisco J. Mata

29

Valores perdidos
Opciones
Predecir el valor utilizando rboles de decisin
o redes neuronales
Particionar los registros y construir varios
modelos: posible cuando se puede conocer la
causa de la falta de registro de los datos
Utilizar procedimientos que puedan manipular
datos perdidos

Dr. Francisco J. Mata

30

Suavizar el ruido en los datos


identificando valores extremos
Utilizar las distribuciones de valores para
identificar valores extremos
Utilizar tcnicas automticas de deteccin
de grupos (clustering)
Utilizar mtodos de regresin

Dr. Francisco J. Mata

31

Distribuciones para identificar valores


extremos
1000

800

600

400

Count

200

Valor extremo
0

M 2 2 2 3 3 4 4 4 5 5 6 6 6 7 7 8 8 8
is 0 4 8 2 6 0 4 8 2 6 0 4 8 2 6 0 4 8
s i .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0
ng 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

AGE

Minera de datos
Dr. Francisco J. Mata

32

Tcnicas automticas para detectar


grupos

Dr. Francisco J. Mata

33

Mtodos de regresin

Dr. Francisco J. Mata

34

Corregir inconsistencias
Inconsistencias pueden existir debido a la
forma en que fueron registrados lo datos
Correccin
Errores de entrada de datos pueden ser
corregidos buscando los registros originales
Uso de dependencias funcionales

Dr. Francisco J. Mata

35

Integracin de datos
Combinacin de datos de mltiples fuentes para
crear nuevos registros
Problemas
Identificacin de entidades
Claves para hacer uniones

Redundancia
Valores que pueden ser derivados de otras variables o
atributos
Algunas redundancias se pueden detectar mediante anlisis de
correlacin o tablas de contingencia

Duplicacin de registros o tuples


Deteccin y correccin de conflictos en valores de datos
Pesos en kilos y libras
Dr. Francisco J. Mata

36

education*education-num

Dr. Francisco J. Mata

37

education*education-num

Dr. Francisco J. Mata

38

Transformacin de datos
Datos son transformados o consolidados
en formas apropiadas para minera de
datos
Mtodos
Discretizacin
Generalizacin
Normalizacin
Construccin de atributos o variables
Dr. Francisco J. Mata

39

Discretizacin
Tomar un valor contino y representarlo
en valores discretos
Ejemplo: transformar edad en
Joven
Edad medio
Adulto mayor

Dr. Francisco J. Mata

40

Generalizacin
Tomar un valor ms detallado y
generalizarlo de acuerdo con una
jerarqua 15 valores
Pas
365 valores

Provincia o estado

3,567 valores

Ciudad

674,339 valores

Calle
41

Dr. Francisco J. Mata

Normalizacin
Valores de una variable o atributo se
convierten para que caigan en un intervalo
pequeo
-1.0 a 1.0
0.0 a 1.0

o tengan cierta media y desviacin


estndard

Dr. Francisco J. Mata

42

Normalizacin
Mtodos
Normalizacin min-max
Normalizacin z-score

Dr. Francisco J. Mata

43

Normalizacin
Normalizacin min-max
v = ((v minA) / (maxA-minA)) (new_maxAnew_minA) + new_minA
Ejemplo:
Mnimo y mximo para ingreso es $12,000 y
$98,000, respectivamente
Se quiere transformar ingreso al intervalo [0.0,1.0]
El valor 73,600 se convierte en
((73,600-12,000) / (98,000-12,000)) (1.0-0) + 0 = 0.716

Dr. Francisco J. Mata

44

Normalizacin
Normalizacin z-score
v = (v media_A) / dev_est_A
Ejemplo:
Media y desviacin estndar para ingreso es
$54,000 y $16,000, respectivamente
El valor 73,600 se convierte en
(73,600-54,000) / 16,000 = 1.225

Dr. Francisco J. Mata

45

Construccin de atributos
Nuevos atributos son construidos a partir
de atributos existentes
Ejemplo: venta = cantidad * precio

Dr. Francisco J. Mata

46

Reduccin de datos
Obtener una representacin reducida del
conjunto de datos que es mucho ms
pequea en volumen pero mantiene la
integridad de los datos originales

Dr. Francisco J. Mata

47

Reduccin de datos
Tcnicas
Muestreo
Agregacin
Reduccin de dimensin

Dr. Francisco J. Mata

48

Reduccin de datos
Muestreo
Seleccionar un subconjunto de registros o
tuples pequeo pero representativo de la
poblacin
Existen tcnicas estadsticas para seleccionar
muestras representativas

Dr. Francisco J. Mata

49

Reduccin de datos
Agregacin
Sumarizar informacin usualmente sobre
perodos de tiempo
Ejemplo: sumar las ventas por trimestre para obtener
ventas anuales

Asociado con cubos OLAP

Dr. Francisco J. Mata

50

Reduccin de datos
Reduccin de dimensin
Eliminar atributos o variables irrelevantes o
redundantes o reducir el nmero de estos
mediante rotacin de ejes
Tcnicas
Decision tree induction
Anlisis de componentes principales

Dr. Francisco J. Mata

51

Anlisis de componentes principales

Medir tres
especies X1 (S1),
X2 (S2) y X3 (S3)
en diferentes puntos
espaciales
Tomado de
http://ordination.okstate.edu/
PCA.htm

Dr. Francisco J. Mata

52

Anlisis de componentes principales

Se estandarizan los datos:


se resta la media y divide por
desviacin estndar

Dr. Francisco J. Mata

53

Anlisis de componentes principales

Se rotan los ejes ortogonalmente de acuerdo con los


valores principales
Valor
principal

Varianza
explicada

1
2
3

1.8907
0.9951
0.1142

63%
33%
4%

Total

3.0063

100%
Dr. Francisco J. Mata

54

Anlisis de componentes principales


Representacin del
96 % de varianza
en dos dimensiones

55
Dr. Francisco J. Mata

Anlisis de componentes principales


Factores de carga
Especie

PCA1

PCA2

PCA3

X1-S1

0.9688

0.0664

-0.2387

X2-S2

0.9701

0.0408

0.2391

X3-S3

-0.1045

0.9945

0.0061

Dr. Francisco J. Mata

56

Anlisis de componentes principales


Curvas hipotticas
de respuesta de
las especies al
gradiente ambiental

Dr. Francisco J. Mata

57

S-ar putea să vă placă și