Diplomado Clasificación S1 PDF

Ciencia de datos:
una introducción basada el proyectos
Módulo IV: Clasificación

Sesión 1/4
Dr. Angel Juan Sánchez García

angesanchez@uv.mx.com
Contenido del Módulo angesanchez@uv.mx
• Conceptos relacionados
• Concepto de clasificación
• Ejemplos de clasificación
• Árboles de decisión
• Bosque aleatorio (Random forest)
• K-Vecino más cercano (k-NN)
• Ingenuo Bayesiano (Naive Bayes)
• Máquinas de soporte vectorial (SVM)
• Evaluación de Modelos
• Elaboración de proyecto de clasificación
• Visualización de datos
Proyecto del módulo angesanchez@uv.mx
• Describir la problemática.
• Escribir un objetivo del estudio con tus datos.
• Definir tu variable clase
• Definir las variables predictoras
• Evaluar y documentar todos los métodos vistos en clase.
• Concluir.
• Calif = X/100
Requerimientos de la Ciencia de Datos angesanchez@uv.mx

Minería de Datos angesanchez@uv.mx
Muchas definiciones
• Extracción no trivial de información implícita, previamente

desconocida y potencialmente útil a partir de datos.
• Exploración y análisis, mediante medios automáticos o

semiautomáticos, de grandes cantidades de datos.
CINECIA DE DATOS = CIENCIA +

+ OTROS
ELEMENTOS
¿Qué (no) es Minería de datos? angesanchez@uv.mx
¿Qué no es Minería de Datos? • ¿Qué sí es Minería de Datos?
• Buscar un número telefónico en • Ciertos nombres que son más

un directorio. comunes en alguna localidad de
México.
• Una Consulta en un buscador • Agrupar documentos similares

web regresados por un motor de
búsqueda, de acuerdo a su
contexto.
Tareas de la Minería de Datos angesanchez@uv.mx
Métodos de descripción
• Encontrar patrones humanamente interpretables que describen los
datos
Métodos de predicción
• Usar algunas variables para predecir valores de variables
desconocidos y futuros.
Tareas de la Minería de Datos angesanchez@uv.mx
Descriptivos Predictivos
• Análisis Clúster • Regresión
• Reglas de Asociación • Clasificación
• Reglas de dependencia
Aprendizaje Máquina o Automático (Machine learning) angesanchez@uv.mx
Definición
• Subcampo de las Ciencias de la computación y una rama de la

Inteligencia Artificial , cuyo objetivo es desarrollar técnicas que
permitan que las computadoras aprendan.
• Un agente aprende cuando su desempeño mejora con la

experiencia, es decir, cuando la habilidad no estaba presente
entre sus rasgos de nacimiento.
• Para Diencia de Datos diremos que es construir modelos de

datos.
Aprendizaje máquina o automático (Machine learning) angesanchez@uv.mx
Aprendizaje no Supervisado • Aprendizaje Supervisado
• Análisis Clúster • Clasificación
• Reglas de Asociación • Regresión
¿Aprendizaje se traslapa con la Estadística?
• Ambas disciplinas se basan en el análisis de datos.
• El aprendizaje automático incorpora las preocupaciones de la complejidad

computacional
Aprendizaje máquina o automático (Machine learning) angesanchez@uv.mx
Aprendizaje no Supervisado Aprendizaje Supervisado
• Modelar variables de un conjunto • Modelar la relación entre

de datos sin conocer alguna variables medidas de datos y
etiqueta. alguna etiqueta asociada con los
datos.
• “Deja que los datos hable por sí
mismos”.
Aprendizaje no Supervisado • Aprendizaje Supervisado
• Análisis Clúster • Clasificación
• Reglas de Asociación • Regresión
Descubrimiento de Reglas de Asociación angesanchez@uv.mx
• Dado un conjunto de registros, donde cada uno contiene algún conjunto

de elementos de una colección dada:
• Producir reglas de dependencia que predecirán ocurrencias de un

elemento (item) basado en la ocurrencia de otros.
Reglas descubiertas:
TID Items {Milk} --> {Coke}
1 Bread, Coke, Milk {Diaper, Milk} --> {Beer}
2 Beer, Bread
3 Beer, Coke, Diaper, Milk
4 Beer, Bread, Diaper, Milk
5 Coke, Diaper, Milk
Tan, Steinbach, Kumar. Introduction to Data Mining, 2004

Reglas de Asociación: Aplicación 1 angesanchez@uv.mx
• Promoción de ventas:
Tenemos la regla descubierta:
{Bagels, … } --> {Potato Chips}
Potato Chips como consecuente => Puede ser usado para determinar lo que se
debería hacer para aumentar sus ventas.
Bagels en el antecedente => Puede ser usado para ver cuáles productos serían
afectados si la tienda deja de vender bagels.
Bagels en el antecedente y Potato chips en consequente => Puede ser usado
para ver qué productos deberían ser vendidos con Bagels para promocionar
la venta de Potato chips!

• Gestión de estantería de un supermercado
• Meta: Identificar los elementos que son comprados juntos por muchos clientes.
• Enfoque: Procesar los datos del punto de venta para encontrar dependencias entre
ellos.
• Una regla se Asociación clásica:
• Si un cliente compra pañales y leche, entonces es probable que compre cerveza.
Así que no te sorprendas si encuentras six-packs colocados junto a pañales!!

Sabías que… angesanchez@uv.mx

Descubrimiento de patrones Secuenciales angesanchez@uv.mx
• Dado un conjunto de objetos, con cada objeto asociado con su

propia línea del tiempo de eventos, encontrar reglas que
pronostiquen dependencias secuenciales fuertes entre diferentes
eventos.
(A B) (C) (D E)
Las ocurrencias de eventos en los patrones están regidos por

restricciones de tiempo.
(A B) (C) (D E)
<= xg >ng <= ws
<= ms
• En gestión de puntos de venta
• Librería
(Intro_To_Visual_C) (C++_Primer) à (Perl_for_dummies)
• Almacén de ropa de Deportiva

(tenis) (Raqueta, pelota de tenis) à (chamarra deportiva)
• En recomentadores
(Comunidad del anillo) (Las dos torres) à (El retorno del rey)

Antes de continuar…. angesanchez@uv.mx
• UCI Machine Learning Repository:

https://archive.ics.uci.edu/ml/datasets.php
• Más de 470 bases de datos.
• Se clasifican por tipos de tareas, de datos, áreas y número de instancias.

Antes de continuar…. angesanchez@uv.mx
Tomar en cuenta:
• Tipos de datos.
• Número de registros.
• Buena documentación.
• Abierta y disponible al público.
• Formato en el que fue almacenada (fácil de tratar con R o Python)
• Sea lo menos morboso possible (muerte, mortalidad, etc).

Regresión (resumen) angesanchez@uv.mx
Predecir un valor de una variable continua dada, basada en los

valores de otras variables, asumiendo un modelo de dependencia
lineal o no lineal.
Recordemos que los algoritmos de Machine learning supervisados,

aprenden por sí mismos y (en este caso) a obtener
automáticamente esa “recta”.
Para hacerlo se mide el error con respecto a los puntos de entrada

y el valor Y de salida real.
El algoritmo deberá minimizar el coste de una función de error

cuadrático y esos coeficientes corresponderán con la recta óptima.
Regresión angesanchez@uv.mx
Ejemplos:
1. Predecir cantidades de ventas de un nuevo producto basado en

gastos de publicidad.
2. Predecir velocidades del viento como función de la temperatura,

humedad, presión del aire etc.
3. Predicción de series de tiempo de los índices bursátiles o de

Mercado.
Regresión angesanchez@uv.mx
Ejemplos:
Detectar comportamiento anormal.
Aplicaciones:
1. Detección de fraude en tarjetas de

crédito
2. Detección de intrusos en la red

Base de datos 1 angesanchez@uv.mx
automobile.csv
https://archive.ics.uci.edu/ml/datasets/Automobile
22 Variables y 197 registros (se eliminaron registros con valores

faltantes).
Valores continuos y discretos

athlete_events.csv
https://www.kaggle.com/heesoo37/120-years-of-olympic-history-
athletes-and-results
15 Variables y más de 27,000 registros.
Histórico de participaciones desde Atenas de 1986 hasta Río 2016

Regresión Lineal Simple angesanchez@uv.mx
Recordemos que:
• En esta versión, una línea recta se ajusta a los datos.
• La línea recta tiene la forma: y = ax + b, donde
• a es la pendiente (slope): mide el cambio de la variable Y por

cada unidad de cambio de X .
• y b es el intercepto: representa la estimación del valor de Y

cuando X es igual a cero
• Vamos a ver un ejemplo sencillo en Python

Ejemplo en Python angesanchez@uv.mx
¿Habrá relación entre el largo y el ancho de los coches? (pregunta

seria)
Primero vamos a cargar la base de datos e importar los módulos

necesarios.
¿Recuerdas los nombres y abreviaciones de los paquetes?

• Dataframes
• Gráficos
• Operaciones numéricas
Renombrar variables y visualizar relación
Importar la función “LinearRegression” de

sklearn
Construir el objeto del modelo y se

entrena el modelo
Construir una línea recta a partir de

datos independientes de
entrenamiento y se predicen los
valores
Se grafican los valores originales y los estimados.
¿Si quiero predecir x = 150?.
¿Si quiero predecir x = 150 y x = 163?.

NOTA: con los atributos coef_ e intercept_ de la variable modelo,

podrás conocer la pendiente y el intercepto (término independiente)
respectivamente.
Si se quiere calcular el error cuadrático medio y el coeficiente de

determinación r2 se importan esas funciones del submódulo metrics
de sklearn
Error cuadrático medio: mean_squared_error (y_reales,

y_predichos)
r2: r2_score (y_reales, y_predichos)
Nota: los parámetros deben ser del mismo tamaño
Recordar que r2 es la proporción de la varianza total de la variable

explicada por la regresión.
El modelo explica un 69.3% a la variable real

Otra opción en Python angesanchez@uv.mx
Una manera de saber sólo la información del modelo (no

trabajar con él) es usar la función linregress del modulo
scipy.stats.
Atributo Tipo Descripción

Slope Float Pendiente de la línea de regresión
Intercept Float Intercepto de la línea de regresión
R-value Float Coeficiente de determinación
P-value Float P-valor de dos lados para una prueba de hipótesis donde H0 es
que la pendiente es cero.
stderr Float Error estándar de la estimación
Otra opción en Python angesanchez@uv.mx
Una manera de saber sólo la información del modelo (no

trabajar con él) es usar la función linregress del modulo
scipy.stats.
Regresión Lineal Múltiple angesanchez@uv.mx
La ecuación ahora es: y = m1x1 + m2x2 + … mnxn + b
Vamos a extender el ejercicio utilizando ahora dos variables de

entrada: y = m1x1 + m2x2 + b
Usaremos la longitud y el ancho del automóvil para predecir el

peso.
Solo usaremos dos variables para visualizar el resultado en 3

dimensiones.
En lugar de una recta, obtendremos un plano.

Importar todos los módulos vistos en en ejemplo de regression

simple (ponerlo todo en un script).
Seleccionamos las variables predictoras y la variable respuesta
Generamos el modelo como en el caso de regresión simple

NOTA: con los atributos coef_ e intercept_ de la variable modelo2,

son iguales que en la regresión simple (solo que ahora hay dos
valores en coef_)
La variable coef_ nos da los valores [0.173, -0.501]
Por lo tanto la ecuación para predecir un valor sería:
y = m1x1 + m2x2 + b
y = 0.173Longitud – 0.501Ancho + 56.703

Error cuadrático medio: 4.1986

R2: 0.3009
Error cuadrático medio aumentó teniendo en cuenta ahora dos

variables.
No es un buen modelo para explicar el peso, con respecto a su

longitud y su ancho
¿A qué creen que se deba?

Importar el modulo para graficar en 3D
Crear una figura donde se graficarán los datos
Construímos la malla de puntos del plano
Se pueden reemplazar por el mínimo y máximo de cada variable.
Calculamos los puntos para cada coordenada del plano

Para ese par de puntos se calcula el valor de Z del plano
Graficamos el plano
Graficamos el azul los puntos originales
Graficamos el rojo los puntos correspondientes al plano con respecto a

las variables predictoras
Situamos la cámara para major visualización
Agregamos título y leyendas a los ejes

Otras regresiones angesanchez@uv.mx
Least squares
Ridge Regression
Lasso
Elastic-Net
Least Angle Regression
LARS Lasso
Logistic Regression
ACTIVIDAD angesanchez@uv.mx
1) Con la base de datos de automóviles, hacer una regression

lineal simple y una regression lineal multiple con las variables
de tu preferencia.
2) Describir el objetivo de tu estudio y resultados

spotify_songs.csv
https://www.kaggle.com/geomack/spotifyclassification/downloads/s
potifyclassification.zip/1
16 Variables y 2017 registros

Clasificación angesanchez@uv.mx
• Definición formal:
Dada una colección de registros (Conjunto de entrenamiento):
Cada registro contiene un conjunto de atributos, de los cuales uno

es la clase (variable categórica).
Encontrar un modelo para el atributo clase como función de los

valores de los demás atributos.
Goal: previously unseen records should be assigned a class as

accurately as possible.
A test set is used to determine the accuracy of the model. Usually,
the given data set is divided into training and test sets, with
• Definición formal:
Meta: Los registros previamente desconocidos se deben asignar a

una clase tan precisamente como sea posible,
Se usa un conjunto de prueba para determinar la precisión del

modelo.
• Ejemplo de clasificación:
l l us
ir ca ir ca o
e go e go t inu s
t t n
ca ca co lc as
Tid Refund Marital Taxable Refund Marital Taxable
Status Income Cheat Status Income Cheat
1 Yes Single 125K No No Single 75K ?

2 No Married 100K No Yes Married 50K ?
3 No Single 70K No No Married 150K ?
4 Yes Married 120K No Yes Divorced 90K ?
5 No Divorced 95K Yes No Single 40K ?
6 No Married 60K No No Married 80K ? Test
Set
10
7 Yes Divorced 220K No

8 No Single 85K Yes
9 No Married 75K No Learn
Training Model
10 No Single 90K Yes
10
Set Classifier
• Definición INFORMAL:
• Dados los valores de tus variables, ¿A qué clase (o categoría)

pertecenes?
Atributo clase Valores de clases

Género Masculino o femenido
Status préstamo Concedido o rechazado
Tipo de coche Lujoso, deportivo o económico
Género musical Banda, pop, rock
Profesión Estadístico, informático, otro
Estado civil Casado, divorciado, soltero
Ingreso Generar intervalos
Clasificación: aplicación 1 angesanchez@uv.mx
Dirección de Marketing:
Meta: Reducir el costo de enviar correo a un conjunto de clientes

que probablemente vayan a comprar un nuevo teléfono celular.
Enfoque:
• Usar los datos de productos similares introducidos antes.
• Sabemos que los clientes decidieron comprar y cuales no. Esta
decisión (comprar / no comprar) forma atributo clase.
• Recoger información relacionada de todos los clientes
(demográfica, estilo de vida, interacción con la compañía,
ingresos, etc.)
• Usar esta información como atributos de entrada para el modelo
de clasificación.
Catalogar investigaciones del cielo:
Meta: predecir la clase (estrella o galaxia) de objetos celestes

basados en imágenes telescópicas (Observatorio el Palomar).
3000 imágenes de 23040 x 23040 píxeles.
Enfoque:
• Segmentar la imagen
• Medir las características de las imágenes (40 por imagen).
• Modelar con base en sus características.
• Caso de éxito: Encontrar 16 nuevos cuásar
From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996
Clasificar galaxias Cortesía: http://aps.umn.edu
temprana Clase: Atributos:

• Etapas de formación • Características de imágenes,
• Características de intensidad de onda
recibidas
Intermedia
longeva
Tamaño de los datos:

• 72 millones de estrellas, 20 millones de galaxias
• Catálogo de objetos: 9 GB
• Bases de datos de imágenes: 150 GB
Cultural
• Search for Extraterrestrial Intelligence
• Universidad de Berckeley
• Proyecto de cómputo distribuido más importante
• 5,2 millones de computadoras a la fecha.
• Más de 2 millones de años de tiempo analizados
¿Adivino en quien estás pensando?:
https://es.akinator.com
Preescribir un medicamento:
Meta: saber si un paciente puede tomar o no cierto fármaco para

evitar reacciones secundarias.
Enfoque:
• Se sabe a qué tipo de pacientes les hizo daño (diabéticos,
hipertensos, etc)
From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996
Clasificar el uso de un fármaco:

Atributo clase: Tomar el fármaco (SI / NO)
Ejemplo de árbol de decisión angesanchez@uv.mx
Clasificar
ica
el uso
a
de un fármaco:
gór ric nua
te ó i
ca te
g nt e
ca co lc as
Dividir Atributos (Split)
Tid Refund Marital Taxable
Status Income Cheat
1 Yes Single 125K No

2 No Married 100K No Refund
Yes No
3 No Single 70K No
4 Yes Married 120K No NO MarSt
5 No Divorced 95K Yes Single, Divorced Married
6 No Married 60K No
7 Yes Divorced 220K No TaxInc NO
8 No Single 85K Yes < 80K > 80K
9 No Married 75K No
NO YES
10 No Single 90K Yes
10
Datos de Modelo: Árbol de decisión

entrenamiento
angesanchez@uv.mx
Otro ejemplo de Árbol de decisión

r ica r ica nua
e gó e gó n+ e
ca
t
ca
t co lc as MarSt Single,
Married Divorced
Tid Refund Marital Taxable
Status Income Cheat
NO Refund
1 Yes Single 125K No
Yes No
2 No Married 100K No
3 No Single 70K No NO TaxInc
4 Yes Married 120K No < 80K > 80K
5 No Divorced 95K Yes
NO YES
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No Podría haber más de un árbol que se ajuste a
10 No Single 90K Yes los mismos datos!
10
angesanchez@uv.mx
Árboles de decisión: Tarea de clasificar

Tid Attrib1 Attrib2 Attrib3 Class
Tree
1 Yes Large 125K No Induction
2 No Medium 100K No algorithm
3 No Small 70K No
4 Yes Medium 120K No

Induction
5 No Large 95K Yes
6 No Medium 60K No
7 Yes Large 220K No Learn

8 No Small 85K Yes Model
9 No Medium 75K No
10 No Small 90K Yes

Model
10
Training Set
Apply Decision
Model Tree
11 No Small 55K ?
12 Yes Medium 80K ?
13 Yes Large 110K ?

Deduction
14 No Small 95K ?
15 No Large 67K ?
10
Test Set
angesanchez@uv.mx
Aplicar el modelo a los datos de prueba

Datos de prueba
Empezar por la raíz del árbol. Refund Marital Taxable
Status Income Cheat
No Married 80K ?
Refund 10
Yes No
NO MarSt
Single, Divorced Married
TaxInc NO
< 80K > 80K
NO YES
angesanchez@uv.mx

Datos de prueba
Refund Marital Taxable
Status Income Cheat
No Married 80K ?
Refund 10
Yes No
NO MarSt
TaxInc NO
< 80K > 80K
NO YES
angesanchez@uv.mx

Datos de prueba
Status Income Cheat
No Married 80K ?
Refund 10
Yes No
NO MarSt
TaxInc NO
< 80K > 80K
NO YES
angesanchez@uv.mx

Datos de prueba
Status Income Cheat
No Married 80K ?
Refund 10
Yes No
NO MarSt
TaxInc NO
< 80K > 80K
NO YES
angesanchez@uv.mx

Datos de prueba
Status Income Cheat
No Married 80K ?
Refund 10
Yes No
NO MarSt
TaxInc NO
< 80K > 80K
NO YES
angesanchez@uv.mx

Datos de prueba
Status Income Cheat
No Married 80K ?
Refund 10
Yes No
NO MarSt
Single, Divorced Married Asignar “NO” a Cheat
TaxInc NO
< 80K > 80K
NO YES
angesanchez@uv.mx
Árbol de decision para la tarea de clasificar

Tree
1 Yes Large 125K No Induction
2 No Medium 100K No algorithm
3 No Small 70K No
4 Yes Medium 120K No

Induction
5 No Large 95K Yes
6 No Medium 60K No
7 Yes Large 220K No Learn

8 No Small 85K Yes Model
9 No Medium 75K No
10 No Small 90K Yes

Model
10
Training Set
Decision
Apply Tree
Model
11 No Small 55K ?
12 Yes Medium 80K ?
13 Yes Large 110K ?

Deduction
14 No Small 95K ?
15 No Large 67K ?
10
Test Set
angesanchez@uv.mx
Inducción de Árboles de Decisión
Muhos algoritmos:
• Hunt’s Algorithm (Uno de los primeros)

• CART
• ID3, C4.5
• SLIQ,SPRINT
Ciencia de datos:
una introducción basada el proyectos
Módulo IV: Clasificación

Sesión 1/4

angesanchez@uv.mx.com

Diplomado Clasificación S1 PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Diplomado Clasificación S1 PDF

Încărcat de

Drepturi de autor:

Formate disponibile

Ciencia de datos:

una introducción basada el proyectos

Módulo IV: Clasificación

Dr. Angel Juan Sánchez García

Contenido del Módulo angesanchez@uv.mx

Proyecto del módulo angesanchez@uv.mx

• Escribir un objetivo del estudio con tus datos.

• Definir tu variable clase

• Definir las variables predictoras

• Evaluar y documentar todos los métodos vistos en clase.

Requerimientos de la Ciencia de Datos angesanchez@uv.mx

Minería de Datos angesanchez@uv.mx

• Extracción no trivial de información implícita, previamente

• Exploración y análisis, mediante medios automáticos o

CINECIA DE DATOS = CIENCIA +

¿Qué (no) es Minería de datos? angesanchez@uv.mx

¿Qué no es Minería de Datos? • ¿Qué sí es Minería de Datos?

• Buscar un número telefónico en • Ciertos nombres que son más

• Una Consulta en un buscador • Agrupar documentos similares

Tareas de la Minería de Datos angesanchez@uv.mx

Tareas de la Minería de Datos angesanchez@uv.mx

• Análisis Clúster • Regresión

• Reglas de Asociación • Clasificación

Aprendizaje Máquina o Automático (Machine learning) angesanchez@uv.mx

• Subcampo de las Ciencias de la computación y una rama de la

• Un agente aprende cuando su desempeño mejora con la

• Para Diencia de Datos diremos que es construir modelos de

Aprendizaje máquina o automático (Machine learning) angesanchez@uv.mx

Aprendizaje no Supervisado • Aprendizaje Supervisado

• Análisis Clúster • Clasificación

• Reglas de Asociación • Regresión

¿Aprendizaje se traslapa con la Estadística?

• Ambas disciplinas se basan en el análisis de datos.

• El aprendizaje automático incorpora las preocupaciones de la complejidad

Aprendizaje máquina o automático (Machine learning) angesanchez@uv.mx

Aprendizaje no Supervisado Aprendizaje Supervisado

• Modelar variables de un conjunto • Modelar la relación entre

Aprendizaje no Supervisado • Aprendizaje Supervisado

• Análisis Clúster • Clasificación

• Reglas de Asociación • Regresión

Descubrimiento de Reglas de Asociación angesanchez@uv.mx

• Dado un conjunto de registros, donde cada uno contiene algún conjunto

• Producir reglas de dependencia que predecirán ocurrencias de un

Tan, Steinbach, Kumar. Introduction to Data Mining, 2004

Reglas de Asociación: Aplicación 1 angesanchez@uv.mx

Tan, Steinbach, Kumar. Introduction to Data Mining, 2004

Reglas de Asociación: Aplicación 2 angesanchez@uv.mx

• Gestión de estantería de un supermercado

• Una regla se Asociación clásica:

• Si un cliente compra pañales y leche, entonces es probable que compre cerveza.

Así que no te sorprendas si encuentras six-packs colocados junto a pañales!!

Tan, Steinbach, Kumar. Introduction to Data Mining, 2004

Sabías que… angesanchez@uv.mx

Tan, Steinbach, Kumar. Introduction to Data Mining, 2004

Descubrimiento de patrones Secuenciales angesanchez@uv.mx

• Dado un conjunto de objetos, con cada objeto asociado con su

Las ocurrencias de eventos en los patrones están regidos por

Reglas de Asociación: Aplicación 2 angesanchez@uv.mx

• En gestión de puntos de venta

• Almacén de ropa de Deportiva

Tan, Steinbach, Kumar. Introduction to Data Mining, 2004

Antes de continuar…. angesanchez@uv.mx

• UCI Machine Learning Repository: