Sunteți pe pagina 1din 66

Ciencia de datos:

una introducción basada el proyectos

Módulo IV: Clasificación


Sesión 1/4

Dr. Angel Juan Sánchez García


angesanchez@uv.mx.com
Dr. Angel Juan Sánchez García

Contenido del Módulo angesanchez@uv.mx

• Conceptos relacionados
• Concepto de clasificación
• Ejemplos de clasificación
• Árboles de decisión
• Bosque aleatorio (Random forest)
• K-Vecino más cercano (k-NN)
• Ingenuo Bayesiano (Naive Bayes)
• Máquinas de soporte vectorial (SVM)
• Evaluación de Modelos
• Elaboración de proyecto de clasificación

• Visualización de datos
Dr. Angel Juan Sánchez García

Proyecto del módulo angesanchez@uv.mx

• Describir la problemática.

• Escribir un objetivo del estudio con tus datos.

• Definir tu variable clase

• Definir las variables predictoras

• Evaluar y documentar todos los métodos vistos en clase.

• Concluir.

• Calif = X/100
Dr. Angel Juan Sánchez García

Requerimientos de la Ciencia de Datos angesanchez@uv.mx


Dr. Angel Juan Sánchez García

Minería de Datos angesanchez@uv.mx

Muchas definiciones

• Extracción no trivial de información implícita, previamente


desconocida y potencialmente útil a partir de datos.

• Exploración y análisis, mediante medios automáticos o


semiautomáticos, de grandes cantidades de datos.

CINECIA DE DATOS = CIENCIA +


+ OTROS
ELEMENTOS
Dr. Angel Juan Sánchez García

¿Qué (no) es Minería de datos? angesanchez@uv.mx

¿Qué no es Minería de Datos? • ¿Qué sí es Minería de Datos?

• Buscar un número telefónico en • Ciertos nombres que son más


un directorio. comunes en alguna localidad de
México.

• Una Consulta en un buscador • Agrupar documentos similares


web regresados por un motor de
búsqueda, de acuerdo a su
contexto.
Dr. Angel Juan Sánchez García

Tareas de la Minería de Datos angesanchez@uv.mx

Métodos de descripción
• Encontrar patrones humanamente interpretables que describen los
datos

Métodos de predicción
• Usar algunas variables para predecir valores de variables
desconocidos y futuros.
Dr. Angel Juan Sánchez García

Tareas de la Minería de Datos angesanchez@uv.mx

Descriptivos Predictivos

• Análisis Clúster • Regresión

• Reglas de Asociación • Clasificación

• Reglas de dependencia
Dr. Angel Juan Sánchez García

Aprendizaje Máquina o Automático (Machine learning) angesanchez@uv.mx

Definición

• Subcampo de las Ciencias de la computación y una rama de la


Inteligencia Artificial , cuyo objetivo es desarrollar técnicas que
permitan que las computadoras aprendan.

• Un agente aprende cuando su desempeño mejora con la


experiencia, es decir, cuando la habilidad no estaba presente
entre sus rasgos de nacimiento.

• Para Diencia de Datos diremos que es construir modelos de


datos.
Dr. Angel Juan Sánchez García

Aprendizaje máquina o automático (Machine learning) angesanchez@uv.mx

Aprendizaje no Supervisado • Aprendizaje Supervisado

• Análisis Clúster • Clasificación

• Reglas de Asociación • Regresión

• Reglas de dependencia

¿Aprendizaje se traslapa con la Estadística?

• Ambas disciplinas se basan en el análisis de datos.

• El aprendizaje automático incorpora las preocupaciones de la complejidad


computacional
Dr. Angel Juan Sánchez García

Aprendizaje máquina o automático (Machine learning) angesanchez@uv.mx

Aprendizaje no Supervisado Aprendizaje Supervisado

• Modelar variables de un conjunto • Modelar la relación entre


de datos sin conocer alguna variables medidas de datos y
etiqueta. alguna etiqueta asociada con los
datos.
• “Deja que los datos hable por sí
mismos”.

Aprendizaje no Supervisado • Aprendizaje Supervisado

• Análisis Clúster • Clasificación

• Reglas de Asociación • Regresión

• Reglas de dependencia
Dr. Angel Juan Sánchez García

Descubrimiento de Reglas de Asociación angesanchez@uv.mx

• Dado un conjunto de registros, donde cada uno contiene algún conjunto


de elementos de una colección dada:

• Producir reglas de dependencia que predecirán ocurrencias de un


elemento (item) basado en la ocurrencia de otros.
Reglas descubiertas:
TID Items {Milk} --> {Coke}
1 Bread, Coke, Milk {Diaper, Milk} --> {Beer}
2 Beer, Bread
3 Beer, Coke, Diaper, Milk
4 Beer, Bread, Diaper, Milk
5 Coke, Diaper, Milk

Tan, Steinbach, Kumar. Introduction to Data Mining, 2004


Dr. Angel Juan Sánchez García

Reglas de Asociación: Aplicación 1 angesanchez@uv.mx

• Promoción de ventas:
Tenemos la regla descubierta:
{Bagels, … } --> {Potato Chips}

Potato Chips como consecuente => Puede ser usado para determinar lo que se
debería hacer para aumentar sus ventas.
Bagels en el antecedente => Puede ser usado para ver cuáles productos serían
afectados si la tienda deja de vender bagels.
Bagels en el antecedente y Potato chips en consequente => Puede ser usado
para ver qué productos deberían ser vendidos con Bagels para promocionar
la venta de Potato chips!

Tan, Steinbach, Kumar. Introduction to Data Mining, 2004


Dr. Angel Juan Sánchez García

Reglas de Asociación: Aplicación 2 angesanchez@uv.mx

• Gestión de estantería de un supermercado

• Meta: Identificar los elementos que son comprados juntos por muchos clientes.

• Enfoque: Procesar los datos del punto de venta para encontrar dependencias entre
ellos.

• Una regla se Asociación clásica:

• Si un cliente compra pañales y leche, entonces es probable que compre cerveza.

Así que no te sorprendas si encuentras six-packs colocados junto a pañales!!

Tan, Steinbach, Kumar. Introduction to Data Mining, 2004


Dr. Angel Juan Sánchez García

Sabías que… angesanchez@uv.mx

Tan, Steinbach, Kumar. Introduction to Data Mining, 2004


Dr. Angel Juan Sánchez García

Descubrimiento de patrones Secuenciales angesanchez@uv.mx

• Dado un conjunto de objetos, con cada objeto asociado con su


propia línea del tiempo de eventos, encontrar reglas que
pronostiquen dependencias secuenciales fuertes entre diferentes
eventos.
(A B) (C) (D E)

Las ocurrencias de eventos en los patrones están regidos por


restricciones de tiempo.

(A B) (C) (D E)
<= xg >ng <= ws

<= ms
Dr. Angel Juan Sánchez García

Reglas de Asociación: Aplicación 2 angesanchez@uv.mx

• En gestión de puntos de venta

• Librería
(Intro_To_Visual_C) (C++_Primer) à (Perl_for_dummies)

• Almacén de ropa de Deportiva


(tenis) (Raqueta, pelota de tenis) à (chamarra deportiva)

• En recomentadores
(Comunidad del anillo) (Las dos torres) à (El retorno del rey)

Tan, Steinbach, Kumar. Introduction to Data Mining, 2004


Dr. Angel Juan Sánchez García

Antes de continuar…. angesanchez@uv.mx

• UCI Machine Learning Repository:


https://archive.ics.uci.edu/ml/datasets.php

• Más de 470 bases de datos.

• Se clasifican por tipos de tareas, de datos, áreas y número de instancias.

Tan, Steinbach, Kumar. Introduction to Data Mining, 2004


Dr. Angel Juan Sánchez García

Antes de continuar…. angesanchez@uv.mx

Tomar en cuenta:

• Tipos de datos.
• Número de registros.
• Buena documentación.
• Abierta y disponible al público.
• Formato en el que fue almacenada (fácil de tratar con R o Python)
• Sea lo menos morboso possible (muerte, mortalidad, etc).

Tan, Steinbach, Kumar. Introduction to Data Mining, 2004


Dr. Angel Juan Sánchez García

Regresión (resumen) angesanchez@uv.mx

Predecir un valor de una variable continua dada, basada en los


valores de otras variables, asumiendo un modelo de dependencia
lineal o no lineal.

Recordemos que los algoritmos de Machine learning supervisados,


aprenden por sí mismos y (en este caso) a obtener
automáticamente esa “recta”.

Para hacerlo se mide el error con respecto a los puntos de entrada


y el valor Y de salida real.

El algoritmo deberá minimizar el coste de una función de error


cuadrático y esos coeficientes corresponderán con la recta óptima.
Dr. Angel Juan Sánchez García

Regresión angesanchez@uv.mx

Ejemplos:

1. Predecir cantidades de ventas de un nuevo producto basado en


gastos de publicidad.

2. Predecir velocidades del viento como función de la temperatura,


humedad, presión del aire etc.

3. Predicción de series de tiempo de los índices bursátiles o de


Mercado.
Dr. Angel Juan Sánchez García

Regresión angesanchez@uv.mx

Ejemplos:

Detectar comportamiento anormal.

Aplicaciones:

1. Detección de fraude en tarjetas de


crédito

2. Detección de intrusos en la red


Dr. Angel Juan Sánchez García

Base de datos 1 angesanchez@uv.mx

automobile.csv

https://archive.ics.uci.edu/ml/datasets/Automobile

22 Variables y 197 registros (se eliminaron registros con valores


faltantes).

Valores continuos y discretos


Dr. Angel Juan Sánchez García

Base de datos 2 angesanchez@uv.mx

athlete_events.csv

https://www.kaggle.com/heesoo37/120-years-of-olympic-history-
athletes-and-results

15 Variables y más de 27,000 registros.

Valores continuos y discretos

Histórico de participaciones desde Atenas de 1986 hasta Río 2016


Dr. Angel Juan Sánchez García

Regresión Lineal Simple angesanchez@uv.mx

Recordemos que:

• En esta versión, una línea recta se ajusta a los datos.

• La línea recta tiene la forma: y = ax + b, donde

• a es la pendiente (slope): mide el cambio de la variable Y por


cada unidad de cambio de X .

• y b es el intercepto: representa la estimación del valor de Y


cuando X es igual a cero

• Vamos a ver un ejemplo sencillo en Python


Dr. Angel Juan Sánchez García

Ejemplo en Python angesanchez@uv.mx

¿Habrá relación entre el largo y el ancho de los coches? (pregunta


seria)

Primero vamos a cargar la base de datos e importar los módulos


necesarios.

¿Recuerdas los nombres y abreviaciones de los paquetes?


• Dataframes
• Gráficos
• Operaciones numéricas
Dr. Angel Juan Sánchez García

Ejemplo en Python angesanchez@uv.mx

Renombrar variables y visualizar relación

Importar la función “LinearRegression” de


sklearn
Dr. Angel Juan Sánchez García

Ejemplo en Python angesanchez@uv.mx

Construir el objeto del modelo y se


entrena el modelo

Construir una línea recta a partir de


datos independientes de
entrenamiento y se predicen los
valores
Dr. Angel Juan Sánchez García

Ejemplo en Python angesanchez@uv.mx

Se grafican los valores originales y los estimados.

¿Si quiero predecir x = 150?.

¿Si quiero predecir x = 150 y x = 163?.


Dr. Angel Juan Sánchez García

Ejemplo en Python angesanchez@uv.mx

NOTA: con los atributos coef_ e intercept_ de la variable modelo,


podrás conocer la pendiente y el intercepto (término independiente)
respectivamente.

Si se quiere calcular el error cuadrático medio y el coeficiente de


determinación r2 se importan esas funciones del submódulo metrics
de sklearn
Dr. Angel Juan Sánchez García

Ejemplo en Python angesanchez@uv.mx

Error cuadrático medio: mean_squared_error (y_reales,


y_predichos)
r2: r2_score (y_reales, y_predichos)

Nota: los parámetros deben ser del mismo tamaño

Recordar que r2 es la proporción de la varianza total de la variable


explicada por la regresión.

El modelo explica un 69.3% a la variable real


Dr. Angel Juan Sánchez García

Otra opción en Python angesanchez@uv.mx

Una manera de saber sólo la información del modelo (no


trabajar con él) es usar la función linregress del modulo
scipy.stats.

Atributo Tipo Descripción


Slope Float Pendiente de la línea de regresión
Intercept Float Intercepto de la línea de regresión
R-value Float Coeficiente de determinación
P-value Float P-valor de dos lados para una prueba de hipótesis donde H0 es
que la pendiente es cero.
stderr Float Error estándar de la estimación
Dr. Angel Juan Sánchez García

Otra opción en Python angesanchez@uv.mx

Una manera de saber sólo la información del modelo (no


trabajar con él) es usar la función linregress del modulo
scipy.stats.
Dr. Angel Juan Sánchez García

Regresión Lineal Múltiple angesanchez@uv.mx

La ecuación ahora es: y = m1x1 + m2x2 + … mnxn + b

Vamos a extender el ejercicio utilizando ahora dos variables de


entrada: y = m1x1 + m2x2 + b

Usaremos la longitud y el ancho del automóvil para predecir el


peso.

Solo usaremos dos variables para visualizar el resultado en 3


dimensiones.

En lugar de una recta, obtendremos un plano.


Dr. Angel Juan Sánchez García

Ejemplo en Python angesanchez@uv.mx

Importar todos los módulos vistos en en ejemplo de regression


simple (ponerlo todo en un script).

Seleccionamos las variables predictoras y la variable respuesta

Generamos el modelo como en el caso de regresión simple


Dr. Angel Juan Sánchez García

Ejemplo en Python angesanchez@uv.mx

NOTA: con los atributos coef_ e intercept_ de la variable modelo2,


son iguales que en la regresión simple (solo que ahora hay dos
valores en coef_)

La variable coef_ nos da los valores [0.173, -0.501]

Por lo tanto la ecuación para predecir un valor sería:

y = m1x1 + m2x2 + b

y = 0.173Longitud – 0.501Ancho + 56.703


Dr. Angel Juan Sánchez García

Ejemplo en Python angesanchez@uv.mx

Error cuadrático medio: 4.1986


R2: 0.3009

Error cuadrático medio aumentó teniendo en cuenta ahora dos


variables.

No es un buen modelo para explicar el peso, con respecto a su


longitud y su ancho

¿A qué creen que se deba?


Dr. Angel Juan Sánchez García

Ejemplo en Python angesanchez@uv.mx

Importar el modulo para graficar en 3D

Crear una figura donde se graficarán los datos

Construímos la malla de puntos del plano

Se pueden reemplazar por el mínimo y máximo de cada variable.

Calculamos los puntos para cada coordenada del plano


Dr. Angel Juan Sánchez García

Ejemplo en Python angesanchez@uv.mx

Para ese par de puntos se calcula el valor de Z del plano

Graficamos el plano

Graficamos el azul los puntos originales

Graficamos el rojo los puntos correspondientes al plano con respecto a


las variables predictoras
Dr. Angel Juan Sánchez García

Ejemplo en Python angesanchez@uv.mx

Situamos la cámara para major visualización

Agregamos título y leyendas a los ejes


Dr. Angel Juan Sánchez García

Otras regresiones angesanchez@uv.mx

Least squares
Ridge Regression
Lasso
Elastic-Net
Least Angle Regression
LARS Lasso
Logistic Regression
Dr. Angel Juan Sánchez García

ACTIVIDAD angesanchez@uv.mx

1) Con la base de datos de automóviles, hacer una regression


lineal simple y una regression lineal multiple con las variables
de tu preferencia.

2) Describir el objetivo de tu estudio y resultados


Dr. Angel Juan Sánchez García

Base de datos 3 angesanchez@uv.mx

spotify_songs.csv

https://www.kaggle.com/geomack/spotifyclassification/downloads/s
potifyclassification.zip/1

16 Variables y 2017 registros

Valores continuos y discretos


Dr. Angel Juan Sánchez García

Clasificación angesanchez@uv.mx

• Definición formal:

Dada una colección de registros (Conjunto de entrenamiento):

Cada registro contiene un conjunto de atributos, de los cuales uno


es la clase (variable categórica).

Encontrar un modelo para el atributo clase como función de los


valores de los demás atributos.

Goal: previously unseen records should be assigned a class as


accurately as possible.
A test set is used to determine the accuracy of the model. Usually,
the given data set is divided into training and test sets, with
Dr. Angel Juan Sánchez García

Clasificación angesanchez@uv.mx

• Definición formal:

Meta: Los registros previamente desconocidos se deben asignar a


una clase tan precisamente como sea posible,

Se usa un conjunto de prueba para determinar la precisión del


modelo.
Dr. Angel Juan Sánchez García

Clasificación angesanchez@uv.mx

• Ejemplo de clasificación:
l l us
ir ca ir ca o
e go e go t inu s
t t n
ca ca co lc as
Tid Refund Marital Taxable Refund Marital Taxable
Status Income Cheat Status Income Cheat

1 Yes Single 125K No No Single 75K ?


2 No Married 100K No Yes Married 50K ?
3 No Single 70K No No Married 150K ?
4 Yes Married 120K No Yes Divorced 90K ?
5 No Divorced 95K Yes No Single 40K ?
6 No Married 60K No No Married 80K ? Test
Set
10

7 Yes Divorced 220K No


8 No Single 85K Yes
9 No Married 75K No Learn
Training Model
10 No Single 90K Yes
10

Set Classifier
Dr. Angel Juan Sánchez García

Clasificación angesanchez@uv.mx

• Definición INFORMAL:

• Dados los valores de tus variables, ¿A qué clase (o categoría)


pertecenes?

Atributo clase Valores de clases


Género Masculino o femenido
Status préstamo Concedido o rechazado
Tipo de coche Lujoso, deportivo o económico
Género musical Banda, pop, rock
Profesión Estadístico, informático, otro
Estado civil Casado, divorciado, soltero
Ingreso Generar intervalos
Dr. Angel Juan Sánchez García

Clasificación: aplicación 1 angesanchez@uv.mx

Dirección de Marketing:

Meta: Reducir el costo de enviar correo a un conjunto de clientes


que probablemente vayan a comprar un nuevo teléfono celular.

Enfoque:
• Usar los datos de productos similares introducidos antes.
• Sabemos que los clientes decidieron comprar y cuales no. Esta
decisión (comprar / no comprar) forma atributo clase.
• Recoger información relacionada de todos los clientes
(demográfica, estilo de vida, interacción con la compañía,
ingresos, etc.)
• Usar esta información como atributos de entrada para el modelo
de clasificación.
Dr. Angel Juan Sánchez García

Clasificación: aplicación 2 angesanchez@uv.mx

Catalogar investigaciones del cielo:

Meta: predecir la clase (estrella o galaxia) de objetos celestes


basados en imágenes telescópicas (Observatorio el Palomar).
3000 imágenes de 23040 x 23040 píxeles.

Enfoque:
• Segmentar la imagen
• Medir las características de las imágenes (40 por imagen).
• Modelar con base en sus características.
• Caso de éxito: Encontrar 16 nuevos cuásar

From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996
Dr. Angel Juan Sánchez García

Clasificación: aplicación 3 angesanchez@uv.mx

Clasificar galaxias Cortesía: http://aps.umn.edu

temprana Clase: Atributos:


• Etapas de formación • Características de imágenes,
• Características de intensidad de onda
recibidas
Intermedia

longeva

Tamaño de los datos:


• 72 millones de estrellas, 20 millones de galaxias
• Catálogo de objetos: 9 GB
• Bases de datos de imágenes: 150 GB
Dr. Angel Juan Sánchez García

Clasificación angesanchez@uv.mx

Cultural
• Search for Extraterrestrial Intelligence
• Universidad de Berckeley
• Proyecto de cómputo distribuido más importante
• 5,2 millones de computadoras a la fecha.
• Más de 2 millones de años de tiempo analizados
Dr. Angel Juan Sánchez García

Clasificación: aplicación 4 angesanchez@uv.mx

¿Adivino en quien estás pensando?:

https://es.akinator.com
Dr. Angel Juan Sánchez García

Clasificación: aplicación 5 angesanchez@uv.mx

Preescribir un medicamento:

Meta: saber si un paciente puede tomar o no cierto fármaco para


evitar reacciones secundarias.

Enfoque:
• Se sabe a qué tipo de pacientes les hizo daño (diabéticos,
hipertensos, etc)

From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996
Dr. Angel Juan Sánchez García

Clasificación: aplicación 5 angesanchez@uv.mx

Clasificar el uso de un fármaco:


Atributo clase: Tomar el fármaco (SI / NO)
Dr. Angel Juan Sánchez García

Ejemplo de árbol de decisión angesanchez@uv.mx

Clasificar
ica
el uso
a
de un fármaco:
gór ric nua
te ó i
ca te
g nt e
ca co lc as
Dividir Atributos (Split)
Tid Refund Marital Taxable
Status Income Cheat

1 Yes Single 125K No


2 No Married 100K No Refund
Yes No
3 No Single 70K No
4 Yes Married 120K No NO MarSt
5 No Divorced 95K Yes Single, Divorced Married
6 No Married 60K No
7 Yes Divorced 220K No TaxInc NO
8 No Single 85K Yes < 80K > 80K
9 No Married 75K No
NO YES
10 No Single 90K Yes
10

Datos de Modelo: Árbol de decisión


entrenamiento
Dr. Angel Juan Sánchez García
angesanchez@uv.mx

Otro ejemplo de Árbol de decisión


r ica r ica nua
e gó e gó n+ e
ca
t
ca
t co lc as MarSt Single,
Married Divorced
Tid Refund Marital Taxable
Status Income Cheat
NO Refund
1 Yes Single 125K No
Yes No
2 No Married 100K No
3 No Single 70K No NO TaxInc
4 Yes Married 120K No < 80K > 80K
5 No Divorced 95K Yes
NO YES
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No Podría haber más de un árbol que se ajuste a
10 No Single 90K Yes los mismos datos!
10
Dr. Angel Juan Sánchez García
angesanchez@uv.mx

Árboles de decisión: Tarea de clasificar


Tid Attrib1 Attrib2 Attrib3 Class
Tree
1 Yes Large 125K No Induction
2 No Medium 100K No algorithm
3 No Small 70K No

4 Yes Medium 120K No


Induction
5 No Large 95K Yes

6 No Medium 60K No

7 Yes Large 220K No Learn


8 No Small 85K Yes Model
9 No Medium 75K No

10 No Small 90K Yes


Model
10

Training Set
Apply Decision
Tid Attrib1 Attrib2 Attrib3 Class
Model Tree
11 No Small 55K ?

12 Yes Medium 80K ?

13 Yes Large 110K ?


Deduction
14 No Small 95K ?

15 No Large 67K ?
10

Test Set
Dr. Angel Juan Sánchez García
angesanchez@uv.mx

Aplicar el modelo a los datos de prueba


Datos de prueba
Empezar por la raíz del árbol. Refund Marital Taxable
Status Income Cheat

No Married 80K ?
Refund 10

Yes No

NO MarSt
Single, Divorced Married

TaxInc NO
< 80K > 80K

NO YES
Dr. Angel Juan Sánchez García
angesanchez@uv.mx

Aplicar el modelo a los datos de prueba


Datos de prueba
Refund Marital Taxable
Status Income Cheat

No Married 80K ?
Refund 10

Yes No

NO MarSt
Single, Divorced Married

TaxInc NO
< 80K > 80K

NO YES
Dr. Angel Juan Sánchez García
angesanchez@uv.mx

Aplicar el modelo a los datos de prueba


Datos de prueba
Refund Marital Taxable
Status Income Cheat

No Married 80K ?
Refund 10

Yes No

NO MarSt
Single, Divorced Married

TaxInc NO
< 80K > 80K

NO YES
Dr. Angel Juan Sánchez García
angesanchez@uv.mx

Aplicar el modelo a los datos de prueba


Datos de prueba
Refund Marital Taxable
Status Income Cheat

No Married 80K ?
Refund 10

Yes No

NO MarSt
Single, Divorced Married

TaxInc NO
< 80K > 80K

NO YES
Dr. Angel Juan Sánchez García
angesanchez@uv.mx

Aplicar el modelo a los datos de prueba


Datos de prueba
Refund Marital Taxable
Status Income Cheat

No Married 80K ?
Refund 10

Yes No

NO MarSt
Single, Divorced Married

TaxInc NO
< 80K > 80K

NO YES
Dr. Angel Juan Sánchez García
angesanchez@uv.mx

Aplicar el modelo a los datos de prueba


Datos de prueba
Refund Marital Taxable
Status Income Cheat

No Married 80K ?
Refund 10

Yes No

NO MarSt
Single, Divorced Married Asignar “NO” a Cheat

TaxInc NO
< 80K > 80K

NO YES
Dr. Angel Juan Sánchez García
angesanchez@uv.mx

Árbol de decision para la tarea de clasificar


Tid Attrib1 Attrib2 Attrib3 Class
Tree
1 Yes Large 125K No Induction
2 No Medium 100K No algorithm
3 No Small 70K No

4 Yes Medium 120K No


Induction
5 No Large 95K Yes

6 No Medium 60K No

7 Yes Large 220K No Learn


8 No Small 85K Yes Model
9 No Medium 75K No

10 No Small 90K Yes


Model
10

Training Set
Decision
Apply Tree
Tid Attrib1 Attrib2 Attrib3 Class
Model
11 No Small 55K ?

12 Yes Medium 80K ?

13 Yes Large 110K ?


Deduction
14 No Small 95K ?

15 No Large 67K ?
10

Test Set
Dr. Angel Juan Sánchez García
angesanchez@uv.mx

Inducción de Árboles de Decisión

Muhos algoritmos:

• Hunt’s Algorithm (Uno de los primeros)


• CART
• ID3, C4.5
• SLIQ,SPRINT
Ciencia de datos:
una introducción basada el proyectos

Módulo IV: Clasificación


Sesión 1/4

Dr. Angel Juan Sánchez García


angesanchez@uv.mx.com

S-ar putea să vă placă și