Documente Academic
Documente Profesional
Documente Cultură
• Conceptos relacionados
• Concepto de clasificación
• Ejemplos de clasificación
• Árboles de decisión
• Bosque aleatorio (Random forest)
• K-Vecino más cercano (k-NN)
• Ingenuo Bayesiano (Naive Bayes)
• Máquinas de soporte vectorial (SVM)
• Evaluación de Modelos
• Elaboración de proyecto de clasificación
• Visualización de datos
Dr. Angel Juan Sánchez García
• Describir la problemática.
• Concluir.
• Calif = X/100
Dr. Angel Juan Sánchez García
Muchas definiciones
Métodos de descripción
• Encontrar patrones humanamente interpretables que describen los
datos
Métodos de predicción
• Usar algunas variables para predecir valores de variables
desconocidos y futuros.
Dr. Angel Juan Sánchez García
Descriptivos Predictivos
• Reglas de dependencia
Dr. Angel Juan Sánchez García
Definición
• Reglas de dependencia
• Reglas de dependencia
Dr. Angel Juan Sánchez García
• Promoción de ventas:
Tenemos la regla descubierta:
{Bagels, … } --> {Potato Chips}
Potato Chips como consecuente => Puede ser usado para determinar lo que se
debería hacer para aumentar sus ventas.
Bagels en el antecedente => Puede ser usado para ver cuáles productos serían
afectados si la tienda deja de vender bagels.
Bagels en el antecedente y Potato chips en consequente => Puede ser usado
para ver qué productos deberían ser vendidos con Bagels para promocionar
la venta de Potato chips!
• Meta: Identificar los elementos que son comprados juntos por muchos clientes.
• Enfoque: Procesar los datos del punto de venta para encontrar dependencias entre
ellos.
(A B) (C) (D E)
<= xg >ng <= ws
<= ms
Dr. Angel Juan Sánchez García
• Librería
(Intro_To_Visual_C) (C++_Primer) à (Perl_for_dummies)
• En recomentadores
(Comunidad del anillo) (Las dos torres) à (El retorno del rey)
Tomar en cuenta:
• Tipos de datos.
• Número de registros.
• Buena documentación.
• Abierta y disponible al público.
• Formato en el que fue almacenada (fácil de tratar con R o Python)
• Sea lo menos morboso possible (muerte, mortalidad, etc).
Regresión angesanchez@uv.mx
Ejemplos:
Regresión angesanchez@uv.mx
Ejemplos:
Aplicaciones:
automobile.csv
https://archive.ics.uci.edu/ml/datasets/Automobile
athlete_events.csv
https://www.kaggle.com/heesoo37/120-years-of-olympic-history-
athletes-and-results
Recordemos que:
y = m1x1 + m2x2 + b
Graficamos el plano
Least squares
Ridge Regression
Lasso
Elastic-Net
Least Angle Regression
LARS Lasso
Logistic Regression
Dr. Angel Juan Sánchez García
ACTIVIDAD angesanchez@uv.mx
spotify_songs.csv
https://www.kaggle.com/geomack/spotifyclassification/downloads/s
potifyclassification.zip/1
Clasificación angesanchez@uv.mx
• Definición formal:
Clasificación angesanchez@uv.mx
• Definición formal:
Clasificación angesanchez@uv.mx
• Ejemplo de clasificación:
l l us
ir ca ir ca o
e go e go t inu s
t t n
ca ca co lc as
Tid Refund Marital Taxable Refund Marital Taxable
Status Income Cheat Status Income Cheat
Set Classifier
Dr. Angel Juan Sánchez García
Clasificación angesanchez@uv.mx
• Definición INFORMAL:
Dirección de Marketing:
Enfoque:
• Usar los datos de productos similares introducidos antes.
• Sabemos que los clientes decidieron comprar y cuales no. Esta
decisión (comprar / no comprar) forma atributo clase.
• Recoger información relacionada de todos los clientes
(demográfica, estilo de vida, interacción con la compañía,
ingresos, etc.)
• Usar esta información como atributos de entrada para el modelo
de clasificación.
Dr. Angel Juan Sánchez García
Enfoque:
• Segmentar la imagen
• Medir las características de las imágenes (40 por imagen).
• Modelar con base en sus características.
• Caso de éxito: Encontrar 16 nuevos cuásar
From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996
Dr. Angel Juan Sánchez García
longeva
Clasificación angesanchez@uv.mx
Cultural
• Search for Extraterrestrial Intelligence
• Universidad de Berckeley
• Proyecto de cómputo distribuido más importante
• 5,2 millones de computadoras a la fecha.
• Más de 2 millones de años de tiempo analizados
Dr. Angel Juan Sánchez García
https://es.akinator.com
Dr. Angel Juan Sánchez García
Preescribir un medicamento:
Enfoque:
• Se sabe a qué tipo de pacientes les hizo daño (diabéticos,
hipertensos, etc)
From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996
Dr. Angel Juan Sánchez García
Clasificar
ica
el uso
a
de un fármaco:
gór ric nua
te ó i
ca te
g nt e
ca co lc as
Dividir Atributos (Split)
Tid Refund Marital Taxable
Status Income Cheat
6 No Medium 60K No
Training Set
Apply Decision
Tid Attrib1 Attrib2 Attrib3 Class
Model Tree
11 No Small 55K ?
15 No Large 67K ?
10
Test Set
Dr. Angel Juan Sánchez García
angesanchez@uv.mx
No Married 80K ?
Refund 10
Yes No
NO MarSt
Single, Divorced Married
TaxInc NO
< 80K > 80K
NO YES
Dr. Angel Juan Sánchez García
angesanchez@uv.mx
No Married 80K ?
Refund 10
Yes No
NO MarSt
Single, Divorced Married
TaxInc NO
< 80K > 80K
NO YES
Dr. Angel Juan Sánchez García
angesanchez@uv.mx
No Married 80K ?
Refund 10
Yes No
NO MarSt
Single, Divorced Married
TaxInc NO
< 80K > 80K
NO YES
Dr. Angel Juan Sánchez García
angesanchez@uv.mx
No Married 80K ?
Refund 10
Yes No
NO MarSt
Single, Divorced Married
TaxInc NO
< 80K > 80K
NO YES
Dr. Angel Juan Sánchez García
angesanchez@uv.mx
No Married 80K ?
Refund 10
Yes No
NO MarSt
Single, Divorced Married
TaxInc NO
< 80K > 80K
NO YES
Dr. Angel Juan Sánchez García
angesanchez@uv.mx
No Married 80K ?
Refund 10
Yes No
NO MarSt
Single, Divorced Married Asignar “NO” a Cheat
TaxInc NO
< 80K > 80K
NO YES
Dr. Angel Juan Sánchez García
angesanchez@uv.mx
6 No Medium 60K No
Training Set
Decision
Apply Tree
Tid Attrib1 Attrib2 Attrib3 Class
Model
11 No Small 55K ?
15 No Large 67K ?
10
Test Set
Dr. Angel Juan Sánchez García
angesanchez@uv.mx
Muhos algoritmos: