Unidad3 PDF

3.
Técnicas básicas de
aprendizaje automático
María José Ramírez (mramirez@dsic.upv.es)
Universitat Politècnica de València, Valencia (www.upv.es)
Tareas, modelos y técnicas
Nomenclatura: Tareas, modelos y técnicas 1

Nomenclatura
• Tarea: tipo de problema a resolver a partir de datos D
§ determinar si se concede o no un crédito solicitado -> clasificación
• Modelo: la salida de un algoritmo de aprendizaje automático aplicado
a unos datos de entrenamiento (adecuada representación de D) que
resuelve la tarea.
§ Si dev_cred_prev=T entonces concesion=SI
sino si casado=T entonces concesion=SI
sino concesion=NO
• Técnica: método de aprendizaje automático usado para generar el
modelo.
§ Árbol de decisión

Tipos de tareas y modelos
• Predictivos: predecir el valor de un atributo (la salida del modelo).
• ¿Cuáles serán las ventas el año próximo?
• ¿Es esta transacción fraudulenta?
• ¿Qué tipo de seguro es más probable que contrate el cliente X?
• Clasificación, Regresión
• Descriptivos: proporcionar información sobre las relaciones entre los
datos y sus características.
• Genera información del tipo:
§ Los clientes que compran pañales suelen comprar cerveza.
§ El tabaco y el alcohol son los factores más importantes en la enfermedad Y.
§ Los clientes sin televisión y con bicicleta tienen características muy diferenciadas del resto.
• Agrupamiento, Correlaciones, Reglas de asociación, dependencias funcionales

Tareas predictivas
• Clasificación:
§ Una clasificación puede verse como la dependencia de un atributo el cual
puede tomar un valor de entre varias etiquetas de clase.
• Ejemplo: de entre todos los clientes Movistar, ¿cuáles responderán positivamente a una
oferta dada? Este ejemplo tiene dos clases (binario): responde y no responde
§ La idea es determinar las reglas exactas que clasifican un caso como positivo o
negativo a partir de los otros atributos.

Tareas predictivas
• Regresión:
§ El objetivo es predecir el valor de una variable continua a partir de otras
variables continuas o categoricas.
• Ejemplo: necesitamos conocer el número de futuros clientes o de pacientes, ingresos,
llamadas, ganancias, costes, etc. a partir de resultados previos (días, semanas, meses o
años anteriores).

Tareas descriptivas
• Agrupamiento:
§ El objetivo es encontrar grupos de individuos porque son “similares”.
• Se diferencia de la clasificación en que no conocemos los grupos (ni su número)
• Ejemplo: : determinar qué tipos de clientes tengo atendiendo a sus patrones de compra.

Tareas descriptivas
• Asociaciones y dependencias funcionales
§ Una asociación entre dos atributos ocurre cuando la frecuencia de que dos
valores concretos ocurran juntos es relativamente alta.
• Ejemplo: analizar pares de libros que se compran frecuentemente juntos en una tienda de
libros.
§ Una dependencia funcional es un patrón en el que se establece que uno o mas

atributos determinan el valor de otro.
• Ejemplo: Supongamos una base de datos médicos que contiene dos columnas:
“Enfermedad” y “Síntoma”. Si se cumple que todos los pacientes que padecen neumonía
tienen como síntoma fiebre podemos decir que fiebre está asociado a neumonía. Si esta
asociación sucede para cada par de valores de las columnas “Enfermedad” y “Síntoma”,
entonces existe una dependencia funcional entre “Enfermedad” y “Síntoma.

Tareas descriptivas
• Correlaciones
§ Permiten determinar el grado de similitud entre variables numéricas en
términos de su relación en magnitud (Pearson) o por su orden (Spearman).
• Ejemplo: En una cadena de supermercados se analizan los datos por tienda y se observa
que el número de clientes y las ventas totales están positivamente correlacionadas.

Tipos de aprendizaje
• Aprendizaje supervisado
§ tiene un propósito específico (target) a deducir/predecir a partir de los datos
§ datos de entrenamiento etiquetados con el valor real de la clase o función
D={(x,y)}, x=x1,…,xn son los atributos de entrada; y es la salida (target)
§ Clasificación/Categorización: la salida es categórica.
§ Regresión: la salida es numérica.
• Aprendizaje no supervisado
§ no tiene un propósito específico
§ datos de entrenamiento no etiquetados
D={(x1,…,xn)}
§ Agrupamiento: descubrir grupos entre los datos.
§ Análisis exploratorio: encontrar relaciones entre las variables.

Métodos/Técnicas de aprendizaje
• Una tarea puede resolverse usando diferentes técnicas.
§ Clasificación
• técnicas basadas en reglas, técnicas bayesianas, técnicas basadas en distancias,…
• Una técnica puede usarse para resolver diferentes tareas.
§ Técnicas basadas en distancias
• clasificación, regresión, agrupamiento

Técnicas supervisadas
11
• Basadas en modelos
§ Lenguaje de representación del conocimiento mas rico que el utilizado para
expresar la evidencia
§ Construyen generalizaciones explícitas (modelo) que se aplican para clasificar
casos no vistos
• Basadas en instancias
§ El conocimiento aprendido se expresa como un conjunto de prototipos
§ Mismo lengiaje de representación para conocimiento y evidencia

Inducción de reglas
13
Inducción de reglas
• Tarea: Clasificación.
• Los modelos consisten en una coleccion de reglas de la forma
SI-parte Entonces-parte
Ejemplo: Si dev_cred_prev=T entonces concesion=SI
Basados en particion Basados en cobertura
Y − Y −
− + − +
− + − +
− −
+ +
• Hay dos aproximaciones: Y=2
−
−
+ +
Y=2
−
−
+ +
+ +
+ + − − + + − −
− −
+ + + +
− −
X=2 X=3 X X=2 X=3 X
Técnicas supervisadas 14
Inducción de reglas basadas en partición
• Árboles de Decisión (ID3 (Quinlan), C4.5 (Quinlan), CART).
• Algoritmo Divide y Vencerás:
1. Se crea un nodo raíz con S:= todos los ejemplos.
2. Si todos los elementos de S son de la misma clase, el subárbol se cierra. Solución
encontrada.
3. Se elige una condición de partición siguiendo un cierto criterio (splitting criterion).
4. El problema (y S) queda subdivido en dos subárboles (los que cumplen la condición y los
que no) y se vuelve a 2 para cada uno de los dos subárboles.
0 X>0.25
1
0 No Sí
X>0.25 Y>0.25
No Sí
X>0.75 X>0.66
X>0.66 Sí
X>0.75 No Sí No
Y>0.6
1 Y>0.25 Y>0.6 No Sí
• Ejemplo: Ejemplo
1
Cielo
Soleado
Temperatura
Calor
Humedad
Alta
Viento
Debil
JugarTenis
NO
Predecir si se 2 Soleado Calor Alta Fuerte NO
jugará al tenis 3 Nublado Calor Alta Debil SI
4 Lluvioso Suave Alta Debil SI
dependiendo 5 Lluvioso Frio Normal Debil SI
de las 6 Lluvioso Frio Normal Fuerte NO
condiciones 7
8
Nublado
Soleado
Frio
Suave
Normal
Alta
Fuerte
Debil
SI
NO
climatológicas. 9 Soleado Frio Normal Debil SI
10 Lluvioso Suave Normal Debil SI
11 Soleado Suave Normal Fuerte SI
12 Nublado Suave Alta Fuerte SI
13 Nublado Calor Normal Debil SI
14 Lluvioso Suave Alta Fuerte NO
• Ejemplo: Árbol de decisión generado con el criterio de partición de C4.5
SI Cielo=Nublado ENTONCES JugarTenis=SI
Cielo?
SI Cielo=Soleado & Humedad=Alta
Soleado Lluvioso ENTONCES JugarTenis=NO
Nublado
SI Cielo=Soleado & Humedad=Normal
Humedad? SI Viento? ENTONCES JugarTenis=NO
SI Cielo=Lluvioso & Viento=Fuerte
Alta Normal Fuerte Debil
ENTONCES JugarTenis=NO
NO SI NO SI SI Cielo=Lluvioso & Viento=Debil
ENTONCES JugarTenis=SI
• La instancia (Cielo= Soleado, Temperatura = Fria, Humedad= Alta, Viento= Fuerte)

tiene la clase NO
Técnicas supervisadass 17
Inducción de reglas basadas en cobertura
• Cobertura secuencial (AQ (Michalski), CN2 (Clark&Niblett)): las reglas
se generan de una en una, eliminando cada vez los ejemplos cubiertos
por la nueva regla.
• Algoritmo Cobertura secuencial:
§ Para cada clase c
1. Se dividen los ejemplos en positivos Ep y negativos En.
2. Se genera una regla R eligiendo una condición que cumpla el criterio de calidad
(generalmente, que no cubra ejemplos negativos).
3. Se añade R al conjunto de reglas ya generadas.
4. Se eliminan de Ep los ejemplos cubiertos por R y se vuelve a 2 si Ep no es vacío.
• Las reglas se crean de forma no ordenada.
• Las reglas no son excluyentes entre sí.
• Se organizan como una lista y se aplican siguiendo el orden en el que
han sido generadas.
• Ejemplo: Crear las reglas para la clase “SI” del problema de predecir si
se juega al tenis.
§ Ep={3, 4, 5, 7, 9, 10, 11, 12, 13} y En={1, 2, 6, 8, 14}
§ Generaremos las reglas siguiendo una búsqueda de lo general a lo específico
(CN2) empezando por condiciones que solo involucran a un atributo y
añadiéndole más condiciones si es necesario hasta no cubrir ejemplos
negativos.
Atributo Valor Ej. Positivos cubiertos Ej. negativos cubiertos
SI Cielo=Nublado
Cielo Nublado 3,7,12, 13
Cielo Soleado 9,11 1,2,8
Cielo Lluvioso 4,5,10 6,14
Temperatura Calor 3,13 1,2
• Se eliminan los ejemplos 3,7, 12, 13
Temperatura Suave 4,10,11,12 8,14
Temperatura Frio 5,7,9 6
Humedad Alta 3,4,12 1,2,8,14
Humedad Normal 5,7,9,10,11,13 6
Viento Fuerte 7,11,12 2,6,14
Viento Debil 3,4,5,9,10,13 1,8
Cielo Soleado 9,11 1,2,8
Cielo Lluvioso 4,5,10 6,14
Temperatura Calor 1,2
Temperatura Suave 4,10,11 8,14
Temperatura Frio 5,9 6
Humedad Alta 4 1,2,8,14
Humedad Normal 5,9,10,11 6 • Esta es la regla que
Viento Fuerte 11 2,6,14 cubre menos ejemplos
negativos.
Viento Debil 4,5,9,10 1,8
Cielo Soleado 9,11
Cielo Lluvioso 5,10 6
Humedad=Normal &
Temperatura Suave 10,11
Temperatura Frio 5,9
Viento Fuerte 11 6
Viento Debil 5,9,10
SI Humedad=Normal & Viento= Debil

• Se eliminan los ejemplos 5,9,10
Técnicas bayesianas
Técnicas basadas en distancias
24
Técnicas bayesianas
• Se basan en la idea “el mejor modelo es el más probable”:
§ Dado un conjunto de clases C={c1,…cm}, y un ejemplo x=x1,…,xn, el modelo
clasifica x con el valor de y∈C que maximiza P(y|x) (probabilidad a posteriori)
arg max ci∈C P(y=ci|x1,…,xn)
• Naïve Bayes es un clasificador probabilístico

§ requiere que todos los atributos sean nominales (discretos)
• Atributos numéricos deben discretizarse
§ asume independencia entre atributos
Técnicas bayesianas: Naïve Bayes
• ¿Cómo entrenar el clasificador Naïve Bayes (P(y|x))?
§ Teorema de Bayes:
P(y|x)=P(x|y)*P(y)
P(x)
§ Podemos suprimir P(x) asumiendo que todos los ejemplos son igualmente
probables
§ Asumiendo independencia de los atributos: P(x|y)= ∏j P(xj|y)
§ Para cada valor de y (y=ci∈C ), P(xj|y) y P(y) pueden estimarse usando
frecuencias relativas (asumiendo que los atributos son discretos)
Clasificador Naïve Bayes arg max y=ci∈C P(y) *∏j P(xj|y)
• Ejemplo: Determinar los buenos clientes
Ejemplo pago casado buen_cliente
1 credito no si
2 efectivo no si
3 efectivo no si
4 credito si no
5 credito si no
6 credito no si
7 credito no no
8 efectivo si no
9 credito si si
10 credito si si
Ejemplo pago casado buen_cliente § Cálculo de P(y) arg max y=ci∈C P(y) *∏j P(xj|y)
1 credito no si § P(buen_cliente=si)=6/10=0.6
§ P(buen_cliente=no)=4/10=0.4
2 efectivo no si
3 efectivo no si § Cálculo de P(xj|y)
4 credito si no § P(pago=credito|buen_cliente=si)=4/6=0.67
5 credito si no § P(pago=efectivo|buen_cliente=si)=2/6=0.33
6 credito no si § P(casado=si|buen_cliente=si)=2/6=0.33
§ P(casado=no|buen_cliente=si)=4/6=0.67
7 credito no no
8 efectivo si no
§ P(pago=credito|buen_cliente=no)=3/4=0.75
9 credito si si § P(pago=efectivo|buen_cliente=no)=1/4=0.25
10 credito si si § P(casado=si|buen_cliente=no)=3/4=0.75
§ P(casado=no|buen_cliente=no)=1/4=0.25
• Aplicar el clasificador al ejemplo: (efectivo,si, buen_cliente?)
§ P( buen_cliente=si)*P(pago=efectivo|buen_cliente=si)*P(casado=si|buen_cliente=si)=0.6*0.33*0.33=0.06 buen_cliente=no
§ P( buen_cliente=no)*P(pago=efectivo|buen_cliente=no)*P(casado=si|buen_cliente=no)=0.4*0.25*0.75=0.075
Técnicas basadas en distancias: k-NN
(Nearest Neighbour, vecinos mas próximos)
• Se basan en la noción de similitud:
§ Un individuo será de la misma clase que individuos similares.
§ Ejemplo: ¿Comprará el cliente X el producto Y?
• Se buscan clientes similares y se mira qué hicieron.
• Las técnicas se basan en el concepto de “distancia”, contrapartida

matemática al concepto de similitud.
Técnicas basadas en distancias: k-NN
• Clasificación con k-NN:
1. Se miran los k casos más cercanos.
2. Si todos son de la misma clase, el nuevo caso se clasifica en esa clase.
3. Si no, se calcula la distancia media por clase o se asigna a la clase con más
elementos.
? Clasifica ? Clasifica
círculo cuadrado
1-NN 7-NN Partición poliédrica inducida
• El valor de k se suele determinar heurísticamente.

• Existen variantes ponderadas por la distancia.
Técnicas estadísticas
31
Técnicas estadísticas: Regresión
• Regresión Lineal Global
• Se buscan los coeficientes de una función lineal y=f(x)
Estimación
fˆ (x) = w0 + w1x 1 +...+ wn xn

§ Para dos y tres variables existe solución algebraica.
§ Para más variables, es necesario utilizar algoritmos iterativos (investigación
operativa, descenso del gradiente).
Técnicas estadísticas: Regresión
Temperatura Ventas_helados (€) • Ejemplo: Ventas de helados
14.2° 215
16.4° 325
11.9° 185
15.2° 332
18.5° 406
22.1° 522
19,4° 412
25,1° 614
23,4° 544
18.1° 421
Ventas = -159.47+30.09*Temperatura
22.6° 445
17.2° 408
Técnicas estadísticas: Regresión no lineal
• Regresión no lineal por cambios de variable
§ Estimación Logarítmica:
• Se sustituye la función a obtener por y=ln(f):
y = ln(f)
• Se hace regresión lineal para calcular los coeficientes y a la hora de predecir se calcula la f = ey
f’ = ey
• Regresión no lineal por cambios de variable
§ Otros cambios:
• Se introducen nuevas variables cuadráticas, cúbicas o ad-hoc para el problema en
cuestión:
8
Datos
7
Modelo Lineal At. Originales
6
Ventas (mill. euros)
Modelo Lineal At. Cuadráticos

5
4 § Nuevo atributo:
3 meses2
2
1
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
Meses
• Lineal ponderada localmente:
? ? ?
• No genera un modelo, sino uno diferente para cada punto.
Técnicas estadísticas: Regresión logística
• Clasificación: Regresión logística
§ Podemos usar regresión lineal y umbrales para tareas de clasificación donde y
toma dos valores (1 ó 0):
• Ejemplo: si establecemos el umbral a 0.5
si f(x) ≥ 0.5 entonces “y=1”
si f(x) < 0.5 entonces “y=0”
• Inconvenientes:
§ la regresión puede dar valores por debajo de 0 y por encima de 1.
§ la regresión es sensible a valores anómalos.
§ La regresión logística es una modificación de la regresión lineal que sirve para

clasificación binaria (dos etiquetas de clase, los valores de la variable y).
§ Da un valor entre 0 y 1 (que representan la probabilidad de que una observación

pertenezca a una clase dada) aplicando a f(x) la siguiente transformación:
1 P(y=1|x)=p
y= f(x)= ln(p/(1-p))
0 P(y=0|x)=1-p
§ La función mas utilizada es la logística
1
p= −z
1+ e
z = w0 + w1x 1 +...+ wn xn
⎛ p ⎞
§ Algunas fórmulas derivadas logit( p) = ln ⎜ ⎟ = w0 + w1x 1 +...+ wn xn
⎝ 1− p ⎠
ez
p=
1+ e z
• Ejemplo: Queremos predecir si los clientes estan satisfachos con la
gestión del banco a partir del saldo y la edad.
Ejemplo edad satisfecho saldo
1 30 1 1787
2 33 0 4108
3 35 1 1350
4 30 1 1476
5 59 1 0
6 35 1 747
7 36 0 307
8 39 1 147
9 41 0 221
10 43 0 -88
11 39 1 3374
12 43 0 264
• Ejemplo
§ Aprendemos con los datos una regresión generalizada
z= -2.1028959+ 0.0492215* edad + 0.0001814* saldo
§ Podemos usar este resultado para calcular la probabilidad de que un individuo

dado esté satisfecho con la gestión del banco.
• x=(edad=41,saldo=1000,satisfecho=?)
§ z= 0.0965856 1 e 0.0965856
p= −0.0965856
= 0.0965856
= 0.5241276
1+ e 1+ e
§ Como p>0.5 => satisfecho=1
Técnicas lineales
42
Técnicas lineales
• Tareas de clasificación cuando los datos son linealmente separables,
es decir existe un límite de decisión lineal (linear boundary) que separa
las dos clases.
+ +
+ +
+ +
-
--
-
Técnicas lineales: Discriminante lineal
• Discriminante lineal (Fisher, Perceptron)
Salidas y1
W1,1
W2,1 W3,1
W4,1
W5,1
Entradas x1 x2 x3 x4 x5
Se añade un threshold escalón:
n output j = sgn( y ' j )

y ' j = ∑ wi , j ·xi
i =1 ⎧1 si y > 0⎫
sgn( y ) = ⎨ ⎬
⎩ − 1 si no ⎭
Técnicas lineales: Discriminante lineal
• Discriminante lineal
§ En algunos problemas sencillos, esta partición es posible:
PARTICIÓN
LINEAL
POSIBLE
§ En muchos otros, no:
PARTICIÓN
LINEAL
IMPOSIBLE
Redes Neuronales
• Redes neuronales artificiales multicapa (Multi-layer ANN).
§ Se añaden capas internas, varias salidas, se introducen diferentes funciones de
activación e incluso se introducen bucles y retardos.
Salidas y1 y2 y3
Capa
oculta h1,1 h1,2 h1,3 h1,4 h1,5
Entradas x1 x2 x3 x4
Redes Neuronales
• Redes neuronales artificiales multicapa
§ Permite particiones no lineales:
PARTICIÓN NO LINEAL
MÚLTIPLE POSIBLE CON
4 UNIDADES INTERNAS
§ Entrenamiento de la red:
• Distintos algoritmos: propagación hacia atrás, …
• Se necesitan muchos ejemplos: al menos 10 ejemplos por cada peso y salida a aprender.
• P.ej, una red con 50 entradas y 10 nodos internos (con una salida tenemos 500 + 10,
necesita 5.100 ejemplos...)
Técnicas basadas en núcleo: Máquinas de
soporte vectorial
• Máquinas de vectores soporte (SVM, Support Vector Machines)
§ Se basan en un clasificador lineal muy sencillo.
• El clasificador lineal que se usa simplemente saca la línea (en más dimensiones, el
hiperplano) que divida limpiamente las dos clases y además que los tres ejemplos más
próximos a la frontera estén lo más distantes posibles.
Separa Separa
perfectamente, perfectamente,
pero los tres pero además los
ejemplos más ejemplos más
cercanos cercanos
(vectores soporte) (vectores soporte)
están muy cerca están lo más lejos
de la frontera. posible de la
frontera.
Técnicas basadas en núcleo: Máquinas de
soporte vectorial
• Máquinas de vectores soporte
§ Son eficientes (incluso para cientos de dimensiones), pues el separador lineal
sólo mira unos pocos puntos (vectores soporte) y descarta muchos que estarán
lejos de la frontera.
¿Pero qué ocurre si los datos no son
separables linealmente?
§ Se aplica una función núcleo (“kernel”) que suele aumentar el número de

dimensiones de tal manera que los datos sean separables.
Comparación
50
Comparación de técnicas supervisadas
• Comparación de potencia de representación:
Discriminante lineal, Árboles de

SVM (sin kernel) decisión
Redes k-NN
Neuronales
Multicapa
• Comparación según otros factores:
§ Muy fácil de usar
§ Lento si el nº de ejemplos es excesivamente grande.
§ k-NN: § Gran expresividad de la partición.
§ No hay modelo. Inteligible sólo visualmente.
§ Robusto al ruido pero no a atributos no significativos (las distancias
aumentan)
§ Muy rápido.
§ Discriminante lineal: § Poco expresivo
§ Inteligible.
§ El número de capas y elementos por capa difíciles de ajustar.
§ Gran potencia expresiva
§ Redes neuronales § Poca inteligibilidad.
§ Muy sensibles a outliers (datos anómalos).
(multicapa):
§ Se necesitan muchos ejemplos (sqrt(n)).
§ Muy fácil de usar.

§ Rápido
§ Árboles de decisión: § Es tolerante al ruido, a atributos no significativos y a missing
(C4.5, CART): attribute values.
§ Alta inteligibilidad.
§ Muy eficientes cuando hay muchos atributos.

§ Muy precisos.
§ SVM:
§ Hay que saber elegir el kernel adecuadamente
§ No inteligible.
Técnicas no supervisadas
Técnicas estadísticas
Asociaciones y dependencias
55
Técnicas estadísticas: correlación
• Correlaciones
§ Permiten establecer relevancia/irrelevancia de factores y si aquélla es positiva o
negativa respecto a otro factor o variable a estudiar.
§ Atributos numéricos.
§ Ejemplo (Kiel 2000): Estudio de visitas: 11 pacientes, 7 factores:

• Health: salud del paciente (referida a la capacidad de ir a la consulta). (1-10)
• Need: convicción del paciente que la visita es importante. (1-10)
• Transportation: disponibilidad de transporte del paciente al centro. (1-10)
• Child Care: disponibilidad de dejar los niños a cuidado. (1-10)
• Sick Time: si el paciente está trabajando, puede darse de baja. (1-10)
• Satisfaction: satisfacción del cliente con su médico. (1-10)
• Ease: facilidad del centro para concertar cita y eficiencia de la misma. (1-10)
• No-Show: indica si el paciente no se ha pasado por el médico durante el último año (0-se ha
pasado, 1 no se ha pasado)
Técnicas no supervisadas 56
Técnicas estadísticas: correlación
• Matriz de correlaciones:
Health Need Transp’tion Child Care Sick Time Satisfaction Ease No-Show
Health 1
Need -0.7378 1
Transportation 0.3116 -01041 1
Child Care 0.3116 -01041 1 1
Sick Time 0.2771 0.0602 0.6228 0.6228 1
Satisfaction 0.22008 -0.1337 0.6538 0.6538 0.6257 1
Ease 0.3887 -0.0334 0.6504 0.6504 0.6588 0.8964 1
No-Show 0.3955 -0.5416 -0.5031 -0.5031 -0.7249 -0.3988 -0.3278 1
• Coeficientes de Regresión:
Independent Variable Coefficient
Health .6434 Indica que un incremento de 1 en el factor
Need .0445 Health aumenta la probabilidad de que no
Transportation -.2391
Child Care -.0599
aparezca el paciente en un 64.34%
Sick Time -.7584
Satisfaction .3537
Ease -.0786
• Las reglas de asociación y dependencias expresan patrones entre los
datos en función de la aparición conjunta de valores de dos o más
atributos.
• A diferencia de las correlaciones, estas reglas sólo tratan atributos
nominales.
• Las técnicas de aprendizaje de reglas de asociación y dependencias se
basan en la búsqueda de valores de los atributos (items) que ocurren
frecuentemente.
• Asociaciones no direccionales
§ Son de la forma :
(X1 = a) (X4 = b)
↔
§ Evaluación
• De las n instancias de la tabla de datos, se cuenta en cuántos casos ambas partes de la
asociación son simultáneamente ciertas o falsas (rc).
• Confianza TC (certeza):
TC = rc/n
• Asociaciones direccionales (dependencias):

§ Se buscan dependencias de la siguiente forma (Si Ante Entonces Cons):
Ejemplo: Si (X1= a, X3=c, X5=d) Entonces (X4=b, X2=a)
§ Evaluación:
• De las n instancias de la tabla de datos, se cuenta en cuántos casos el antecedente (Ante)
es cierto (ra), y de éstos en cuántos casos (rc ) es cierto el consecuente (Cons).
• Dos parámetros: confianza Tc (certeza de la regla) y soporte/cobertura Ts (porcentaje de
casos en los que la regla se cumple).
•Tc= rc/ra à Tc= P(Cons | Ante)
•Ts = (ra rc) /n à Ts = P(Cons ∧ Ante)
• Ejemplo ID Ciudad Profesion Edad Hijos Credito Casado
11251545 Barcelona Ejecutivo 45 3 S S
30512526 Melilla Abogado 25 0 S N
22451616 León Ejecutivo 35 2 S S
25152516 Valencia Camarero 30 0 S S
23525251 Benidorm Animador 30 0 N N
Parque
Temático
§ Asociaciones no direccionales
• Casado ∧ (Hijos> 0) están asociados (80%, 4 casos de 5 instancias).
• Credito ∧ Casado están asociados (80%, 4 casos de 5 instancias).
• (Hijos> 0) Credito están asociados (60%, 3 casos de 5 instancias).
§ Asociaciones direccionales
• (Hijos> 0) à Casado (Confianza=100%, 2 cases; Soporte=40%, 2 casos de 5 instancias).
• Casado à Credito (Confianza=100%, 3 cases; Soporte=60%, 3 casos de 5 instancias)
Asociaciones y dependencias: Reglas de
asociación
• Este tipo de asociaciones surgieron inicialmente para afrontar el
problema del análisis de las cestas de la compra.
• Los datos se organizan en una tabla que solo contiene valores binarios,
donde
§ cada fila representa una transacción (una cesta de la compra).
§ las columnas representan los productos en venta
• un valor 1 en la posición (i,j) indica que la cesta i incorpora el producto j
• 0 en caso contrario
• El algoritmo más habitual es el “A PRIORI” y derivados.
asociación
• Ejemplo: Análisis de la cesta de la compra
VINO SODA HUEVOS LECHE BIZCOCHOS GALLETAS CHOCOLATE
“EL RIOJANO” “CHISPA” “LA GRANJA” “LA VACA” “GOLOSO” “TRIGO” “CAPRICHO”
T1 1 1 0 0 0 1 0
T2 0 1 1 0 0 0 0
T3 0 0 0 1 1 1 0
T4 1 1 0 1 1 1 1
T5 0 0 0 0 0 1 0
T6 1 0 0 0 0 1 1
T7 0 1 1 1 1 0 0
T8 0 0 0 1 1 1 1
T9 1 1 0 0 1 0 1
T10 0 1 0 0 1 0 0
asociación
• Ejemplo: Análisis de la cesta de la compra
§ Si definimos un soporte mínimo Ts = 2/10 (20% de los casos):
§ PRIMERA FASE: conjuntos de ítems frecuentes (superan el soporte mínimo)
• Siete conjuntos de sólo un ítem (siete atributos)
• De los 7!/(2!5!)=21 posibles casos de conjuntos formados por dos ítems, tenemos 15
conjuntos que superan el soporte mínimo.
• 11 conjuntos de tres ítems.
• 2 conjuntos de cuatro ítems.
• SEGUNDA FASE: creación de reglas a partir de los conjuntos de ítems frecuentes:
SI bizcochos “Goloso” Y leche “La vaca” ENTONCES galletas “Trigo” Ts = 3/10, Tc = 3/4
SI bizcochos “Goloso” Y galletas “Trigo” ENTONCES leche “La vaca” Ts =
3/10, Tc = 3/3
SI galletas “Trigo” Y leche “La vaca” ENTONCES bizcochos “Goloso” Ts =
3/10, Tc = 3/3
asociación
• Existen numerosas variantes de las reglas de asociación:

§ Asociaciones secuenciales
§ Asociaciones entre jerarquías (p.ej. familias y categorías de productos).
§ Asociaciones negativas: “80% de los clientes que compran pizzas congeladas
no compran lentejas”.
§ Asociaciones sobre atributos no binarios.
Técnicas no supervisadas
Técnicas de agrupamiento
66
Técnicas de agrupamiento basadas en
distancias
• Tareas de agrupamiento
§ Se trata de buscar agrupamientos naturales en un conjunto de datos tal que
tengan semejanzas.
§ Métodos de Agrupamiento:
• Jerárquicos: los datos se agrupan en una estructura de árbol.
• No jerárquicos: los datos se agrupan en un nivel.
Técnicas de agrupamiento jerárquico
• Agrupamiento: métodos jerárquicos
§ se basan en la construcción de un árbol
donde las hojas corresponden a los
ejemplos y el resto de los nodos son
grupos de ejemplos.
§ La estructura resultante se denomina
dendrograma
Técnicas de agrupamiento jerárquico
• ¿Cómo se puede construir el árbol?

§ Aglomerativo: desde las hojas hacia la raíz
§ Divisivos: desde la raíz a las hojas
• Criterio de enlazado: dependiendo de cómo se calcule la distancia de enlace
entre grupos se pueden distinguir tres métodos
§ Enlace completo (complete linkage): se calcula la distancia entre todos los puntos de
los dos grupos y se toma la mayor como la distancia entre grupos
§ Enlace simple (single linkage): igual que la anterior pero tomando la menor distancia
§ Enlace en la media (average linkage): se calculan los puntos medios y se toma su
distancia como la distancia de los grupos.
vecindad: k-NN
• Dado una serie de ejemplos en un espacio, se conecta cada punto con
sus k puntos más cercanos.
• Ejemplo: 1-NN
G1
G4
G2
G3
• La conectividad entre puntos genera los grupos.

• A veces hace grupos pequeños.
vecindad: k-medias
• Se utiliza para encontrar los k grupos más densos en un conjunto
arbitrario de puntos.
• Algoritmo:
1. Dividir aleatoriamente los ejemplos en k conjuntos y calcular la media (el
punto medio) de cada conjunto.
2. Reasignar cada ejemplo al conjunto con el punto medio más cercano.
3. Calcular los puntos medios de los k conjuntos.
4. Repetir los pasos 2 y 3 hasta que los conjuntos no varíen.
vecindad: k-medias
2 2
1 1
2 2
3 3 3 3
1 1 1 1
1 1 x2 x1 1 1
2 2 3
3 x
2 3 2 3
3
3 1 3 1
2 2 2
2 2 2
1 1 1
2 1 2 2 1 1 2 2 1 1
2
x2 x1
1 2 x x 1 2 x x 1
1 1 1 1 1 1
2 3 2 3
3 x
2 3 2 3 3 2 3 1
3 x 3 x
2 3 2 3 3 3
2 2 2 2 2
2 2
1 1 x 1
22 1 22 2
2x
1 1 1
2x
1
x 1 x 1 2
x1
1 1
1 1 1 1 1
2 3 3 3 3
3 3 1 3 1 3 3 1
3 3 x
x x
3 3 3 3 3 3
vecindad: k-medias
• El valor de k se suele determinar heurísticamente.
• Problemas:
§ Si k se elige muy pequeño, hay grupos que se quedan sin centro.
§ Si k se elige muy grande, hay centros que se quedan huérfanos.
§ Incluso con k exacto, puede haber algún centro que quede huérfano.

Unidad3 PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Unidad3 PDF

Încărcat de

Drepturi de autor:

Formate disponibile

3.

Nomenclatura: Tareas, modelos y técnicas 1

Nomenclatura: Tareas, modelos y técnicas 2

Nomenclatura: Tareas, modelos y técnicas 3

Nomenclatura: Tareas, modelos y técnicas 4

Nomenclatura: Tareas, modelos y técnicas 5

Nomenclatura: Tareas, modelos y técnicas 6

§ Una dependencia funcional es un patrón en el que se establece que uno o mas

Nomenclatura: Tareas, modelos y técnicas 7

Nomenclatura: Tareas, modelos y técnicas 8

Nomenclatura: Tareas, modelos y técnicas 9

Nomenclatura: Tareas, modelos y técnicas 10

Nomenclatura: Tareas, modelos y técnicas 12

• La instancia (Cielo= Soleado, Temperatura = Fria, Humedad= Alta, Viento= Fuerte)

SI Humedad=Normal & Viento= Debil

• Se eliminan los ejemplos 5,9,10

• Naïve Bayes es un clasificador probabilístico

Clasificador Naïve Bayes arg max y=ci∈C P(y) *∏j P(xj|y)

• Las técnicas se basan en el concepto de “distancia”, contrapartida

1-NN 7-NN Partición poliédrica inducida

• El valor de k se suele determinar heurísticamente.

fˆ (x) = w0 + w1x 1 +...+ wn xn

Modelo Lineal At. Cuadráticos

• No genera un modelo, sino uno diferente para cada punto.

§ La regresión logística es una modificación de la regresión lineal que sirve para

§ Da un valor entre 0 y 1 (que representan la probabilidad de que una observación

§ Podemos usar este resultado para calcular la probabilidad de que un individuo

§ Como p>0.5 => satisfecho=1

Se añade un threshold escalón:

n output j = sgn( y ' j )

§ En muchos otros, no:

§ Se aplica una función núcleo (“kernel”) que suele aumentar el número de

Discriminante lineal, Árboles de

§ Muy fácil de usar.

§ Muy eficientes cuando hay muchos atributos.

§ Ejemplo (Kiel 2000): Estudio de visitas: 11 pacientes, 7 factores:

• Asociaciones direccionales (dependencias):

• Existen numerosas variantes de las reglas de asociación:

• ¿Cómo se puede construir el árbol?

• La conectividad entre puntos genera los grupos.

§ Si k se elige muy pequeño, hay grupos que se quedan sin centro.

§ Si k se elige muy grande, hay centros que se quedan huérfanos.

S-ar putea să vă placă și