Sunteți pe pagina 1din 35

Python for Analytics

Sesión 4
Agenda
1. Modelos y algoritmos

2. Aprendizaje supervisado

3. Tipos de modelo

4. Función de coste

5. Reescalado de datos

6. Regresión Lineal

7. Evaluación
Modelos y Algoritmos
Modelos y Algoritmos

Un modelo es la representación o simplificación de un concepto o aspecto de la realidad cuyo objetivo es facilitar su


comprensión. Por lo general un modelo dispone de una entrada, un procesamiento y una salida.

En el contexto de ML, un modelo, generalmente, se corresponde con una función f(x)

Entrenar un modelo consiste principalmente en aprender cómo es exactamente la función f a partir de los datos
Modelos y Algoritmos

Un algoritmo es una serie de instrucciones no ambiguas sobre cómo resolver un problema determinado.

Existen multitud de algoritmos para diferentes problemáticas

● Algoritmos de ordenación (merge-sort, quicksort, etc)

● Algoritmos de cifrado (RSA, etc)

● Algoritmos de hashing (SHA, etc)

● Algoritmos de compresión (JPEG, zip, mp3)

● Algoritmos de generación de números aleatorios

● Algoritmos de optimización (gradient descent, Newton’s method, etc)


Modelos y Algoritmos: Implementación
Muestras extraídas del
sistema a representar

...
Algoritmo de
aprendizaje

Predicción del modelo

Modelo Final
...
Nuevas muestras extraídas
del sistema

...
Aprendizaje Supervisado
Aprendizaje Supervisado

Comprende los problemas en los que el objetivo es aprender la relación entre una serie de variables de entrada o
características y una o unas variables salida o target.

● Se dispone de unos datos de entrada X, y un target y.

● El objetivo es aprender cómo se relacionan ambos conjuntos de variables a través de la función f.

● Cuando aparezcan nuevos datos Xnew podremos estimar los ynew a través de f

Ejemplos:

○ Predicción de fuga de clientes:

■ X: Atributos del cliente

■ y: si hay fuga o no (1 ó 0)

○ Estimación del precio de la vivienda

■ X: Atributos de la vivienda

■ y: Precio de la vivienda
Aprendizaje Supervisado

Ajusta la salida a un problema concreto

Dadas unas condiciones de entrada el sistema produce una


respuesta.

El modelo se entrena para dar salidas lo más parecido


posibles a las que daría el sistema, en las mismas condiciones.

La construcción del modelo se guía con algoritmos cuyo objetivo


es minimizar el error.
NO trata de recrear el sistema que origina los datos, sólo
simularlo

Predicción de clases: clasificación.


Predicción de valores: regresión.
Aprendizaje Supervisado
Objetivo: Clasificar correctamente perros y gatos a partir de características comunes

● X = {Tamaño [cm], Peso [Kg]}; y = {¿es perro?}

Gato Gato Gato Gato Gato Gato

Perro Perro Perro Perro Perro


Aprendizaje Supervisado
Objetivo: Clasificar correctamente perros y gatos a partir de características comunes

● X = {Tamaño [cm], Peso [Kg]}; y = {¿es perro?}

Gato Gato Gato Gato Gato Gato ???? ???? ????

Perro Perro Perro Perro Perro ???? ????

Cuando el modelo está entrenado, nuestro clasificador pordrá distinguir perros y gatos en base
unicamente al peso y la altura.
Aprendizaje Supervisado

Variables (X) Etiqueta (y)

x1 x2 y
(Tamaño, [cm]) (Peso, [Kg]) (es perro?)

100 30 1

123 25 1
n muestras de
entrenamiento o 30 12 0
instancias
40 14 0

112 35 1

p predictores
Aprendizaje Supervisado
Objetivo: Estimar el precio de la vivienda a partir de la superficie

● X = {Superficie [m²]}; y = [Precio]

90 m² 110 m² 400 m²
100.000€ 377.000€ 980.000€

85 m² 90 m² 230 m²
95.000€ 160.000€ 600.000€

111 m² 500 m²
500.000€ 1.000.000€
Aprendizaje Supervisado
Objetivo: Estimar el precio de la vivienda a partir de la superficie

● X = {Superficie [m²]}; y = [Precio]

90 m² 110 m² 400 m²
100.000€ 377.000€ 980.000€

85 m² 90 m² 230 m²
95.000€ 160.000€ 600.000€

111 m² 500 m² 345 m²


500.000€ 1.000.000€ ??????€

Cuando el ,modelo está entrenado, nuestro regresor podrá sugerir el precio de una casa en base a la
superficie.
Tipos de modelo
Regresión vs. Clasificación

Regresión Clasificación

● La variable a predecir es categórica.


● La variable a predecir es numérica o
cuantitativa. ● Modelar la salida para que encaje en
alguna de las clases posibles: mayor
● Modelar la salida para que devuelva
probabilidad, clase más frecuente, ...
número continuo o entero.
Regresión vs. Clasificación

Regresión
Clasificación

X
Función de coste
Objetivo del modelo

Maximizar el parecido es minimizar la diferencia

Entrenar un modelo predictivo consiste en crear un


modelo usando un algoritmo. El objetivo es que la
salida se parezca lo más posible a la salida real del
sistema que se está modelando.

Regresión: MRE, MSE


Minimizar el error

Penalizar las grandes diferencias

El algoritmo que entrena el modelo, busca penalizar


las diferencias y apoyar las similitudes.

Estas métricas pueden ser reemplazadas por una


función de coste definida desde negocio que refleje
el objetivo final del modelo (reducir tiempos de
espera, maximizar beneficios, clicks, etc).

En este caso, se deberá definir de forma personalizada


la traducción de cada output del modelo en contraste
con la variable target en la métrica definida.
Reescalado de datos
Normalización

En la mayoría de algoritmos necesitamos que los valores de todas las variables posean la misma escala.

La normalización min-max realiza una transformación lineal de los datos, conservando la relación original
entre ellos:
Estandarización

Algunos algoritmos presuponen que los datos siguen más o menos una distribución normal de media cero y varianza
uno. Para conseguirlo los datos se transforman mediante una normalización de media cero o estandarización:
Regresión lineal
Regresión lineal simple

La regresión lineal es un modelo estadístico que


permite predecir el valor de una variable
cuantitativa (numérica), como una función lineal de
las variables de entrada o predictores.

En el caso de tener sólo un predictor x (univariante),


el modelo es descrito por la siguiente ecuación:
Regresión lineal múltiple

Para el caso multivariante, la ecuación de la regresión


lineal se define como la suma de cada una de las
variables ponderada por el coeficiente:

En este caso, y corresponde a un hiperplano


Estimación de coeficientes

Dado un conjunto de datos, los coeficientes (w) suelen ser desconocidos, y por tanto hay que estimarlos,
es decir, hay que encontrar el mejor modelo (lineal) que se ajusta a nuestros datos en particular. Esta es la
fase de entrenamiento.

Se define la función de error en la estimación como:

Para estimar los coeficientes, se define la función del Error Cuadrático Medio (MSE) como:
Estimación de coeficientes

Para estimar los coeficientes se deberán encontrar los coeficientes que minimizan el MSE. Este problema
de optimización se conoce como OLS (Ordinary Least Squares), ó mínimos cuadrados.

La solución tras la optimización es:

Para el caso multivariante (formato matricial)


Problemas potenciales en el modelo
La relación entre los predictores y la salida no es lineal

Podemos detectar la relación entre los predictores y la salida haciendo un gráfico entre los valores
predichos y el valor de los residuales.
En el gráfico de la izquierda vemos que los residuales presentan un patrón, esto indica que la relación
entre predictores y salida no es lineal. Este patrón no se observa en el gráfico de la derecha.
Problemas potenciales en el modelo
La varianza de los términos de error no es constante

Los términos de error deben tener una distribución normal, la varianza debe ser constante.
Si no lo es se puede detectar en el gráfico de los residuales divididos entre su error estándar.
A esto se le llama heterocedasticidad y suele suceder cuando el error se incrementa a
medida que incrementa la salida y.
Problemas potenciales en el modelo

Existen outliers

Un outlier es una observación que se aleja mucho de lo que el modelo predice. Para
detectar outliers se puede hacer un gráfico de residuales o un gráfico de residuales divididos
por el error estándar.

¿Qué hacer?
● Si los outliers son errores en los datos, corregir los datos o descartar los outliers del
modelo.
● Si no son errores, puede ser que no estemos considerando alguna variable importante
en nuestros predictores.
Evaluación
Evaluación de modelos de regresión

Normalmente para evaluar un modelo de regresión, calculamos cuánto se desvían nuestras predicciones del
valor real, usando para ello el subconjunto de test.

Las métricas de desviación NO deben compensar errores. Por eso son simétricas (se aplican potencias pares a las
diferencias, o valores absolutos).

Existen varias formas de calcular esas desviaciones:


Evaluación de modelos de regresión

La diferencia entre el resultado de la predicción y el real se


denomina residuo.

Como la mejor recta de ajuste es la que minimiza la distancia


entre ella y la respuesta (los valores dependientes), al final la
recta cae más o menos a mitad de camino de todos los puntos.
Lo que significa que debería haber la misma cantidad por
encima de la recta que por debajo. Así que la distribución de
residuos debería ser más o menos simétrica.
Gracias 

S-ar putea să vă placă și