Sesión 4 - Supervisado + Regresion PDF

Python for Analytics
Sesión 4
Agenda
1. Modelos y algoritmos
2. Aprendizaje supervisado
3. Tipos de modelo
4. Función de coste
5. Reescalado de datos
6. Regresión Lineal
7. Evaluación
Modelos y Algoritmos
Un modelo es la representación o simplificación de un concepto o aspecto de la realidad cuyo objetivo es facilitar su

comprensión. Por lo general un modelo dispone de una entrada, un procesamiento y una salida.
En el contexto de ML, un modelo, generalmente, se corresponde con una función f(x)
Entrenar un modelo consiste principalmente en aprender cómo es exactamente la función f a partir de los datos
Un algoritmo es una serie de instrucciones no ambiguas sobre cómo resolver un problema determinado.
Existen multitud de algoritmos para diferentes problemáticas
● Algoritmos de ordenación (merge-sort, quicksort, etc)
● Algoritmos de cifrado (RSA, etc)
● Algoritmos de hashing (SHA, etc)
● Algoritmos de compresión (JPEG, zip, mp3)
● Algoritmos de generación de números aleatorios
● Algoritmos de optimización (gradient descent, Newton’s method, etc)

Modelos y Algoritmos: Implementación
Muestras extraídas del
sistema a representar
...
Algoritmo de
aprendizaje
Predicción del modelo
Modelo Final
...
Nuevas muestras extraídas
del sistema
...
Aprendizaje Supervisado
Comprende los problemas en los que el objetivo es aprender la relación entre una serie de variables de entrada o
características y una o unas variables salida o target.
● Se dispone de unos datos de entrada X, y un target y.
● El objetivo es aprender cómo se relacionan ambos conjuntos de variables a través de la función f.
● Cuando aparezcan nuevos datos Xnew podremos estimar los ynew a través de f
Ejemplos:
○ Predicción de fuga de clientes:
■ X: Atributos del cliente
■ y: si hay fuga o no (1 ó 0)
○ Estimación del precio de la vivienda
■ X: Atributos de la vivienda
■ y: Precio de la vivienda
Ajusta la salida a un problema concreto
Dadas unas condiciones de entrada el sistema produce una

respuesta.
El modelo se entrena para dar salidas lo más parecido

posibles a las que daría el sistema, en las mismas condiciones.
La construcción del modelo se guía con algoritmos cuyo objetivo

es minimizar el error.
NO trata de recrear el sistema que origina los datos, sólo
simularlo
Predicción de clases: clasificación.

Predicción de valores: regresión.
Objetivo: Clasificar correctamente perros y gatos a partir de características comunes
● X = {Tamaño [cm], Peso [Kg]}; y = {¿es perro?}
Gato Gato Gato Gato Gato Gato
Perro Perro Perro Perro Perro

Objetivo: Clasificar correctamente perros y gatos a partir de características comunes
● X = {Tamaño [cm], Peso [Kg]}; y = {¿es perro?}
Gato Gato Gato Gato Gato Gato ???? ???? ????
Perro Perro Perro Perro Perro ???? ????
Cuando el modelo está entrenado, nuestro clasificador pordrá distinguir perros y gatos en base
unicamente al peso y la altura.
Variables (X) Etiqueta (y)
x1 x2 y
(Tamaño, [cm]) (Peso, [Kg]) (es perro?)
100 30 1
123 25 1
n muestras de
entrenamiento o 30 12 0
instancias
40 14 0
112 35 1
p predictores
Objetivo: Estimar el precio de la vivienda a partir de la superficie
● X = {Superficie [m²]}; y = [Precio]
90 m² 110 m² 400 m²
100.000€ 377.000€ 980.000€
85 m² 90 m² 230 m²
95.000€ 160.000€ 600.000€
111 m² 500 m²
500.000€ 1.000.000€
Objetivo: Estimar el precio de la vivienda a partir de la superficie
● X = {Superficie [m²]}; y = [Precio]
90 m² 110 m² 400 m²
100.000€ 377.000€ 980.000€
85 m² 90 m² 230 m²
95.000€ 160.000€ 600.000€
111 m² 500 m² 345 m²

500.000€ 1.000.000€ ??????€
Cuando el ,modelo está entrenado, nuestro regresor podrá sugerir el precio de una casa en base a la
superficie.
Tipos de modelo
Regresión vs. Clasificación
Regresión Clasificación
● La variable a predecir es categórica.

● La variable a predecir es numérica o
cuantitativa. ● Modelar la salida para que encaje en
alguna de las clases posibles: mayor
● Modelar la salida para que devuelva
probabilidad, clase más frecuente, ...
número continuo o entero.
Regresión vs. Clasificación
Regresión
Clasificación
X
Función de coste
Objetivo del modelo
Maximizar el parecido es minimizar la diferencia
Entrenar un modelo predictivo consiste en crear un

modelo usando un algoritmo. El objetivo es que la
salida se parezca lo más posible a la salida real del
sistema que se está modelando.
Regresión: MRE, MSE

Minimizar el error
Penalizar las grandes diferencias
El algoritmo que entrena el modelo, busca penalizar

las diferencias y apoyar las similitudes.
Estas métricas pueden ser reemplazadas por una

función de coste definida desde negocio que refleje
el objetivo final del modelo (reducir tiempos de
espera, maximizar beneficios, clicks, etc).
En este caso, se deberá definir de forma personalizada

la traducción de cada output del modelo en contraste
con la variable target en la métrica definida.
Reescalado de datos
Normalización
En la mayoría de algoritmos necesitamos que los valores de todas las variables posean la misma escala.
La normalización min-max realiza una transformación lineal de los datos, conservando la relación original
entre ellos:
Estandarización
Algunos algoritmos presuponen que los datos siguen más o menos una distribución normal de media cero y varianza
uno. Para conseguirlo los datos se transforman mediante una normalización de media cero o estandarización:
Regresión lineal
Regresión lineal simple
La regresión lineal es un modelo estadístico que

permite predecir el valor de una variable
cuantitativa (numérica), como una función lineal de
las variables de entrada o predictores.
En el caso de tener sólo un predictor x (univariante),

el modelo es descrito por la siguiente ecuación:
Regresión lineal múltiple
Para el caso multivariante, la ecuación de la regresión

lineal se define como la suma de cada una de las
variables ponderada por el coeficiente:
En este caso, y corresponde a un hiperplano

Estimación de coeficientes
Dado un conjunto de datos, los coeficientes (w) suelen ser desconocidos, y por tanto hay que estimarlos,
es decir, hay que encontrar el mejor modelo (lineal) que se ajusta a nuestros datos en particular. Esta es la
fase de entrenamiento.
Se define la función de error en la estimación como:
Para estimar los coeficientes, se define la función del Error Cuadrático Medio (MSE) como:
Estimación de coeficientes
Para estimar los coeficientes se deberán encontrar los coeficientes que minimizan el MSE. Este problema
de optimización se conoce como OLS (Ordinary Least Squares), ó mínimos cuadrados.
La solución tras la optimización es:
Para el caso multivariante (formato matricial)

Problemas potenciales en el modelo
La relación entre los predictores y la salida no es lineal
Podemos detectar la relación entre los predictores y la salida haciendo un gráfico entre los valores
predichos y el valor de los residuales.
En el gráfico de la izquierda vemos que los residuales presentan un patrón, esto indica que la relación
entre predictores y salida no es lineal. Este patrón no se observa en el gráfico de la derecha.
La varianza de los términos de error no es constante
Los términos de error deben tener una distribución normal, la varianza debe ser constante.
Si no lo es se puede detectar en el gráfico de los residuales divididos entre su error estándar.
A esto se le llama heterocedasticidad y suele suceder cuando el error se incrementa a
medida que incrementa la salida y.
Existen outliers
Un outlier es una observación que se aleja mucho de lo que el modelo predice. Para
detectar outliers se puede hacer un gráfico de residuales o un gráfico de residuales divididos
por el error estándar.
¿Qué hacer?
● Si los outliers son errores en los datos, corregir los datos o descartar los outliers del
modelo.
● Si no son errores, puede ser que no estemos considerando alguna variable importante
en nuestros predictores.
Evaluación
Evaluación de modelos de regresión
Normalmente para evaluar un modelo de regresión, calculamos cuánto se desvían nuestras predicciones del
valor real, usando para ello el subconjunto de test.
Las métricas de desviación NO deben compensar errores. Por eso son simétricas (se aplican potencias pares a las
diferencias, o valores absolutos).
Existen varias formas de calcular esas desviaciones:

Evaluación de modelos de regresión
La diferencia entre el resultado de la predicción y el real se

denomina residuo.
Como la mejor recta de ajuste es la que minimiza la distancia

entre ella y la respuesta (los valores dependientes), al final la
recta cae más o menos a mitad de camino de todos los puntos.
Lo que significa que debería haber la misma cantidad por
encima de la recta que por debajo. Así que la distribución de
residuos debería ser más o menos simétrica.
Gracias 

Sesión 4 - Supervisado + Regresion PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Sesión 4 - Supervisado + Regresion PDF

Încărcat de

Drepturi de autor:

Formate disponibile

Python for Analytics

Un modelo es la representación o simplificación de un concepto o aspecto de la realidad cuyo objetivo es facilitar su

En el contexto de ML, un modelo, generalmente, se corresponde con una función f(x)

Existen multitud de algoritmos para diferentes problemáticas

● Algoritmos de ordenación (merge-sort, quicksort, etc)

● Algoritmos de cifrado (RSA, etc)

● Algoritmos de hashing (SHA, etc)

● Algoritmos de compresión (JPEG, zip, mp3)

● Algoritmos de generación de números aleatorios

● Algoritmos de optimización (gradient descent, Newton’s method, etc)

Predicción del modelo

● Se dispone de unos datos de entrada X, y un target y.

● El objetivo es aprender cómo se relacionan ambos conjuntos de variables a través de la función f.

○ Predicción de fuga de clientes:

■ X: Atributos del cliente

○ Estimación del precio de la vivienda

Ajusta la salida a un problema concreto

Dadas unas condiciones de entrada el sistema produce una

El modelo se entrena para dar salidas lo más parecido

La construcción del modelo se guía con algoritmos cuyo objetivo

Predicción de clases: clasificación.

● X = {Tamaño [cm], Peso [Kg]}; y = {¿es perro?}

Gato Gato Gato Gato Gato Gato

Perro Perro Perro Perro Perro

● X = {Tamaño [cm], Peso [Kg]}; y = {¿es perro?}

Gato Gato Gato Gato Gato Gato ???? ???? ????

Perro Perro Perro Perro Perro ???? ????

Variables (X) Etiqueta (y)

● X = {Superficie [m²]}; y = [Precio]

● X = {Superficie [m²]}; y = [Precio]

111 m² 500 m² 345 m²

● La variable a predecir es categórica.

Maximizar el parecido es minimizar la diferencia

Entrenar un modelo predictivo consiste en crear un

Regresión: MRE, MSE

Penalizar las grandes diferencias

El algoritmo que entrena el modelo, busca penalizar

Estas métricas pueden ser reemplazadas por una

En este caso, se deberá definir de forma personalizada

La regresión lineal es un modelo estadístico que

En el caso de tener sólo un predictor x (univariante),

Para el caso multivariante, la ecuación de la regresión

En este caso, y corresponde a un hiperplano

Se define la función de error en la estimación como:

La solución tras la optimización es:

Para el caso multivariante (formato matricial)

Existen varias formas de calcular esas desviaciones:

La diferencia entre el resultado de la predicción y el real se

Como la mejor recta de ajuste es la que minimiza la distancia

S-ar putea să vă placă și