Documente Academic
Documente Profesional
Documente Cultură
Sesión 4
Agenda
1. Modelos y algoritmos
2. Aprendizaje supervisado
3. Tipos de modelo
4. Función de coste
5. Reescalado de datos
6. Regresión Lineal
7. Evaluación
Modelos y Algoritmos
Modelos y Algoritmos
Entrenar un modelo consiste principalmente en aprender cómo es exactamente la función f a partir de los datos
Modelos y Algoritmos
Un algoritmo es una serie de instrucciones no ambiguas sobre cómo resolver un problema determinado.
...
Algoritmo de
aprendizaje
Modelo Final
...
Nuevas muestras extraídas
del sistema
...
Aprendizaje Supervisado
Aprendizaje Supervisado
Comprende los problemas en los que el objetivo es aprender la relación entre una serie de variables de entrada o
características y una o unas variables salida o target.
● Cuando aparezcan nuevos datos Xnew podremos estimar los ynew a través de f
Ejemplos:
■ y: si hay fuga o no (1 ó 0)
■ X: Atributos de la vivienda
■ y: Precio de la vivienda
Aprendizaje Supervisado
Cuando el modelo está entrenado, nuestro clasificador pordrá distinguir perros y gatos en base
unicamente al peso y la altura.
Aprendizaje Supervisado
x1 x2 y
(Tamaño, [cm]) (Peso, [Kg]) (es perro?)
100 30 1
123 25 1
n muestras de
entrenamiento o 30 12 0
instancias
40 14 0
112 35 1
p predictores
Aprendizaje Supervisado
Objetivo: Estimar el precio de la vivienda a partir de la superficie
90 m² 110 m² 400 m²
100.000€ 377.000€ 980.000€
85 m² 90 m² 230 m²
95.000€ 160.000€ 600.000€
111 m² 500 m²
500.000€ 1.000.000€
Aprendizaje Supervisado
Objetivo: Estimar el precio de la vivienda a partir de la superficie
90 m² 110 m² 400 m²
100.000€ 377.000€ 980.000€
85 m² 90 m² 230 m²
95.000€ 160.000€ 600.000€
Cuando el ,modelo está entrenado, nuestro regresor podrá sugerir el precio de una casa en base a la
superficie.
Tipos de modelo
Regresión vs. Clasificación
Regresión Clasificación
Regresión
Clasificación
X
Función de coste
Objetivo del modelo
En la mayoría de algoritmos necesitamos que los valores de todas las variables posean la misma escala.
La normalización min-max realiza una transformación lineal de los datos, conservando la relación original
entre ellos:
Estandarización
Algunos algoritmos presuponen que los datos siguen más o menos una distribución normal de media cero y varianza
uno. Para conseguirlo los datos se transforman mediante una normalización de media cero o estandarización:
Regresión lineal
Regresión lineal simple
Dado un conjunto de datos, los coeficientes (w) suelen ser desconocidos, y por tanto hay que estimarlos,
es decir, hay que encontrar el mejor modelo (lineal) que se ajusta a nuestros datos en particular. Esta es la
fase de entrenamiento.
Para estimar los coeficientes, se define la función del Error Cuadrático Medio (MSE) como:
Estimación de coeficientes
Para estimar los coeficientes se deberán encontrar los coeficientes que minimizan el MSE. Este problema
de optimización se conoce como OLS (Ordinary Least Squares), ó mínimos cuadrados.
Podemos detectar la relación entre los predictores y la salida haciendo un gráfico entre los valores
predichos y el valor de los residuales.
En el gráfico de la izquierda vemos que los residuales presentan un patrón, esto indica que la relación
entre predictores y salida no es lineal. Este patrón no se observa en el gráfico de la derecha.
Problemas potenciales en el modelo
La varianza de los términos de error no es constante
Los términos de error deben tener una distribución normal, la varianza debe ser constante.
Si no lo es se puede detectar en el gráfico de los residuales divididos entre su error estándar.
A esto se le llama heterocedasticidad y suele suceder cuando el error se incrementa a
medida que incrementa la salida y.
Problemas potenciales en el modelo
Existen outliers
Un outlier es una observación que se aleja mucho de lo que el modelo predice. Para
detectar outliers se puede hacer un gráfico de residuales o un gráfico de residuales divididos
por el error estándar.
¿Qué hacer?
● Si los outliers son errores en los datos, corregir los datos o descartar los outliers del
modelo.
● Si no son errores, puede ser que no estemos considerando alguna variable importante
en nuestros predictores.
Evaluación
Evaluación de modelos de regresión
Normalmente para evaluar un modelo de regresión, calculamos cuánto se desvían nuestras predicciones del
valor real, usando para ello el subconjunto de test.
Las métricas de desviación NO deben compensar errores. Por eso son simétricas (se aplican potencias pares a las
diferencias, o valores absolutos).