Sunteți pe pagina 1din 3

Q1. ¿Qué es la regularización y por qué es importante?

L1 (Lasso) o L2 (Ridge). Proceso de añadir un parámetro tuning a un modelo para introducir


“smoothness” para prevenir el overfitting.

Efecto de aplicar un regularizador L2  convierte una función de coste no convexa en algo


semi-convenxo. De esta manera métodos de optimización como el descenso del gradiente no
se atascan fácilmente ofreciendo malos resultados.

L1 es un compromiso entre L0 y L2, heredando la propiedad de inducir dispersión de la primera


y convexidad de la segunda. Útil para “seleccionador de características” ya que puede llevar a 0
variables con escaso efecto significativo.

Q2. ¿Cómo validarías un modelo que has creado para generar


predicciones usando regresión múltiple?
- Si las predicciones están lejos del rango de la variable respuesta es indicativo de una
pobre estimación o de una mala precisión.
- Si los valores parecen razonables, hay que examinar los coeficientes/parámetros: si
encontramos signos opuestos a lo esperado, valores extremadamente altos/pequeños
o poca estabilidad cuando el modelo aumenta su histórico es indicativo de mala
estimación o multicolinealidad.
- Utilizando el R2 cuadrado como una medida de validación.
- Separando el proceso en entrenamiento/validación/test.
- Utilizando el muestreo jackknife si mi dataset contiene un número pequeño de
observaciones y validando mediante el R cuadrado o el MSE de Jack.

Q3. ¿Qué es la precisión y la sensibilidad o recall? ¿Qué tienen


qué ver con la curva ROC?

TN / True Negative: casos negativos que se predicen negativos.

TP / True Positive: casos positivos que se predicen positivos

FN / False Negative: casos positivos que se predicen negativos


FP / False Positive: casos negativos que se predicen positivos.

1. ¿Qué % de predicciones han sido correctas?

Esto es la “accuracy” (9760 + 60) / 10000 = 98,2%

2. ¿Qué % de casos positivos has capturado?

Esto es la sensibilidad o “recall” 60/100 = 60%

3. ¿Qué % de predicciones han sido positivas?

Esto es la “precisión” 60 / 200 = 30%

4. ¿Cuál es el F1 Score?

Esto la media ponderada de Precision y Recall.

F1 Score = 2*(Recall * Precision) / (Recall + Precision) = 40%

Q4. ¿Qué es la potencia estadística?


La probabilidad de rechazar correctamente la hipótesis nula (H0) que tiene un test sobre un
contraste de hipótesis cuando la hipótesis alternativa (H1) es cierta. Es decir, es la
probabilidad que hay en une studio de detectar un efecto cuando dicho efecto está presente.
Una mayor potencia estadística, menos probabilidad de caer en un error Tipo II (concluir que
no existe efecto cuando de hecho si lo hay).

Q5. ¿Qué métodos de remuestreo o resampling conoces y por


qué son útiles?
- Jackknife utilizando submuestras de la muestra actual y Boostraping que es un
resampleo con reemplazamiento muy utilizado en los modelos de árboles.
- Validación cruzada para para la correcta validación de modelos.

Q6. ¿Es mejor tener muchos Falsos Positivos o Falsos Negativos?


Explica por qué
Depende del terreno en el que estemos. En medicina, una tasa alta de falsos negativos
indicaría una ausencia de la enfermedad cuando de hecho si existe y por tanto un mal
tratamiento por parte del doctor. En este campo mejor tener muchos falsos positivos.

En la detección de spam, un falso positivo ocurre cuando se filtra un email de manera


incorrecta etiquetándose como spam cuando en realidad no lo es. Por tanto, es preferible
tener multitud de falsos negativos aquí.

Q7. ¿Qué es el sesgo y la varianza y cómo están relacionadas


con la modelización de los datos?
Q8. ¿Tenemos los siguientes modelos: M1  95% de R2 y 10
predictores y M2  90% con 5 predictores?
Principio de parsimonia, modelo más simple siempre es preferible si el rendimiento es muy
similar.

- Redundancia / Irrelevancia: tratar con muchos predictores puede ser muy ineficaz. En
las primeras fases de modelización es vital identificar aquellos predictores redudantes
y expulsarlos para en etapas posteriores no enfrentarse a un problema. Es vital utilizar
aquellos predictores con un impacto considerable en la variable dependiente
- Overfitting: Trabajar con multitud de predictores puede hacer que un modelo rindan
muy bien en el entrenamiento porque esté adaptándose a las circustancias propias de
dicho dataset pero luego su rendimiento sea penoso de cara a un conjunto de datos
que no ha visto. Por lo tanto, hay que buscar modelos que generalicen bien.
- Productividad: de cara a almacenamiento/ejecución/cálculo/velocidad no es lo mismo
tratar con 15 variables que con solo 5.
- Complejidad: un modelo con pocas variables es más comprensible que uno con
muchísimas. Es importante tener esa noción a la hora de construir modelos eficaces.

Q9. ¿Ante la aparición de outliers en sus datos que haría?


Eliminar a la ligera una observación por el hecho de ser atípica puede resultar en una gran
pérdida de información valiosa. Hay métodos para aportar robustez a un modelo frente a este
tipo de observaciones.

Transformación de los datos (logaritmos), Winsorization o utilizar Mean Absolute Difference


en lugar del Mean Squared Error.

S-ar putea să vă placă și