Documente Academic
Documente Profesional
Documente Cultură
FACULTAD DE CIENCIAS
DEPARTAMENTO DE MATEMÁTICA Y CIENCIA DE LA COMPUTACIÓN
Clase IX:
Modelos Supervisados: Regresión Logística III
Octubre 2016
Contenidos:
Octubre 2016
Tabla de Discriminación
Finalmente, se debe determinar la distribución muestral acumulada de los eventos dicotómicos, esto quiere
decir que, una vez ordenada la variable según la probabilidad intra-categoria, se acumular el porcentaje de
casos según eventos dicotómicos.
% Casos (Acumulada)
Positivos Negativos Total
40% 10% 25%
60% 25% 43%
75% 40% 58%
90% 60% 75%
100% 100% 100%
Matriz de Confusión
Indica según el punto de corte definido por el ajuste de un modelo o una categoría única el nivel de buena
clasificación que posee en relación a los valores reales. Obs: El punto de corte determina los casos que
serán clasificados como negativos y como positivos.
Valor Real
Positivo Negativo Total
Predicción
Total P N T
Matriz de Confusión
Por lo tanto, al realizar la mirada porcentual por valor real (mirada vertical) en donde el total filas concentra
el 100%, la predicción predictiva queda definida por la sensibilidad y 1 menos la especificidad.
Valor Real
Positivo Negativo
La predicción Positiva,
Predicción
El índice de discriminación de la ROC corresponde al área bajo la curva, el cual queda definida con la
siguiente función:
Ahora, a partir del calculo anterior se obtiene el Índice del Gini, el cual a diferencia del Índice C, este se
mueve entre 0 y 1.
Estadístico KS
D = 𝑀𝑎𝑥 |𝑃𝑖 − 𝑄𝑖 |
Tabla de Discriminación
Por lo tanto, al incorporar todos los elementos, se aprecia la siguiente tabla de discriminación:
Devianza
Corresponde a la suma de cuadrados residual (SS residual) en la ANOVA de la regresión lineal, ajustada a
la regresión logística, es decir, es una medida de la variación de los errores que indica lo que el modelo no
es capaz de explicar.
En donde, el los Prob corresponden a las tasas intra-categorías, N a los casos por categorías y los p y q a
las probabilidades de ambas muestras dicotómicas. Por otro lado surge el concepto de Devianza Nula, el
cual se define a continuación:
En donde todos los elementos de la ecuación se calculan en base a los totales de la distribución.
Coeficiente de Determinación
Por otro lado, como la devianza es el equivalente a una SCE de un modelo regresión lineal a una regresión
logística, se debe cumplir la siguiente ecuación:
𝐷𝑒𝑣𝑖𝑎𝑛𝑧𝑎
𝑅2 =1 −
𝐷𝑒𝑣𝑖𝑎𝑛𝑧𝑎 𝑁𝑢𝑙𝑎
Sin embargo, el valor del coeficiente de determinación tiende a poseer valores cercanos a cero, por lo
mismo surgen estadísticos como R2 de Cox-Snell y R2 Nagelkerke que buscan aumentar e incorporar el
distribución logit al calculo.
Octubre 2016
De las tres maneras, las dos primeras se desarrollan antes de ajustar la regresión logística a la muestra de
desarrollo, mientras que la ultima se ajusta una vez ya obtenido los parámetros de la regresión logística.
Nota:
El concepto de Ponderación de Casos, indica que una observación que en el escenario natural pesa 1 (lo
que quiere decir que se considera como un registro), puede variar según el calculo ponderador, es decir,
una observación puede representar más o menos cantidades de registros.
N Casos N Casos
Segmentos Tasa Segmentos Tasa
Positivos Negativos Total Positivos Negativos Total
Categoría 1 192 10 202 5% Categoría 1 40 10 50 20%
Categoría 2 96 15 111 14% Categoría 2 20 15 35 43%
Categoría 3 72 15 87 17% Categoría 3 15 15 30 50%
Categoría 4 72 20 92 22% Categoría 4 15 20 35 57%
Categoría 5 48 40 88 45% Categoría 5 10 40 50 80%
Total 480 100 580 17% Total 100 100 200 50%
Por lo tanto, lo que se busca que la tasa global de los casos resultantes sea del 50%.
Este proceso de realiza antes de desarrollar el modelo. Implica seleccionar el N de una de las dos
muestras dicotómicas y seleccionar a través de algún mecanismo de muestreo la misma cantidad de casos
para ambas muestras.
N Casos N Casos
Segmentos Tasa Segmentos Tasa
Positivos Negativos Total Positivos Negativos Total
Categoría 1 192 10 202 5% Categoría 1 40 10 50 20%
Categoría 2 96 15 111 14% Categoría 2 20 15 35 43%
Categoría 3 72 15 87 17% Categoría 3 15 15 30 50%
Categoría 4 72 20 92 22% Categoría 4 15 20 35 57%
Categoría 5 48 40 88 45% Categoría 5 10 40 50 80%
Total 480 100 580 17% Total 100 100 200 50%
Pasos:
Ponderación de Casos
Este proceso de realiza antes de desarrollar el modelo. Implica determinar los pesos de ambas muestras
dicotómicas y ajustar la regresión logística con la ponderación asignada á fin de obtener la misma
participación de las muestras dicotómicas.
N Casos N Casos
Segmentos Tasa Segmentos Tasa
Positivos Negativos Total Positivos Negativos Total
Categoría 1 192 10 202 5% Categoría 1 40 10 50 20%
Categoría 2 96 15 111 14% Categoría 2 20 15 35 43%
Categoría 3 72 15 87 17% Categoría 3 15 15 30 50%
Categoría 4 72 20 92 22% Categoría 4 15 20 35 57%
Categoría 5 48 40 88 45% Categoría 5 10 40 50 80%
Total 480 100 580 17% Total 100 100 200 50%
Ponderadores
Positivos Negativos
0,21 1,00
Una forma de asignar los pesos ponderados es dividir el N deseado sobre el N registrado (en el ejemplo,
se desea obtener 100, por lo que el ponderador sería 100/480=0,21 para los positivos, mientras que para
los negativos sería 100/100=1.
Ponderación de Casos
Este proceso de realiza antes de desarrollar el modelo. Implica determinar los pesos de ambas muestras
dicotómicas y ajustar la regresión logística con la ponderación asignada á fin de obtener la misma
participación de las muestras dicotómicas.
N Casos N Casos
Segmentos Tasa Segmentos Tasa
Positivos Negativos Total Positivos Negativos Total
Categoría 1 192 10 202 5% Categoría 1 40 10 50 20%
Categoría 2 96 15 111 14% Categoría 2 20 15 35 43%
Categoría 3 72 15 87 17% Categoría 3 15 15 30 50%
Categoría 4 72 20 92 22% Categoría 4 15 20 35 57%
Categoría 5 48 40 88 45% Categoría 5 10 40 50 80%
Total 480 100 580 17% Total 100 100 200 50%
Ponderadores
Positivos Negativos
0,21 1,00
Pasos:
Este proceso de realiza después de desarrollar el modelo con la muestra inicial no balanceada. Implica
restarle al intercepto de la regresión logística ajustada el valor del WOE global a fin de extender la función
al equilibrio.
Muestra Original No Balanceada Muestra Resultante Balanceada
N Casos N Casos
Segmentos Tasa Segmentos Tasa
Positivos Negativos Total Positivos Negativos Total
Categoría 1 192 10 202 5% Categoría 1 40 10 50 20%
Categoría 2 96 15 111 14% Categoría 2 20 15 35 43%
Categoría 3 72 15 87 17% Categoría 3 15 15 30 50%
Categoría 4 72 20 92 22% Categoría 4 15 20 35 57%
Categoría 5 48 40 88 45% Categoría 5 10 40 50 80%
Total 480 100 580 17% Total 100 100 200 50%
Este proceso de realiza después de desarrollar el modelo con la muestra inicial no balanceada. Implica
restarle al intercepto de la regresión logística ajustada el valor del WOE global a fin de extender la función
al equilibrio.
Muestra Original No Balanceada Muestra Resultante Balanceada
N Casos N Casos
Segmentos Tasa Segmentos Tasa
Positivos Negativos Total Positivos Negativos Total
Categoría 1 192 10 202 5% Categoría 1 40 10 50 20%
Categoría 2 96 15 111 14% Categoría 2 20 15 35 43%
Categoría 3 72 15 87 17% Categoría 3 15 15 30 50%
Categoría 4 72 20 92 22% Categoría 4 15 20 35 57%
Categoría 5 48 40 88 45% Categoría 5 10 40 50 80%
Total 480 100 580 17% Total 100 100 200 50%
Octubre 2016
• Puntaje entre 0 y 1 que determina la probabilidad a un evento (entre 0 y 1000 en caso de estar
multiplicada).
• Interpretación liviana de los coeficientes (parámetros), en donde en la medida en que mayor sea, más
aumentan la probabilidad final.
• Se tienen cálculos de probabilidades a eventos no observados en la base de desarrollo, es decir, se
puede extender el modelo a otras muestras ajenas al calculo de los coeficientes.
• Ecuación matemática difícil de comprender y ajena a la lógica lineal.
Por lo tanto, dado lo anterior, se hace necesario contar con una transformación capaz de hacer el SCORE
más manejable e interpretable. Para solucionar esto, se realiza un ESCALAMIENTO LINEAL A SCORE.
• El SCORE ESCALADO tendrá una escala de valores más comprensible (Ej: 1 – 1000).
• Cada atributo tendrá asociado un SCORE positivo o negativo (Ej: Edad entre 20 y 30 años, sumar 20).
• El SCORE FINAL deberá ser la suma de cada uno de los SCORE particulares.
Escalamiento a Score
Escalamiento a Score
Además se define, que como PDO (Puntos para Duplicar las ODDS) como la Cantidad de puntos
necesarios para duplicar la proporción de casos positivos sobre negativos (ODDS).
𝑃𝐷𝑂
𝐹𝑎𝑐𝑡𝑜𝑟 =
ln(2)
Ejemplo
Se desea ajustar un escalamiento lineal (Credit Scoring) en donde en 600 (Escala) exista una probabilidad
del 60% de acertar en un evento dado (ODDS = 1,5 = 6:4) y que en cada 150 ptos se duplique esa
proporción (PDO = 150), por lo tanto se tiene:
150
𝐹𝑎𝑐𝑡𝑜𝑟 = = 216,4
0,6931
Escalamiento a Score
Por lo tanto, se posee una transformación completamente lineal para cada uno de los coeficientes
resultantes en la regresión logística.
Nota:
• Para poder realizar esta transformación se requiere que cada una de las variables estén categorizada.
• En caso de ajustar la regresión logística con valores WOE, el parámetro de cada categoría
corresponderá al WOE de éstas multiplicado por el coeficiente resultante de la variable.
Octubre 2016
El retorno sobre la inversión (RSI o ROI, por las siglas en inglés de Return On Investment) es una razón
financiera que compara el beneficio o la utilidad obtenida en relación a la inversión realizada, es decir,
representa una herramienta para analizar el rendimiento que la empresa tiene desde el punto de vista
financiero.
𝐵𝑒𝑛𝑒𝑓𝑖𝑐𝑖𝑜 − 𝐼𝑛𝑣𝑒𝑟𝑠𝑖ó𝑛
𝑅𝑂𝐼 =
𝐼𝑛𝑣𝑒𝑟𝑠𝑖ó𝑛
En donde el Beneficio corresponde a la venta menos los costos relacionados con ésta.
Ahora, en SCORING no posee el mismo significado, el ROI corresponde al ACCURACY que se obtiene al
ponderar los VN y los VP según la relevancia que posean para cada caso. Por ejemplo:
Para un banco, es más importante clasificar bien a un mal pagador (Verdadero Negativo) que a un buen
pagador (Verdadero Positivo), dado que el Riesgo de perdida que generan los mororos es mayor. Con lo
anterior, se hace necesario asignar un peso mayor a los VN.
Ejemplo
El siguiente SCORE tiene como objetivo evaluar la probabilidad que tienen los clientes de una empresa de
comprar el siguiente mes:
N Casos % Casos % Acumulado Discriminación
Score Tasa
No Compra Compra Total No Compra Compra Total No Compra Compra Total WOE KS ROC ACC
236 20 5 25 20,0% 5,3% 0,8% 2,5% 5,3% 0,8% 2,5% -1,386 4,5% 5,3% 63,9%
284 12 3 15 20,0% 3,2% 0,5% 1,5% 8,5% 1,3% 4,0% -1,386 7,2% 3,2% 64,8%
291 37 11 48 22,9% 9,8% 1,8% 4,8% 18,4% 3,0% 8,8% -1,213 15,3% 9,6% 67,4%
346 22 7 29 24,1% 5,9% 1,1% 2,9% 24,2% 4,2% 11,7% -1,145 20,0% 5,6% 68,9%
351 8 3 11 27,3% 2,1% 0,5% 1,1% 26,3% 4,6% 12,8% -0,981 21,7% 2,0% 69,4%
377 16 9 25 36,0% 4,3% 1,4% 2,5% 30,6% 6,1% 15,3% -0,575 24,5% 4,0% 70,1%
419 11 10 21 47,6% 2,9% 1,6% 2,1% 33,5% 7,7% 17,4% -0,095 25,8% 2,7% 70,2%
438 37 36 73 49,3% 9,8% 5,8% 7,3% 43,4% 13,5% 24,7% -0,027 29,9% 8,8% 70,3%
515 21 21 42 50,0% 5,6% 3,4% 4,2% 48,9% 16,8% 28,9% 0,000 32,1% 4,7% 70,3%
518 6 7 13 53,8% 1,6% 1,1% 1,3% 50,5% 17,9% 30,2% 0,154 32,6% 1,3% 70,2%
518 19 28 47 59,6% 5,1% 4,5% 4,7% 55,6% 22,4% 34,9% 0,388 33,1% 4,0% 69,3%
594 12 18 30 60,0% 3,2% 2,9% 3,0% 58,8% 25,3% 37,9% 0,405 33,5% 2,4% 68,7%
612 34 54 88 61,4% 9,0% 8,7% 8,8% 67,8% 34,0% 46,7% 0,463 33,8% 6,4% 66,7%
685 56 122 178 68,5% 14,9% 19,6% 17,8% 82,7% 53,5% 64,5% 0,779 29,2% 8,4% 60,1%
741 9 22 31 71,0% 2,4% 3,5% 3,1% 85,1% 57,1% 67,6% 0,894 28,1% 1,1% 58,8%
741 3 8 11 72,7% 0,8% 1,3% 1,1% 85,9% 58,3% 68,7% 0,981 27,6% 0,3% 58,3%
798 40 179 219 81,7% 10,6% 28,7% 21,9% 96,5% 87,0% 90,6% 1,499 9,5% 2,9% 44,4%
838 13 81 94 86,2% 3,5% 13,0% 9,4% 100,0% 100,0% 100,0% 1,829 0,0% 0,2% 37,6%
Total 376 624 1.000 62,4% 100,0% 100,0% 100,0% 33,8% 73,1% 62,4%
Ejemplo
Por lo tanto, la empresa desea asignarle una oferta a todos los clientes que, según el SCORE de compra,
no van a comprar. Dado lo anterior, se plantea la siguiente acción comercial:
En donde se tiene que, en promedio cada cliente cuando compra gasta $10.000. Mientras que, la acción
comercial implica entregar un descuento del 10% ($10.000) el cual se envía por correo a un costo de
$1.000 por envío. Por lo tanto se tiene la siguiente matriz de Ingresos y Costos según el escenario de
clasificación del SCORE.
Real
No Compra Compra
Predic.
En donde se tiene que, sí se envía la oferta a un cliente y éste finalmente no compra, se pierde $1.000
(costo de envío), mientras que sí compra, se gana $8.000 (descontando el envío y el dcto). Por lo tanto, se
pierde más dinero clasificando mal a un comprador que a un no comprador (proporción de 2:1).
Ejemplo
Por lo tanto, al asignarle a los VP un peso de $1.000 y a los VN $2.000 se tiene que el punto de corte
adecuado ya no es 438 sino 351.
N Casos % Casos % Acumulado Discriminación
Score Tasa ROI
No Compra Compra Total No Compra Compra Total No Compra Compra Total WOE KS ROC ACC
236 20 5 25 20,0% 5,3% 0,8% 2,5% 5,3% 0,8% 2,5% -1,386 4,5% 5,3% 63,9% $1.258.000
284 12 3 15 20,0% 3,2% 0,5% 1,5% 8,5% 1,3% 4,0% -1,386 7,2% 3,2% 64,8% $1.264.000
291 37 11 48 22,9% 9,8% 1,8% 4,8% 18,4% 3,0% 8,8% -1,213 15,3% 9,6% 67,4% $1.279.000
346 22 7 29 24,1% 5,9% 1,1% 2,9% 24,2% 4,2% 11,7% -1,145 20,0% 5,6% 68,9% $1.287.000
351 8 3 11 27,3% 2,1% 0,5% 1,1% 26,3% 4,6% 12,8% -0,981 21,7% 2,0% 69,4% $1.289.000
377 16 9 25 36,0% 4,3% 1,4% 2,5% 30,6% 6,1% 15,3% -0,575 24,5% 4,0% 70,1% $1.287.000
419 11 10 21 47,6% 2,9% 1,6% 2,1% 33,5% 7,7% 17,4% -0,095 25,8% 2,7% 70,2% $1.278.000
438 37 36 73 49,3% 9,8% 5,8% 7,3% 43,4% 13,5% 24,7% -0,027 29,9% 8,8% 70,3% $1.243.000
515 21 21 42 50,0% 5,6% 3,4% 4,2% 48,9% 16,8% 28,9% 0,000 32,1% 4,7% 70,3% $1.222.000
518 6 7 13 53,8% 1,6% 1,1% 1,3% 50,5% 17,9% 30,2% 0,154 32,6% 1,3% 70,2% $1.214.000
518 19 28 47 59,6% 5,1% 4,5% 4,7% 55,6% 22,4% 34,9% 0,388 33,1% 4,0% 69,3% $1.177.000
594 12 18 30 60,0% 3,2% 2,9% 3,0% 58,8% 25,3% 37,9% 0,405 33,5% 2,4% 68,7% $1.153.000
612 34 54 88 61,4% 9,0% 8,7% 8,8% 67,8% 34,0% 46,7% 0,463 33,8% 6,4% 66,7% $1.079.000
685 56 122 178 68,5% 14,9% 19,6% 17,8% 82,7% 53,5% 64,5% 0,779 29,2% 8,4% 60,1% $891.000
741 9 22 31 71,0% 2,4% 3,5% 3,1% 85,1% 57,1% 67,6% 0,894 28,1% 1,1% 58,8% $856.000
741 3 8 11 72,7% 0,8% 1,3% 1,1% 85,9% 58,3% 68,7% 0,981 27,6% 0,3% 58,3% $843.000
798 40 179 219 81,7% 10,6% 28,7% 21,9% 96,5% 87,0% 90,6% 1,499 9,5% 2,9% 44,4% $525.000
838 13 81 94 86,2% 3,5% 13,0% 9,4% 100,0% 100,0% 100,0% 1,829 0,0% 0,2% 37,6% $376.000
Total 376 624 1.000 62,4% 100,0% 100,0% 100,0% 33,8% 73,1% 62,4% $1.248.000
Sí el peso de un VN es mayor que el VP el corte recomendado estará por debajo que el ACC (como en
este caso), si es lo contrario, el corte recomendado será superior al ACC.
Clase IX:
Modelos Supervisados: Regresión Logística III
Octubre 2016