S9. Clase 9 - Modelos Supervisados Regresión Logística III

UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE CIENCIAS
DEPARTAMENTO DE MATEMÁTICA Y CIENCIA DE LA COMPUTACIÓN
CURSO SEMINARIO II: INTELIGENCIA DE NEGOCIOS
Clase IX:
Modelos Supervisados: Regresión Logística III
Octubre 2016
Prof. Miguel Angel Gaggero Sotomayor

CLASE IX : REGRESIÓN LOGÍSTICA II
Contenidos:
I. Resumen Clase VIII.

II. Balance de Muestras Dicotómicas.
III. Credit Scoring – Escalamiento.
IV. ROI – Matriz de Confusión Ponderada.

Resumen Clase VIII
Octubre 2016

INDICADORES DE DISCRIMINACIÓN
Tabla de Discriminación
Finalmente, se debe determinar la distribución muestral acumulada de los eventos dicotómicos, esto quiere
decir que, una vez ordenada la variable según la probabilidad intra-categoria, se acumular el porcentaje de
casos según eventos dicotómicos.
N Casos % Casos (Distribución)

Segmentos Tasa
Positivos Negativos Total Positivos Negativos Total
Categoría 1 40 10 50 20% 40% 10% 25%
Categoría 2 20 15 35 43% 20% 15% 18%
Categoría 3 15 15 30 50% 15% 15% 15%
Categoría 4 15 20 35 57% 15% 20% 18%
Categoría 5 10 40 50 80% 10% 40% 25%
Total 100 100 200 50% 100% 100% 100%
% Casos (Acumulada)
Positivos Negativos Total
40% 10% 25%
60% 25% 43%
75% 40% 58%
90% 60% 75%
100% 100% 100%

Matriz de Confusión
Indica según el punto de corte definido por el ajuste de un modelo o una categoría única el nivel de buena
clasificación que posee en relación a los valores reales. Obs: El punto de corte determina los casos que
serán clasificados como negativos y como positivos.
Valor Real
Positivo Negativo Total
Predicción
Positivo VP FP P´ VP: Verdaderos Positivos (Éxitos).

FP: Falsos Positivos (Error Tipo I).
FN: Falsos Negativos (Error Tipo II).
Negativo FN VN N´ VN: Verdaderos Negativos (Éxitos).
Total P N T
Accuracy (Exactitud) ACC = (VP + VN) / Total

Sensibilidad (Razón de Verdaderos Positivos) VPR = VP / P = VP / (VP + FN)
Especificidad (Razón de Verdaderos Negativos) VNR = VN / N = VN / (FP + VN)
Se aprecia que tanto la Sensibilidad y la Especificidad corresponden a la Frecuencia Porcentual por

muestras dicotómicas.

Matriz de Confusión
Por lo tanto, al realizar la mirada porcentual por valor real (mirada vertical) en donde el total filas concentra
el 100%, la predicción predictiva queda definida por la sensibilidad y 1 menos la especificidad.
Valor Real
Positivo Negativo
La predicción Positiva,
Predicción
Positivo Sensibilidad 1 - Especificidad corresponde al %

acumulado de las
muestras dicotómicas.
Negativo 1 - Sensibilidad Especificidad
Total 100% 100%
Accuracy (Exactitud) ACC = (VP + VN) / Total

Sensibilidad (Razón de Verdaderos Positivos) VPR = VP / P = VP / (VP + FN)
Especificidad (Razón de Verdaderos Negativos) VNR = VN / N = VN / (FP + VN)

Curva ROC o AUC
El índice de discriminación de la ROC corresponde al área bajo la curva, el cual queda definida con la
siguiente función:
𝐼𝑛𝑑𝑖𝑐𝑒 𝑅𝑂𝐶 = ෍ 𝑝𝑖 ∗ 1 − 𝑄𝑖 + (𝑝𝑖 ∗ 𝑞𝑖 ∗ 0,5)

𝑖=1

Curva ROC o AUC
Por lo tanto, en el ejemplo, el Índice C queda en 0.741
% Casos (Distribución) % Casos (Acumulada)

Segmentos ROC
Categoría 1 40% 10% 25% 40% 10% 25% 38,0%
Categoría 2 20% 15% 18% 60% 25% 43% 16,5%
Categoría 3 15% 15% 15% 75% 40% 58% 10,1%
Categoría 4 15% 20% 18% 90% 60% 75% 7,5%
Categoría 5 10% 40% 25% 100% 100% 100% 2,0%
Total 100% 100% 100% C 74,1%
Indice del Gini
Ahora, a partir del calculo anterior se obtiene el Índice del Gini, el cual a diferencia del Índice C, este se
mueve entre 0 y 1.
𝐺𝑖𝑛𝑖 = 𝐼𝑛𝑑𝑖𝑐𝑒 𝐶 − 0,5 ∗ 2

Estadístico KS
El estadístico KS corresponde a la máxima diferencia en valor absoluto de las distribuciones dicotómicas

acumuladas, quedando definida en el ejemplo de la siguiente manera:
% Casos (Distribución) % Casos (Acumulada)

Segmentos KS
Categoría 1 40% 10% 25% 40% 10% 25% 30,0%
Categoría 2 20% 15% 18% 60% 25% 43% 35,0%
Categoría 3 15% 15% 15% 75% 40% 58% 35,0%
Categoría 4 15% 20% 18% 90% 60% 75% 30,0%
Categoría 5 10% 40% 25% 100% 100% 100% 0,0%
Total 100% 100% 100% D 35,0%
D = 𝑀𝑎𝑥 |𝑃𝑖 − 𝑄𝑖 |

Tabla de Discriminación
Por lo tanto, al incorporar todos los elementos, se aprecia la siguiente tabla de discriminación:
N Casos % Casos (Distribución) % Casos (Acumulada) Discriminación

Segmentos Tasa
Positivos Negativos Total Positivos Negativos Total Positivos Negativos Total WOE KS ROC
Categoría 1 40 10 50 20% 40% 10% 25% 40% 10% 25% -1,39 30% 38,0%
Categoría 2 20 15 35 43% 20% 15% 18% 60% 25% 43% -0,29 35% 16,5%
Categoría 3 15 15 30 50% 15% 15% 15% 75% 40% 58% 0,00 35% 10,1%
Categoría 4 15 20 35 57% 15% 20% 18% 90% 60% 75% 0,29 30% 7,5%
Categoría 5 10 40 50 80% 10% 40% 25% 100% 100% 100% 1,39 0% 2,0%
Total 100 100 200 50% 100% 100% 100% D 35% 74,1%
Gini 48,3%
Frecuencia Absoluta Prob. Frecuencia Porcentual Discriminación

Categoría


INDICADORES DE BONDAD DE AJUSTE
Devianza
Corresponde a la suma de cuadrados residual (SS residual) en la ANOVA de la regresión lineal, ajustada a
la regresión logística, es decir, es una medida de la variación de los errores que indica lo que el modelo no
es capaz de explicar.
𝐷𝑒𝑣𝑖𝑎𝑛𝑧𝑎 = −2 ∗ ෍ 𝑁𝑖 ∗ 𝑃𝑟𝑜𝑏𝑖 ∗ ln 𝑃𝑟𝑜𝑏𝑖 + 𝑁𝑖 ∗ 1 − 𝑃𝑟𝑜𝑏𝑖 ∗ ln 1 − 𝑃𝑟𝑜𝑏𝑖

𝑖=1
En donde, el los Prob corresponden a las tasas intra-categorías, N a los casos por categorías y los p y q a
las probabilidades de ambas muestras dicotómicas. Por otro lado surge el concepto de Devianza Nula, el
cual se define a continuación:
𝐷𝑒𝑣𝑖𝑎𝑛𝑧𝑎 𝑁𝑢𝑙𝑎 = −2 ∗ 𝑁𝑇 ∗ 𝑃𝑟𝑜𝑏𝑇 ∗ ln 𝑃𝑟𝑜𝑏𝑇 + 𝑁𝑇 ∗ (1 − 𝑃𝑟𝑜𝑏𝑇 ) ∗ ln 1 − 𝑃𝑟𝑜𝑏𝑇
En donde todos los elementos de la ecuación se calculan en base a los totales de la distribución.

INDICADORES DE BONDAD DE AJUSTE
Coeficiente de Determinación
Por otro lado, como la devianza es el equivalente a una SCE de un modelo regresión lineal a una regresión
logística, se debe cumplir la siguiente ecuación:
𝑆𝐶𝑇 = 𝑆𝐶𝑅 + 𝑆𝐶𝐸
𝐷𝑒𝑣𝑖𝑎𝑛𝑧𝑎 𝑁𝑢𝑙𝑎 = 𝐷𝑒𝑣𝑖𝑎𝑛𝑧𝑎 𝑀𝑜𝑑𝑒𝑙𝑜 + 𝐷𝑒𝑣𝑖𝑎𝑛𝑧𝑎
𝐷𝑒𝑣𝑖𝑎𝑛𝑧𝑎
𝑅2 =1 −
𝐷𝑒𝑣𝑖𝑎𝑛𝑧𝑎 𝑁𝑢𝑙𝑎
Sin embargo, el valor del coeficiente de determinación tiende a poseer valores cercanos a cero, por lo
mismo surgen estadísticos como R2 de Cox-Snell y R2 Nagelkerke que buscan aumentar e incorporar el
distribución logit al calculo.

Balance de Muestras Dicotómicas
Octubre 2016

BALANCE DE MUESTRAS DICOTÓMICAS
Concepto Balanceo de Muestras
Se recomienda desarrollar los modelos de asignación de probabilidad balanceadas con el objetivo de

aumentar la dispersión y no concentrar las probabilidades en tramos específicos de la función.
Máxima Varianza en P igual a 0,5

Concepto Balanceo de Muestras
Se recomienda desarrollar los modelos de asignación de probabilidad balanceadas con el objetivo de

aumentar la dispersión y no concentrar las probabilidades en tramos específicos de la función.
Máxima Varianza WOE igual a 0

Mecánicas de Balanceo de Muestras
Para balancear las muestras existen, básicamente, tres maneras de realizar:
1. Selección de Muestras del Mismo Tamaño.

2. Ponderación de Casos (Asignarle Pesos a las Observaciones).
3. Modificar el Coeficiente del Intercepto.
De las tres maneras, las dos primeras se desarrollan antes de ajustar la regresión logística a la muestra de
desarrollo, mientras que la ultima se ajusta una vez ya obtenido los parámetros de la regresión logística.
Nota:
El concepto de Ponderación de Casos, indica que una observación que en el escenario natural pesa 1 (lo
que quiere decir que se considera como un registro), puede variar según el calculo ponderador, es decir,
una observación puede representar más o menos cantidades de registros.

Mecánicas de Balanceo de Muestras
Para balancear las muestras existen, básicamente, tres maneras de realizar:
1. Selección de Muestras del Mismo Tamaño.

2. Ponderación de Casos (Asignarle Pesos a las Observaciones).
3. Modificar el Coeficiente del Intercepto.
Muestra Original No Balanceada Muestra Resultante Balanceada
N Casos N Casos
Segmentos Tasa Segmentos Tasa
Categoría 1 192 10 202 5% Categoría 1 40 10 50 20%
Total 480 100 580 17% Total 100 100 200 50%
Por lo tanto, lo que se busca que la tasa global de los casos resultantes sea del 50%.

Selección de Muestras del Mismo Tamaño.
Este proceso de realiza antes de desarrollar el modelo. Implica seleccionar el N de una de las dos
muestras dicotómicas y seleccionar a través de algún mecanismo de muestreo la misma cantidad de casos
para ambas muestras.
N Casos N Casos
Total 480 100 580 17% Total 100 100 200 50%
Pasos:
1. Seleccionar el N a muestrear en ambas muestras dicotómicas (Positivos y Negativos).

2. Seleccionar técnica de muestreo y aplicarla a ambas muestras dicotómicas por separado.
3. Agrupar en una sola muestra final ambas muestras seleccionadas en el paso 2.
4. Ajustar la Regresión Logística a la muestra resultante en el paso 3.

Ponderación de Casos
Este proceso de realiza antes de desarrollar el modelo. Implica determinar los pesos de ambas muestras
dicotómicas y ajustar la regresión logística con la ponderación asignada á fin de obtener la misma
participación de las muestras dicotómicas.
N Casos N Casos
Total 480 100 580 17% Total 100 100 200 50%
Ponderadores
Positivos Negativos
0,21 1,00
Una forma de asignar los pesos ponderados es dividir el N deseado sobre el N registrado (en el ejemplo,
se desea obtener 100, por lo que el ponderador sería 100/480=0,21 para los positivos, mientras que para
los negativos sería 100/100=1.
Por lo tanto, cada registro de los positivos pesará 0,21.

Ponderación de Casos
Este proceso de realiza antes de desarrollar el modelo. Implica determinar los pesos de ambas muestras
dicotómicas y ajustar la regresión logística con la ponderación asignada á fin de obtener la misma
participación de las muestras dicotómicas.
N Casos N Casos
Total 480 100 580 17% Total 100 100 200 50%
Ponderadores
Positivos Negativos
0,21 1,00
Pasos:
1. Calcular Pesos Ponderadores de las Muestras Dicotómicas.

2. Ajustar la Regresión Logística con los casos ponderados.

Modificar el Coeficiente del Intercepto
Este proceso de realiza después de desarrollar el modelo con la muestra inicial no balanceada. Implica
restarle al intercepto de la regresión logística ajustada el valor del WOE global a fin de extender la función
al equilibrio.
N Casos N Casos
Total 480 100 580 17% Total 100 100 200 50%
Coef. No Balanceada Coef. No Balanceada

Intercepto -0,1823 Intercepto 1,3863
Cat1 -2,7726 Cat1 -2,7726
Cat2 -1,6740 Cat2 -1,6740
Cat3 -1,3863 Cat3 -1,3863
Cat4 -1,0986 Cat4 -1,0986
Cat5 0,0000 Cat5 0,0000
Al calcular los parámetros de la muestra balanceada y no balanceada, independientemente, se tiene que

todos los coeficientes menos el intercepto son iguales.

Modificar el Coeficiente del Intercepto
Este proceso de realiza después de desarrollar el modelo con la muestra inicial no balanceada. Implica
restarle al intercepto de la regresión logística ajustada el valor del WOE global a fin de extender la función
al equilibrio.
N Casos N Casos
Total 480 100 580 17% Total 100 100 200 50%
Coef. No Balanceada Coef. No Balanceada

Intercepto -0,1823 Intercepto 1,3863
Cat1 -2,7726
Cat2 -1,6740
Cat3 -1,3863 𝐵0 𝐵𝑎𝑙 = 𝐵0 𝑁𝐵𝑎𝑙 − 𝑊𝑂𝐸𝐺𝑙𝑜𝑏𝑎𝑙
Cat4 -1,0986
Cat5 0,0000
1,3863 = −0, 1823 − − 1,5686
Tasa WOE
Global 17% -1,5686

Credit Scoring – Escalamiento
Octubre 2016

CREDIT SCORING – ESCALAMIENTO
Alcances de la Regresión Logística
Con el cálculo de la regresión logística se tiene lo siguiente:
• Puntaje entre 0 y 1 que determina la probabilidad a un evento (entre 0 y 1000 en caso de estar
multiplicada).
• Interpretación liviana de los coeficientes (parámetros), en donde en la medida en que mayor sea, más
aumentan la probabilidad final.
• Se tienen cálculos de probabilidades a eventos no observados en la base de desarrollo, es decir, se
puede extender el modelo a otras muestras ajenas al calculo de los coeficientes.
• Ecuación matemática difícil de comprender y ajena a la lógica lineal.
Por lo tanto, dado lo anterior, se hace necesario contar con una transformación capaz de hacer el SCORE
más manejable e interpretable. Para solucionar esto, se realiza un ESCALAMIENTO LINEAL A SCORE.
• El SCORE ESCALADO tendrá una escala de valores más comprensible (Ej: 1 – 1000).
• Cada atributo tendrá asociado un SCORE positivo o negativo (Ej: Edad entre 20 y 30 años, sumar 20).
• El SCORE FINAL deberá ser la suma de cada uno de los SCORE particulares.

Escalamiento a Score
El escalamiento más conocido es el siguiente:
𝑆𝐶𝑂𝑅𝐸 = 𝐸𝑠𝑐𝑎𝑙𝑎 + 𝐹𝑎𝑐𝑡𝑜𝑟 ∗ 𝑙𝑛 𝑂𝐷𝐷𝑆

En donde, como se ha visto anteriormente, los ODDS corresponden a la proporción de casos positivos
divididos por los negativos o viceversa, los cuales en la regresión logística corresponden a la parte lineal de
la ecuación.
𝑝
ln 𝑂𝐷𝐷𝑆 = ln = 𝑋𝐵´
1−𝑝
Por lo tanto, el ESCALAMIENTO queda definido de la siguiente manera:
𝑆𝐶𝑂𝑅𝐸 = 𝐸𝑠𝑐𝑎𝑙𝑎 + 𝐹𝑎𝑐𝑡𝑜𝑟 ∗ 𝑋𝐵´

Además se define, que como PDO (Puntos para Duplicar las ODDS) como la Cantidad de puntos
necesarios para duplicar la proporción de casos positivos sobre negativos (ODDS).
Por lo tanto se debe cumplir el siguiente sistema de ecuaciones:
𝑆𝐶𝑂𝑅𝐸 = 𝐸𝑠𝑐𝑎𝑙𝑎 + 𝐹𝑎𝑐𝑡𝑜𝑟 ∗ 𝑙𝑛 𝑂𝐷𝐷𝑆

𝑆𝐶𝑂𝑅𝐸 + 𝑃𝐷𝑂 = 𝐸𝑠𝑐𝑎𝑙𝑎 + 𝐹𝑎𝑐𝑡𝑜𝑟 ∗ 𝑙𝑛 2 ∗ 𝑂𝐷𝐷𝑆

𝑆𝐶𝑂𝑅𝐸 = 𝐸𝑠𝑐𝑎𝑙𝑎 + 𝐹𝑎𝑐𝑡𝑜𝑟 ∗ 𝑋𝐵´
𝑆𝐶𝑂𝑅𝐸 + 𝑃𝐷𝑂 = 𝐸𝑠𝑐𝑎𝑙𝑎 + 𝐹𝑎𝑐𝑡𝑜𝑟 ∗ (ln 2 + 𝑋𝐵´)
Dado lo anterior se tiene que:
𝑃𝐷𝑂
𝐹𝑎𝑐𝑡𝑜𝑟 =
ln(2)

Ejemplo
Se desea ajustar un escalamiento lineal (Credit Scoring) en donde en 600 (Escala) exista una probabilidad
del 60% de acertar en un evento dado (ODDS = 1,5 = 6:4) y que en cada 150 ptos se duplique esa
proporción (PDO = 150), por lo tanto se tiene:
150
𝐹𝑎𝑐𝑡𝑜𝑟 = = 216,4
0,6931
600 = 𝐸𝑠𝑐𝑎𝑙𝑎 + 216,4 ∗ 𝑙𝑛 6 ∶ 4 ⇒ 𝐸𝑠𝑐𝑎𝑙𝑎 = 512,26

Por lo tanto, el SCORE Final resulta de la siguiente ecuación:
𝑆𝐶𝑂𝑅𝐸 = 512,26 + 216,4 ∗ 𝑋𝐵´

Además se tiene que:
𝑆𝐶𝑂𝑅𝐸 = 512,26 + 216,4 ∗ ln 12: 4 = 750

En donde se observa que al duplicar los ODDS el puntaje aumenta en 150 ptos.

Finalmente, la transformación queda definida de la siguiente manera:
𝑆𝐶𝑂𝑅𝐸 = 𝐸𝑠𝑐𝑎𝑙𝑎 + 𝐹𝑎𝑐𝑡𝑜𝑟 ∗ 𝐵0 + 𝐵1 𝑋1 + ⋯ + 𝐵𝑛 𝑋𝑛

𝑆𝐶𝑂𝑅𝐸 = 𝐸𝑠𝑐𝑎𝑙𝑎 + 𝐹𝑎𝑐𝑡𝑜𝑟 ∗ 𝐵0 + 𝐹𝑎𝑐𝑡𝑜𝑟 ∗ 𝐵1 ∗ 𝑋1 + ⋯ + 𝐹𝑎𝑐𝑡𝑜𝑟 ∗ 𝐵𝑛 ∗ 𝑋𝑛
Escalar´ Coef. Lineal 1´ Coef. Lineal N´
Por lo tanto, se posee una transformación completamente lineal para cada uno de los coeficientes
resultantes en la regresión logística.
Nota:
• Para poder realizar esta transformación se requiere que cada una de las variables estén categorizada.
• En caso de ajustar la regresión logística con valores WOE, el parámetro de cada categoría
corresponderá al WOE de éstas multiplicado por el coeficiente resultante de la variable.

ROI – Matriz de Confusión Ponderada
Octubre 2016

ROI – MATRIZ DE CONFUSIÓN PONDERADA
ROI – Retorno de la Inversión
El retorno sobre la inversión (RSI o ROI, por las siglas en inglés de Return On Investment) es una razón
financiera que compara el beneficio o la utilidad obtenida en relación a la inversión realizada, es decir,
representa una herramienta para analizar el rendimiento que la empresa tiene desde el punto de vista
financiero.
Por lo tanto, matemáticamente se define de la siguiente manera:
𝐵𝑒𝑛𝑒𝑓𝑖𝑐𝑖𝑜 − 𝐼𝑛𝑣𝑒𝑟𝑠𝑖ó𝑛
𝑅𝑂𝐼 =
𝐼𝑛𝑣𝑒𝑟𝑠𝑖ó𝑛
En donde el Beneficio corresponde a la venta menos los costos relacionados con ésta.
Ahora, en SCORING no posee el mismo significado, el ROI corresponde al ACCURACY que se obtiene al
ponderar los VN y los VP según la relevancia que posean para cada caso. Por ejemplo:
Para un banco, es más importante clasificar bien a un mal pagador (Verdadero Negativo) que a un buen
pagador (Verdadero Positivo), dado que el Riesgo de perdida que generan los mororos es mayor. Con lo
anterior, se hace necesario asignar un peso mayor a los VN.

Ejemplo
El siguiente SCORE tiene como objetivo evaluar la probabilidad que tienen los clientes de una empresa de
comprar el siguiente mes:
N Casos % Casos % Acumulado Discriminación
Score Tasa
No Compra Compra Total No Compra Compra Total No Compra Compra Total WOE KS ROC ACC
236 20 5 25 20,0% 5,3% 0,8% 2,5% 5,3% 0,8% 2,5% -1,386 4,5% 5,3% 63,9%
284 12 3 15 20,0% 3,2% 0,5% 1,5% 8,5% 1,3% 4,0% -1,386 7,2% 3,2% 64,8%
291 37 11 48 22,9% 9,8% 1,8% 4,8% 18,4% 3,0% 8,8% -1,213 15,3% 9,6% 67,4%
346 22 7 29 24,1% 5,9% 1,1% 2,9% 24,2% 4,2% 11,7% -1,145 20,0% 5,6% 68,9%
351 8 3 11 27,3% 2,1% 0,5% 1,1% 26,3% 4,6% 12,8% -0,981 21,7% 2,0% 69,4%
377 16 9 25 36,0% 4,3% 1,4% 2,5% 30,6% 6,1% 15,3% -0,575 24,5% 4,0% 70,1%
419 11 10 21 47,6% 2,9% 1,6% 2,1% 33,5% 7,7% 17,4% -0,095 25,8% 2,7% 70,2%
438 37 36 73 49,3% 9,8% 5,8% 7,3% 43,4% 13,5% 24,7% -0,027 29,9% 8,8% 70,3%
515 21 21 42 50,0% 5,6% 3,4% 4,2% 48,9% 16,8% 28,9% 0,000 32,1% 4,7% 70,3%
518 6 7 13 53,8% 1,6% 1,1% 1,3% 50,5% 17,9% 30,2% 0,154 32,6% 1,3% 70,2%
518 19 28 47 59,6% 5,1% 4,5% 4,7% 55,6% 22,4% 34,9% 0,388 33,1% 4,0% 69,3%
594 12 18 30 60,0% 3,2% 2,9% 3,0% 58,8% 25,3% 37,9% 0,405 33,5% 2,4% 68,7%
612 34 54 88 61,4% 9,0% 8,7% 8,8% 67,8% 34,0% 46,7% 0,463 33,8% 6,4% 66,7%
685 56 122 178 68,5% 14,9% 19,6% 17,8% 82,7% 53,5% 64,5% 0,779 29,2% 8,4% 60,1%
741 9 22 31 71,0% 2,4% 3,5% 3,1% 85,1% 57,1% 67,6% 0,894 28,1% 1,1% 58,8%
741 3 8 11 72,7% 0,8% 1,3% 1,1% 85,9% 58,3% 68,7% 0,981 27,6% 0,3% 58,3%
798 40 179 219 81,7% 10,6% 28,7% 21,9% 96,5% 87,0% 90,6% 1,499 9,5% 2,9% 44,4%
838 13 81 94 86,2% 3,5% 13,0% 9,4% 100,0% 100,0% 100,0% 1,829 0,0% 0,2% 37,6%
Total 376 624 1.000 62,4% 100,0% 100,0% 100,0% 33,8% 73,1% 62,4%
En donde se aprecia que el SCORE que maximiza el ACC es en 438.

Ejemplo
Por lo tanto, la empresa desea asignarle una oferta a todos los clientes que, según el SCORE de compra,
no van a comprar. Dado lo anterior, se plantea la siguiente acción comercial:
Compra P/Cliente $10.000

Costo Envío Oferta $1.000
Costo Dcto Oferta 10% ($1.000)
En donde se tiene que, en promedio cada cliente cuando compra gasta $10.000. Mientras que, la acción
comercial implica entregar un descuento del 10% ($10.000) el cual se envía por correo a un costo de
$1.000 por envío. Por lo tanto se tiene la siguiente matriz de Ingresos y Costos según el escenario de
clasificación del SCORE.
Real
No Compra Compra
Predic.
No Compra $-1.000 $8.000

Compra $0 $10.000
En donde se tiene que, sí se envía la oferta a un cliente y éste finalmente no compra, se pierde $1.000
(costo de envío), mientras que sí compra, se gana $8.000 (descontando el envío y el dcto). Por lo tanto, se
pierde más dinero clasificando mal a un comprador que a un no comprador (proporción de 2:1).

Ejemplo
Por lo tanto, al asignarle a los VP un peso de $1.000 y a los VN $2.000 se tiene que el punto de corte
adecuado ya no es 438 sino 351.
N Casos % Casos % Acumulado Discriminación
Score Tasa ROI
No Compra Compra Total No Compra Compra Total No Compra Compra Total WOE KS ROC ACC
236 20 5 25 20,0% 5,3% 0,8% 2,5% 5,3% 0,8% 2,5% -1,386 4,5% 5,3% 63,9% $1.258.000
284 12 3 15 20,0% 3,2% 0,5% 1,5% 8,5% 1,3% 4,0% -1,386 7,2% 3,2% 64,8% $1.264.000
291 37 11 48 22,9% 9,8% 1,8% 4,8% 18,4% 3,0% 8,8% -1,213 15,3% 9,6% 67,4% $1.279.000
346 22 7 29 24,1% 5,9% 1,1% 2,9% 24,2% 4,2% 11,7% -1,145 20,0% 5,6% 68,9% $1.287.000
351 8 3 11 27,3% 2,1% 0,5% 1,1% 26,3% 4,6% 12,8% -0,981 21,7% 2,0% 69,4% $1.289.000
377 16 9 25 36,0% 4,3% 1,4% 2,5% 30,6% 6,1% 15,3% -0,575 24,5% 4,0% 70,1% $1.287.000
419 11 10 21 47,6% 2,9% 1,6% 2,1% 33,5% 7,7% 17,4% -0,095 25,8% 2,7% 70,2% $1.278.000
438 37 36 73 49,3% 9,8% 5,8% 7,3% 43,4% 13,5% 24,7% -0,027 29,9% 8,8% 70,3% $1.243.000
515 21 21 42 50,0% 5,6% 3,4% 4,2% 48,9% 16,8% 28,9% 0,000 32,1% 4,7% 70,3% $1.222.000
518 6 7 13 53,8% 1,6% 1,1% 1,3% 50,5% 17,9% 30,2% 0,154 32,6% 1,3% 70,2% $1.214.000
518 19 28 47 59,6% 5,1% 4,5% 4,7% 55,6% 22,4% 34,9% 0,388 33,1% 4,0% 69,3% $1.177.000
594 12 18 30 60,0% 3,2% 2,9% 3,0% 58,8% 25,3% 37,9% 0,405 33,5% 2,4% 68,7% $1.153.000
612 34 54 88 61,4% 9,0% 8,7% 8,8% 67,8% 34,0% 46,7% 0,463 33,8% 6,4% 66,7% $1.079.000
685 56 122 178 68,5% 14,9% 19,6% 17,8% 82,7% 53,5% 64,5% 0,779 29,2% 8,4% 60,1% $891.000
741 9 22 31 71,0% 2,4% 3,5% 3,1% 85,1% 57,1% 67,6% 0,894 28,1% 1,1% 58,8% $856.000
741 3 8 11 72,7% 0,8% 1,3% 1,1% 85,9% 58,3% 68,7% 0,981 27,6% 0,3% 58,3% $843.000
798 40 179 219 81,7% 10,6% 28,7% 21,9% 96,5% 87,0% 90,6% 1,499 9,5% 2,9% 44,4% $525.000
838 13 81 94 86,2% 3,5% 13,0% 9,4% 100,0% 100,0% 100,0% 1,829 0,0% 0,2% 37,6% $376.000
Total 376 624 1.000 62,4% 100,0% 100,0% 100,0% 33,8% 73,1% 62,4% $1.248.000
Sí el peso de un VN es mayor que el VP el corte recomendado estará por debajo que el ACC (como en
este caso), si es lo contrario, el corte recomendado será superior al ACC.

Clase IX:
Modelos Supervisados: Regresión Logística III
Octubre 2016

S9. Clase 9 - Modelos Supervisados Regresión Logística III

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

S9. Clase 9 - Modelos Supervisados Regresión Logística III

Încărcat de

Drepturi de autor:

Formate disponibile

UNIVERSIDAD DE SANTIAGO DE CHILE

CURSO SEMINARIO II: INTELIGENCIA DE NEGOCIOS

Prof. Miguel Angel Gaggero Sotomayor

I. Resumen Clase VIII.

Prof. Miguel Angel Gaggero Sotomayor

CURSO SEMINARIO II: INTELIGENCIA DE NEGOCIOS

Resumen Clase VIII

Prof. Miguel Angel Gaggero Sotomayor

N Casos % Casos (Distribución)

Prof. Miguel Angel Gaggero Sotomayor

Positivo VP FP P´ VP: Verdaderos Positivos (Éxitos).

Accuracy (Exactitud) ACC = (VP + VN) / Total

Se aprecia que tanto la Sensibilidad y la Especificidad corresponden a la Frecuencia Porcentual por

Prof. Miguel Angel Gaggero Sotomayor

Positivo Sensibilidad 1 - Especificidad corresponde al %

Total 100% 100%

Accuracy (Exactitud) ACC = (VP + VN) / Total

Prof. Miguel Angel Gaggero Sotomayor

Curva ROC o AUC

𝐼𝑛𝑑𝑖𝑐𝑒 𝑅𝑂𝐶 = ෍ 𝑝𝑖 ∗ 1 − 𝑄𝑖 + (𝑝𝑖 ∗ 𝑞𝑖 ∗ 0,5)

Prof. Miguel Angel Gaggero Sotomayor

Curva ROC o AUC

Por lo tanto, en el ejemplo, el Índice C queda en 0.741

% Casos (Distribución) % Casos (Acumulada)

Indice del Gini

𝐺𝑖𝑛𝑖 = 𝐼𝑛𝑑𝑖𝑐𝑒 𝐶 − 0,5 ∗ 2

Prof. Miguel Angel Gaggero Sotomayor

El estadístico KS corresponde a la máxima diferencia en valor absoluto de las distribuciones dicotómicas

% Casos (Distribución) % Casos (Acumulada)

Prof. Miguel Angel Gaggero Sotomayor

N Casos % Casos (Distribución) % Casos (Acumulada) Discriminación

Frecuencia Absoluta Prob. Frecuencia Porcentual Discriminación

Prof. Miguel Angel Gaggero Sotomayor

Prof. Miguel Angel Gaggero Sotomayor

𝐷𝑒𝑣𝑖𝑎𝑛𝑧𝑎 = −2 ∗ ෍ 𝑁𝑖 ∗ 𝑃𝑟𝑜𝑏𝑖 ∗ ln 𝑃𝑟𝑜𝑏𝑖 + 𝑁𝑖 ∗ 1 − 𝑃𝑟𝑜𝑏𝑖 ∗ ln 1 − 𝑃𝑟𝑜𝑏𝑖

𝐷𝑒𝑣𝑖𝑎𝑛𝑧𝑎 𝑁𝑢𝑙𝑎 = −2 ∗ 𝑁𝑇 ∗ 𝑃𝑟𝑜𝑏𝑇 ∗ ln 𝑃𝑟𝑜𝑏𝑇 + 𝑁𝑇 ∗ (1 − 𝑃𝑟𝑜𝑏𝑇 ) ∗ ln 1 − 𝑃𝑟𝑜𝑏𝑇

Prof. Miguel Angel Gaggero Sotomayor

𝑆𝐶𝑇 = 𝑆𝐶𝑅 + 𝑆𝐶𝐸

𝐷𝑒𝑣𝑖𝑎𝑛𝑧𝑎 𝑁𝑢𝑙𝑎 = 𝐷𝑒𝑣𝑖𝑎𝑛𝑧𝑎 𝑀𝑜𝑑𝑒𝑙𝑜 + 𝐷𝑒𝑣𝑖𝑎𝑛𝑧𝑎

Prof. Miguel Angel Gaggero Sotomayor

CURSO SEMINARIO II: INTELIGENCIA DE NEGOCIOS

Balance de Muestras Dicotómicas

Prof. Miguel Angel Gaggero Sotomayor

Concepto Balanceo de Muestras

Se recomienda desarrollar los modelos de asignación de probabilidad balanceadas con el objetivo de

Máxima Varianza en P igual a 0,5

Prof. Miguel Angel Gaggero Sotomayor

Concepto Balanceo de Muestras

Se recomienda desarrollar los modelos de asignación de probabilidad balanceadas con el objetivo de

Máxima Varianza WOE igual a 0

Prof. Miguel Angel Gaggero Sotomayor

Mecánicas de Balanceo de Muestras

Para balancear las muestras existen, básicamente, tres maneras de realizar:

1. Selección de Muestras del Mismo Tamaño.

Prof. Miguel Angel Gaggero Sotomayor

Mecánicas de Balanceo de Muestras

Para balancear las muestras existen, básicamente, tres maneras de realizar:

1. Selección de Muestras del Mismo Tamaño.

Muestra Original No Balanceada Muestra Resultante Balanceada

Prof. Miguel Angel Gaggero Sotomayor

Selección de Muestras del Mismo Tamaño.

Muestra Original No Balanceada Muestra Resultante Balanceada

1. Seleccionar el N a muestrear en ambas muestras dicotómicas (Positivos y Negativos).

Prof. Miguel Angel Gaggero Sotomayor