Sunteți pe pagina 1din 35

UNIVERSIDAD DE SANTIAGO DE CHILE

FACULTAD DE CIENCIAS
DEPARTAMENTO DE MATEMÁTICA Y CIENCIA DE LA COMPUTACIÓN

CURSO SEMINARIO II: INTELIGENCIA DE NEGOCIOS

Clase IX:
Modelos Supervisados: Regresión Logística III

Octubre 2016

Prof. Miguel Angel Gaggero Sotomayor


CLASE IX : REGRESIÓN LOGÍSTICA II

Contenidos:

I. Resumen Clase VIII.


II. Balance de Muestras Dicotómicas.
III. Credit Scoring – Escalamiento.
IV. ROI – Matriz de Confusión Ponderada.

Prof. Miguel Angel Gaggero Sotomayor


UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE CIENCIAS
DEPARTAMENTO DE MATEMÁTICA Y CIENCIA DE LA COMPUTACIÓN

CURSO SEMINARIO II: INTELIGENCIA DE NEGOCIOS

Resumen Clase VIII

Octubre 2016

Prof. Miguel Angel Gaggero Sotomayor


INDICADORES DE DISCRIMINACIÓN

Tabla de Discriminación

Finalmente, se debe determinar la distribución muestral acumulada de los eventos dicotómicos, esto quiere
decir que, una vez ordenada la variable según la probabilidad intra-categoria, se acumular el porcentaje de
casos según eventos dicotómicos.

N Casos % Casos (Distribución)


Segmentos Tasa
Positivos Negativos Total Positivos Negativos Total
Categoría 1 40 10 50 20% 40% 10% 25%
Categoría 2 20 15 35 43% 20% 15% 18%
Categoría 3 15 15 30 50% 15% 15% 15%
Categoría 4 15 20 35 57% 15% 20% 18%
Categoría 5 10 40 50 80% 10% 40% 25%
Total 100 100 200 50% 100% 100% 100%

% Casos (Acumulada)
Positivos Negativos Total
40% 10% 25%
60% 25% 43%
75% 40% 58%
90% 60% 75%
100% 100% 100%

Prof. Miguel Angel Gaggero Sotomayor


INDICADORES DE DISCRIMINACIÓN

Matriz de Confusión

Indica según el punto de corte definido por el ajuste de un modelo o una categoría única el nivel de buena
clasificación que posee en relación a los valores reales. Obs: El punto de corte determina los casos que
serán clasificados como negativos y como positivos.

Valor Real
Positivo Negativo Total
Predicción

Positivo VP FP P´ VP: Verdaderos Positivos (Éxitos).


FP: Falsos Positivos (Error Tipo I).
FN: Falsos Negativos (Error Tipo II).
Negativo FN VN N´ VN: Verdaderos Negativos (Éxitos).

Total P N T

Accuracy (Exactitud) ACC = (VP + VN) / Total


Sensibilidad (Razón de Verdaderos Positivos) VPR = VP / P = VP / (VP + FN)
Especificidad (Razón de Verdaderos Negativos) VNR = VN / N = VN / (FP + VN)

Se aprecia que tanto la Sensibilidad y la Especificidad corresponden a la Frecuencia Porcentual por


muestras dicotómicas.

Prof. Miguel Angel Gaggero Sotomayor


INDICADORES DE DISCRIMINACIÓN

Matriz de Confusión

Por lo tanto, al realizar la mirada porcentual por valor real (mirada vertical) en donde el total filas concentra
el 100%, la predicción predictiva queda definida por la sensibilidad y 1 menos la especificidad.

Valor Real
Positivo Negativo
La predicción Positiva,
Predicción

Positivo Sensibilidad 1 - Especificidad corresponde al %


acumulado de las
muestras dicotómicas.
Negativo 1 - Sensibilidad Especificidad

Total 100% 100%

Accuracy (Exactitud) ACC = (VP + VN) / Total


Sensibilidad (Razón de Verdaderos Positivos) VPR = VP / P = VP / (VP + FN)
Especificidad (Razón de Verdaderos Negativos) VNR = VN / N = VN / (FP + VN)

Prof. Miguel Angel Gaggero Sotomayor


INDICADORES DE DISCRIMINACIÓN

Curva ROC o AUC

El índice de discriminación de la ROC corresponde al área bajo la curva, el cual queda definida con la
siguiente función:

𝐼𝑛𝑑𝑖𝑐𝑒 𝑅𝑂𝐶 = ෍ 𝑝𝑖 ∗ 1 − 𝑄𝑖 + (𝑝𝑖 ∗ 𝑞𝑖 ∗ 0,5)


𝑖=1

Prof. Miguel Angel Gaggero Sotomayor


INDICADORES DE DISCRIMINACIÓN

Curva ROC o AUC

Por lo tanto, en el ejemplo, el Índice C queda en 0.741

% Casos (Distribución) % Casos (Acumulada)


Segmentos ROC
Positivos Negativos Total Positivos Negativos Total
Categoría 1 40% 10% 25% 40% 10% 25% 38,0%
Categoría 2 20% 15% 18% 60% 25% 43% 16,5%
Categoría 3 15% 15% 15% 75% 40% 58% 10,1%
Categoría 4 15% 20% 18% 90% 60% 75% 7,5%
Categoría 5 10% 40% 25% 100% 100% 100% 2,0%
Total 100% 100% 100% C 74,1%

Indice del Gini

Ahora, a partir del calculo anterior se obtiene el Índice del Gini, el cual a diferencia del Índice C, este se
mueve entre 0 y 1.

𝐺𝑖𝑛𝑖 = 𝐼𝑛𝑑𝑖𝑐𝑒 𝐶 − 0,5 ∗ 2

Prof. Miguel Angel Gaggero Sotomayor


INDICADORES DE DISCRIMINACIÓN

Estadístico KS

El estadístico KS corresponde a la máxima diferencia en valor absoluto de las distribuciones dicotómicas


acumuladas, quedando definida en el ejemplo de la siguiente manera:

% Casos (Distribución) % Casos (Acumulada)


Segmentos KS
Positivos Negativos Total Positivos Negativos Total
Categoría 1 40% 10% 25% 40% 10% 25% 30,0%
Categoría 2 20% 15% 18% 60% 25% 43% 35,0%
Categoría 3 15% 15% 15% 75% 40% 58% 35,0%
Categoría 4 15% 20% 18% 90% 60% 75% 30,0%
Categoría 5 10% 40% 25% 100% 100% 100% 0,0%
Total 100% 100% 100% D 35,0%

D = 𝑀𝑎𝑥 |𝑃𝑖 − 𝑄𝑖 |

Prof. Miguel Angel Gaggero Sotomayor


INDICADORES DE DISCRIMINACIÓN

Tabla de Discriminación

Por lo tanto, al incorporar todos los elementos, se aprecia la siguiente tabla de discriminación:

N Casos % Casos (Distribución) % Casos (Acumulada) Discriminación


Segmentos Tasa
Positivos Negativos Total Positivos Negativos Total Positivos Negativos Total WOE KS ROC
Categoría 1 40 10 50 20% 40% 10% 25% 40% 10% 25% -1,39 30% 38,0%
Categoría 2 20 15 35 43% 20% 15% 18% 60% 25% 43% -0,29 35% 16,5%
Categoría 3 15 15 30 50% 15% 15% 15% 75% 40% 58% 0,00 35% 10,1%
Categoría 4 15 20 35 57% 15% 20% 18% 90% 60% 75% 0,29 30% 7,5%
Categoría 5 10 40 50 80% 10% 40% 25% 100% 100% 100% 1,39 0% 2,0%
Total 100 100 200 50% 100% 100% 100% D 35% 74,1%
Gini 48,3%

Frecuencia Absoluta Prob. Frecuencia Porcentual Discriminación


Categoría

Prof. Miguel Angel Gaggero Sotomayor


INDICADORES DE DISCRIMINACIÓN

Prof. Miguel Angel Gaggero Sotomayor


INDICADORES DE BONDAD DE AJUSTE

Devianza

Corresponde a la suma de cuadrados residual (SS residual) en la ANOVA de la regresión lineal, ajustada a
la regresión logística, es decir, es una medida de la variación de los errores que indica lo que el modelo no
es capaz de explicar.

𝐷𝑒𝑣𝑖𝑎𝑛𝑧𝑎 = −2 ∗ ෍ 𝑁𝑖 ∗ 𝑃𝑟𝑜𝑏𝑖 ∗ ln 𝑃𝑟𝑜𝑏𝑖 + 𝑁𝑖 ∗ 1 − 𝑃𝑟𝑜𝑏𝑖 ∗ ln 1 − 𝑃𝑟𝑜𝑏𝑖


𝑖=1

En donde, el los Prob corresponden a las tasas intra-categorías, N a los casos por categorías y los p y q a
las probabilidades de ambas muestras dicotómicas. Por otro lado surge el concepto de Devianza Nula, el
cual se define a continuación:

𝐷𝑒𝑣𝑖𝑎𝑛𝑧𝑎 𝑁𝑢𝑙𝑎 = −2 ∗ 𝑁𝑇 ∗ 𝑃𝑟𝑜𝑏𝑇 ∗ ln 𝑃𝑟𝑜𝑏𝑇 + 𝑁𝑇 ∗ (1 − 𝑃𝑟𝑜𝑏𝑇 ) ∗ ln 1 − 𝑃𝑟𝑜𝑏𝑇

En donde todos los elementos de la ecuación se calculan en base a los totales de la distribución.

Prof. Miguel Angel Gaggero Sotomayor


INDICADORES DE BONDAD DE AJUSTE

Coeficiente de Determinación

Por otro lado, como la devianza es el equivalente a una SCE de un modelo regresión lineal a una regresión
logística, se debe cumplir la siguiente ecuación:

𝑆𝐶𝑇 = 𝑆𝐶𝑅 + 𝑆𝐶𝐸

𝐷𝑒𝑣𝑖𝑎𝑛𝑧𝑎 𝑁𝑢𝑙𝑎 = 𝐷𝑒𝑣𝑖𝑎𝑛𝑧𝑎 𝑀𝑜𝑑𝑒𝑙𝑜 + 𝐷𝑒𝑣𝑖𝑎𝑛𝑧𝑎

𝐷𝑒𝑣𝑖𝑎𝑛𝑧𝑎
𝑅2 =1 −
𝐷𝑒𝑣𝑖𝑎𝑛𝑧𝑎 𝑁𝑢𝑙𝑎

Sin embargo, el valor del coeficiente de determinación tiende a poseer valores cercanos a cero, por lo
mismo surgen estadísticos como R2 de Cox-Snell y R2 Nagelkerke que buscan aumentar e incorporar el
distribución logit al calculo.

Prof. Miguel Angel Gaggero Sotomayor


UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE CIENCIAS
DEPARTAMENTO DE MATEMÁTICA Y CIENCIA DE LA COMPUTACIÓN

CURSO SEMINARIO II: INTELIGENCIA DE NEGOCIOS

Balance de Muestras Dicotómicas

Octubre 2016

Prof. Miguel Angel Gaggero Sotomayor


BALANCE DE MUESTRAS DICOTÓMICAS

Concepto Balanceo de Muestras

Se recomienda desarrollar los modelos de asignación de probabilidad balanceadas con el objetivo de


aumentar la dispersión y no concentrar las probabilidades en tramos específicos de la función.

Máxima Varianza en P igual a 0,5

Prof. Miguel Angel Gaggero Sotomayor


BALANCE DE MUESTRAS DICOTÓMICAS

Concepto Balanceo de Muestras

Se recomienda desarrollar los modelos de asignación de probabilidad balanceadas con el objetivo de


aumentar la dispersión y no concentrar las probabilidades en tramos específicos de la función.

Máxima Varianza WOE igual a 0

Prof. Miguel Angel Gaggero Sotomayor


BALANCE DE MUESTRAS DICOTÓMICAS

Mecánicas de Balanceo de Muestras

Para balancear las muestras existen, básicamente, tres maneras de realizar:

1. Selección de Muestras del Mismo Tamaño.


2. Ponderación de Casos (Asignarle Pesos a las Observaciones).
3. Modificar el Coeficiente del Intercepto.

De las tres maneras, las dos primeras se desarrollan antes de ajustar la regresión logística a la muestra de
desarrollo, mientras que la ultima se ajusta una vez ya obtenido los parámetros de la regresión logística.

Nota:

El concepto de Ponderación de Casos, indica que una observación que en el escenario natural pesa 1 (lo
que quiere decir que se considera como un registro), puede variar según el calculo ponderador, es decir,
una observación puede representar más o menos cantidades de registros.

Prof. Miguel Angel Gaggero Sotomayor


BALANCE DE MUESTRAS DICOTÓMICAS

Mecánicas de Balanceo de Muestras

Para balancear las muestras existen, básicamente, tres maneras de realizar:

1. Selección de Muestras del Mismo Tamaño.


2. Ponderación de Casos (Asignarle Pesos a las Observaciones).
3. Modificar el Coeficiente del Intercepto.

Muestra Original No Balanceada Muestra Resultante Balanceada

N Casos N Casos
Segmentos Tasa Segmentos Tasa
Positivos Negativos Total Positivos Negativos Total
Categoría 1 192 10 202 5% Categoría 1 40 10 50 20%
Categoría 2 96 15 111 14% Categoría 2 20 15 35 43%
Categoría 3 72 15 87 17% Categoría 3 15 15 30 50%
Categoría 4 72 20 92 22% Categoría 4 15 20 35 57%
Categoría 5 48 40 88 45% Categoría 5 10 40 50 80%
Total 480 100 580 17% Total 100 100 200 50%

Por lo tanto, lo que se busca que la tasa global de los casos resultantes sea del 50%.

Prof. Miguel Angel Gaggero Sotomayor


BALANCE DE MUESTRAS DICOTÓMICAS

Selección de Muestras del Mismo Tamaño.

Este proceso de realiza antes de desarrollar el modelo. Implica seleccionar el N de una de las dos
muestras dicotómicas y seleccionar a través de algún mecanismo de muestreo la misma cantidad de casos
para ambas muestras.

Muestra Original No Balanceada Muestra Resultante Balanceada

N Casos N Casos
Segmentos Tasa Segmentos Tasa
Positivos Negativos Total Positivos Negativos Total
Categoría 1 192 10 202 5% Categoría 1 40 10 50 20%
Categoría 2 96 15 111 14% Categoría 2 20 15 35 43%
Categoría 3 72 15 87 17% Categoría 3 15 15 30 50%
Categoría 4 72 20 92 22% Categoría 4 15 20 35 57%
Categoría 5 48 40 88 45% Categoría 5 10 40 50 80%
Total 480 100 580 17% Total 100 100 200 50%

Pasos:

1. Seleccionar el N a muestrear en ambas muestras dicotómicas (Positivos y Negativos).


2. Seleccionar técnica de muestreo y aplicarla a ambas muestras dicotómicas por separado.
3. Agrupar en una sola muestra final ambas muestras seleccionadas en el paso 2.
4. Ajustar la Regresión Logística a la muestra resultante en el paso 3.

Prof. Miguel Angel Gaggero Sotomayor


BALANCE DE MUESTRAS DICOTÓMICAS

Ponderación de Casos

Este proceso de realiza antes de desarrollar el modelo. Implica determinar los pesos de ambas muestras
dicotómicas y ajustar la regresión logística con la ponderación asignada á fin de obtener la misma
participación de las muestras dicotómicas.

Muestra Original No Balanceada Muestra Resultante Balanceada

N Casos N Casos
Segmentos Tasa Segmentos Tasa
Positivos Negativos Total Positivos Negativos Total
Categoría 1 192 10 202 5% Categoría 1 40 10 50 20%
Categoría 2 96 15 111 14% Categoría 2 20 15 35 43%
Categoría 3 72 15 87 17% Categoría 3 15 15 30 50%
Categoría 4 72 20 92 22% Categoría 4 15 20 35 57%
Categoría 5 48 40 88 45% Categoría 5 10 40 50 80%
Total 480 100 580 17% Total 100 100 200 50%

Ponderadores
Positivos Negativos
0,21 1,00

Una forma de asignar los pesos ponderados es dividir el N deseado sobre el N registrado (en el ejemplo,
se desea obtener 100, por lo que el ponderador sería 100/480=0,21 para los positivos, mientras que para
los negativos sería 100/100=1.

Por lo tanto, cada registro de los positivos pesará 0,21.

Prof. Miguel Angel Gaggero Sotomayor


BALANCE DE MUESTRAS DICOTÓMICAS

Ponderación de Casos

Este proceso de realiza antes de desarrollar el modelo. Implica determinar los pesos de ambas muestras
dicotómicas y ajustar la regresión logística con la ponderación asignada á fin de obtener la misma
participación de las muestras dicotómicas.

Muestra Original No Balanceada Muestra Resultante Balanceada

N Casos N Casos
Segmentos Tasa Segmentos Tasa
Positivos Negativos Total Positivos Negativos Total
Categoría 1 192 10 202 5% Categoría 1 40 10 50 20%
Categoría 2 96 15 111 14% Categoría 2 20 15 35 43%
Categoría 3 72 15 87 17% Categoría 3 15 15 30 50%
Categoría 4 72 20 92 22% Categoría 4 15 20 35 57%
Categoría 5 48 40 88 45% Categoría 5 10 40 50 80%
Total 480 100 580 17% Total 100 100 200 50%

Ponderadores
Positivos Negativos
0,21 1,00

Pasos:

1. Calcular Pesos Ponderadores de las Muestras Dicotómicas.


2. Ajustar la Regresión Logística con los casos ponderados.

Prof. Miguel Angel Gaggero Sotomayor


BALANCE DE MUESTRAS DICOTÓMICAS

Modificar el Coeficiente del Intercepto

Este proceso de realiza después de desarrollar el modelo con la muestra inicial no balanceada. Implica
restarle al intercepto de la regresión logística ajustada el valor del WOE global a fin de extender la función
al equilibrio.
Muestra Original No Balanceada Muestra Resultante Balanceada
N Casos N Casos
Segmentos Tasa Segmentos Tasa
Positivos Negativos Total Positivos Negativos Total
Categoría 1 192 10 202 5% Categoría 1 40 10 50 20%
Categoría 2 96 15 111 14% Categoría 2 20 15 35 43%
Categoría 3 72 15 87 17% Categoría 3 15 15 30 50%
Categoría 4 72 20 92 22% Categoría 4 15 20 35 57%
Categoría 5 48 40 88 45% Categoría 5 10 40 50 80%
Total 480 100 580 17% Total 100 100 200 50%

Coef. No Balanceada Coef. No Balanceada


Intercepto -0,1823 Intercepto 1,3863
Cat1 -2,7726 Cat1 -2,7726
Cat2 -1,6740 Cat2 -1,6740
Cat3 -1,3863 Cat3 -1,3863
Cat4 -1,0986 Cat4 -1,0986
Cat5 0,0000 Cat5 0,0000

Al calcular los parámetros de la muestra balanceada y no balanceada, independientemente, se tiene que


todos los coeficientes menos el intercepto son iguales.

Prof. Miguel Angel Gaggero Sotomayor


BALANCE DE MUESTRAS DICOTÓMICAS

Modificar el Coeficiente del Intercepto

Este proceso de realiza después de desarrollar el modelo con la muestra inicial no balanceada. Implica
restarle al intercepto de la regresión logística ajustada el valor del WOE global a fin de extender la función
al equilibrio.
Muestra Original No Balanceada Muestra Resultante Balanceada
N Casos N Casos
Segmentos Tasa Segmentos Tasa
Positivos Negativos Total Positivos Negativos Total
Categoría 1 192 10 202 5% Categoría 1 40 10 50 20%
Categoría 2 96 15 111 14% Categoría 2 20 15 35 43%
Categoría 3 72 15 87 17% Categoría 3 15 15 30 50%
Categoría 4 72 20 92 22% Categoría 4 15 20 35 57%
Categoría 5 48 40 88 45% Categoría 5 10 40 50 80%
Total 480 100 580 17% Total 100 100 200 50%

Coef. No Balanceada Coef. No Balanceada


Intercepto -0,1823 Intercepto 1,3863
Cat1 -2,7726
Cat2 -1,6740
Cat3 -1,3863 𝐵0 𝐵𝑎𝑙 = 𝐵0 𝑁𝐵𝑎𝑙 − 𝑊𝑂𝐸𝐺𝑙𝑜𝑏𝑎𝑙
Cat4 -1,0986
Cat5 0,0000
1,3863 = −0, 1823 − − 1,5686
Tasa WOE
Global 17% -1,5686

Prof. Miguel Angel Gaggero Sotomayor


UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE CIENCIAS
DEPARTAMENTO DE MATEMÁTICA Y CIENCIA DE LA COMPUTACIÓN

CURSO SEMINARIO II: INTELIGENCIA DE NEGOCIOS

Credit Scoring – Escalamiento

Octubre 2016

Prof. Miguel Angel Gaggero Sotomayor


CREDIT SCORING – ESCALAMIENTO

Alcances de la Regresión Logística

Con el cálculo de la regresión logística se tiene lo siguiente:

• Puntaje entre 0 y 1 que determina la probabilidad a un evento (entre 0 y 1000 en caso de estar
multiplicada).
• Interpretación liviana de los coeficientes (parámetros), en donde en la medida en que mayor sea, más
aumentan la probabilidad final.
• Se tienen cálculos de probabilidades a eventos no observados en la base de desarrollo, es decir, se
puede extender el modelo a otras muestras ajenas al calculo de los coeficientes.
• Ecuación matemática difícil de comprender y ajena a la lógica lineal.

Por lo tanto, dado lo anterior, se hace necesario contar con una transformación capaz de hacer el SCORE
más manejable e interpretable. Para solucionar esto, se realiza un ESCALAMIENTO LINEAL A SCORE.

• El SCORE ESCALADO tendrá una escala de valores más comprensible (Ej: 1 – 1000).
• Cada atributo tendrá asociado un SCORE positivo o negativo (Ej: Edad entre 20 y 30 años, sumar 20).
• El SCORE FINAL deberá ser la suma de cada uno de los SCORE particulares.

Prof. Miguel Angel Gaggero Sotomayor


CREDIT SCORING – ESCALAMIENTO

Escalamiento a Score

El escalamiento más conocido es el siguiente:

𝑆𝐶𝑂𝑅𝐸 = 𝐸𝑠𝑐𝑎𝑙𝑎 + 𝐹𝑎𝑐𝑡𝑜𝑟 ∗ 𝑙𝑛 𝑂𝐷𝐷𝑆


En donde, como se ha visto anteriormente, los ODDS corresponden a la proporción de casos positivos
divididos por los negativos o viceversa, los cuales en la regresión logística corresponden a la parte lineal de
la ecuación.
𝑝
ln 𝑂𝐷𝐷𝑆 = ln = 𝑋𝐵´
1−𝑝

Por lo tanto, el ESCALAMIENTO queda definido de la siguiente manera:

𝑆𝐶𝑂𝑅𝐸 = 𝐸𝑠𝑐𝑎𝑙𝑎 + 𝐹𝑎𝑐𝑡𝑜𝑟 ∗ 𝑋𝐵´

Prof. Miguel Angel Gaggero Sotomayor


CREDIT SCORING – ESCALAMIENTO

Escalamiento a Score

Además se define, que como PDO (Puntos para Duplicar las ODDS) como la Cantidad de puntos
necesarios para duplicar la proporción de casos positivos sobre negativos (ODDS).

Por lo tanto se debe cumplir el siguiente sistema de ecuaciones:

𝑆𝐶𝑂𝑅𝐸 = 𝐸𝑠𝑐𝑎𝑙𝑎 + 𝐹𝑎𝑐𝑡𝑜𝑟 ∗ 𝑙𝑛 𝑂𝐷𝐷𝑆


𝑆𝐶𝑂𝑅𝐸 + 𝑃𝐷𝑂 = 𝐸𝑠𝑐𝑎𝑙𝑎 + 𝐹𝑎𝑐𝑡𝑜𝑟 ∗ 𝑙𝑛 2 ∗ 𝑂𝐷𝐷𝑆

𝑆𝐶𝑂𝑅𝐸 = 𝐸𝑠𝑐𝑎𝑙𝑎 + 𝐹𝑎𝑐𝑡𝑜𝑟 ∗ 𝑋𝐵´
𝑆𝐶𝑂𝑅𝐸 + 𝑃𝐷𝑂 = 𝐸𝑠𝑐𝑎𝑙𝑎 + 𝐹𝑎𝑐𝑡𝑜𝑟 ∗ (ln 2 + 𝑋𝐵´)
Dado lo anterior se tiene que:

𝑃𝐷𝑂
𝐹𝑎𝑐𝑡𝑜𝑟 =
ln(2)

Prof. Miguel Angel Gaggero Sotomayor


CREDIT SCORING – ESCALAMIENTO

Ejemplo

Se desea ajustar un escalamiento lineal (Credit Scoring) en donde en 600 (Escala) exista una probabilidad
del 60% de acertar en un evento dado (ODDS = 1,5 = 6:4) y que en cada 150 ptos se duplique esa
proporción (PDO = 150), por lo tanto se tiene:

150
𝐹𝑎𝑐𝑡𝑜𝑟 = = 216,4
0,6931

600 = 𝐸𝑠𝑐𝑎𝑙𝑎 + 216,4 ∗ 𝑙𝑛 6 ∶ 4 ⇒ 𝐸𝑠𝑐𝑎𝑙𝑎 = 512,26


Por lo tanto, el SCORE Final resulta de la siguiente ecuación:

𝑆𝐶𝑂𝑅𝐸 = 512,26 + 216,4 ∗ 𝑋𝐵´


Además se tiene que:

𝑆𝐶𝑂𝑅𝐸 = 512,26 + 216,4 ∗ ln 12: 4 = 750


En donde se observa que al duplicar los ODDS el puntaje aumenta en 150 ptos.

Prof. Miguel Angel Gaggero Sotomayor


CREDIT SCORING – ESCALAMIENTO

Escalamiento a Score

Finalmente, la transformación queda definida de la siguiente manera:

𝑆𝐶𝑂𝑅𝐸 = 𝐸𝑠𝑐𝑎𝑙𝑎 + 𝐹𝑎𝑐𝑡𝑜𝑟 ∗ 𝐵0 + 𝐵1 𝑋1 + ⋯ + 𝐵𝑛 𝑋𝑛


𝑆𝐶𝑂𝑅𝐸 = 𝐸𝑠𝑐𝑎𝑙𝑎 + 𝐹𝑎𝑐𝑡𝑜𝑟 ∗ 𝐵0 + 𝐹𝑎𝑐𝑡𝑜𝑟 ∗ 𝐵1 ∗ 𝑋1 + ⋯ + 𝐹𝑎𝑐𝑡𝑜𝑟 ∗ 𝐵𝑛 ∗ 𝑋𝑛

Escalar´ Coef. Lineal 1´ Coef. Lineal N´

Por lo tanto, se posee una transformación completamente lineal para cada uno de los coeficientes
resultantes en la regresión logística.

Nota:

• Para poder realizar esta transformación se requiere que cada una de las variables estén categorizada.
• En caso de ajustar la regresión logística con valores WOE, el parámetro de cada categoría
corresponderá al WOE de éstas multiplicado por el coeficiente resultante de la variable.

Prof. Miguel Angel Gaggero Sotomayor


UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE CIENCIAS
DEPARTAMENTO DE MATEMÁTICA Y CIENCIA DE LA COMPUTACIÓN

CURSO SEMINARIO II: INTELIGENCIA DE NEGOCIOS

ROI – Matriz de Confusión Ponderada

Octubre 2016

Prof. Miguel Angel Gaggero Sotomayor


ROI – MATRIZ DE CONFUSIÓN PONDERADA

ROI – Retorno de la Inversión

El retorno sobre la inversión (RSI o ROI, por las siglas en inglés de Return On Investment) es una razón
financiera que compara el beneficio o la utilidad obtenida en relación a la inversión realizada, es decir,
representa una herramienta para analizar el rendimiento que la empresa tiene desde el punto de vista
financiero.

Por lo tanto, matemáticamente se define de la siguiente manera:

𝐵𝑒𝑛𝑒𝑓𝑖𝑐𝑖𝑜 − 𝐼𝑛𝑣𝑒𝑟𝑠𝑖ó𝑛
𝑅𝑂𝐼 =
𝐼𝑛𝑣𝑒𝑟𝑠𝑖ó𝑛
En donde el Beneficio corresponde a la venta menos los costos relacionados con ésta.

Ahora, en SCORING no posee el mismo significado, el ROI corresponde al ACCURACY que se obtiene al
ponderar los VN y los VP según la relevancia que posean para cada caso. Por ejemplo:

Para un banco, es más importante clasificar bien a un mal pagador (Verdadero Negativo) que a un buen
pagador (Verdadero Positivo), dado que el Riesgo de perdida que generan los mororos es mayor. Con lo
anterior, se hace necesario asignar un peso mayor a los VN.

Prof. Miguel Angel Gaggero Sotomayor


ROI – MATRIZ DE CONFUSIÓN PONDERADA

Ejemplo

El siguiente SCORE tiene como objetivo evaluar la probabilidad que tienen los clientes de una empresa de
comprar el siguiente mes:
N Casos % Casos % Acumulado Discriminación
Score Tasa
No Compra Compra Total No Compra Compra Total No Compra Compra Total WOE KS ROC ACC
236 20 5 25 20,0% 5,3% 0,8% 2,5% 5,3% 0,8% 2,5% -1,386 4,5% 5,3% 63,9%
284 12 3 15 20,0% 3,2% 0,5% 1,5% 8,5% 1,3% 4,0% -1,386 7,2% 3,2% 64,8%
291 37 11 48 22,9% 9,8% 1,8% 4,8% 18,4% 3,0% 8,8% -1,213 15,3% 9,6% 67,4%
346 22 7 29 24,1% 5,9% 1,1% 2,9% 24,2% 4,2% 11,7% -1,145 20,0% 5,6% 68,9%
351 8 3 11 27,3% 2,1% 0,5% 1,1% 26,3% 4,6% 12,8% -0,981 21,7% 2,0% 69,4%
377 16 9 25 36,0% 4,3% 1,4% 2,5% 30,6% 6,1% 15,3% -0,575 24,5% 4,0% 70,1%
419 11 10 21 47,6% 2,9% 1,6% 2,1% 33,5% 7,7% 17,4% -0,095 25,8% 2,7% 70,2%
438 37 36 73 49,3% 9,8% 5,8% 7,3% 43,4% 13,5% 24,7% -0,027 29,9% 8,8% 70,3%
515 21 21 42 50,0% 5,6% 3,4% 4,2% 48,9% 16,8% 28,9% 0,000 32,1% 4,7% 70,3%
518 6 7 13 53,8% 1,6% 1,1% 1,3% 50,5% 17,9% 30,2% 0,154 32,6% 1,3% 70,2%
518 19 28 47 59,6% 5,1% 4,5% 4,7% 55,6% 22,4% 34,9% 0,388 33,1% 4,0% 69,3%
594 12 18 30 60,0% 3,2% 2,9% 3,0% 58,8% 25,3% 37,9% 0,405 33,5% 2,4% 68,7%
612 34 54 88 61,4% 9,0% 8,7% 8,8% 67,8% 34,0% 46,7% 0,463 33,8% 6,4% 66,7%
685 56 122 178 68,5% 14,9% 19,6% 17,8% 82,7% 53,5% 64,5% 0,779 29,2% 8,4% 60,1%
741 9 22 31 71,0% 2,4% 3,5% 3,1% 85,1% 57,1% 67,6% 0,894 28,1% 1,1% 58,8%
741 3 8 11 72,7% 0,8% 1,3% 1,1% 85,9% 58,3% 68,7% 0,981 27,6% 0,3% 58,3%
798 40 179 219 81,7% 10,6% 28,7% 21,9% 96,5% 87,0% 90,6% 1,499 9,5% 2,9% 44,4%
838 13 81 94 86,2% 3,5% 13,0% 9,4% 100,0% 100,0% 100,0% 1,829 0,0% 0,2% 37,6%
Total 376 624 1.000 62,4% 100,0% 100,0% 100,0% 33,8% 73,1% 62,4%

En donde se aprecia que el SCORE que maximiza el ACC es en 438.

Prof. Miguel Angel Gaggero Sotomayor


ROI – MATRIZ DE CONFUSIÓN PONDERADA

Ejemplo

Por lo tanto, la empresa desea asignarle una oferta a todos los clientes que, según el SCORE de compra,
no van a comprar. Dado lo anterior, se plantea la siguiente acción comercial:

Compra P/Cliente $10.000


Costo Envío Oferta $1.000
Costo Dcto Oferta 10% ($1.000)

En donde se tiene que, en promedio cada cliente cuando compra gasta $10.000. Mientras que, la acción
comercial implica entregar un descuento del 10% ($10.000) el cual se envía por correo a un costo de
$1.000 por envío. Por lo tanto se tiene la siguiente matriz de Ingresos y Costos según el escenario de
clasificación del SCORE.

Real
No Compra Compra
Predic.

No Compra $-1.000 $8.000


Compra $0 $10.000

En donde se tiene que, sí se envía la oferta a un cliente y éste finalmente no compra, se pierde $1.000
(costo de envío), mientras que sí compra, se gana $8.000 (descontando el envío y el dcto). Por lo tanto, se
pierde más dinero clasificando mal a un comprador que a un no comprador (proporción de 2:1).

Prof. Miguel Angel Gaggero Sotomayor


ROI – MATRIZ DE CONFUSIÓN PONDERADA

Ejemplo

Por lo tanto, al asignarle a los VP un peso de $1.000 y a los VN $2.000 se tiene que el punto de corte
adecuado ya no es 438 sino 351.
N Casos % Casos % Acumulado Discriminación
Score Tasa ROI
No Compra Compra Total No Compra Compra Total No Compra Compra Total WOE KS ROC ACC
236 20 5 25 20,0% 5,3% 0,8% 2,5% 5,3% 0,8% 2,5% -1,386 4,5% 5,3% 63,9% $1.258.000
284 12 3 15 20,0% 3,2% 0,5% 1,5% 8,5% 1,3% 4,0% -1,386 7,2% 3,2% 64,8% $1.264.000
291 37 11 48 22,9% 9,8% 1,8% 4,8% 18,4% 3,0% 8,8% -1,213 15,3% 9,6% 67,4% $1.279.000
346 22 7 29 24,1% 5,9% 1,1% 2,9% 24,2% 4,2% 11,7% -1,145 20,0% 5,6% 68,9% $1.287.000
351 8 3 11 27,3% 2,1% 0,5% 1,1% 26,3% 4,6% 12,8% -0,981 21,7% 2,0% 69,4% $1.289.000
377 16 9 25 36,0% 4,3% 1,4% 2,5% 30,6% 6,1% 15,3% -0,575 24,5% 4,0% 70,1% $1.287.000
419 11 10 21 47,6% 2,9% 1,6% 2,1% 33,5% 7,7% 17,4% -0,095 25,8% 2,7% 70,2% $1.278.000
438 37 36 73 49,3% 9,8% 5,8% 7,3% 43,4% 13,5% 24,7% -0,027 29,9% 8,8% 70,3% $1.243.000
515 21 21 42 50,0% 5,6% 3,4% 4,2% 48,9% 16,8% 28,9% 0,000 32,1% 4,7% 70,3% $1.222.000
518 6 7 13 53,8% 1,6% 1,1% 1,3% 50,5% 17,9% 30,2% 0,154 32,6% 1,3% 70,2% $1.214.000
518 19 28 47 59,6% 5,1% 4,5% 4,7% 55,6% 22,4% 34,9% 0,388 33,1% 4,0% 69,3% $1.177.000
594 12 18 30 60,0% 3,2% 2,9% 3,0% 58,8% 25,3% 37,9% 0,405 33,5% 2,4% 68,7% $1.153.000
612 34 54 88 61,4% 9,0% 8,7% 8,8% 67,8% 34,0% 46,7% 0,463 33,8% 6,4% 66,7% $1.079.000
685 56 122 178 68,5% 14,9% 19,6% 17,8% 82,7% 53,5% 64,5% 0,779 29,2% 8,4% 60,1% $891.000
741 9 22 31 71,0% 2,4% 3,5% 3,1% 85,1% 57,1% 67,6% 0,894 28,1% 1,1% 58,8% $856.000
741 3 8 11 72,7% 0,8% 1,3% 1,1% 85,9% 58,3% 68,7% 0,981 27,6% 0,3% 58,3% $843.000
798 40 179 219 81,7% 10,6% 28,7% 21,9% 96,5% 87,0% 90,6% 1,499 9,5% 2,9% 44,4% $525.000
838 13 81 94 86,2% 3,5% 13,0% 9,4% 100,0% 100,0% 100,0% 1,829 0,0% 0,2% 37,6% $376.000
Total 376 624 1.000 62,4% 100,0% 100,0% 100,0% 33,8% 73,1% 62,4% $1.248.000

Sí el peso de un VN es mayor que el VP el corte recomendado estará por debajo que el ACC (como en
este caso), si es lo contrario, el corte recomendado será superior al ACC.

Prof. Miguel Angel Gaggero Sotomayor


UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE CIENCIAS
DEPARTAMENTO DE MATEMÁTICA Y CIENCIA DE LA COMPUTACIÓN

CURSO SEMINARIO II: INTELIGENCIA DE NEGOCIOS

Clase IX:
Modelos Supervisados: Regresión Logística III

Octubre 2016

Prof. Miguel Angel Gaggero Sotomayor

S-ar putea să vă placă și