Sunteți pe pagina 1din 12

ANLISIS DISCRIMINANTE APLICADO AL PROBLEMA

DE CREDIT SCORING
JUAN MANUEL RIVAS CASTILLO
RESUMEN
En este documento se emplea el anlisis discriminante, que es una
tcnica del anlisis multivariado utilizada de manera estndar por bancos e
instituciones financieras con el objeto de predecir el riesgo que un cliente pague
o re-pague un prstamo (Credit Scoring). Los desarrollos que se presentan hacen
hincapi en el problema de la mtrica en las variables que dificultan el uso de la
discriminacin lineal, por lo que el enfoque se centra en la tcnica sustituta de
la discriminacin logstica. Adicionalmente, se ilustra el empleo del estadstico
Kolmogorov-Smirnov como un procedimiento alternativo para el clculo del
punto de corte y de la matriz de confusin. Los resultados que se obtienen
permiten dar luces acerca de la importancia del desarrollo de una tcnica
objetiva que permita clasificar a los clientes en buenos o malos pagadores.
Palabras Clave: anlisis multivariado, anlisis discriminante, credit scoring,
normalidad conjunta, Matriz de confusin
1. Introduccin
En busca de una especializacin muchos estudiantes de economa se
deciden por los temas financieros y especficamente en el desarrollo de la
profesin en el campo de otorgar y evaluar crditos, es en ese contexto que el
Anlisis Multivariado permite, a partir de la tcnica del Anlisis Discriminante, el
desarrollo de los mtodos de Credit Scoring
1
, que son una herramienta estndar
en bancos y otras instituciones financieras, para estimar si un individuo que
aplica para obtener un crdito pagar o no su deuda
2
.
Para estimar este tipo de modelos los bancos recogen datos de fuentes
internas (la historia de los aplicantes en crditos anteriores), de fuentes externas
(encuestas, entrevistas con los aplicantes). De la historia de los aplicantes se
puede obtener las caractersticas especficas de los potenciales clientes. A partir
1 Estos modelos tambin reciben el nombre de score-cards o classifiers, generalmente se asocian a la
data mining (minera de datos), que son aquellos procedimientos que permiten extraer informacin
til y encontrar patrones de comportamiento en los datos. Es decir, son algoritmos que de manera
automtica evalan el riesgo de crdito de un solicitante de financiamiento o de alguien que ya es
cliente de una entidad.
2 Las primas por riesgo de crdito de una entidad financiera se calculan haciendo uso de las
probabilidades de insolvencia de los riesgos a partir de un modelo de Credit Scoring.
Horizonte Econmico N2
56
de las fuentes externas se pueden realizar las siguientes preguntas: Tuvo algn
crdito antes?, Cunto pidi?, Se atras alguna vez en sus pagos?. Del mismo
modo, existe la posibilidad de adquirir informacin de empresas que cuentan
con bases de datos de potenciales clientes.
En el presente documento, para la estimacin del Credit Scoring
se hace un resumen terico de la tcnica del anlisis discriminante
en su versin lineal y logstica. Y para la aplicacin emprica, se
emplea una base de datos de mil clientes de un banco europeo
3
. Con el objeto de probar la robustez de los resultados se divide de manera
aleatoria la base de datos en grupos de 600 y 400 clientes, respectivamente
4
. De esta manera, el anlisis se realiza sobre la muestra de 600 individuos
mientras que la performance del sistema desarrollado se prueba sobre los 400
clientes restantes.
2. Anlisis discriminante y su aplicacin a informacin de
clientes de bancos y financieras
Sean P
1
y P
2
dos poblaciones donde se tiene definida una variable aleatoria
x la cual es p-variante. Inicialmente se supondr que x es absolutamente continua
5
y que las funciones de densidad de ambas poblaciones, f
1
y f
2
, son
conocidas. La finalidad es clasificar un nuevo elemento en alguna
de estas dos poblaciones. Si se conoce las probabilidades a priori
6
de que este nuevo elemento provenga de cada una de las poblaciones, su
distribucin de probabilidad ser una distribucin mezclada:

1 1 2 2
( ) ( ) ( ) f x f x f x p p = +
(1)
Supongamos que el elemento que se observa es , entonces es posible
aplicar el teorema de Bayes para calcular las probabilidades a posteriori de que
la informacin haya sido generada por cada una de las dos poblaciones.
3 Para extraer bases de datos de clientes de algunos bancos europeos y de otros temas relacionados
se puede recurrir a la siguiente pgina: http://archive.ics.uci.edu/ml/datasets.html
4 La separacin de la base de datos en dos sub-muestras de 600 y 400 clientes se realiz en base a
un generador de nmeros aleatorios, a partir de la distribucin uniforme re-escalada de 1 a 1000,
ello permite identificar a cada uno de los clientes de la base. Para que los resultados no cambien
cada vez que se realicen las estimaciones lo que se hizo fue plantear una semilla generadora de
nmeros aleatorios inicial (339487731). Todos estos desarrollos se realizaron empleando el software
STATA.
5 El supuesto de continuidad luego es dejado de lado para permitir el uso de variables categricas
binarias, ya que la base de datos que se emplea tiene caractersticas mixtas (variables continuas y
binarias).
6 Estas probabilidades deben de cumplir la condicin de cierre, es decir, la suma de ambas
probabilidades debe de ser la unidad.
Horizonte Econmico N2
57
P(1/x)
= 0
=C(1/2)
P(2/x)
d
1
d
2
P(1/x)
P(2/x)
=C(2/1)
= 0
La probabilidad de que se haya generado en la primera poblacin es:

( )
1 0 1
0
1 0 1 2 0 2
( )
1
( ) ( )
f x
P x
f x f x
p
p p
=
+
(2)

Y en la segunda poblacin:

( )
2 0 2
0
1 0 1 2 0 2
( )
2
( ) ( )
f x
P x
f x f x
p
p p
=
+
(3)
Ya que los denominadores son iguales, se clasificar a en la poblacin 2 si:

2 2 0 1 1 0
( ) ( ) f x f x p p >
(4)
Si se da el caso que las probabilidades a priori son iguales, la clasificacin
anterior se reduce a:
2 0 1 0
( ) ( ) f x f x >
(5)
Es decir, se clasifica a en la poblacin ms probable, o donde su
verosimilitud es ms alta. No obstante, pueden existir costos de clasificacin
que deben de ser incluidos en la regla de decisin anterior, por lo que el objetivo
del decisor es maximizar su funcin de utilidad, lo que equivale a minimizar el
costo esperado.
Los resultados de cada una de las decisiones se presentan en la figura N
o
1:
Figura N
o
1

Horizonte Econmico N2
58
El costo de clasificar correctamente al individuo x en la poblacin 1
es cero, mientras que el costo de clasificarlo incorrectamente es c (1/2) (costo
de clasificar un individuo en la poblacin 1 cuando en realidad pertenece a la
poblacin 2). El costo esperado de clasificar en el grupo 1 ser:
( ) ( ) ( ) ( ) ( ) ( )
1 .0 0 0
0 1 1 2 2 1 2 2 E d P x c P x c P x = + =
(6)
Y el costo esperado de clasificar en la poblacin 2 ser:

( ) ( ) ( ) ( ) ( ) ( )
2 .0 0 0
0 2 2 1 1 2 1 1 E d P x c P x c P x = + = (7)
Con f
1
y f
2
esta informacin se asignar al grupo 2 si el costo esperado es
menor, es decir:

( )
( )
( )
( )
2 0 2 1 0 1
2 1 1 2
f x f x
c c
p p
>
(8)
Luego, y se consideran distribuciones normales con distintos vectores de
medias pero idntica matriz de varianza covarianza, de forma que:
( ) ( ) ( )
1
1 2
2
1 1
exp
2
(2 )
i i
p
f X x u V x u
V p

=


(9)
Reemplazando este resultado en la expresin (8) y tomando logaritmos
a ambos lados, se clasificar en la poblacin 2 si se cumple que:
(10)
( ) ( )
( )
( ) ( )
( )
1 2
2 2
1 2
1 1
1
log
2 2 1
1
log
2 1 2
x u V x u
c
x u V x u
c
p
p

> +
En relacin a los elementos de la expresin anterior: u
1
representa el
promedio de las variables condicionada a que el cliente hizo default (no pago su
deuda) y u
2
es el promedio de las variables condicionada a que el cliente no hizo
default (pago su deuda), V
-1
es la inversa de la matriz de varianza covarianza,
p
1
y p
2
representan las probabilidades a priori de hacer default y de no hacer
default, respectivamente, c(2/1) es el costo de clasificar en la poblacin 2 cuando
en realidad perteneca a la poblacin 1 y c(1/2) es el costo de clasificar en la
poblacin 1 cuando en realidad el individuo pertenece a la poblacin 2.
Asimismo, (x - u
2
)V
-1
(x - u
2
) se conoce como la distancia de Mahalanobis.
Si se consideran costos y probabilidades iguales la regla anterior se reduce a
clasificar en la poblacin cuya media este ms prxima. Es decir, se clasificara
en la poblacin 2 si la distancia de Mahalanobis es menor que en la poblacin 1.
Horizonte Econmico N2
59
Estos desarrollos son la estructura terica para el Anlisis Discriminante
Lineal (ADL) de Fisher
7
que es la base terica en la cual se sustenta el modelo
de Credit Scoring estndar.
3. Sobre la data
En relacin con la base de datos, se cuenta con 22 variables de
caractersticas de 1000 clientes que pidieron un prstamo en un banco europeo
y que haban solicitado en el pasado crditos para consumo. Las variables que
se emplean en el presente documento son: ASSETS, CHECKING, SAVINGS,
DURATION, MONTO, HISTORY, AGE y OCCUP. Algunas de estas variables
fueron recodificadas a partir de los siguientes criterios: la variable ASSETS se
transform en una variable binaria que adopta el valor 1 (uno) si el cliente es
propietario de algn activo y el valor 0 (cero) si no lo es. La variable HISTORY
se transform en una variable binaria que adopta el valor 1 (uno) si el cliente no
tuvo problemas en pagar crditos anteriores (categoras 2, 3 y 4 de la variable
HISTORY) y el valor 0 (cero) si tuvo problemas (categoras 0 y 1 de la variable
HISTORY). La variable OCCUP adopta el valor 1 (uno) si el cliente es un
skill worker (categoras 3 y 4 de la variable OCCUP) y el valor 0 (cero) si es
desempleado o unskilled worker (categoras 1 y 2 de la variable OCCUP).
4. Resultados
En principio, las poblaciones se encuentran representadas por la
variable crdito y es a partir de esta variable que se calcula la probabilidad a
priori a la cual pertenecen los clientes: 0 si hicieron default y 1 si no hicieron. El
cuadro N
o
1 muestra las frecuencias asociadas a cada una de las categoras para
la muestra base de 600 clientes:
Cuadro N 1: Frecuencia absoluta, relativa y relativa acumulada de clientes
que hicieron y no hicieron default
Crdito Freq. Percent Cum.
0 173 28.83 28.83
1 427 71.17 100
Total 600 100
7 G.S. MADDALA (1983) demuestra la analoga existente entre la funcin lineal discriminante de
Fisher y el modelo lineal de probabilidad.
Horizonte Econmico N2
60
La probabilidad a priori de hacer default es de 29%, mientras que la
probabilidad a priori de no hacer default es de 71%.Con este clculo es posible
la estimacin de la funcin discriminante lineal. Sin embargo, para la aplicacin
de la FDL se requiere probar la normalidad multivariada de los datos
8
, por
lo que este modelo funciona bien cuando las variables en consideracin son
cuantitativas o se conoce la normalidad conjunta de los mismos, pero, no se
tiene garanta de ello cuando se tiene un conjunto de variables mixtas (continuas
y binarias)
9
como es nuestro caso. La solucin a este inconveniente se encuentra
en la metodologa de la Discriminacin Logstica.
De acuerdo con el razonamiento anterior, el modelo Logit proporcionar
de manera directa la probabilidad de pertenecer a cada una de las poblaciones
(Score). Dicha probabilidad se calcula mediante la siguiente Funcin de
Distribucin Logstica
10
:

0 1
1
1
i
i
B B X
p
e

=
+
(11)
Y adems:

0 1
1
1
1
i
i
B B X
p
e
+
=
+
(12)
Entonces, empleando la muestra de 600 clientes y las variables
indicadas con anterioridad se estima un modelo Logit
11
de la probabilidad de
que un cliente pague su prstamo, los resultados obtenidos se presentan en el
Cuadro N 2.
8 El autor de este documento cuenta con una programacin en el paquete STATA para probar
normalidad conjunta. Esta programacin puede ser solicitada al correo juanmanuel263@gmail.com.
9 Pea (2002): ....... es frecuente que los datos disponibles no sean normales. Por ejemplo, cuando
se emplean variables discretas. En estos casos no tenemos garantas de que los mtodos estudiados
sean ptimos.
10 Existe la posibilidad de tomar la distribucin normal estndar como FDA, la cual da origen al
modelo probit; sin embargo, este modelo es muy similar al modelo Logit y no tiene las ventajas de
interpretacin con que cuenta este ltimo.
11 El modelo Logit se estima con la tcnica de Mxima Verosimilitud y para encontrar el valor del
parmetro que maximiza la verosimilitud se emplea el algoritmo de Newton-Raphson, el cual se
puede escribir como:
( )
1
( )
mv
B B X WX X Y Y

= +

, donde
W


es una matriz diagonal con trminos
( ) 1
i i
p p


el vector de valores esperados de Y.
Horizonte Econmico N2
61
Cuadro N 2: Estimacin del modelo Logit
12
Logistic regression Number of obs = 600
LR chi2(8) = 127.50
Prob > chi2 = 0.0000
Log likelihood = -296.64022 Pseudo R2 = 0.1769

------------------------------------------------------------------------------
credito | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
dassets | -.3432875 .2557358 -1.34 0.179 -.8445204 .1579454
checking | .5849635 .0889876 6.57 0.000 .410551 .7593761
savings | .1984658 .073637 2.70 0.007 .05414 .3427916
duration | -.0296659 .0113786 -2.61 0.009 -.0519676 -.0073643
monto | -.0000409 .0000456 -0.90 0.370 -.0001303 .0000486
dhistory | 1.160367 .3386386 3.43 0.001 .4966473 1.824086
doccup | .2681977 .2588755 1.04 0.300 -.2391889 .7755844
age | .016174 .0095175 1.70 0.089 -.0024799 .0348279
_cons | -1.65152 .582449 -2.84 0.005 -2.793099 -.5099413
------------------------------------------------------------------------------
La estimacin mostrada en el cuadro N 2 permite calcular la funcin
SCORE a partir de la expresin nmero 11. Mientras que en el cuadro N 3
se muestra la Matriz de Confusin, que es la clasificacin realizada a partir de
los resultados obtenidos con la funcin SCORE
13
y el cruce con la variable
CREDITO.
Cuadro N 3: Matriz de confusin base 600
0 1
63 110 173
36.42% 63.58% 100%
40 387 427
9.37% 90.63% 100%
Total 103 497 600
Prediccin
Total
0
1
Crdito
12 Es importante sealar que los coeficientes de las variables: dassets, monto, doccup y age son
estadsticamente no significativos, pero se mantienen en el modelo ya que la evaluacin de la
significancia individual, del ajuste global y del estudio de los residuos van ms all del alcance de
este estudio exploratorio.
13 La regla es que un puntaje o un score adverso determina la negacin de un crdito y un score
por encima del mnimo pedido por el banco hace que la evaluacin para otorgar el crdito contine.
As en nuestro caso, la clasificacin empleando la funcin SCORE se realiz a partir de la siguiente
regla: si el SCORE es mayor a 0.5 entonces el cliente pertenece a la poblacin sin default y si es
menor pertenece a la poblacin con default.
Horizonte Econmico N2
62
En el 36.42% de los casos el modelo predijo correctamente la categora
0 (estar en default), mientras que el 90.63% de los casos el modelo predijo
correctamente la categora 1 (no estar en default). La probabilidad global de
clasificar mal a un individuo es del 25% y la de clasificar correctamente a un
individuo es del 75%, respectivamente
14
.
Del mismo modo, se sigui el procedimiento para la base de datos de
400 clientes y en el cuadro N 4 se presenta la matriz de confusin respectiva:
Cuadro N 4: Matriz de confusin base 400
0 1
57 70 127
44.88% 55.12% 100%
32 241 273
11.72% 88.28% 100%
Total 89 311 400
Prediccin
Total Crdito
0
1
En el 44.9% de los casos el modelo predijo correctamente la categora
0 (estar en default), mientras que el 88.3% de los casos el modelo predijo
correctamente la categora 1 (no estar en default). La probabilidad global de
clasificar mal a un individuo es del 26% y la de clasificar correctamente a un
individuo es del 74%, respectivamente.
De otro lado, con el objeto de calcular el punto de corte o de frontera los
bancos suelen emplear en la regla discriminante el estadstico de Kolmogorov-
Smirnov. Para su clculo se siguen los pasos expuestos en el cuadro N
o
5.
14 La probabilidad global es un buen estimador de cuanto se va a equivocar una entidad financiera
al clasificara los individuos, a esta probabilidad tambin se le conoce como el r cuadrado de conteo.
El r cuadrado de conteo de fallo consiste en sumar los valores de las diagonales de la matriz en las
que el modelo predice incorrectamente y dividir el resultado por la poblacin total, de la misma
manera el r cuadrado de conteo de acierto se suman los valores de las diagonales de la matriz en
las que el modelo predice correctamente y se divide el resultado por la poblacin de clientes total.
Horizonte Econmico N2
63
Cuadro N 5: Proceso de clculo del estadstico Kolmogorov-Smirnov
15
9 Ordena por SCORE de menor a mayor las observaciones de SCORE
y CREDITOS.
9 Calcular 20 rangos de percentiles de la variable SCORE con una razn
de 5% que vallan de 0 a 100.
9 Para cada uno de los rangos calcular la cantidad, el porcentaje y el
porcentaje acumulado de crditos buenos y crditos malos.
9 K-S: es el estadstico de Kolmogorov-Smirnov que se calcula como
diferencia entre la columna % acumulado de crditos malos y la
columna % acumulado de crditos buenos.
9 Score mnimo (mximo): el valor mnimo (mximo) del SCORE en
cada intervalo.
9 Punto medio: el valor central del SCORE en el intervalo.
9 El valor del estadstico de Kolmogorov-Smirnov se corresponde con el
valor mximo de la columna K-S. Para este valor, la columna Punto
medio da el valor de corte para clasificar los crditos. Todos los clientes
con valores de SCORE mayores al valor de corte son clasificados como
crditos buenos.
Para el caso de la muestra de 600 la estimacin del estadstico
Kolmogorov-Smirnov arroj un punto de corte de 0.46. El re-clculo de la
matriz de confusin de presenta en el siguiente cuadro N 6.
Cuadro N 6: Matriz de confusin empleando el estadstico KS para la base
de datos de 600 clientes
0 1
48 125 173
27.75% 72.25% 100%
24 403 427
5.62% 94.38% 100%
Total 72 528 600
Clasificacin
Total Crdito
0
1
En el 27.8% de los casos el modelo predijo correctamente la categora
0 (estar en default), mientras que el 94.4% de los casos el modelo predijo
15 El autor de este documento cuenta con una programacin en el paquete STATA que permite
calcular el estadstico de Kolmogorov-Smirnov. Esta programacin puede ser solicitada al correo
juanmanuel263@gmail.com.
Horizonte Econmico N2
64
correctamente la categora 1 (no estar en default). La probabilidad global de
clasificar mal a un individuo es del 25% y la de clasificar correctamente a un
individuo es del 75%, respectivamente. Lo que se observa es un incremento
en la probabilidad de prediccin de clientes que devolveran su deuda y una
disminucin en la probabilidad de prediccin de malos clientes respecto al
modelo anterior.
Para la base de 400 clientes se obtuvo un punto de corte de 0.47 y la
matriz de confusin se presenta en el cuadro N
o
7.
Cuadro N 7: Matriz de confusin empleando el estadstico Kolmogorov-
Smirnov para la base de datos de 400
0 1
48 79 127
37.80% 62.20% 100%
30 243 273
10.99% 89.01% 100%
Total 78 322 400
Clasificacin
Total Crdito
0
1
Tal como en el caso anterior el modelo mejora en la clasificacin de
individuos que devolveran su deuda y empeora en la clasificacin de individuos
que no devolveran su deuda, respecto a la clasificacin realizada con el modelo
logstico.
5. Comentarios finales
En este documento se revisaron las ideas matemticas y la intuicin
que se encuentran tras una clasificacin Credit Scoring empleando el anlisis
discriminante lineal y el problema que surge cuando no se puede probar
normalidad conjunta de los datos, debido a la presencia de una base de datos
compuesta por variables mixtas (continuas y dictomas). Asimismo, el empleo
de la discriminacin logstica como solucin al problema de normalidad
conjunta y el clculo del estadstico Kolmogorov-Smirnov como una tcnica
que permite estimar el punto de corte de la funcin score.
Se entiende que el punto de partida del razonamiento del analista es la
premisa que el costo de conceder un crdito a un mal cliente es mucho mayor
que el costo de rechazar a un buen cliente (costo de cero).Por lo que se querr
Horizonte Econmico N2
65
reducir la probabilidad de otorgarle un crdito a un mal cliente e incrementar la
probabilidad de otorgarle el crdito a un buen cliente.
En relacin al punto anterior, las estimaciones con la base de datos de
600 clientes arroj una probabilidad global de clasificar a un mal cliente de 25%
y la probabilidad fue del 26% con la base de datos de 400. Con el empleo de
la metodologa de Kolmogorov-Smirnov esta probabilidad fue de 25% para la
base de 600 clientes y 27% para la base de 400 clientes. Es decir, de acuerdo
con las caractersticas definidas por cliente, el banco tendra una probabilidad
de clasificar mal a un mal cliente (darle un prstamo a un mal cliente) o la de
clasificar mal a un buen cliente (negarle el prstamo a un buen cliente) entre
25% y 27%, lo cual en el peor de los casos podra implicar una probabilidad
de no pago o re-pago del prstamo en ese mismo rango de porcentajes y, se
convertira en su cartera pesada.
Asimismo, la probabilidad de acertar y clasificar correctamente a un
buen cliente, es decir, la probabilidad de negarle el prstamo a un mal cliente
y otorgrselo a un buen cliente se encuentra entre el 73% y el 75%. Los
resultados indican que con la metodologa Kolmogov-Smirnov se gana una
mayor prediccin en la clasificacin de buenos clientes pero se pierde en la
clasificacin de malos clientes. Esto significa que con la prediccin empleando
el estadstico de Kolmogov-Smirnov se gana una mayor cantidad de aciertos
en la clasificacin de clientes que pagaran o re-pagaran sus prstamos, pero,
el costo que se paga es que el riesgo de otorgarle un crdito a un mal cliente se
incrementa.
Finalmente, la literatura especializada indica que los resultados de la
aplicacin del Credit Scoring, se suele complementar con el juicio humano,
formando un sistema de decisin hibrido que involucre ambos resultados. Esto
quiere decir que debe existir una validacin de los resultados no solo externa
sino tambin interna, asociada al criterio del analista.
Horizonte Econmico N2
66
6. Referencias Bibliogrficas
ANDERSON T. W. (2003). An Introduction to Multivariate Statistical
Analysis. Third Edition. Stanford University. Department of Statistics.
GUTIRREZ Girault , Matas Alfredo (2007). Modelos de Credit Scoring
Qu, Cmo, Cundo y Para Qu-http://www.bcra.gov.ar/pdfs/invest/
CreditScoring.pdf
HAIR, BLACK, BABIN y ANDERSON. (1995) Multivariate Data
Analysis. Seventh Edition.
MADDALAG.S. (1983). Limited-dependent and qualitative variables
in econometrics.
PEA Daniel (2002). Anlisis de datos multivariantes. McGraw-Hill.
Interamericana de Espaa, SL.
RENCHER Alvin C. (2002). Methods of Multivariate Analysis. Second
Edition
TIMM Neil H. (2002). Applied Multivariate Analysis. Department of
Education in Psychology. School of Education. University of Pittsburgh.

S-ar putea să vă placă și