Documente Academic
Documente Profesional
Documente Cultură
de la Universidad de
Anlisis y evaluacin del nivel de riesgo en el otorgamiento de crditos financieros Ibagu, especialista en
utilizando tcnicas de minera de datos Teleinformtica de la Uni-
versidad Distrital Fran-
cisco Jos de Caldas
Analysis and evaluation of risk levels on loan aproval using data mining techniques (Colombia), estudiante de
Maestra en Ciencias de la
Informacin y las Comu-
nicaciones de la Univer-
sidad Distrital Francisco
Martha L. Tello Fecha de envo: septiembre de 2011
Jos de Caldas (Colom-
Fecha de recepcin: octubre de 2011
bia), integrante del grupo
Hermes J. Eslava** Fecha de aceptacin: agosto de 2012
de investigacin en teleco-
municaciones Teletecno.
Lucy B. Tobas*** Docente de la Universidad
Distrital Francisco Jos de
Caldas (Colombia). mtel-
loc@udistrital.edu.co
** Licenciado en Electrnica
Resumen de la Universidad Pedag-
En este artculo se presenta la aplicacin de la minera de datos en el gica Nacional (Colombia),
especialista en Teleinfor-
sector financiero, para evaluar el nivel de riesgo en el otorgamiento de mtica de la Universidad
Distrital Francisco Jos
crditos. Se tom una muestra de datos de 1000 registros, correspon- de Caldas (Colombia),
dientes a una cartera comercial de una entidad bancaria. Se utiliz la especialista en Instrumen-
tacin Electrnica de la
metodologa Knowledge Discovery in Databases (KDD) Universidad Santo Tomas
(Colombia), M.Sc. en In-
y se desarroll un software que permiti discretizar los datos, para po- geniera de Telecomunica-
der utilizarlos como entradas en la herramienta de minera de datos ciones de la Universidad
Nacional de Colombia,
WEKA. Se comparan los resultados obtenidos al aplicar las tcnicas Ph.D.(c) en Ingeniera de
Sistemas y Computacin
de minera de datos, rboles de clasificacin ID3 y J48. Finalmente se de la Universidad Nacio-
obtiene como resultado las caractersticas que deben tener los clien- nal (Colombia), director
del grupo de investigacin
tes para recibir un crdito bancario. en telecomunicaciones
Teletecno. Docente de
la Universidad Distrital
Francisco Jos de Caldas
(Colombia). hjeslavab@
Palabras clave val. A sample of 1000 data records from a udistrital.edu.co
Minera de datos, KDD, rboles de decisin, commercial bank were analyzed and further *** Ingeniera de Sistemas de
reglas de decisin, ID3 y J48. processed. Knowledge Discovery in Databases la Fundacin Universitaria
San Martn (Colombia),
(KDD) methodology was implemented and a estudiante de Maestra en
software tool that allows discrete-data con- Ciencias de la Informacin
Abstract version was developed so that the samples y las Comunicaciones de
la Universidad Distrital
This article describes a Data-Mining-based could be used as input data to the data mining Francisco Jos de Caldas
application intended for the financial sector. tool called WEKA. Results were compared to (Colombia), miembro del
grupo Thomas Greg &
Such an application evaluates the level of assess the performance when applying data Sons Ltda. lucy.tobias@
risk associated to financial loans on appro- mining techniques and classification trees reval.com.co.
ID3 and J48. Finally, the application yields the tos. Estos procesos sintetizan las diferentes
characteristics that customers should exhibit etapas de la vida de una obligacin, razn por
to be granted financial loans. la cual las variables contempladas en cada
uno deben tener relacin directa con el ob-
Key words jeto mismo del crdito, as como su anlisis
Data mining, KDD, decision trees, decision y seguimiento.
rules, ID3 and J48.
Para desarrollar la aplicacin se consideraron
10 variables, distribuidas entre cuantitativas
Introduccin y cualitativas, y 1000 registros de muestra,
correspondientes a una cartera comercial.
El crdito bancario constituye una fuente El estudio comienza identificando las varia-
primordial de financiamiento para el desarro-
bles que estarn directamente implicadas y
llo de la economa. Todos los sujetos de cr-
la clase de referencia que dar sentido a la
dito implican en menor o mayor medida un
informacin de acuerdo con el conjunto de
nivel de riesgo, dicha probabilidad est dada
datos con el que se cuenta, el cual muestra
por la incertidumbre acerca de los factores y
una relacin directa entre las edades, la ca-
variables que pueden afectar en el futuro a
pacidad de endeudamiento de una persona y
los clientes y vuelven peligrosa la inversin
su comportamiento de pagos; estas variables
bancaria. Cada cliente muestra sus caracte-
se convierten en una base fundamental para
rsticas y factores propios que inciden en la
determinar el perfil de los clientes y sec-
existencia del riesgo crediticio.
tores que solicitan los servicios del crdito
bancario.
En la actividad bancaria siempre los concep-
tos de riesgo y crdito son inseparables si
se tiene en cuenta que entre las actividades Luego de tener identificadas las variables
bancarias la concesin de crditos es la ms que sern estudiadas, se contina con el
importante, se comprender entonces que proceso de preparacin de los datos, dentro
la gestin del riesgo de crdito continua del cual se van a realizar tareas de limpieza,
siendo la de mayor relevancia; el crdito integracin, transformacin (en caso de ser
ideal sera aquel que d una seguridad total necesaria) y reduccin de la informacin su-
o un riesgo nulo, pero en la prctica esto es ministrada con el fin del hacer el conjunto de
casi imposible no hay crdito sin riesgo. No datos consistente.
obstante, s es posible la disminucin del
riesgo determinando los factores que inci- Luego de este proceso, se prepara la informa-
den en l y actuando sobre ellos para cada cin para a partir de ella desarrollar las tareas
tipo de prestatario [1]. de minera, y se utilizan una serie de primiti-
vas existentes con el fin de llevar a cabo un
Un aspecto muy importante sobre el sistema descubrimiento del conocimiento fcil, efi-
de administracin del riesgo de crdito es el ciente y fructfero. Este descubrimiento debe
seguimiento y control de procesos que ten- llevarnos a resolver la pregunta dentro de la
gan relacin directa con este. Por lo tanto, cual se enmarca todo este proceso de minera
se hace necesario el monitoreo de procesos de datos: qu caractersticas debe tener un
tales como otorgamientos y comportamien- cliente para recibir un crdito?
los segmentos de tiempo, conservando la in- continuos. Luego se tomaron los datos con-
formacin relevante [2]. tinuos y se categorizaron los valores de cada
atributo en tres grupos, que se especifican
Para el proceso de limpieza y preproce- de acuerdo con el intervalo que se obtiene si
samiento de datos se tom el conjunto de se aplica la siguiente frmula:
datos inicial y se identificaron los atributos
que deban ser categorizados, as como los atributos max atributos min
atributos a los que les faltaba informacin, Intervalo = (1)
3
para posteriormente realizar un proceso de
relleno de datos faltantes y discretizacin. Los atributos a los cuales se les aplic el pro-
Estos procesos se llevan a cabo tal como se ceso de discretizacin fueron los siguientes:
describe a continuacin.
Edad de mora del cliente: en este atributo se
2.1 Relleno de datos faltantes muestra la sumatoria de la cantidad de das
de atraso que el cliente ha tenido durante la
Dentro del conjunto de datos de estudio se existencia de la deuda.
encontr que el atributo comportamiento de
pago tena filas que no contaban con un valor Para este atributo, aplicando la frmula 1,
especfico, en el momento de evaluar la de- la distribucin de los grupos queda como se
pendencia del resto de atributos del conjunto muestra en la tabla 1.
de datos se encontr que no haba ninguna
relacin que determinara el comportamiento Capacidad de pago del cliente: este atributo
o valor que deba tener este atributo, por lo muestra la capacidad de pago que tiene el
tanto, para hacer confiable el proceso de mi- cliente, determinada en porcentajes por mi-
nera de esta informacin dicho atributo se lln. Para este atributo despus de aplicar la
complet con el valor sin evaluar. frmula 1, los grupos quedan conformados
como lo muestra la tabla 2.
2.2 Discretizacin de informacin
2.3 Reduccin de los datos
Para el proceso de discretizacin se hizo un
anlisis preliminar de los atributos y se es- En el proceso de reduccin de los datos debe
tableci cules son discretos y cules son identificarse el tipo de informacin que estos
Variables Descripcin
Actividad Econmica del Cliente Indica la actividad econmica que desarrolla el cliente
Capacidad de pago del Cliente Muestra la capacidad de pago por milln que tiene el cliente
variable ms informativa est basado en el con- muestra si = x1,x2,... est en un vector donde
cepto de cantidad de informacin mutua entre x1,x2,... representa las cualidades o las carac-
dicha variable y la variable clase. La termino- tersticas de la muestra.
loga usada en este contexto para denominar
a la cantidad de informacin mutua es la de Los datos del entrenamiento se aumentan
ganancia en informacin (information gain). con un vector C = c1,c2,... donde c1,c2,...
representa la clase a la que pertenece cada
Esto es debido a que: muestra.
I(Xi ; C) = H(C) H(C Xi ) (2) C4.5 utiliza el hecho de que cada cualidad
Lo que viene a representar esta cantidad de de los datos puede utilizarse para tomar una
informacin mutua entre Xi y C es la reduc- decisin que parta los datos en subconjuntos
cin en incertidumbre en C debida al conoci- ms pequeos. C4.5 examina la diferencia en
miento del valor de la variable Xi. entropa, eso resulta de elegir una cualidad
para partir los datos. La cualidad con el au-
Matemticamente se demuestra que este cri- mento normalizado ms alto de la informacin
terio de seleccin de variables utilizado por es la que est usada para tomar la decisin. El
el algoritmo ID3 no es justo, ya que favorece algoritmo entonces se repite en las sublistas
la eleccin de variables con mayor nmero ms pequeas [11].
de valores. Adems, el algoritmo ID3 efecta
una seleccin de variables previa (denomina- 3.3 Comparacin entre el algoritmo
da pre-running en este contexto) que consis- C4.5 e ID3
te en efectuar un test de independencia entre
El algoritmo C4.5 llev a cabo un nmero de
cada variable predictora Xi y la variable clase
mejoras a ID3, algunas de estas son:
C, de manera que para la induccin del rbol
de clasificacin tan solo se van a considerar Dirigiendo las cualidades continas y dis-
aquellas variables predictoras para las que se cretas para manejar las cualidades conti-
rechaza el test de hiptesis de independencia nuas, C4.5 crea un umbral y despus parte
[10]. la lista en las que valor de la cualidad est
sobre el umbral y las que sean inferior o
igual a l [12].
3.2 Algoritmo J48 (C4.5)
Si se manejan datos de entrenamiento con
El algoritmo J48 de WEKA es una implemen- valores faltantes C4.5 permite que los valo-
tacin del algoritmo C4.5, uno de los algorit- res faltantes sean marcados como ?. Los
mos de minera de datos ms utilizado. Se valores que faltan simplemente no se utili-
trata de un refinamiento del modelo generado zan en clculos del aumento de la entropa.
con OneR [11].
Manipulacin de cualidades con valores
El algoritmo C4.5 construye rboles de la diferentes.
decisin de un sistema de datos del entrena- rboles de poda despus de la creacin.
miento de la misma forma que ID3, que usa C4.5 pasa a travs del rbol una vez que
el concepto de entropa de la informacin. se haya creado y procura quitar las ramas
Los datos del entrenamiento son un sistema que no ayudan substituyndolos por nodos
S = s1,s2,... de muestras ya clasificadas. Cada de la hoja [11].
correctas para cada algoritmo puede pensarse se muestran los resultados obtenidos en una
que mientras ms profundidad tenga el rbol, vista comparativa con el resultado de los da-
se va a obtener mayor precisin en el proceso tos de entrenamiento.
de minera de los datos.
Se comienza por establecer una compara-
cin en la precisin de los algoritmos, luego
5. Comparacin de resultados entre datos por efectuar la comparacin de las matrices
de entrenamiento y datos de prueba de confusin y, finalmente, se desarrolla una
breve conclusin acerca de la comparacin de
Anteriormente se han presentado los resul-
estos resultados.
tados que surgen de aplicar a los datos de en-
trenamiento los algoritmos J48 (C4.5) e ID3,
5.1 Comparacin de precisin entre
en la herramienta de minera de datos WEKA.
los algoritmos ID3 y J48
Los datos de entrenamiento constituyen el
70 % del conjunto de datos original, el 30 % En la tabla 6 se puede ver que para el algo-
restante son datos de prueba, a continuacin ritmo ID3 la cantidad de instancias correctas
Tabla 6. Comparativo de precisin de los algoritmos con los datos de entrenamiento y pruebas
Entrenamiento Pruebas
alg
Instancias Correctas Error Absoluto Instancias Correctas Error Absoluto
y el error absoluto son muy parecidos para algoritmo ID3, la distribucin de la clasifica-
los datos de entrenamiento y de pruebas, y cin dentro de la matriz mantiene las propor-
adems se puede deducir que si el nmero de ciones entre los datos de entrenamiento y de
instancias correctas sube, entonces el error prueba.
absoluto disminuye.
6. Trabajo futuro
Para el algoritmo J48 la cantidad de instancias
correctas disminuye, mientras que el error En un futuro se pueden utilizar las reglas
absoluto aumenta en proporciones similares. obtenidas para implementar un algoritmo
predictivo que, basado en dichas reglas, de-
5.2 Comparacin de matrices de confusin termine si un cliente cumple con las condi-
ciones necesarias para que le sea otorgado un
Como lo muestra la figura 9, se evidencia que
crdito.
ambas matrices tienen una estructura muy
parecida, la clasificacin de los datos mantie-
ne las proporciones de distribucin dentro de 7. Conclusiones
la matriz.
Al realizar la comparacin de los resultados
La figura 10 muestra las matrices de confu- obtenidos, proporcionando a los algoritmos
sin para el algoritmo J48, al igual que con el seleccionados los datos de entrenamiento y
Figura 10. Matrices de confusin para datos de entrenamiento y de prueba algoritmo J48
prueba, puede concluirse que el algoritmo copicos, tesis para obtener el grado de
ID3, al tener ms profundidad en el rbol de Maestro en Inteligencia Artificial. Uni-
decisin, provee mayor precisin al proce- versidad Veracruzana. Mxico. Sep.,
so de clasificacin de la informacin de los 2007.
clientes.
[3] Compresin de Datos, compresin
Los datos de entrenamiento provedos a los compresores de archivos, ficheros y
algoritmos dan un alto nivel de efectividad al carpetas. Formatos de compresin zip,
proceso de clasificacin, esto se comprueba arj, arc, gz, tar, 7z, sqx, rar [Online].
fcilmente al ejecutar dichos algoritmos con Available http://www.compresion.es/
los datos de prueba y al notar que los resul- compresion-de-datos/. [Accessed: 23-
tados de precisin y matrices de confusin May-2011].
conservan las proporciones con respecto a los
resultados obtenidos con el conjunto de datos [4] M. G. Jimnez y A. lvarez, Anlisis
de entrenamiento. de datos en WEKA pruebas de se-
lectividad. [En lnea] disponible en
http://www.it.uc3m.es/jvillena/irc/prac-
Referencias ticas/06-07/28.pdf
Universidad
Revista Visin
Distrital
Electrnica
Francisco
ao 7 Jos
nmero
de 1Caldas
pp. 13 - 26
Facultad
enero - junio
Tecnolgica
de 2013
26