Sunteți pe pagina 1din 21

Referat Tehnici Avansate de Data Mining

PREDICIA RISCULUI DE CREDITARE UTILIZND MODELE DE CREDIT SCORING DE TIP DATA MINING

2012 1. Introducere

2Tehnici

Avansate de Data Mining

Credit scoring-ul este un instrument folosit n evaluarea profilului solicitantului de credit. Credit scoring-ul este de fapt un studiu bazat pe analize statistice cu caracter istoric. Acestea permit modelri ale unor comportamente specifice ale diferitelor segmente de clieni, dar i fundamentarea pe baze tiinifice a rspunsului afirmativ/negativ, care va fi formulat pentru o cerere de acordare de credit. Unul din scopurile acestui studiu este de a introduce n aplicaie cele mai frecvente variabile utilizate n sistemul de credit scoring. Un alt scop este de a compara rezultatele obinute utiliznd diferite modele statistice i anume regresia logistic, reele neuronale i arbori de decizie . Credit scoring-ul are la baz principiul conform cruia comportamentul noilor solicitani de credit va fi similar modelului de comportament al unor solicitani anteriori. Se d urmtoarea problem: Presupunem c o banc dispune de informaii privind clienii si, att despre cei bun platnici (care ramburseaz creditul fr probleme) ct i despre cei ru platnici (care au avut probleme cu rambursarea creditului pe parcurs). Aceste informaii se pot referi la vrst, starea socila, stabilitatea locului de munc, etc. Cnd apare un client nou care solicit un credit, banca trebuie s decid dac s-i acorde sau nu mprumutul solicitat. Pentru banc, acest posibil nou client este un individ descris prin caracteristicile sale: vrst, starea social, stabilitatea locului de munc, etc. Plecnd de la aceast problem ne propunem s utilizm cele trei modele statistice (regresia logistic, arbori de decizie i reele neuronale) pentru a clasifica clienii n dou categorii (acceptat sau respins).

2. Modele statistice folosite


Pentru atingerea scopului au fost folosite urmtoarele noduri: Permite alegerea modelului liniar sau logistic pentru datele analizate, precum i metodele folosite, de exemplu Stepwise, Forward, Backward. Permite construirea, antrenarea i validarea reelelor neuronale feed-forward multistrat.

Regression

Neural Network

Decission Tree

Permite divizarea multilateral a bazei de date ce conine variabile categoriale, nominale i ordinale. Totodat se poate salva arborele de decizie i regulile.

3Tehnici

Avansate de Data Mining


Are rolul de a citi o surs de date i de a crea un set de date de intrare. Dup ce au fost stabilite datele de intrare, ele sunt preluate de nodurile urmtoare pentru o prelucrare ulterioar. Se ocup cu partiionarea datelor n date de antrenament (pentru aranjarea modelului preliminar), date de test (doar dac setul de date este foarte mare) i date de validare (pentru monitorizarea i reglarea modelului dar i pentru evaluarea modelului). Folosete eantionarea aleatorie simpl, eantionarea aleatorie stratificat, sau o partiionare definit de utilizator pentru a crea seturi de date de antrenament, de validare, sau de test. Permite transformarea variabilelor, de exemplu permite transformarea variabilelor prin extragerea rdcinii ptrate a unei variabile, prin maximizarea corelaiei cu variabila target sau normalizarea variabilelor. Permite compararea modelor statistice folosite construind diverse diagrame.

Input Data

Data Partition

Transform Variables

Assessment

Score

Permite generarea i gestionarea valorile obinute dintr-un model de antrenare.

Distribution Explorer

Permite explorarea unor volume mari de date, prin intermediul histogramelor multidimensionale (permite vizualizarea unei repartiii de pn la trei variabile la un moment dat) i observarea relaiilor dintre variabile, valorile anormale ale variabilelor, sau valorile lips. Permite scrierea de cod SAS.

SAS Code

Tabelul 1. Descrierea nodurilor folosite

4Tehnici

Avansate de Data Mining

Regresia Logistic
Regresia logistic modeleaz relaia dintre o mulime de variabile independente xi (categoriale, continue) i o variabil dependent (nominal, binar) y. O astfel de variabil dependent apare, de regul, atunci cnd reprezint apartenena la dou clase, categorii present/absent, da/nu, acceptat/respins, etc. Ecuaia de regresie obinut, ofer informaii despre:

importana variabilelor n diferenierea claselor; clasificarea unei observaii ntr-o clas;

Arborii de Decizie

Arborii de decizie reprezint un instrument puternic pentru clasificare i predicie fiind reprezentaii de reguli. Utilizarea arborilor de decizie ca instrumente data mining presupune:

descrierea atributelor valoare ( un atribut valoare reprezint un obiect sau caz ce poate fi exprimat n termenii unei colecii fixe de atribute); predefinirea claselor, respectiv a atributelor valoare int (o clas se constitue dintr-o categorie n care se ncadreaz exemplele stabilite dinainte, implicit datele supervizate); identificarea claselor discrete (un caz poate aparine sau nu unei clase particulare i de aceea trebuie s existe mai multe cazuri dect clase); utilizarea unui volum semnificativ de date de antrenare (se folosesc de obicei sute sau mii de cazuri de antrenare); arborii de decizie permit generarea de reguli uor interpretabile; arborii de decizie clasific fr a depune eforturi mari din punct de vedere al calculelor; arborii de decizie permit utilizarea att a variabilelor categoriale ct i numerice; arborii de decizie ofer o imagine clar asupra cmpurilor care sunt cele mai importante pentru predicie sau clasificare; arborii de decizie sunt mai puin adecvai n cazul problemelor de estimare atunci cnd scopul este reprezentat de predicia valorii unui atribut de tip numeric; arborii de decizie sunt supui erorilor n problemele de clasificare cu multe clase i cu un numr relativ mic de example de antrenare; procesul de antrenare al arborilor de decizie poate fi dificil.

ntre principalele avantaje ale metodei arborilor de decizie pot fi menionate:

Pe de alt parte aceast metod prezin i anumite dezavantaje, cum ar fi:

Reele Neuronale Artificiale


Reelele neuronale artificiale sunt sisteme de prelucrare a informaiei a cror structur i funcionare sunt inspirate de procese cognitive i structuri de organizare ale sistemelor neurobiologice. Elementele componente ale unei reele sunt strns interconectate i se numesc neuroni.

5Tehnici

Avansate de Data Mining

Arhitectura reelei se refer la numrul de straturi, numrul de neuroni corespunztor fiecrui strat i modul n care acetia sunt interconectai. Cele mai utilizate arhitecturi de reele neuronale artificial sunt cele de tip feed-forward multistrat( perceptronul multistrat). Aceast arhitectur se numete feed-forward (cu propagare nainte) pentru c semnalele se transmit ntr-o singur direcie: de la intrare spre ieire. n cadrul tehnicilor data mining, reelele neuronale sunt utilizate la rezolvarea problemelor de clasificare a tiparelor. De exemplu, problemele de reinere a clienilor unei bnci, a identificrii acelora care intenioneaz s renune la serviciile unei bnci, situaiile de fraud, situaile de faliment determinate de aa numii clieni ru-platnici. Prin evaluarea riscului achiziionrii unui client, precum i a riscului acordrii unui credit se poate face o predicie, astfel ca banca s poat elabora decizii dup analizarea profilului clientului, evitnd o posibil situaie neplcut.

1. Descrierea modului de implementare


Baza de date conine 1.000 de nregistrri, din care 700 de nregistrri descriu clienii buni-platnici iar 300 clienii ru-platnici. Setul de date cuprinde 21 de atribute din care 14 sunt de tipul Numerical iar 7 sunt de tipul String. Totodat setul de date conine 20 de variabile independente (variabile de intrare) i o variabil dependent (variabil de ieiretarget). Descrierea setului de date: Variabila CHECKING Valoare < 0 DM = 1 0 - 200 DM=2 >= 200 DM = 3 no checking account = 4 DURATION HISTORY 0 = no credits taken/ all credits paid back duly 1 = all credits at this bank paid back duly 2 = existing credits paid back duly till now 3 = delay in paying off in the past input input interval ordinal Duration in months Credit history Rol input Msur ordinal Descriere Status of existing checking account

6Tehnici

Avansate de Data Mining


4 = critical account/other credits existing (not at this bank)

PURPOSE

car(new) car(used) furniture/equipment radio/television domestic appliances repairs education vacantion retraining business others

input

nominal

Purpose

AMOUNT SAVINGS

< 100 DM = 1 100 500 DM = 2 500 1000 DM = 3 >= 1000 DM = 4 unknown/no savings account = 5

input input

interval ordinal

Credit amount Savings account/bonds

EMPLOYED

unemployed = 1 > 1 year = 2 1 4 years = 3 4 7 years = 4 >= 7 years = 5

input

ordinal

Present employment since

INSTALLP

input

ordinal

Installment rate in percentage of disposable income

7Tehnici

Avansate de Data Mining


1 = male: divorced, separated 2 = female: divorced, separated, married 3 = male: single 4 = male: married, widowed 5 = female: single input ordinal Personal status and gender

MARITAL

COAPP

none co-applicant guarantor

input

nominal

Other debtors/guarantors

RESIDENT

1 = real estate 2 = if not 1: building society savings agreement / life insurance 3 = if not : car or other, not in attribute 6 4 = unknown/no property

input

ordinal

Date beginning permanent residence Property

PROPERTY

input

ordinal

AGE OTHER bank stores none HOUSING rent own for free EXISTCR

input input

interval nominal

Age in years Other installment plans

input

nominal

Housing

1 = unemployed /

input

ordinal

Number of existing credits at this bank Job

JOB

input

ordinal

8Tehnici

Avansate de Data Mining


unskilled nonresident 2 = unskilled resident 3 = skilled employee/ official 4 = management/ selfemployed/ highly qualified employee/ oficer

DEPENDS TELEPHONE none yes FOREIGN GOOD_BAD yes no good bad

input input

binary binary

Number of depends Telephone

input target

binary binary

Foreign worker Good or bad credit rating

Tabelul 2. Descrierea variabilelor folosite

Diagrama proiectului

Figura 1. Diagrama proiectului

Implementarea aplicaiei 1. Se ncarc fiierele surs credit.xls i credit2.xls.

9Tehnici

Avansate de Data Mining

2. Se lanseaz n execuie instrumental Enterprise Miner. 3. Se creeaz un nou proiect i o nou diagram. 4. Se adaug primul nod al diagramei i anume Input Dara Source i se stabilesc proprietile nodului.

Figura 2. Stabilirea proprietilor nodului Input Data

Figura 3. Stabilirea rolurilor variabilei n model

10Tehnici

Avansate de Data Mining

Figura 4. Editarea profilului variabilei target Rndurile reprezint valorile int iar coloanele reprezin deciziile. n aceast matrice se evideniaz faptul c este de cinci ori mai grav s acceptm un client ru-platnic dect a respinge un client bun-platnic. Dac acceptm un client bun-platnic vom avea profit iar pierderea va fi negativ. Dac respingem un client fie el bun sau ru platinic nu vom avea nici profit i nici pierdere.
5. Se adaug nodul Data Partition i se stabilesc proprietile acestuia (metoda de

partiionare i procentele associate datelor de antrenare, validare i test).

Figura 5. Stabilirea metodei de partiie a datelor i a procentelor pentru datele de antrenare validare i testare.

11Tehnici

Avansate de Data Mining

Figura 6. Stabilirea statutului variabilei target


6. Se adaug nodul Transform Variables i se stabilesc proprietile nodului.

Figura 7. Distribuia variabilei AMOUNT Se poate observa c variabila AMOUNT nu are o distribuie uniform, valorile extreme pot provoca imprecizie pentru parametrii estimai. Din acest motiv vom normaliza variabila AMOUNT, AMOUNTTransformMaximize normality.

12Tehnici

Avansate de Data Mining

Figura 8. Distribuia variabilei log(AMOUNT) Folosind acest nod putem transforma o variabil interval ntr-un grup de variabile. Deoarece suntem interesai n aplicaia noastr s folosim un grup particular de vrst vom creea un grup de variabile pentru variabila AGE, AGETransformBucket(4).

Figura 9. Distribuia variabilei AGE


7. Se adaug nodul Regression i i se stabilesc proprietile (metoda, modelul de

regresie).

13Tehnici

Avansate de Data Mining

Figura 10. Stabilirea proprietilor nodului Regression

Rezultate:

Figura 11. Statistica T-score pentru variabilele analizate

14Tehnici

Avansate de Data Mining

Se observ valoarea minim i valoarea maxim a variabilei T-score i anume -4.410283962 i 4.5527113746. Cele mai importante variabile pentru predicia modelului sunt CHECKING, DURATION, HISTORY,SAVINGS i COAPP. Se observ c variabile definite n nodul Transform Variabiles nu influeneaz efectul T-score. Pierderea medie din setul cazurilor de validare este aproximativ -54 ajustat pentru probabilitatea apriori pe care am specificat-o n profilul variabilei target.
8. Se adaug nodul Neural Network i i se stabilesc proprietile.

Figura 12. Crearea reelei de tip perceptron cu 3 straturi ascunse Rezultate:

Figura 13. Rezultate reea neuronal Se observ c eroarea medie optim a fost realizat la iteraia 43. Dup iteraia 43 apare o supraantrenare doar n ceea ce privete datele de validare. 9. Se adaug nodul Tree i i se stabilesc proprietile. Rezultate:

15Tehnici

Avansate de Data Mining

Figura 14. Rezultate nodul Tree Tabelul din colul din stnga sus rezum procesul de clasificare general. Cellalt tabel afieaz valorile de antrenare i de validare pentru creterea complexitii arborelui.

Figura 15. Rezultate arbore

IF savings IS ONE OF: 4 5

IF employed IS ONE OF: 3 4 5

16Tehnici

Avansate de Data Mining


AND other EQUALS NONE AND checking IS ONE OF: 3 4 : 66 : 93.0% : 7.0% 5 THEN NODE N : : 13 225 : 98.1% : 1.9%

AND checking IS ONE OF: 1 2 THEN NODE N :

GOOD BAD

GOOD BAD

IF other IS ONE OF: BANK STORES AND checking IS ONE OF: 3 4 THEN NODE N : : 45 : 91.1% : 8.9% 6 IF coapp EQUALS CO-APPLICANT AND employed IS ONE OF: 1 2 AND other EQUALS NONE AND checking IS ONE OF: 3 4 THEN NODE N IF duration < 22.5 : : : 1 0.0% 18

GOOD BAD

GOOD BAD

AND savings IS ONE OF: 1 2 3 AND checking IS ONE OF: 1 2 THEN NODE N : : 134 : 87.1% : 12.9% 8

: 100.0%

IF coapp EQUALS NONE AND employed IS ONE OF: 1 2 AND other EQUALS NONE AND checking IS ONE OF: 3 4 THEN NODE : 43 : 93.7% : 6.3% 19

GOOD BAD

IF

22.5 <= duration

AND savings IS ONE OF: 1 2 3 AND checking IS ONE OF: 1 2 THEN NODE N : : 85 9

GOOD BAD

17Tehnici

Avansate de Data Mining


: 69.2% : 30.8%

GOOD BAD

Tabelul 3. Rezultate reguli care stau la baza construirii arborelui


10. Se adaug nodul Assessment i se alege LiftChart.

Rezultate:

Figura 16. Rezultate Assessment n aceast diagram cazurile clienilor sunt grupate de la stnga la dreapta de persoanele fizice care sunt susceptibile de a fi acceptate aa cum s-a dorit n fiecare model statistic. Grupul este mprit apoi n zece decile de-a lungul axei X. Decila cea mai din stnga reprezint 10 % din clienii cei mai susceptibili de a fi acceptai.

18Tehnici

Avansate de Data Mining

Figura 17. Rezultate Assessment Pentru modelul de regresie, se observ c 97,92% reprezint solicitanii de credit consideraii bun-platnici. Scopul modelelor de predicie este de a fi aplicate pe un nou set de date care nu conin o valoare target i de a clasifica solicitanii de credit, ca metoda am ales reelele neuronale.
11. Se adaug nodul Input Data Source (credit2.xls) i i se stabilesc proprietile (rol:

Score).
12. Se adaug nodul Score i I se stabilesc proprietile (SettingsApply training

data score code to score data set i Score codeAssessment).


13. Se adaug nodul Distribution Explorer i i se stabilesc proprietile.

Cnd marcm credit2.xls Enterprise Miner creeaz automat mai multe variabile marcate cum ar fi valorile prezise, reziduri, clasificri. Dintre acestea cele mai importante sunt : EL_GOOD_BAD (conine valorile pierderilor anticipate pentru luarea deciziei bune) i D_GOOD_BAD (atribuie statutul acceptat sau respins solicitanilor din setul de date). Rezultate:

19Tehnici

Avansate de Data Mining

Figura 18. Histograma pierderilor anticipate pentru luarea deciziei bune Solicitanii care au valorile pierderilor (barele de culoare galben ) negative reprezint clienii care prezint un risc de credit bun. Acestor clienii li se atribuie decizia accept (D_GOOD_BAD=accept). Barele roii i portocalii reprezint clienii care prezint un risc de credit ru. Deoarece aceti clieni au valorile pierderilor pozitive li se atribuie decizia reject (D_GOOD_BAD=reject).

20Tehnici

Avansate de Data Mining


Figura 19. Histograma clienilor acceptai i respini

Se observ c celor 75% din solicitani li se atribuie decizia accept iar celor 25% li se atribuie decizia reject.
14. Se adaug nodul SAS Code.

Am utilizat nodul SAS Code pentru a creea un set de date ce conine doar clienii care prezint un risc de credit bun (statut=accept).

Figura 20. Cod SAS

21Tehnici

Avansate de Data Mining

Figura 21. Rezultate Cod SAS