Documente Academic
Documente Profesional
Documente Cultură
PREDICIA RISCULUI DE CREDITARE UTILIZND MODELE DE CREDIT SCORING DE TIP DATA MINING
2012 1. Introducere
2Tehnici
Credit scoring-ul este un instrument folosit n evaluarea profilului solicitantului de credit. Credit scoring-ul este de fapt un studiu bazat pe analize statistice cu caracter istoric. Acestea permit modelri ale unor comportamente specifice ale diferitelor segmente de clieni, dar i fundamentarea pe baze tiinifice a rspunsului afirmativ/negativ, care va fi formulat pentru o cerere de acordare de credit. Unul din scopurile acestui studiu este de a introduce n aplicaie cele mai frecvente variabile utilizate n sistemul de credit scoring. Un alt scop este de a compara rezultatele obinute utiliznd diferite modele statistice i anume regresia logistic, reele neuronale i arbori de decizie . Credit scoring-ul are la baz principiul conform cruia comportamentul noilor solicitani de credit va fi similar modelului de comportament al unor solicitani anteriori. Se d urmtoarea problem: Presupunem c o banc dispune de informaii privind clienii si, att despre cei bun platnici (care ramburseaz creditul fr probleme) ct i despre cei ru platnici (care au avut probleme cu rambursarea creditului pe parcurs). Aceste informaii se pot referi la vrst, starea socila, stabilitatea locului de munc, etc. Cnd apare un client nou care solicit un credit, banca trebuie s decid dac s-i acorde sau nu mprumutul solicitat. Pentru banc, acest posibil nou client este un individ descris prin caracteristicile sale: vrst, starea social, stabilitatea locului de munc, etc. Plecnd de la aceast problem ne propunem s utilizm cele trei modele statistice (regresia logistic, arbori de decizie i reele neuronale) pentru a clasifica clienii n dou categorii (acceptat sau respins).
Regression
Neural Network
Decission Tree
Permite divizarea multilateral a bazei de date ce conine variabile categoriale, nominale i ordinale. Totodat se poate salva arborele de decizie i regulile.
3Tehnici
Input Data
Data Partition
Transform Variables
Assessment
Score
Distribution Explorer
Permite explorarea unor volume mari de date, prin intermediul histogramelor multidimensionale (permite vizualizarea unei repartiii de pn la trei variabile la un moment dat) i observarea relaiilor dintre variabile, valorile anormale ale variabilelor, sau valorile lips. Permite scrierea de cod SAS.
SAS Code
4Tehnici
Regresia Logistic
Regresia logistic modeleaz relaia dintre o mulime de variabile independente xi (categoriale, continue) i o variabil dependent (nominal, binar) y. O astfel de variabil dependent apare, de regul, atunci cnd reprezint apartenena la dou clase, categorii present/absent, da/nu, acceptat/respins, etc. Ecuaia de regresie obinut, ofer informaii despre:
Arborii de Decizie
Arborii de decizie reprezint un instrument puternic pentru clasificare i predicie fiind reprezentaii de reguli. Utilizarea arborilor de decizie ca instrumente data mining presupune:
descrierea atributelor valoare ( un atribut valoare reprezint un obiect sau caz ce poate fi exprimat n termenii unei colecii fixe de atribute); predefinirea claselor, respectiv a atributelor valoare int (o clas se constitue dintr-o categorie n care se ncadreaz exemplele stabilite dinainte, implicit datele supervizate); identificarea claselor discrete (un caz poate aparine sau nu unei clase particulare i de aceea trebuie s existe mai multe cazuri dect clase); utilizarea unui volum semnificativ de date de antrenare (se folosesc de obicei sute sau mii de cazuri de antrenare); arborii de decizie permit generarea de reguli uor interpretabile; arborii de decizie clasific fr a depune eforturi mari din punct de vedere al calculelor; arborii de decizie permit utilizarea att a variabilelor categoriale ct i numerice; arborii de decizie ofer o imagine clar asupra cmpurilor care sunt cele mai importante pentru predicie sau clasificare; arborii de decizie sunt mai puin adecvai n cazul problemelor de estimare atunci cnd scopul este reprezentat de predicia valorii unui atribut de tip numeric; arborii de decizie sunt supui erorilor n problemele de clasificare cu multe clase i cu un numr relativ mic de example de antrenare; procesul de antrenare al arborilor de decizie poate fi dificil.
5Tehnici
Arhitectura reelei se refer la numrul de straturi, numrul de neuroni corespunztor fiecrui strat i modul n care acetia sunt interconectai. Cele mai utilizate arhitecturi de reele neuronale artificial sunt cele de tip feed-forward multistrat( perceptronul multistrat). Aceast arhitectur se numete feed-forward (cu propagare nainte) pentru c semnalele se transmit ntr-o singur direcie: de la intrare spre ieire. n cadrul tehnicilor data mining, reelele neuronale sunt utilizate la rezolvarea problemelor de clasificare a tiparelor. De exemplu, problemele de reinere a clienilor unei bnci, a identificrii acelora care intenioneaz s renune la serviciile unei bnci, situaiile de fraud, situaile de faliment determinate de aa numii clieni ru-platnici. Prin evaluarea riscului achiziionrii unui client, precum i a riscului acordrii unui credit se poate face o predicie, astfel ca banca s poat elabora decizii dup analizarea profilului clientului, evitnd o posibil situaie neplcut.
6Tehnici
PURPOSE
car(new) car(used) furniture/equipment radio/television domestic appliances repairs education vacantion retraining business others
input
nominal
Purpose
AMOUNT SAVINGS
< 100 DM = 1 100 500 DM = 2 500 1000 DM = 3 >= 1000 DM = 4 unknown/no savings account = 5
input input
interval ordinal
EMPLOYED
input
ordinal
INSTALLP
input
ordinal
7Tehnici
MARITAL
COAPP
input
nominal
Other debtors/guarantors
RESIDENT
1 = real estate 2 = if not 1: building society savings agreement / life insurance 3 = if not : car or other, not in attribute 6 4 = unknown/no property
input
ordinal
PROPERTY
input
ordinal
AGE OTHER bank stores none HOUSING rent own for free EXISTCR
input input
interval nominal
input
nominal
Housing
1 = unemployed /
input
ordinal
JOB
input
ordinal
8Tehnici
input input
binary binary
input target
binary binary
Diagrama proiectului
9Tehnici
2. Se lanseaz n execuie instrumental Enterprise Miner. 3. Se creeaz un nou proiect i o nou diagram. 4. Se adaug primul nod al diagramei i anume Input Dara Source i se stabilesc proprietile nodului.
10Tehnici
Figura 4. Editarea profilului variabilei target Rndurile reprezint valorile int iar coloanele reprezin deciziile. n aceast matrice se evideniaz faptul c este de cinci ori mai grav s acceptm un client ru-platnic dect a respinge un client bun-platnic. Dac acceptm un client bun-platnic vom avea profit iar pierderea va fi negativ. Dac respingem un client fie el bun sau ru platinic nu vom avea nici profit i nici pierdere.
5. Se adaug nodul Data Partition i se stabilesc proprietile acestuia (metoda de
Figura 5. Stabilirea metodei de partiie a datelor i a procentelor pentru datele de antrenare validare i testare.
11Tehnici
Figura 7. Distribuia variabilei AMOUNT Se poate observa c variabila AMOUNT nu are o distribuie uniform, valorile extreme pot provoca imprecizie pentru parametrii estimai. Din acest motiv vom normaliza variabila AMOUNT, AMOUNTTransformMaximize normality.
12Tehnici
Figura 8. Distribuia variabilei log(AMOUNT) Folosind acest nod putem transforma o variabil interval ntr-un grup de variabile. Deoarece suntem interesai n aplicaia noastr s folosim un grup particular de vrst vom creea un grup de variabile pentru variabila AGE, AGETransformBucket(4).
regresie).
13Tehnici
Rezultate:
14Tehnici
Se observ valoarea minim i valoarea maxim a variabilei T-score i anume -4.410283962 i 4.5527113746. Cele mai importante variabile pentru predicia modelului sunt CHECKING, DURATION, HISTORY,SAVINGS i COAPP. Se observ c variabile definite n nodul Transform Variabiles nu influeneaz efectul T-score. Pierderea medie din setul cazurilor de validare este aproximativ -54 ajustat pentru probabilitatea apriori pe care am specificat-o n profilul variabilei target.
8. Se adaug nodul Neural Network i i se stabilesc proprietile.
Figura 13. Rezultate reea neuronal Se observ c eroarea medie optim a fost realizat la iteraia 43. Dup iteraia 43 apare o supraantrenare doar n ceea ce privete datele de validare. 9. Se adaug nodul Tree i i se stabilesc proprietile. Rezultate:
15Tehnici
Figura 14. Rezultate nodul Tree Tabelul din colul din stnga sus rezum procesul de clasificare general. Cellalt tabel afieaz valorile de antrenare i de validare pentru creterea complexitii arborelui.
16Tehnici
GOOD BAD
GOOD BAD
IF other IS ONE OF: BANK STORES AND checking IS ONE OF: 3 4 THEN NODE N : : 45 : 91.1% : 8.9% 6 IF coapp EQUALS CO-APPLICANT AND employed IS ONE OF: 1 2 AND other EQUALS NONE AND checking IS ONE OF: 3 4 THEN NODE N IF duration < 22.5 : : : 1 0.0% 18
GOOD BAD
GOOD BAD
AND savings IS ONE OF: 1 2 3 AND checking IS ONE OF: 1 2 THEN NODE N : : 134 : 87.1% : 12.9% 8
: 100.0%
IF coapp EQUALS NONE AND employed IS ONE OF: 1 2 AND other EQUALS NONE AND checking IS ONE OF: 3 4 THEN NODE : 43 : 93.7% : 6.3% 19
GOOD BAD
IF
AND savings IS ONE OF: 1 2 3 AND checking IS ONE OF: 1 2 THEN NODE N : : 85 9
GOOD BAD
17Tehnici
GOOD BAD
Rezultate:
Figura 16. Rezultate Assessment n aceast diagram cazurile clienilor sunt grupate de la stnga la dreapta de persoanele fizice care sunt susceptibile de a fi acceptate aa cum s-a dorit n fiecare model statistic. Grupul este mprit apoi n zece decile de-a lungul axei X. Decila cea mai din stnga reprezint 10 % din clienii cei mai susceptibili de a fi acceptai.
18Tehnici
Figura 17. Rezultate Assessment Pentru modelul de regresie, se observ c 97,92% reprezint solicitanii de credit consideraii bun-platnici. Scopul modelelor de predicie este de a fi aplicate pe un nou set de date care nu conin o valoare target i de a clasifica solicitanii de credit, ca metoda am ales reelele neuronale.
11. Se adaug nodul Input Data Source (credit2.xls) i i se stabilesc proprietile (rol:
Score).
12. Se adaug nodul Score i I se stabilesc proprietile (SettingsApply training
Cnd marcm credit2.xls Enterprise Miner creeaz automat mai multe variabile marcate cum ar fi valorile prezise, reziduri, clasificri. Dintre acestea cele mai importante sunt : EL_GOOD_BAD (conine valorile pierderilor anticipate pentru luarea deciziei bune) i D_GOOD_BAD (atribuie statutul acceptat sau respins solicitanilor din setul de date). Rezultate:
19Tehnici
Figura 18. Histograma pierderilor anticipate pentru luarea deciziei bune Solicitanii care au valorile pierderilor (barele de culoare galben ) negative reprezint clienii care prezint un risc de credit bun. Acestor clienii li se atribuie decizia accept (D_GOOD_BAD=accept). Barele roii i portocalii reprezint clienii care prezint un risc de credit ru. Deoarece aceti clieni au valorile pierderilor pozitive li se atribuie decizia reject (D_GOOD_BAD=reject).
20Tehnici
Se observ c celor 75% din solicitani li se atribuie decizia accept iar celor 25% li se atribuie decizia reject.
14. Se adaug nodul SAS Code.
Am utilizat nodul SAS Code pentru a creea un set de date ce conine doar clienii care prezint un risc de credit bun (statut=accept).
21Tehnici