Sas

Referat Tehnici Avansate de Data Mining
PREDICIA RISCULUI DE CREDITARE UTILIZND MODELE DE CREDIT SCORING DE TIP DATA MINING
2012 1. Introducere
2Tehnici
Avansate de Data Mining
Credit scoring-ul este un instrument folosit n evaluarea profilului solicitantului de credit. Credit scoring-ul este de fapt un studiu bazat pe analize statistice cu caracter istoric. Acestea permit modelri ale unor comportamente specifice ale diferitelor segmente de clieni, dar i fundamentarea pe baze tiinifice a rspunsului afirmativ/negativ, care va fi formulat pentru o cerere de acordare de credit. Unul din scopurile acestui studiu este de a introduce n aplicaie cele mai frecvente variabile utilizate n sistemul de credit scoring. Un alt scop este de a compara rezultatele obinute utiliznd diferite modele statistice i anume regresia logistic, reele neuronale i arbori de decizie . Credit scoring-ul are la baz principiul conform cruia comportamentul noilor solicitani de credit va fi similar modelului de comportament al unor solicitani anteriori. Se d urmtoarea problem: Presupunem c o banc dispune de informaii privind clienii si, att despre cei bun platnici (care ramburseaz creditul fr probleme) ct i despre cei ru platnici (care au avut probleme cu rambursarea creditului pe parcurs). Aceste informaii se pot referi la vrst, starea socila, stabilitatea locului de munc, etc. Cnd apare un client nou care solicit un credit, banca trebuie s decid dac s-i acorde sau nu mprumutul solicitat. Pentru banc, acest posibil nou client este un individ descris prin caracteristicile sale: vrst, starea social, stabilitatea locului de munc, etc. Plecnd de la aceast problem ne propunem s utilizm cele trei modele statistice (regresia logistic, arbori de decizie i reele neuronale) pentru a clasifica clienii n dou categorii (acceptat sau respins).
2. Modele statistice folosite

Pentru atingerea scopului au fost folosite urmtoarele noduri: Permite alegerea modelului liniar sau logistic pentru datele analizate, precum i metodele folosite, de exemplu Stepwise, Forward, Backward. Permite construirea, antrenarea i validarea reelelor neuronale feed-forward multistrat.
Regression
Neural Network
Decission Tree
Permite divizarea multilateral a bazei de date ce conine variabile categoriale, nominale i ordinale. Totodat se poate salva arborele de decizie i regulile.
3Tehnici

Are rolul de a citi o surs de date i de a crea un set de date de intrare. Dup ce au fost stabilite datele de intrare, ele sunt preluate de nodurile urmtoare pentru o prelucrare ulterioar. Se ocup cu partiionarea datelor n date de antrenament (pentru aranjarea modelului preliminar), date de test (doar dac setul de date este foarte mare) i date de validare (pentru monitorizarea i reglarea modelului dar i pentru evaluarea modelului). Folosete eantionarea aleatorie simpl, eantionarea aleatorie stratificat, sau o partiionare definit de utilizator pentru a crea seturi de date de antrenament, de validare, sau de test. Permite transformarea variabilelor, de exemplu permite transformarea variabilelor prin extragerea rdcinii ptrate a unei variabile, prin maximizarea corelaiei cu variabila target sau normalizarea variabilelor. Permite compararea modelor statistice folosite construind diverse diagrame.
Input Data
Data Partition
Transform Variables
Assessment
Score
Permite generarea i gestionarea valorile obinute dintr-un model de antrenare.
Distribution Explorer
Permite explorarea unor volume mari de date, prin intermediul histogramelor multidimensionale (permite vizualizarea unei repartiii de pn la trei variabile la un moment dat) i observarea relaiilor dintre variabile, valorile anormale ale variabilelor, sau valorile lips. Permite scrierea de cod SAS.
SAS Code
Tabelul 1. Descrierea nodurilor folosite
4Tehnici
Regresia Logistic
Regresia logistic modeleaz relaia dintre o mulime de variabile independente xi (categoriale, continue) i o variabil dependent (nominal, binar) y. O astfel de variabil dependent apare, de regul, atunci cnd reprezint apartenena la dou clase, categorii present/absent, da/nu, acceptat/respins, etc. Ecuaia de regresie obinut, ofer informaii despre:
importana variabilelor n diferenierea claselor; clasificarea unei observaii ntr-o clas;
Arborii de Decizie
Arborii de decizie reprezint un instrument puternic pentru clasificare i predicie fiind reprezentaii de reguli. Utilizarea arborilor de decizie ca instrumente data mining presupune:

descrierea atributelor valoare ( un atribut valoare reprezint un obiect sau caz ce poate fi exprimat n termenii unei colecii fixe de atribute); predefinirea claselor, respectiv a atributelor valoare int (o clas se constitue dintr-o categorie n care se ncadreaz exemplele stabilite dinainte, implicit datele supervizate); identificarea claselor discrete (un caz poate aparine sau nu unei clase particulare i de aceea trebuie s existe mai multe cazuri dect clase); utilizarea unui volum semnificativ de date de antrenare (se folosesc de obicei sute sau mii de cazuri de antrenare); arborii de decizie permit generarea de reguli uor interpretabile; arborii de decizie clasific fr a depune eforturi mari din punct de vedere al calculelor; arborii de decizie permit utilizarea att a variabilelor categoriale ct i numerice; arborii de decizie ofer o imagine clar asupra cmpurilor care sunt cele mai importante pentru predicie sau clasificare; arborii de decizie sunt mai puin adecvai n cazul problemelor de estimare atunci cnd scopul este reprezentat de predicia valorii unui atribut de tip numeric; arborii de decizie sunt supui erorilor n problemele de clasificare cu multe clase i cu un numr relativ mic de example de antrenare; procesul de antrenare al arborilor de decizie poate fi dificil.
ntre principalele avantaje ale metodei arborilor de decizie pot fi menionate:
Pe de alt parte aceast metod prezin i anumite dezavantaje, cum ar fi:
Reele Neuronale Artificiale

Reelele neuronale artificiale sunt sisteme de prelucrare a informaiei a cror structur i funcionare sunt inspirate de procese cognitive i structuri de organizare ale sistemelor neurobiologice. Elementele componente ale unei reele sunt strns interconectate i se numesc neuroni.
5Tehnici
Arhitectura reelei se refer la numrul de straturi, numrul de neuroni corespunztor fiecrui strat i modul n care acetia sunt interconectai. Cele mai utilizate arhitecturi de reele neuronale artificial sunt cele de tip feed-forward multistrat( perceptronul multistrat). Aceast arhitectur se numete feed-forward (cu propagare nainte) pentru c semnalele se transmit ntr-o singur direcie: de la intrare spre ieire. n cadrul tehnicilor data mining, reelele neuronale sunt utilizate la rezolvarea problemelor de clasificare a tiparelor. De exemplu, problemele de reinere a clienilor unei bnci, a identificrii acelora care intenioneaz s renune la serviciile unei bnci, situaiile de fraud, situaile de faliment determinate de aa numii clieni ru-platnici. Prin evaluarea riscului achiziionrii unui client, precum i a riscului acordrii unui credit se poate face o predicie, astfel ca banca s poat elabora decizii dup analizarea profilului clientului, evitnd o posibil situaie neplcut.
1. Descrierea modului de implementare

Baza de date conine 1.000 de nregistrri, din care 700 de nregistrri descriu clienii buni-platnici iar 300 clienii ru-platnici. Setul de date cuprinde 21 de atribute din care 14 sunt de tipul Numerical iar 7 sunt de tipul String. Totodat setul de date conine 20 de variabile independente (variabile de intrare) i o variabil dependent (variabil de ieiretarget). Descrierea setului de date: Variabila CHECKING Valoare < 0 DM = 1 0 - 200 DM=2 >= 200 DM = 3 no checking account = 4 DURATION HISTORY 0 = no credits taken/ all credits paid back duly 1 = all credits at this bank paid back duly 2 = existing credits paid back duly till now 3 = delay in paying off in the past input input interval ordinal Duration in months Credit history Rol input Msur ordinal Descriere Status of existing checking account
6Tehnici

4 = critical account/other credits existing (not at this bank)
PURPOSE
car(new) car(used) furniture/equipment radio/television domestic appliances repairs education vacantion retraining business others
input
nominal
Purpose
AMOUNT SAVINGS
< 100 DM = 1 100 500 DM = 2 500 1000 DM = 3 >= 1000 DM = 4 unknown/no savings account = 5
input input
interval ordinal
Credit amount Savings account/bonds
EMPLOYED
unemployed = 1 > 1 year = 2 1 4 years = 3 4 7 years = 4 >= 7 years = 5
input
ordinal
Present employment since
INSTALLP
input
ordinal
Installment rate in percentage of disposable income
7Tehnici

1 = male: divorced, separated 2 = female: divorced, separated, married 3 = male: single 4 = male: married, widowed 5 = female: single input ordinal Personal status and gender
MARITAL
COAPP
none co-applicant guarantor
input
nominal
Other debtors/guarantors
RESIDENT
1 = real estate 2 = if not 1: building society savings agreement / life insurance 3 = if not : car or other, not in attribute 6 4 = unknown/no property
input
ordinal
Date beginning permanent residence Property
PROPERTY
input
ordinal
AGE OTHER bank stores none HOUSING rent own for free EXISTCR
input input
interval nominal
Age in years Other installment plans
input
nominal
Housing
1 = unemployed /
input
ordinal
Number of existing credits at this bank Job
JOB
input
ordinal
8Tehnici

unskilled nonresident 2 = unskilled resident 3 = skilled employee/ official 4 = management/ selfemployed/ highly qualified employee/ oficer
DEPENDS TELEPHONE none yes FOREIGN GOOD_BAD yes no good bad
input input
binary binary
Number of depends Telephone
input target
binary binary
Foreign worker Good or bad credit rating
Tabelul 2. Descrierea variabilelor folosite
Diagrama proiectului
Figura 1. Diagrama proiectului
Implementarea aplicaiei 1. Se ncarc fiierele surs credit.xls i credit2.xls.
9Tehnici
2. Se lanseaz n execuie instrumental Enterprise Miner. 3. Se creeaz un nou proiect i o nou diagram. 4. Se adaug primul nod al diagramei i anume Input Dara Source i se stabilesc proprietile nodului.
Figura 2. Stabilirea proprietilor nodului Input Data
Figura 3. Stabilirea rolurilor variabilei n model
10Tehnici
Figura 4. Editarea profilului variabilei target Rndurile reprezint valorile int iar coloanele reprezin deciziile. n aceast matrice se evideniaz faptul c este de cinci ori mai grav s acceptm un client ru-platnic dect a respinge un client bun-platnic. Dac acceptm un client bun-platnic vom avea profit iar pierderea va fi negativ. Dac respingem un client fie el bun sau ru platinic nu vom avea nici profit i nici pierdere.
5. Se adaug nodul Data Partition i se stabilesc proprietile acestuia (metoda de
partiionare i procentele associate datelor de antrenare, validare i test).
Figura 5. Stabilirea metodei de partiie a datelor i a procentelor pentru datele de antrenare validare i testare.
11Tehnici
Figura 6. Stabilirea statutului variabilei target

6. Se adaug nodul Transform Variables i se stabilesc proprietile nodului.
Figura 7. Distribuia variabilei AMOUNT Se poate observa c variabila AMOUNT nu are o distribuie uniform, valorile extreme pot provoca imprecizie pentru parametrii estimai. Din acest motiv vom normaliza variabila AMOUNT, AMOUNTTransformMaximize normality.
12Tehnici
Figura 8. Distribuia variabilei log(AMOUNT) Folosind acest nod putem transforma o variabil interval ntr-un grup de variabile. Deoarece suntem interesai n aplicaia noastr s folosim un grup particular de vrst vom creea un grup de variabile pentru variabila AGE, AGETransformBucket(4).
Figura 9. Distribuia variabilei AGE

7. Se adaug nodul Regression i i se stabilesc proprietile (metoda, modelul de
regresie).
13Tehnici
Figura 10. Stabilirea proprietilor nodului Regression
Rezultate:
Figura 11. Statistica T-score pentru variabilele analizate
14Tehnici
Se observ valoarea minim i valoarea maxim a variabilei T-score i anume -4.410283962 i 4.5527113746. Cele mai importante variabile pentru predicia modelului sunt CHECKING, DURATION, HISTORY,SAVINGS i COAPP. Se observ c variabile definite n nodul Transform Variabiles nu influeneaz efectul T-score. Pierderea medie din setul cazurilor de validare este aproximativ -54 ajustat pentru probabilitatea apriori pe care am specificat-o n profilul variabilei target.
8. Se adaug nodul Neural Network i i se stabilesc proprietile.
Figura 12. Crearea reelei de tip perceptron cu 3 straturi ascunse Rezultate:
Figura 13. Rezultate reea neuronal Se observ c eroarea medie optim a fost realizat la iteraia 43. Dup iteraia 43 apare o supraantrenare doar n ceea ce privete datele de validare. 9. Se adaug nodul Tree i i se stabilesc proprietile. Rezultate:
15Tehnici
Figura 14. Rezultate nodul Tree Tabelul din colul din stnga sus rezum procesul de clasificare general. Cellalt tabel afieaz valorile de antrenare i de validare pentru creterea complexitii arborelui.
Figura 15. Rezultate arbore
IF savings IS ONE OF: 4 5
IF employed IS ONE OF: 3 4 5
16Tehnici

AND other EQUALS NONE AND checking IS ONE OF: 3 4 : 66 : 93.0% : 7.0% 5 THEN NODE N : : 13 225 : 98.1% : 1.9%
AND checking IS ONE OF: 1 2 THEN NODE N :
GOOD BAD
GOOD BAD
IF other IS ONE OF: BANK STORES AND checking IS ONE OF: 3 4 THEN NODE N : : 45 : 91.1% : 8.9% 6 IF coapp EQUALS CO-APPLICANT AND employed IS ONE OF: 1 2 AND other EQUALS NONE AND checking IS ONE OF: 3 4 THEN NODE N IF duration < 22.5 : : : 1 0.0% 18
GOOD BAD
GOOD BAD
AND savings IS ONE OF: 1 2 3 AND checking IS ONE OF: 1 2 THEN NODE N : : 134 : 87.1% : 12.9% 8
: 100.0%
IF coapp EQUALS NONE AND employed IS ONE OF: 1 2 AND other EQUALS NONE AND checking IS ONE OF: 3 4 THEN NODE : 43 : 93.7% : 6.3% 19
GOOD BAD
IF
22.5 <= duration
AND savings IS ONE OF: 1 2 3 AND checking IS ONE OF: 1 2 THEN NODE N : : 85 9
GOOD BAD
17Tehnici

: 69.2% : 30.8%
GOOD BAD
Tabelul 3. Rezultate reguli care stau la baza construirii arborelui

10. Se adaug nodul Assessment i se alege LiftChart.
Rezultate:
Figura 16. Rezultate Assessment n aceast diagram cazurile clienilor sunt grupate de la stnga la dreapta de persoanele fizice care sunt susceptibile de a fi acceptate aa cum s-a dorit n fiecare model statistic. Grupul este mprit apoi n zece decile de-a lungul axei X. Decila cea mai din stnga reprezint 10 % din clienii cei mai susceptibili de a fi acceptai.
18Tehnici
Figura 17. Rezultate Assessment Pentru modelul de regresie, se observ c 97,92% reprezint solicitanii de credit consideraii bun-platnici. Scopul modelelor de predicie este de a fi aplicate pe un nou set de date care nu conin o valoare target i de a clasifica solicitanii de credit, ca metoda am ales reelele neuronale.
11. Se adaug nodul Input Data Source (credit2.xls) i i se stabilesc proprietile (rol:
Score).
12. Se adaug nodul Score i I se stabilesc proprietile (SettingsApply training
data score code to score data set i Score codeAssessment).

13. Se adaug nodul Distribution Explorer i i se stabilesc proprietile.
Cnd marcm credit2.xls Enterprise Miner creeaz automat mai multe variabile marcate cum ar fi valorile prezise, reziduri, clasificri. Dintre acestea cele mai importante sunt : EL_GOOD_BAD (conine valorile pierderilor anticipate pentru luarea deciziei bune) i D_GOOD_BAD (atribuie statutul acceptat sau respins solicitanilor din setul de date). Rezultate:
19Tehnici
Figura 18. Histograma pierderilor anticipate pentru luarea deciziei bune Solicitanii care au valorile pierderilor (barele de culoare galben ) negative reprezint clienii care prezint un risc de credit bun. Acestor clienii li se atribuie decizia accept (D_GOOD_BAD=accept). Barele roii i portocalii reprezint clienii care prezint un risc de credit ru. Deoarece aceti clieni au valorile pierderilor pozitive li se atribuie decizia reject (D_GOOD_BAD=reject).
20Tehnici

Figura 19. Histograma clienilor acceptai i respini
Se observ c celor 75% din solicitani li se atribuie decizia accept iar celor 25% li se atribuie decizia reject.
14. Se adaug nodul SAS Code.
Am utilizat nodul SAS Code pentru a creea un set de date ce conine doar clienii care prezint un risc de credit bun (statut=accept).
Figura 20. Cod SAS
21Tehnici
Figura 21. Rezultate Cod SAS

Sas

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Sas

Încărcat de

Drepturi de autor:

Formate disponibile

Referat Tehnici Avansate de Data Mining

Avansate de Data Mining

2. Modele statistice folosite

Avansate de Data Mining

Permite generarea i gestionarea valorile obinute dintr-un model de antrenare.

Tabelul 1. Descrierea nodurilor folosite

Avansate de Data Mining

importana variabilelor n diferenierea claselor; clasificarea unei observaii ntr-o clas;

ntre principalele avantaje ale metodei arborilor de decizie pot fi menionate:

Pe de alt parte aceast metod prezin i anumite dezavantaje, cum ar fi:

Reele Neuronale Artificiale

Avansate de Data Mining

1. Descrierea modului de implementare

Avansate de Data Mining

Credit amount Savings account/bonds

unemployed = 1 > 1 year = 2 1 4 years = 3 4 7 years = 4 >= 7 years = 5

Present employment since

Installment rate in percentage of disposable income

Avansate de Data Mining

none co-applicant guarantor

Date beginning permanent residence Property

Age in years Other installment plans

Number of existing credits at this bank Job

Avansate de Data Mining

DEPENDS TELEPHONE none yes FOREIGN GOOD_BAD yes no good bad

Number of depends Telephone

Foreign worker Good or bad credit rating

Tabelul 2. Descrierea variabilelor folosite

Figura 1. Diagrama proiectului

Implementarea aplicaiei 1. Se ncarc fiierele surs credit.xls i credit2.xls.

Avansate de Data Mining

Figura 2. Stabilirea proprietilor nodului Input Data

Figura 3. Stabilirea rolurilor variabilei n model

Avansate de Data Mining

partiionare i procentele associate datelor de antrenare, validare i test).

Avansate de Data Mining

Figura 6. Stabilirea statutului variabilei target

Avansate de Data Mining

Figura 9. Distribuia variabilei AGE

Avansate de Data Mining

Figura 10. Stabilirea proprietilor nodului Regression

Figura 11. Statistica T-score pentru variabilele analizate

Avansate de Data Mining

Figura 12. Crearea reelei de tip perceptron cu 3 straturi ascunse Rezultate:

Avansate de Data Mining

Figura 15. Rezultate arbore

IF savings IS ONE OF: 4 5

IF employed IS ONE OF: 3 4 5

Avansate de Data Mining

AND checking IS ONE OF: 1 2 THEN NODE N :

22.5 <= duration

Avansate de Data Mining

Tabelul 3. Rezultate reguli care stau la baza construirii arborelui

Avansate de Data Mining

data score code to score data set i Score codeAssessment).

Avansate de Data Mining

Avansate de Data Mining

Figura 20. Cod SAS

Avansate de Data Mining

Figura 21. Rezultate Cod SAS

S-ar putea să vă placă și