Referat Tehnici Avansate de Data Mining

Referat Tehnici Avansate de Data Mining
PREDICIA RISCULUI DE CREDITARE UTILIZND MODELE DE

CREDIT SCORING DE TIP DATA MINING
2012
2 Tehnici Avansate de Data Mining
1. Introducere
Credit scoring-ul este un instrument folosit n evaluarea profilului solicitantului de

credit. Credit scoring-ul este de fapt un studiu bazat pe analize statistice cu caracter istoric.
Acestea permit modelri ale unor comportamente specifice ale diferitelor segmente de clieni,
dar i fundamentarea pe baze tiinifice a rspunsului afirmativ/negativ, care va fi formulat
pentru o cerere de acordare de credit.
Unul din scopurile acestui studiu este de a introduce n aplicaie cele mai frecvente
variabile utilizate n sistemul de credit scoring. Un alt scop este de a compara rezultatele
obinute utiliznd diferite modele statistice i anume regresia logistic, reele neuronale i
arbori de decizie .
Credit scoring-ul are la baz principiul conform cruia comportamentul noilor
solicitani de credit va fi similar modelului de comportament al unor solicitani anteriori.
Se d urmtoarea problem: Presupunem c o banc dispune de informaii privind
clienii si, att despre cei bun platnici (care ramburseaz creditul fr probleme) ct i despre
cei ru platnici (care au avut probleme cu rambursarea creditului pe parcurs). Aceste
informaii se pot referi la vrst, starea socila, stabilitatea locului de munc, etc. Cnd apare
un client nou care solicit un credit, banca trebuie s decid dac s-i acorde sau nu
mprumutul solicitat. Pentru banc, acest posibil nou client este un individ descris prin
caracteristicile sale: vrst, starea social, stabilitatea locului de munc, etc.
Plecnd de la aceast problem ne propunem s utilizm cele trei modele statistice
(regresia logistic, arbori de decizie i reele neuronale) pentru a clasifica clienii n dou
categorii (acceptat sau respins).
2. Modele statistice folosite
Pentru atingerea scopului au fost folosite urmtoarele noduri:
Permite alegerea modelului liniar sau logistic

pentru datele analizate, precum i metodele
Regression folosite, de exemplu Stepwise, Forward,
Backward.
Permite construirea, antrenarea i validarea
reelelor neuronale feed-forward multistrat.
Neural Network
Permite divizarea multilateral a bazei de date

ce conine variabile categoriale, nominale i
Decission Tree ordinale. Totodat se poate salva arborele de
decizie i regulile.
Are rolul de a citi o surs de date i de a crea

un set de date de intrare. Dup ce au fost
Input Data stabilite datele de intrare, ele sunt preluate de
nodurile urmtoare pentru o prelucrare
ulterioar.
Se ocup cu partiionarea datelor n date de
antrenament (pentru aranjarea modelului
Data Partition preliminar), date de test (doar dac setul de
date este foarte mare) i date de validare
(pentru monitorizarea i reglarea modelului dar
i pentru evaluarea modelului). Folosete
eantionarea aleatorie simpl, eantionarea
aleatorie stratificat, sau o partiionare definit
de utilizator pentru a crea seturi de date de
antrenament, de validare, sau de test.
Permite transformarea variabilelor, de exemplu
permite transformarea variabilelor prin
Transform extragerea rdcinii ptrate a unei variabile,
Variables prin maximizarea corelaiei cu variabila target
sau normalizarea variabilelor.
Permite compararea modelor statistice folosite
construind diverse diagrame.
Assessment
Permite generarea i gestionarea valorile

obinute dintr-un model de antrenare.
Score
Permite explorarea unor volume mari de date,

prin intermediul histogramelor
Distribution multidimensionale (permite vizualizarea unei
Explorer repartiii de pn la trei variabile la un moment
dat) i observarea relaiilor dintre variabile,
valorile anormale ale variabilelor, sau valorile
lips.
Permite scrierea de cod SAS.
SAS Code
Tabelul 1. Descrierea nodurilor folosite
Regresia Logistic
Regresia logistic modeleaz relaia dintre o mulime de variabile independente xi
(categoriale, continue) i o variabil dependent (nominal, binar) y. O astfel de variabil
dependent apare, de regul, atunci cnd reprezint apartenena la dou clase, categorii
present/absent, da/nu, acceptat/respins, etc.
Ecuaia de regresie obinut, ofer informaii despre:
- importana variabilelor n diferenierea claselor;
- clasificarea unei observaii ntr-o clas;
Arborii de Decizie
Arborii de decizie reprezint un instrument puternic pentru clasificare i predicie
fiind reprezentaii de reguli.
Utilizarea arborilor de decizie ca instrumente data mining presupune:
- descrierea atributelor valoare ( un atribut valoare reprezint un obiect sau caz ce
poate fi exprimat n termenii unei colecii fixe de atribute);
- predefinirea claselor, respectiv a atributelor valoare int (o clas se constitue
dintr-o categorie n care se ncadreaz exemplele stabilite dinainte, implicit datele
supervizate);
- identificarea claselor discrete (un caz poate aparine sau nu unei clase particulare
i de aceea trebuie s existe mai multe cazuri dect clase);
- utilizarea unui volum semnificativ de date de antrenare (se folosesc de obicei sute
sau mii de cazuri de antrenare);
ntre principalele avantaje ale metodei arborilor de decizie pot fi menionate:
- arborii de decizie permit generarea de reguli uor interpretabile;
- arborii de decizie clasific fr a depune eforturi mari din punct de vedere al
calculelor;
- arborii de decizie permit utilizarea att a variabilelor categoriale ct i numerice;
- arborii de decizie ofer o imagine clar asupra cmpurilor care sunt cele mai
importante pentru predicie sau clasificare;
Pe de alt parte aceast metod prezin i anumite dezavantaje, cum ar fi:
- arborii de decizie sunt mai puin adecvai n cazul problemelor de estimare atunci
cnd scopul este reprezentat de predicia valorii unui atribut de tip numeric;
- arborii de decizie sunt supui erorilor n problemele de clasificare cu multe clase
i cu un numr relativ mic de example de antrenare;
- procesul de antrenare al arborilor de decizie poate fi dificil.
Reele Neuronale Artificiale

Reelele neuronale artificiale sunt sisteme de prelucrare a informaiei a cror structur
i funcionare sunt inspirate de procese cognitive i structuri de organizare ale sistemelor
neurobiologice.
Elementele componente ale unei reele sunt strns interconectate i se numesc
neuroni.
Arhitectura reelei se refer la numrul de straturi, numrul de neuroni corespunztor
fiecrui strat i modul n care acetia sunt interconectai. Cele mai utilizate arhitecturi de
reele neuronale artificial sunt cele de tip feed-forward multistrat( perceptronul multistrat).
Aceast arhitectur se numete feed-forward (cu propagare nainte) pentru c semnalele se

transmit ntr-o singur direcie: de la intrare spre ieire.
n cadrul tehnicilor data mining, reelele neuronale sunt utilizate la rezolvarea
problemelor de clasificare a tiparelor. De exemplu, problemele de reinere a clienilor unei
bnci, a identificrii acelora care intenioneaz s renune la serviciile unei bnci, situaiile de
fraud, situaile de faliment determinate de aa numii clieni ru-platnici. Prin evaluarea
riscului achiziionrii unui client, precum i a riscului acordrii unui credit se poate face o
predicie, astfel ca banca s poat elabora decizii dup analizarea profilului clientului, evitnd
o posibil situaie neplcut.
3. Descrierea modului de implementare
Baza de date conine 1.000 de nregistrri, din care 700 de nregistrri descriu clienii
buni-platnici iar 300 clienii ru-platnici. Setul de date cuprinde 21 de atribute din care 14
sunt de tipul Numerical iar 7 sunt de tipul String. Totodat setul de date conine 20 de
variabile independente (variabile de intrare) i o variabil dependent (variabil de ieire-
target).
Descrierea setului de date:
Variabila Valoare Rol Msur Descriere

< 0 DM = 1
CHECKING input ordinal Status of existing
0 - 200 DM=2 checking account
>= 200 DM = 3
no checking account = 4
DURATION - input interval Duration in months
0 = no credits taken/ all
HISTORY input ordinal Credit history
credits paid back duly
1 = all credits at this
bank paid back duly
2 = existing credits paid
back duly till now
3 = delay in paying off in
the past
4 = critical account/other
credits existing (not at
this bank)
car(new)
PURPOSE input nominal Purpose
car(used)
furniture/equipment
radio/television
domestic appliances
repairs
education
vacantion
retraining
business
others
AMOUNT - input interval Credit amount
< 100 DM = 1
SAVINGS input ordinal Savings account/bonds
100 500 DM = 2
500 1000 DM = 3
>= 1000 DM = 4
unknown/no savings
account = 5
unemployed = 1
EMPLOYED input ordinal Present employment
> 1 year = 2 since
1 4 years = 3
4 7 years = 4
>= 7 years = 5
INSTALLP - input ordinal Installment rate in
percentage of
disposable income
1 = male: divorced,
MARITAL input ordinal Personal status and
separated gender
2 = female: divorced,
separated, married
3 = male: single
4 = male: married,
widowed
5 = female: single
none
COAPP input nominal Other
co-applicant debtors/guarantors
guarantor
RESIDENT - input ordinal Date beginning
permanent residence
1 = real estate
PROPERTY input ordinal Property
2 = if not 1: building
society savings
agreement / life
insurance
3 = if not : car or other,
not in attribute 6
4 = unknown/no property
AGE - input interval Age in years
bank
OTHER input nominal Other installment plans
stores
none
rent
HOUSING input nominal Housing
own
for free
EXISTCR - input ordinal Number of existing
credits at this bank
1 = unemployed /
JOB input ordinal Job
unskilled nonresident
2 = unskilled resident
3 = skilled employee/
official
4 = management/ self-
employed/ highly
qualified employee/
oficer
DEPENDS - input binary Number of depends
none
TELEPHONE input binary Telephone
yes
yes
FOREIGN input binary Foreign worker
no
GOOD_BAD good target binary Good or bad credit
bad rating
Tabelul 2. Descrierea variabilelor folosite
Diagrama proiectului
Figura 1. Diagrama proiectului
Implementarea aplicaiei
1. Se ncarc fiierele surs credit.xls i credit2.xls.

2. Se lanseaz n execuie instrumental Enterprise Miner.
3. Se creeaz un nou proiect i o nou diagram.
4. Se adaug primul nod al diagramei i anume Input Dara Source i se stabilesc
proprietile nodului.
Figura 2. Stabilirea proprietilor nodului Input Data
Figura 3. Stabilirea rolurilor variabilei n model

Figura 4. Editarea profilului variabilei target
Rndurile reprezint valorile int iar coloanele reprezin deciziile. n aceast matrice
se evideniaz faptul c este de cinci ori mai grav s acceptm un client ru-platnic dect a
respinge un client bun-platnic. Dac acceptm un client bun-platnic vom avea profit iar
pierderea va fi negativ. Dac respingem un client fie el bun sau ru platinic nu vom avea nici
profit i nici pierdere.
5. Se adaug nodul Data Partition i se stabilesc proprietile acestuia (metoda de
partiionare i procentele associate datelor de antrenare, validare i test).
Figura 5. Stabilirea metodei de partiie a datelor i a procentelor pentru datele de antrenare

validare i testare.
Figura 6. Stabilirea statutului variabilei target
6. Se adaug nodul Transform Variables i se stabilesc proprietile nodului.
Figura 7. Distribuia variabilei AMOUNT
Se poate observa c variabila AMOUNT nu are o distribuie uniform, valorile

extreme pot provoca imprecizie pentru parametrii estimai. Din acest motiv vom normaliza
variabila AMOUNT, AMOUNTTransformMaximize normality.
Figura 8. Distribuia variabilei log(AMOUNT)
Folosind acest nod putem transforma o variabil interval ntr-un grup de variabile.
Deoarece suntem interesai n aplicaia noastr s folosim un grup particular de vrst vom
creea un grup de variabile pentru variabila AGE, AGETransformBucket(4).
Figura 9. Distribuia variabilei AGE
7. Se adaug nodul Regression i i se stabilesc proprietile (metoda, modelul de

regresie).
Figura 10. Stabilirea proprietilor nodului Regression
Rezultate:
Figura 11. Statistica T-score pentru variabilele analizate
Se observ valoarea minim i valoarea maxim a variabilei T-score i anume

-4.410283962 i 4.5527113746. Cele mai importante variabile pentru predicia modelului
sunt CHECKING, DURATION, HISTORY,SAVINGS i COAPP. Se observ c variabile

definite n nodul Transform Variabiles nu influeneaz efectul T-score. Pierderea medie din
setul cazurilor de validare este aproximativ -54 ajustat pentru probabilitatea apriori pe care
am specificat-o n profilul variabilei target.
8. Se adaug nodul Neural Network i i se stabilesc proprietile.
Figura 12. Crearea reelei de tip perceptron cu 3 straturi ascunse
Rezultate:
Figura 13. Rezultate reea neuronal
Se observ c eroarea medie optim a fost realizat la iteraia 43. Dup iteraia 43
apare o supraantrenare doar n ceea ce privete datele de validare.
9. Se adaug nodul Tree i i se stabilesc proprietile.
Rezultate:
Figura 14. Rezultate nodul Tree
Tabelul din colul din stnga sus rezum procesul de clasificare general. Cellalt
tabel afieaz valorile de antrenare i de validare pentru creterea complexitii arborelui.
Figura 15. Rezultate arbore
IF savings IS ONE OF: 4 5 IF employed IS ONE OF: 3 4 5

AND checking IS ONE OF: 1 2 AND other EQUALS NONE
THEN AND checking IS ONE OF: 3 4
NODE : 5 THEN
N : 66 NODE : 13
GOOD : 93.0% N : 225
BAD : 7.0% GOOD : 98.1%
BAD : 1.9%
IF other IS ONE OF: BANK STORES
AND checking IS ONE OF: 3 4 IF coapp EQUALS CO-APPLICANT
THEN AND employed IS ONE OF: 1 2
NODE : 6 AND other EQUALS NONE
N : 45 AND checking IS ONE OF: 3 4
GOOD : 91.1% THEN
BAD : 8.9% NODE : 18
N : 1
IF duration < 22.5 GOOD : 0.0%
AND savings IS ONE OF: 1 2 3 BAD : 100.0%
AND checking IS ONE OF: 1 2
THEN IF coapp EQUALS NONE
NODE : 8 AND employed IS ONE OF: 1 2
N : 134 AND other EQUALS NONE
GOOD : 87.1% AND checking IS ONE OF: 3 4
BAD : 12.9% THEN
NODE : 19
IF 22.5 <= duration N : 43
AND savings IS ONE OF: 1 2 3 GOOD : 93.7%
AND checking IS ONE OF: 1 2 BAD : 6.3%
THEN
NODE : 9
N : 85
GOOD : 69.2%
BAD : 30.8%
Tabelul 3. Rezultate reguli care stau la baza construirii arborelui
10. Se adaug nodul Assessment i se alege LiftChart.

Rezultate:
Figura 16. Rezultate Assessment
n aceast diagram cazurile clienilor sunt grupate de la stnga la dreapta de

persoanele fizice care sunt susceptibile de a fi acceptate aa cum s-a dorit n fiecare model
statistic. Grupul este mprit apoi n zece decile de-a lungul axei X. Decila cea mai din
stnga reprezint 10 % din clienii cei mai susceptibili de a fi acceptai.
Figura 17. Rezultate Assessment

Pentru modelul de regresie, se observ c 97,92% reprezint solicitanii de credit
consideraii bun-platnici.
Scopul modelelor de predicie este de a fi aplicate pe un nou set de date care nu conin
o valoare target i de a clasifica solicitanii de credit, ca metoda am ales reelele neuronale.
11. Se adaug nodul Input Data Source (credit2.xls) i i se stabilesc proprietile (rol:
Score).
12. Se adaug nodul Score i I se stabilesc proprietile (SettingsApply training
data score code to score data set i Score codeAssessment).
13. Se adaug nodul Distribution Explorer i i se stabilesc proprietile.
Cnd marcm credit2.xls Enterprise Miner creeaz automat mai multe variabile
marcate cum ar fi valorile prezise, reziduri, clasificri. Dintre acestea cele mai importante
sunt : EL_GOOD_BAD (conine valorile pierderilor anticipate pentru luarea deciziei bune) i
D_GOOD_BAD (atribuie statutul acceptat sau respins solicitanilor din setul de date).
Rezultate:
Figura 18. Histograma pierderilor anticipate pentru luarea deciziei bune
Solicitanii care au valorile pierderilor (barele de culoare galben ) negative reprezint

clienii care prezint un risc de credit bun. Acestor clienii li se atribuie decizia accept
(D_GOOD_BAD=accept). Barele roii i portocalii reprezint clienii care prezint un risc de
credit ru. Deoarece aceti clieni au valorile pierderilor pozitive li se atribuie decizia reject
(D_GOOD_BAD=reject).
Figura 19. Histograma clienilor acceptai i respini
Se observ c celor 75% din solicitani li se atribuie decizia accept iar celor 25% li se
atribuie decizia reject.
14. Se adaug nodul SAS Code.
Am utilizat nodul SAS Code pentru a creea un set de date ce conine doar clienii care
prezint un risc de credit bun (statut=accept).
Figura 20. Cod SAS

Figura 21. Rezultate Cod SAS

Referat Tehnici Avansate de Data Mining

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Referat Tehnici Avansate de Data Mining

Încărcat de

Drepturi de autor:

Formate disponibile

Referat Tehnici Avansate de Data Mining

PREDICIA RISCULUI DE CREDITARE UTILIZND MODELE DE

Credit scoring-ul este un instrument folosit n evaluarea profilului solicitantului de

2. Modele statistice folosite

Pentru atingerea scopului au fost folosite urmtoarele noduri:

Permite alegerea modelului liniar sau logistic

Permite divizarea multilateral a bazei de date

Are rolul de a citi o surs de date i de a crea

Permite generarea i gestionarea valorile

Permite explorarea unor volume mari de date,

Tabelul 1. Descrierea nodurilor folosite

Reele Neuronale Artificiale

Aceast arhitectur se numete feed-forward (cu propagare nainte) pentru c semnalele se

3. Descrierea modului de implementare

Variabila Valoare Rol Msur Descriere

Figura 1. Diagrama proiectului

1. Se ncarc fiierele surs credit.xls i credit2.xls.

Figura 2. Stabilirea proprietilor nodului Input Data

Figura 3. Stabilirea rolurilor variabilei n model

Figura 4. Editarea profilului variabilei target

Figura 5. Stabilirea metodei de partiie a datelor i a procentelor pentru datele de antrenare

Figura 6. Stabilirea statutului variabilei target

6. Se adaug nodul Transform Variables i se stabilesc proprietile nodului.

Figura 7. Distribuia variabilei AMOUNT

Se poate observa c variabila AMOUNT nu are o distribuie uniform, valorile

Figura 8. Distribuia variabilei log(AMOUNT)

Figura 9. Distribuia variabilei AGE

7. Se adaug nodul Regression i i se stabilesc proprietile (metoda, modelul de

Figura 10. Stabilirea proprietilor nodului Regression

Figura 11. Statistica T-score pentru variabilele analizate

Se observ valoarea minim i valoarea maxim a variabilei T-score i anume

sunt CHECKING, DURATION, HISTORY,SAVINGS i COAPP. Se observ c variabile

Figura 12. Crearea reelei de tip perceptron cu 3 straturi ascunse

Figura 13. Rezultate reea neuronal

Figura 14. Rezultate nodul Tree

Figura 15. Rezultate arbore

IF savings IS ONE OF: 4 5 IF employed IS ONE OF: 3 4 5

10. Se adaug nodul Assessment i se alege LiftChart.

Figura 16. Rezultate Assessment

n aceast diagram cazurile clienilor sunt grupate de la stnga la dreapta de

Figura 17. Rezultate Assessment

Figura 18. Histograma pierderilor anticipate pentru luarea deciziei bune

Solicitanii care au valorile pierderilor (barele de culoare galben ) negative reprezint

Figura 19. Histograma clienilor acceptai i respini

Figura 20. Cod SAS

Figura 21. Rezultate Cod SAS

S-ar putea să vă placă și