Documente Academic
Documente Profesional
Documente Cultură
Baza de date a unei bnci (cu date demografice si date legate de creditare) despre clientii acesteia (persoane
fizice) (credit.sav) (n=2464 clienti). Scopul analizei este segmentarea clientilor in functie de riscul de credit.
Se poate rula procedura in acest moment (se obtine arborele de clasificare primar), insa se
recomanda stabilirea unor criterii in construirea modelului.
Click pe butonul Categories al variabilei dependente (Putem selecta care dintre cele dou categorii de
rating este vizat. Alegerea uneia dintre categorii nu afecteaz modelul final, doar c unele output-uri i
opiuni sunt disponibile numai dac am selectat o categorie int)
- Selectm drept categorie de interes clienii din clasa bad credit rating.
- Click Continue.
Pentru a obine un arbore de clasificare mai simplu se poate limita nr. de niveluri, precum si nr. de cazuri
din fiecare nod (limitarea cresterii arborelui), att pentru nodurile de baz (parent node), ct i pentru
nodurile din vrf (child node).
1
In meniul principal Classification Tree, selectm Criteria
In submeniul Growth limits:
- Maximum tree depth (valoarea implicita de 3 niveluri poate fi
modificata: Custom=...)
- n zona Minimum Number of Cases tastm
Parent Node 400 (valoarea implicita este 100 clienti)
Child Node 200 (valoarea implicita este 50 clienti)
- Click Continue
Maximum Tree Depth controleaza nr. de niveluri de sub nodul initial (radacina). Automatic -
limiteaza nr. de niveluri la 3 pentru CHAID si 5 pentru CART; Custom introducem numarul dorit de
niveluri.
Minimum Number of Cases controleaza nr. de cazuri pentru noduri. Nodurile cu nr. mai mic de
cazuri nu vor mai fi divizate => limitarea cresterii arborelui. Pentru bazele de date mici, valorile minime de
100 cazuri pentru nodurile de baza (parent nodes) si 50 pentru cele terminale (child nodes) pot fi prea
restrictive, generand arbori f. mici; in acest caz se recomanda reducerea limitelor.
In submeniul CHAID:
putei controla nivelul de semnificaie pentru divizarea nodurilor i fuzionarea categoriilor. Pentru
ambele criterii, nivelul de semnificaie implicit este de 0,05.
- Pentru nodurile de divizare, valoarea trebuie s fie mai mare dect 0 i mai puin de 1. Valori
inferioare tind s produc arbori cu mai puine noduri.
- Pentru categoriile care fuzioneaz, valoarea trebuie s fie mai mare dect 0 i mai mic sau
egala cu 1. Pentru a preveni fuziunea de categorii, specificai o valoare de 1. Pentru o
variabil independent continu, acest lucru nseamn c numrul de categorii pentru
variabila n arborele final este numrul specificat de intervale (implicit este 10).
Ajustai nivelul de semnificaie folosind metoda Bonferroni. Acest lucru este implicit.
Allow resplitting of merged categories within a node. Permitei redivizarea categoriilor mbinate
ntr-un nod. Dac nu se mpiedic n mod explicit, procedura va ncerca sa fuzioneze categoriile
variabilei independente (predictor) pentru a produce cel mai simplu arbore care descrie modelul.
Aceast opiune resplit permite divizarea categoriillor fuzionate anterior dac ofer o soluie mai
bun.
2
Submeniul Intervals:
In analiza CHAID, variabile independente de tip continuu sunt ntotdeauna transformate n categorii
(de exemplu, 0-10, 11-20, 21-30 etc.) nainte de analiz. Putei controla numrul iniial / maxim de grupuri
(dei procedura poate fuziona grupuri consecutive dup ruptura iniial):
- Fixed Number: toate variabilele independente de scalare sunt iniial distribuite n acelai numr de
grupe. Valoarea implicit este 10.
- Custom: fiecare variabil independent este iniial distribuita n numrul de grupe specificate pentru
acea variabil
.
3
In meniul principal Classification Tree, selectm Options
Submeniul Misclassification Costs:
4
Pot fi salvate variabilele care conin informaii despre model. De exemplu, poate fi salvat rating-ul de
credit previzionat pentru fiecare caz i se pot compara aceste predicii cu rating-ul real de credit.
In meniul principal Classification Tree, click Save
- Selectm: Terminal node number, Predicted value i Predicted probabilities
- Click Continue
In meniul principal Classification Tree click Output. Se deschide o fereastr de dialog n care putem
alege diferite tipuri de output-uri. Optiunea arbore este implicita.
- n submeniul Tree bifm: Tree in table format
- Click Continue
5
Rezultatul rulrii procedurii cuprinde:
Sectiunea Specifications ofer informaii cu privire la setrile folosite pentru a genera un model,
inclusiv variabilele utilizate n analiz
Seciunea Results afieaz informaii referitoare la numrul total de noduri, nr. de noduri terminale,
adncimea arborelui (nr. de niveluri de sub nodul rdcin), variabilele independente incluse n
modelul final.
Se observ c au fost specificate iniial cinci variabile independente, dar numai trei au fost reinute n
modelul final. Variabilele educaie i numrul curent de credite de achiziie a unui automobil nu aduc o
contribuie semnificativ la model i au fost eliminate n mod automat din modelul final.
Concluzii
Folosind metoda CHAID, nivelul veniturilor este cel mai bun predictor pentru rating-ul de credit
Pentru categoria de venituri mici, nivelul veniturilor este singurul predictor semnificativ pentru rating-ul
de credit. 82% dintre clienii bncii din aceast categorie ntrzie la rambursarea creditelor (sunt n
grupul bad). Deoarece nu mai exist nici un nod fiu sub acesta, l putem considera un nod terminal.
Pentru categoriile de venituri medii i mari cel mai bun predictor este numrul de carduri de credit.
Pentru clientii cu venituri medii, cu 5 i peste carduri de credit, modelul mai include un predictor, i
anume vrsta. Peste 80% dintre clienii cu vrst mai mic sau egal cu 28 de ani au un rating de credit
nefavorabil, n timp ce mai puin de jumtate (43,7%) dintre clienii cu vrst mai mare de 28 de ani au
un rating de credit din categoria bad.
6
7
3. Tabelul cu informaii aferent arborelui CHAID (TREE TABLE)
Tree Table
Bad Good Total Primary Independent Variable
Predicted Parent
Node N Percent N Percent N Percent Category Node Variable Sig.a Chi-Square df Split Values
0 1020 41,4% 1444 58,6% 2464 100,0% Good
1 454 82,1% 99 17,9% 553 22,4% Bad 0 Income level ,000 662,457 2 <= Low
2 476 42,0% 658 58,0% 1134 46,0% Good 0 Income level ,000 662,457 2 (Low, Medium]
3 90 11,6% 687 88,4% 777 31,5% Good 0 Income level ,000 662,457 2 > Medium
4 Number of credit
422 56,7% 322 43,3% 744 30,2% Bad 2 ,000 193,113 1 5 or more
cards
5 Number of credit
54 13,8% 336 86,2% 390 15,8% Good 2 ,000 193,113 1 Less than 5
cards
6 Number of credit
80 17,6% 375 82,4% 455 18,5% Good 3 ,000 38,587 1 5 or more
cards
7 Number of credit
10 3,1% 312 96,9% 322 13,1% Good 3 ,000 38,587 1 Less than 5
cards
8 211 80,8% 50 19,2% 261 10,6% Bad 4 Age ,000 95,299 1 <= 28,0792
9 211 43,7% 272 56,3% 483 19,6% Good 4 Age ,000 95,299 1 > 28,0792
Growing Method: CHAID
Dependent Variable: Credit rating
a. Bonferroni adjusted
Tabelul arborelui (Tree table) ofer cele mai importante informaii din diagrama CHAID (tree diagram)
Pentru fiecare nod (0-9), tabelul afieaz:
Numrul i procentul de cazuri din fiecare categorie a variabilei dependente (Bad/Good) si pe total.
Categoria prognozat a variabilei dependente (predicted category): n cazul variabilelor dependente cu
dou variante de rspuns categoria prognozat este cea care include mai mult de 50% din cazurile
nodului respectiv. Altfel se consider categoria care include procentul cel mai mare de cazuri din nodul
respectiv.
Nodul printe pentru fiecare nod al arborelui. De ex., se observ c nodurile 4 si 5 au acelasi nod
printe (nodul 2).
Variabila independent folosit pentru a obine nodurile.
Valorile 2 (care au stat la baza generrii arborelui prin metoda CHAID), gradele de libertate (df),
precum i nivelul de semnificaie (Sig.). Nivelul de semnificaie este, n acest caz, mai mic de 0,0001
pentru toate nodurile din model.
Valoarea sau valorile (daca exista categorii comasate, de ex. la nodul 2 low + medium) variabilei
independente pentru nodul respectiv.