Sunteți pe pagina 1din 8

S9.

APLICATIE CHAID (SPSS)

Baza de date a unei bnci (cu date demografice si date legate de creditare) despre clientii acesteia (persoane
fizice) (credit.sav) (n=2464 clienti). Scopul analizei este segmentarea clientilor in functie de riscul de credit.

Variabilele numerice sunt:


1. vrst
Variabilele nenumerice (categoriale) sunt:
2. venit (1= mic; 2= mediu; 3= mare)
3. nr. carduri de credit (1= sub 5; 2=5 i peste)
4. nivel de educatie (1=studii medii; 2=studii superioare)
5. credit pentru automobil (1= fara credit sau un credit; 2=mai mult de 2 credite)
6. clasa de risc de credit (rating credit) (1=ru (cei care ntrzie la rambursarea creditelor);
2=bun (cei care ramburseaz creditele la timp); 9= fara istoric)
Clienii bncii sunt impartiti asadar in 2 categorii in functie de aspectele legate de rambursarea la timp a
creditelor. Vom aplica tehnica Classification Tree bazat pe CHAID. Variabila dependent este rating
credit, iar variabilele independente (predictori) sunt variabilele 1-5.
La fiecare pas se alege variabila predictor care interactioneaz cel mai puternic cu variabila
dependenta.
Categoriile fiecrei variabile predictor se combin, se unesc dac nu difer semnificativ n ceea ce
privete influenta asupra variabilei dependente.
Pentru a rula procedura Classification Tree alegem din meniu:
Analyze
Classify
Tree...
- Selectm Credit rating ca variabil dependenta
- Selectm restul variabilelor ca variabile independente (procedura va exclude n mod automat
orice variabil care nu aduce o contribuie semnificativ la modelul final)

Se poate rula procedura in acest moment (se obtine arborele de clasificare primar), insa se
recomanda stabilirea unor criterii in construirea modelului.
Click pe butonul Categories al variabilei dependente (Putem selecta care dintre cele dou categorii de
rating este vizat. Alegerea uneia dintre categorii nu afecteaz modelul final, doar c unele output-uri i
opiuni sunt disponibile numai dac am selectat o categorie int)
- Selectm drept categorie de interes clienii din clasa bad credit rating.
- Click Continue.
Pentru a obine un arbore de clasificare mai simplu se poate limita nr. de niveluri, precum si nr. de cazuri
din fiecare nod (limitarea cresterii arborelui), att pentru nodurile de baz (parent node), ct i pentru
nodurile din vrf (child node).

1
In meniul principal Classification Tree, selectm Criteria
In submeniul Growth limits:
- Maximum tree depth (valoarea implicita de 3 niveluri poate fi
modificata: Custom=...)
- n zona Minimum Number of Cases tastm
Parent Node 400 (valoarea implicita este 100 clienti)
Child Node 200 (valoarea implicita este 50 clienti)
- Click Continue

Maximum Tree Depth controleaza nr. de niveluri de sub nodul initial (radacina). Automatic -
limiteaza nr. de niveluri la 3 pentru CHAID si 5 pentru CART; Custom introducem numarul dorit de
niveluri.
Minimum Number of Cases controleaza nr. de cazuri pentru noduri. Nodurile cu nr. mai mic de
cazuri nu vor mai fi divizate => limitarea cresterii arborelui. Pentru bazele de date mici, valorile minime de
100 cazuri pentru nodurile de baza (parent nodes) si 50 pentru cele terminale (child nodes) pot fi prea
restrictive, generand arbori f. mici; in acest caz se recomanda reducerea limitelor.

In submeniul CHAID:
putei controla nivelul de semnificaie pentru divizarea nodurilor i fuzionarea categoriilor. Pentru
ambele criterii, nivelul de semnificaie implicit este de 0,05.
- Pentru nodurile de divizare, valoarea trebuie s fie mai mare dect 0 i mai puin de 1. Valori
inferioare tind s produc arbori cu mai puine noduri.
- Pentru categoriile care fuzioneaz, valoarea trebuie s fie mai mare dect 0 i mai mic sau
egala cu 1. Pentru a preveni fuziunea de categorii, specificai o valoare de 1. Pentru o
variabil independent continu, acest lucru nseamn c numrul de categorii pentru
variabila n arborele final este numrul specificat de intervale (implicit este 10).
Ajustai nivelul de semnificaie folosind metoda Bonferroni. Acest lucru este implicit.
Allow resplitting of merged categories within a node. Permitei redivizarea categoriilor mbinate
ntr-un nod. Dac nu se mpiedic n mod explicit, procedura va ncerca sa fuzioneze categoriile
variabilei independente (predictor) pentru a produce cel mai simplu arbore care descrie modelul.
Aceast opiune resplit permite divizarea categoriillor fuzionate anterior dac ofer o soluie mai
bun.

2
Submeniul Intervals:
In analiza CHAID, variabile independente de tip continuu sunt ntotdeauna transformate n categorii
(de exemplu, 0-10, 11-20, 21-30 etc.) nainte de analiz. Putei controla numrul iniial / maxim de grupuri
(dei procedura poate fuziona grupuri consecutive dup ruptura iniial):
- Fixed Number: toate variabilele independente de scalare sunt iniial distribuite n acelai numr de
grupe. Valoarea implicit este 10.
- Custom: fiecare variabil independent este iniial distribuita n numrul de grupe specificate pentru
acea variabil
.

3
In meniul principal Classification Tree, selectm Options
Submeniul Misclassification Costs:

Pentru variabile dependente categoriale (nominal, ordinal), optiunea misclassification costs


(costurile clasificari gresite) v permite s includeti informaii despre sanciunea relativ asociat cu
clasificarea incorect. De exemplu, costul refuzarii creditului unui client solvabil este probabil s fie diferit
de costul extinderii creditului pentru un client care apoi este incapabil sa plateasca mprumutul; costul
trimiterii corespondenei de mas unei persoane care este improbabil s rspund este, probabil, destul de
redus, n timp ce costul de a nu trimite coresponden pentru cineva care este ar putea rspund este relativ
mare (n termeni de venituri pierdute).
Misclassification Costs and Value Labels: aceast caset de dialog nu este disponibil dect dac
cel puin dou valori ale variabilei dependente categoriale au etichete de valoare definite.
In meniul principal Classification Tree, selectm o variabil dependent categoriala (nominal,
ordinal), cu dou sau mai multe etichete de valoare definite.
Click Options.
Click Misclassification Costs tab.
Click Custom.
Introducei unul sau mai multe costuri de clasificare eronat n grila. Valorile trebuie s nu fie negative
(clasificrile corecte, reprezentate pe diagonala, sunt ntotdeauna 0.)
Umplei matricea. n multe cazuri, e posibil s dorii costuri simetrice, de ex., costul clasificarii gresite a
lui A ca B este acelai cu costul clasificarii gresite a lui B ca A. Urmtoarele comenzi pot facilita
specificarea matricei costurilor simetrice:
-Duplicate Triangle Lower. Copiaza valorile din triunghiul inferior al matricei (sub diagonala) n
celulele superioare-triunghiulare corespunztoare.
-Duplicate Triangle Upper. Copiaza valorile din triunghiul superior al matricei (peste diagonala) n
celulele corespunztoare inferioare.
-Use Average Cell Values. Pentru fiecare celul din fiecare jumtate a matricei, se calculeaza media
celor dou valori (upper- si lower-triangular) i media inlocuieste ambele valori. De exemplu, n cazul n
costul clasificarii gresite a lui A ca B este 1 i costul clasificarii gresite a lui B ca A este 3, atunci optiunea
nlocuiete ambele valori cu media lor: (1+3)/2 = 2.

4
Pot fi salvate variabilele care conin informaii despre model. De exemplu, poate fi salvat rating-ul de
credit previzionat pentru fiecare caz i se pot compara aceste predicii cu rating-ul real de credit.
In meniul principal Classification Tree, click Save
- Selectm: Terminal node number, Predicted value i Predicted probabilities
- Click Continue

In meniul principal Classification Tree click Output. Se deschide o fereastr de dialog n care putem
alege diferite tipuri de output-uri. Optiunea arbore este implicita.
- n submeniul Tree bifm: Tree in table format
- Click Continue

In final, in meniul principal Classification Tree, click OK pentru a rula procedura.

5
Rezultatul rulrii procedurii cuprinde:

1. Tabelul care ofer informaii despre model


Model Summary
Specifications Growing Method CHAID
Dependent Variable Credit rating
Independent Variables Age, Income level, Number of credit cards, Education, Car loans
Validation None
Maximum Tree Depth 3
Minimum Cases in Parent Node 400
Minimum Cases in Child Node 200
Results Independent Variables Included Income level, Number of credit cards, Age
Number of Nodes 10
Number of Terminal Nodes 6
Depth 3

Sectiunea Specifications ofer informaii cu privire la setrile folosite pentru a genera un model,
inclusiv variabilele utilizate n analiz
Seciunea Results afieaz informaii referitoare la numrul total de noduri, nr. de noduri terminale,
adncimea arborelui (nr. de niveluri de sub nodul rdcin), variabilele independente incluse n
modelul final.
Se observ c au fost specificate iniial cinci variabile independente, dar numai trei au fost reinute n
modelul final. Variabilele educaie i numrul curent de credite de achiziie a unui automobil nu aduc o
contribuie semnificativ la model i au fost eliminate n mod automat din modelul final.

2. Arborele modelului (Tree diagram)

Concluzii

Folosind metoda CHAID, nivelul veniturilor este cel mai bun predictor pentru rating-ul de credit
Pentru categoria de venituri mici, nivelul veniturilor este singurul predictor semnificativ pentru rating-ul
de credit. 82% dintre clienii bncii din aceast categorie ntrzie la rambursarea creditelor (sunt n
grupul bad). Deoarece nu mai exist nici un nod fiu sub acesta, l putem considera un nod terminal.
Pentru categoriile de venituri medii i mari cel mai bun predictor este numrul de carduri de credit.
Pentru clientii cu venituri medii, cu 5 i peste carduri de credit, modelul mai include un predictor, i
anume vrsta. Peste 80% dintre clienii cu vrst mai mic sau egal cu 28 de ani au un rating de credit
nefavorabil, n timp ce mai puin de jumtate (43,7%) dintre clienii cu vrst mai mare de 28 de ani au
un rating de credit din categoria bad.

Asadar, clientii cu cel mai mare risc de credit sunt:


- cei cu venituri mici (82%);
- cei cu venituri mici si medii care au 5 sau mai multe carti de credit (57%), mai ales daca
varsta lor este sub 28 ani (81%).

6
7
3. Tabelul cu informaii aferent arborelui CHAID (TREE TABLE)

Tree Table
Bad Good Total Primary Independent Variable
Predicted Parent
Node N Percent N Percent N Percent Category Node Variable Sig.a Chi-Square df Split Values
0 1020 41,4% 1444 58,6% 2464 100,0% Good
1 454 82,1% 99 17,9% 553 22,4% Bad 0 Income level ,000 662,457 2 <= Low
2 476 42,0% 658 58,0% 1134 46,0% Good 0 Income level ,000 662,457 2 (Low, Medium]
3 90 11,6% 687 88,4% 777 31,5% Good 0 Income level ,000 662,457 2 > Medium
4 Number of credit
422 56,7% 322 43,3% 744 30,2% Bad 2 ,000 193,113 1 5 or more
cards
5 Number of credit
54 13,8% 336 86,2% 390 15,8% Good 2 ,000 193,113 1 Less than 5
cards
6 Number of credit
80 17,6% 375 82,4% 455 18,5% Good 3 ,000 38,587 1 5 or more
cards
7 Number of credit
10 3,1% 312 96,9% 322 13,1% Good 3 ,000 38,587 1 Less than 5
cards
8 211 80,8% 50 19,2% 261 10,6% Bad 4 Age ,000 95,299 1 <= 28,0792
9 211 43,7% 272 56,3% 483 19,6% Good 4 Age ,000 95,299 1 > 28,0792
Growing Method: CHAID
Dependent Variable: Credit rating
a. Bonferroni adjusted

Tabelul arborelui (Tree table) ofer cele mai importante informaii din diagrama CHAID (tree diagram)
Pentru fiecare nod (0-9), tabelul afieaz:

Numrul i procentul de cazuri din fiecare categorie a variabilei dependente (Bad/Good) si pe total.
Categoria prognozat a variabilei dependente (predicted category): n cazul variabilelor dependente cu
dou variante de rspuns categoria prognozat este cea care include mai mult de 50% din cazurile
nodului respectiv. Altfel se consider categoria care include procentul cel mai mare de cazuri din nodul
respectiv.
Nodul printe pentru fiecare nod al arborelui. De ex., se observ c nodurile 4 si 5 au acelasi nod
printe (nodul 2).
Variabila independent folosit pentru a obine nodurile.
Valorile 2 (care au stat la baza generrii arborelui prin metoda CHAID), gradele de libertate (df),
precum i nivelul de semnificaie (Sig.). Nivelul de semnificaie este, n acest caz, mai mic de 0,0001
pentru toate nodurile din model.
Valoarea sau valorile (daca exista categorii comasate, de ex. la nodul 2 low + medium) variabilei
independente pentru nodul respectiv.

S-ar putea să vă placă și