Sunteți pe pagina 1din 49

PROIECT

ARBORI DE DECIZIE

Prof. Coord:
Conf.univ.dr.Ciprian Ionel TURTUREAN

Studenți:

Filimon Ioana-Cristina căs. Pașcău


Grama Constantin
Ifrim Andreea

1
Cuprins
1. Metoda CHAID ........................................................................................................................... 3
1.2 Descrierea bazei de date .......................................................................................................... 6
1.3 Descrierea și argumentarea parametrilor fixați în clasificarea AD. ........................................ 7
1.4 Prezentarea rezultatelor AD metoda CHAID .......................................................................... 9
2. Prezentarea rezultatelor AD metoda CHAID Exhaustiv ............................................................ 17
2.1 Rezultate după realizarea spliting-ului. ................................................................................. 20
3. Metoda CART ............................................................................................................................ 24
3.1 Descrierea bazei de date ........................................................................................................ 25
3.2 Descrierea și argumentarea parametrilor fixați în clasificarea AD. ...................................... 25
4. Metoda QUEST .......................................................................................................................... 35
4.1 Descrierea bazei de date ........................................................................................................ 37
4.2 Descrierea și argumentarea parametrilor fixați în clasificarea AD. ...................................... 38
4.3 Prezentarea rezultatelor AD .................................................................................................. 42
5. Bibliografie ................................................................................................................................. 48

2
1. Metoda CHAID

Prezentare generală

Acronimul CHAID este un detector de interacțiune automată Chi-squared. Este una


dintre cele mai vechi metode de clasificare a arborilor inițial propuse de Kass (1980). Potrivit lui
Ripley, 1996, algoritmul CHAID este un descendent al THAID dezvoltat de Morgan și
Messenger, (1973). CHAID va construi arbori non-binari (adică arbori în care mai mult de două
ramificații se pot atașa la o singură rădăcină sau nod), pe baza unui algoritm relativ simplu, care
este deosebit de potrivit pentru analiza seturilor de date mai mari. De asemenea, deoarece
algoritmul CHAID generează adesea multe tabele de frecvențe multiple (de exemplu, când
clasificăm o variabilă de răspuns categoric cu mai multe categorii, pe baza unor predictori

3
categorici cu mai multe clase), a fost deosebit de popular în cercetarea de marketing, în contextul
a studiilor de segmentare a pieței.

Metoda CHAID diferă de metoda CART în modul cum alege ramificarea. Pentru
alegerea ramificării optimale, CHAID se bazează pe testul 𝜒 2 din tabelele de contingență pentru
a determina care predictor categorial este cel mai departe de independență cu valorile estimate.
Algoritmul CHAID este popular în cercetările de marketing în contextul studiilor de segmentare a
pieței. Putând fi utilizați atât pentru predicție cât și pentru clasificare, algoritmii CART și CHAID
pot fi aplicați pentru analiza problemelor de tip regresie sau de tip clasificare. Pașii urmați la
dezvoltarea algoritmului CHAID sunt:

 Pregătirea predictorilor. Se construiesc predictorii categoriali din predictorii continui prin


împărțirea distribuției continue într-un număr de categorii cu un număr aproximativ egal
de observații. Pentru predictorii categoriali, categoriile (clasele) sunt definite de la sine.

 Fuziunea categoriilor. Parcurgem repetat predictorii pentru a determina pentru fiecare


predictor perechea de categorii predictor care sunt cel mai puțin semnificative în raport
cu variabila dependentă; pentru problemele de clasificare (unde variabila dependentă este
categorială), se va evalua un test Pearson1 ; pentru problemele de regresie (unde variabila
dependentă este continuă), se va evalua un test F2 . Dacă testul respectiv pentru o pereche
dată de categorii predictor nu este semnificant statistic, atunci se vor fuziona categoriile
predictor respective și se va repeta acest pas (adică se va găsi următoarea pereche de
categorii, care acum pot include categoriile anterior fuzionate). Dacă perechea de
categorii predictor este semnificativă statistic, atunci se va estima un test Bonferroni p-
valoare ajustată pentru mulțimea categoriilor predictorului respectiv.

 Selectarea valorii de separare. Alegem variabila predictor de separare cu cea mai mică p-
valoare ajustată, adică variabila predictor care produce cea mai semnificativă separare;
dacă cea mai mică p-valoare ajustată (Bonferroni) pentru orice predictor este mai mare
decât o anumită valoare de separare, atunci nu va mai fi executată nici o separare și nodul
4
respectiv este o frunză. Acest proces continuă până când nu mai poate fi realizată nici o
separare.

Această procedură se oprește și atunci când se află una dintre următoarele condiții îndeplinite:
(1) Este atinsă adâncimea maximă a copacului.
(2) Numărul minim de cazuri dintr-un nod pentru a fi părinte este atins, deci nu poate fi împărțită
mai departe.
(3) Numărul minim de cazuri într-un nod pentru a fi un nod copil este atins. CHAID se ocupă de
valorile lipsă tratându-le pe toate ca pe un singur valabil categorie. CHAID nu efectuează tăierea.

Algoritmi exhaustivi CHAID.

O modificare a algoritmului CHAID de bază, numită CHAID exhaustiv, efectuează o


mai amănunțită îmbinare și testare a variabilelor predictor și, prin urmare, necesită mai mult timp
de calcul. În mod specific, fuzionarea categoriilor continuă (fără a se face referire la nici o
valoare alfa-fuzionare) până când rămân doar două categorii pentru fiecare predictor. Algoritmul
continuă așa cum este descris mai sus în secțiunea Selectarea etapei variabile divizate și
selectează printre predictori cel care produce cea mai semnificativă diviziune. Pentru seturile mari
de date și cu multe variabile predictive continue, această modificare a algoritmului mai simplu
CHAID poate necesita un timp de calcul semnificativ.

Avantaje
-Este atinsă adâncimea maximă a arborelui;
-Este popular în cercetările de marketing în contextul studiilor de segmentarea pieței;
-Poate fi utilizat atât pentru predicție, cât și pentru clasificare.
5
Dezavantaje

-Chaid nu efectuează metoda Pruning-ul.

1.2 Descrierea bazei de date

Baza noastră de date denumită Demo.sav din SPSS File și cuprinde 13 variabile din care:
- 7 variabile sunt categoriale
- 6 variabile sunt numerice

Cele 7 variabile categoriale sunt:

-marital (0-“Unmarried”, 1-“Married”)


-inccat (1-“Under 25$” ,2-“$25-49$”, 3-“$50-74$”, 4-“$75+”)
-carcat (1-“Economy”, 2-“Standard”, 3-“Luxury”)
-ed( 1-“Did not complete high school”, 2-“ High school degree”, 3-“ Some college”, 4-“
College degree”, 5-“ Post-undergraduate degree”)
-empcat (1-“Less than 5”,2-“ 5 to 15”, 3-“More than 15”)
-jobsat ( 1-“ Highly dissatisfied”, 2-“ Somewhat dissatisfied”, 3-“ Neutral”, 4-“ Somewhat
satisfied”, 5-“ Highly satisfied”)
-gender (f-“Female”, m-“Male”)

Cele 6 variabile numerice sunt:

-age (Age in years)


-address (Years at current address)
-income (Household income in thounsands)
-car ( Price of primary vehicles)
-employ (Years with current employer)
-reside (Number of people in household)

Baza de date, CHAID.

6
Sursa: SPSS

1.3 Descrierea și argumentarea parametrilor fixați în clasificarea AD.

 Din meniul Analyze/Classify/Tree


 În fereastra Decision Tree am ales variabila dependentă și cele independente, iar pentru
Growing Method am selectat CHAID.
 Selectăm inccat ca variabila dependentă
 Selectăm toate variabilele categoriale rămase ca și variabile independente ( Procedura va
exclude automat orice variabila care nu are o contribuție semnificativă în model )
 Click Criteria

7
 Am setat numărul minim de cazuri la 400 pentru noduri părinți și 200 pentru nodurile
copil
 Click CHAID tab
 Putem controla valoarea nivelului de încredere (semnificație) pentru realizarea împărțirii
pe noduri ( ramificării) cât și pentru combinarea ( alipirea ) categoriilor.
 Pentru împărțirea pe noduri valoarea trebuie sa fie mai mare decât 0 și mai mică decât 1.
O valoare mai mică tinde să producă mai puține noduri.
 Pentru alipirea categoriilor valoarea trebuie sa fie mai mare decât 0 și mai mică decât 1.
Pentru a prevenii alipirea categoriilor valoarea trebuie să fie 1.
 Pentru variabilele dependente calitative sau cantitative putem determina numărul maxim
de iterații (valoarea standard este 100) și minimul de schimbări ( frecvența minimă de
schimbări a celulelor).

8
 Se selectează “ Split-sample...” pentru realizarea setului de training și a testării acestuia.

1.4 Prezentarea rezultatelor AD metoda CHAID

Tabel 1: Statistica descriptivă


Model Summary

Specifications Growing Method CHAID

Dependent Variable Income category in thousands

Independent Variables Age in years, Primary vehicle price category,


Level of education, Job satisfaction, Gender,
Years with current employer, Marital status,
Years at current address

Validation None

Maximum Tree Depth 3

Minimum Cases in Parent


400
Node
9
Minimum Cases in Child
200
Node
ÎResults Independent Variables Primary vehicle price category, Age in years, Job
Included satisfaction, Years with current employer, Level
of education

Number of Nodes 26

Number of Terminal Nodes 17

Depth 3

*Sursa: SPSS

În analiza noastră metoda folosită se numește „Chaid”. Pentru aceasta metodă am ales ca
variabilă dependenta o variabilă numerică transformată în patru categorii menționate mai sus (
Income category in thousands), iar ca variabile independente avem: Age in years, Primary vehicle
price category, Level of education, job satisfaction, gender, years with current employer, marital
status si years at current address.
Adâncimea maximă a arborelui este de 3, iar cazurile minime de părinți si copii este de
400, respectiv 200. Dupa aplicarea metodei Chaid , ca variabile independete au rămas Primary
vehicle price category, age in years, job satisfaction, years with current employer, level of
education.
Avem un arbore cu 26 de noduri, 17 noduri terminale și o adâncime de 3.

10
11
Risk
Estimate Std. Error
.268 .006
Growing Method:
CHAID
Dependent Variable:
Income category in
thousands

*Sursa: SPSS

Classification
Predicted
Percent
Observed Under $25 $25 - $49 $50 - $74 $75+ Correct
Under $25 1073 101 0 0 91.4%
$25 - $49 525 1863 0 0 78.0%
$50 - $74 0 554 136 430 12.1%
$75+ 0 0 108 1610 93.7%
Overall
25.0% 39.3% 3.8% 31.9% 73.2%
Percentage
Growing Method: CHAID
Dependent Variable: Income category in thousands
*Sursa: SPSS

Nodul 0: conține cele 4 categorii ale variabilei “venit” cu următoarele procente: under 25$ are un
procent de 18,3%, 25$-49$ are un procent de 37,3%, 50$-74$ are un procent de 17,5% și $75$+
are un procent de 26,8%.
Ponderea cea mai mare o are categoria cu venitul cuprins între 25$-49$ (37,3%).

Nodul 1, 2 și 3 cuprinde categorile “Economy”, “Standard”, “Luxury” pentru variabila “carcat”.


Cei care si-au achiziționat o mașina “Economy “ au un salar sub 25$ cu o pondere de 63,8% și
un venit cuprins între 25$-49$ cu o pondere de 36,2%.

12
Cei care si-au achiziționat o mașina “Standard “ au un venit cuprins între 25$-49$ cu o pondere
de 75,6% și 50$-74$ cu o pondere de 24,4%.

Cei care si-au achiziționat o mașina “Luxury“ au un venit cuprins între 50$-74$ cu o pondere de
24,8% și 75$+ cu o pondere de 75,2%.
Nodul 1 este împărțit pe baza variabilei “Age in year” în nodurile 4, 5, 6 și 7.

Se observă că pentru cei care au achiziționat mașini din clasa “Economy”au cea mai mare
pondere ( 9,9%), au vârsta cuprinsă între 26-37 ani și au veniturile sub 25$ în proporție de 56,8%
și 25$-49$ în proporție de 43,2% din total.

Nodul 2 este împărțit pe baza variabilei “employ” în nodurile 8, 9, 10 și 11.

Pentru cei care au lucrat între 3-10 ani au cea mai mare pondere (14, 8%). Au veniturile cuprinse
între 25$-49$ în proporție de 77,8 % și 50$-74$ în proporție de 22,2%.

Nodul 3 este împărțit pe baza variabilei “employ” în nodurile 12, 13, 14 și 15.

Cea mai mare pondere o au cei care au lucrat între 10-18 ani (10,1%) și au salariile cuprinse între
50$-74$ în proporție de 28,8% și peste 75$ în proporție de 71,2%.

Nodul 6 este împărțit pe baza variabilei “Jobsat” în nodurile 16 și 17.

Persoanele care nu sunt mulțumite de locul de muncă sunt în proporție de 3,6 % și un venitul sub
25$ (55,9%) și cuprins între 25$-49$ (44,1%).

Persoanele care sunt mulțumite de locul de muncă sunt în proporție de 3,8 % și un venitul sub
25$ (41,6%) și cuprins între 25$-49$ (58,4%).

Nodul 8,9 și 12 este împărțit pe baza variabilei “ed” în nodurile 18 și 19,20 și 21, 22 și 23.

Nodul 8

Persoanele care nu au absolvit studii superioare sunt în proporție de 6% și au un venit cuprins


între 25$-49$ (88,9%) și 50$-74$ (11,1%).
Persoanele care au absolvit studiii superioare sunt în proporție de 4,4 % și au un venit cuprins
între 25$-49$ (79,2%) și 50$-74$ (20,8%).

Nodul 13 este împărțit pe baza variabilei “Age” în nodurile 24 și 25.

13
Tabel 2: Statistica descriptivă
Model Summary
Specification Growing Method CHAID
s Dependent Variable Income category in thousands
Independent Variables Age in years, Marital status, Level of
education, Job satisfaction, Gender,
Years with current employer, Primary
vehicle price category
Validation Split Sample
Maximum Tree Depth 3
Minimum Cases in
400
Parent Node
Minimum Cases in
200
Child Node
Results Independent Variables Primary vehicle price category, Age in
Included years, Marital status, Years with current
employer, Level of education
Number of Nodes 18
Number of Terminal
10
Nodes
Depth 3
*Sursa: SPSS

În urma aplicării setului de traning am obținut un arbore cu 18 noduri, 10 noduri terminale


si o adâncime de 3.

Training Sample

14
Test Sample

15
Risk
Sample Estimate Std. Error
Trainin
.277 .008
g
Test .281 .008
Growing Method: CHAID
Dependent Variable: Income
category in thousands
*Sursa: SPSS

Setul de Training

Riscul estimat este de 27,7% și înseamnă că procentul de clasificare de 72,3% este aproape de
pragul de 75 %. (aproape corect)

Setul de Test
Riscul estimat este de 28,1% și înseamnă că procentul de clasificare de 71,9% este aproape de
pragul de 75 %. (aproape corect)

Classification
Predicted
Percent
Sample Observed Under $25 $25 - $49 $50 - $74 $75+ Correct
Training Under $25 594 0 0 0 100.0%
$25 - $49 328 890 0 0 73.1%
$50 - $74 0 276 0 290 0.0%
$75+ 0 0 0 847 100.0%
Overall
28.6% 36.2% 0.0% 35.3% 72.3%
Percentage
16
Test Under $25 580 0 0 0 100.0%
$25 - $49 339 831 0 0 71.0%
$50 - $74 0 278 0 276 0.0%
$75+ 0 0 0 871 100.0%
Overall
28.9% 34.9% 0.0% 36.1% 71.9%
Percentasge
Growing Method: CHAID
Dependent Variable: Income category in thousands

*Sursa: SPSS

2. Prezentarea rezultatelor AD metoda CHAID Exhaustiv

Tabel 3: Statistica descriptivă


Model Summary

Growing Method EXHAUSTIVE CHAID

Dependent Variable Income category in thousands

Age in years, Years at current address, Primary


vehicle price category, Marital status, Level of
Independent Variables
education, Job satisfaction, Gender, Years with
current employer
Specifications
Validation None

Maximum Tree Depth 3

Minimum Cases in Parent 400


Node

Minimum Cases in Child 200


Node
Primary vehicle price category, Age in years, Job
Independent Variables
satisfaction, Years with current employer, Level
Included
of education
Results
Number of Nodes 25

Number of Terminal Nodes 16

Depth 3

17
*Sursa: SPSS

18
19
Risk

Estimate Std. Error

,273 ,006

Growing Method:
EXHAUSTIVE CHAID
Dependent Variable: Income
category in thousands

Classification

Observed Predicted
Under $25 $25 - $49 $50 - $74 $75+ Percent Correct

Under $25 1073 101 0 0 91,4%


$25 - $49 525 1863 0 0 78,0%
$50 - $74 0 554 0 566 0,0%
$75+ 0 0 0 1718 100,0%
Overall Percentage 25,0% 39,3% 0,0% 35,7% 72,7%

Growing Method: EXHAUSTIVE CHAID


Dependent Variable: Income category in thousands

*Sursa: SPSS

Observăm că rezultatele celor 2 metode sunt identice.

2.1 Rezultate după realizarea spliting-ului.

Tabel 4: Statistica descriptivă


Model Summary

Growing Method EXHAUSTIVE CHAID

Dependent Variable Income category in thousands

Age in years, Years at current address, Primary


Specifications
vehicle price category, Marital status, Level of
Independent Variables
education, Job satisfaction, Gender, Years with
current employer
20
Validation Split Sample

Maximum Tree Depth 3

Minimum Cases in Parent Node 400

Minimum Cases in Child Node 200


Primary vehicle price category, Age in years,
Independent Variables Included Years with current employer, Years at current
address
Results
Number of Nodes 14

Number of Terminal Nodes 8

Depth 3

*Sursa: SPSS

Training Sample

*Sursa: SPSS
21
Test Sample

Risk

Sample Estimate Std. Error

Training ,273 ,008


Test ,286 ,008

Growing Method: EXHAUSTIVE CHAID


Dependent Variable: Income category in
thousands

*Sursa: SPSS
22
Classification

Sample Observed Predicted

Under $25 $25 - $49 $50 - $74 $75+ Percent Correct

Under $25 581 0 0 0 100,0%

$25 - $49 316 876 0 0 73,5%

Training $50 - $74 0 281 0 273 0,0%

$75+ 0 0 0 863 100,0%

Overall Percentage 28,1% 36,3% 0,0% 35,6% 72,7%


Under $25 593 0 0 0 100,0%

$25 - $49 351 845 0 0 70,7%

Test $50 - $74 0 273 0 293 0,0%

$75+ 0 0 0 855 100,0%

Overall Percentage 29,4% 34,8% 0,0% 35,8% 71,4%

Growing Method: EXHAUSTIVE CHAID


Dependent Variable: Income category in thousands

*Sursa: SPSS

Setul de Training

Riscul estimat este de 27,3% și înseamnă că procentul de clasificare de 72,7% este aproape de
pragul de 75 %. (aproape corect)

Setul de Test

Riscul estimat este de 28,6% și înseamnă că procentul de clasificare de 71,4% este aproape de
pragul de 75 %. (aproape corect)

23
3. Metoda CART

Cunoscut sub denumirea de Classification And Regression Trees – CART – acest algoritm a fost
dezvoltat de Breiman, Friedman, Olshen și Stone în 1984 [1]. Scopul principal a fost introducerea
modelării bazate pe arbori în statistică, cu accent pe metoda cross-validation de alegere a unui
arbore optimal.
CART este una dintre tehnicile de modelare bazate pe arbori (CHAID, QUEST, C 5.0), cea
clasică. De altfel, se regăsește în modelarea predictivă din machine learning.
CART reprezintă un algoritm bazat pe arbori binari de decizie construiți prin divizarea unui nod
parinte în două noduri de tip fiu, în mod repetat/recursiv.

Avantaje și dezavantaje CART

Avantaje
 Neparametric (nici o ipoteză probabilistică),
 Face automat selecția variabilelor,
 Folosește orice combinație de variabile continue/discrete,
 Tratează missing values cu variabile surogat,
 Nu este afectat semnificativ de outlieri, în variabilele de input, predictive,
 O modalitate foarte bună de a explora și vizualiza datele,
 Descoperă interacțiuni între variabile și prin folosirea, mai mult decât o dată, a unei
variabile în arbore,
 CART folosește testarea cu set de date de test dar și cross-validation pentru goodness of
fit,
 Poate fi utilizat în conjuncție cu alte metode de predicție, pentru a selecta setul de
variabile de input,
Dezavantaje
 Arborii formați pot fi instabili,
 Structurile liniare nu sunt potrivite pentru CART,
 Poate face split doar pentru o variabilă,
 Modelul este de tip step function, și nu scor continuu; deci dacă un arbore are 10 noduri,
poți folosi 10 valori posibile,
 Trebuie să faci un arbore mai complex, uneori, pentru a obține predicții bune, dar devine
greu de interpretat.

24
3.1 Descrierea bazei de date

Baza noastră de date se numește “sales.sav” preluată SPSS Files. Aceasta este formată din 5
variabile din care 4 sunt categoriale și 1 numerică.

Cele 4 variabile categoriale sunt:

-customer (1-“Regular customer”, 2-“Preferred customer”)


-support (1-“< 1 Minute”, 2-“1-2 Minute”, 3- “2-4 Minute”, 4-“>4Minute”)
-region (1-“North”, 2-“SouthȚ, 3-“East”, 4-“West”)
-industry (1-“Government”, “Commercial”, “Academic”)

Variabila numerică este “Revenue”.

Baza de date, CRT

*Sursa: SPSS

3.2 Descrierea și argumentarea parametrilor fixați în clasificarea AD.

 Din meniul Analyze/Classify/Tree


 În fereastra Decision Tree am ales variabila dependentă și cele independente, iar pentru
Growing Method am selectat CRT.
 Click Criteria

25
 Se selectează “ Crossvalidation”

26
 Am setat numărul minim de cazuri la 400 pentru noduri părinți și 200 pentru nodurile
copil

 Pentru realizarea pruning-ului am selectat “Prune tree to…”


 Click Surrogates tab

27
 Am selectat “Custom” și am setat nivelul de adâncime la 5.
 Click Continue

 Din fereastra dialog alegem Output


 Click pe Statistics tab
 Select Surrogates by split
 Click pe continue și Ok pentru a finaliza procedura.

28
Tabel 5: Statistica descriptivă

Model Summary
Specification Growing Method CRT
s Dependent Variable Time on Hold
Independent Variables Industry, Customer Status, Revenue,
Territory
Validation None
Maximum Tree Depth 5
Minimum Cases in
400
Parent Node
Minimum Cases in
200
Child Node
Results Independent Variables Revenue, Industry, Territory, Customer
Included Status
Number of Nodes 5
Number of Terminal
3
Nodes
Depth 2
*Sursa: SPSS

Următoarea metodă folosită se numește „CRT”. Pentru aceasta metodă am ales ca


variabilă dependenta o variabilă categorială “Time on Hold”, iar ca variabile independente avem:
Industry, Customer statuts, Revenue, Territory.
Adâncimea maximă a arborelui este de 5, iar cazurile minime de părinți si copii este de
400, respectiv 200. Dupa aplicarea metodei CRT , ca variabile independete au rămas variabilele
următoare: Revenue, Industry, Territory, Customer Status.
Avem un arbore de 5 noduri, 3noduri terminale și o adâncime de 2.

29
Nodul 0: conține cele 4 categorii ale variabilei “Time on Hold” cu următoarele procente: <1
Minute are un procent de 18,6, 1-2 Minutes are un procent de 23,5%, 2-4 Minutes are un procent
de 20,5% și >4 Minutes are un procent de 37,5%.
Ponderea cea mai mare o are categoria “> 4 Minutes” cu o pondere de 37,5%.

Nodul 0 este împărțit pe baza variabilei “Revenue” în nodurile 1 și 2.


În nodul 1 se observă că pentru cei care au un venit mai mic sau egal cu 2857,2 dolari timpul de
așteptare pentru realizarea unei plăți este < 1Minute cu un procent de 12,6%, între 1-2 Minutes cu
un procent de 21,6%, între 2-4 Minutes cu un procent de 21,5 % și > 4 Minutes cu un procent de
44,3%.
Categoria cu procentul cel mai mare din nodul 1 este “> 4 Minutes”, ceea ce înseamnă că cei cu
venituri mici așteaptă cel mai mult pentru realizarea unei plăți.

În nodul 2 se observă că cei care au un venit de 2857,2 dolari timpul de așteptare pentru
realizarea unei plăți este < 1Minute cu un procent de 29,2%, între 1-2 Minutes cu un procent de
26,8%, între 2-4 Minutes cu un procent de 18,6 % și > 4 Minutes cu un procent de 25,5%.

Categoria cu procentul cel mai mare din nodul 2 este “< 1 Minute”, ceea ce înseamnă că cei cu
venituri de 2857,2 dolari așteaptă cel mai mult pentru realizarea unei plăți.

Nodul 2 este împărțit tot pe baza variabilei “Revenue” în nodurile 3 și 4.


În nodul 3 se observă că cei care au un venit mai mic sau egal cu 3420,8 dolari timpul de
așteptare pentru realizarea unei plăți este < 1Minute cu un procent de 25,1%, între 1-2 Minutes cu
30
un procent de 23,2%, între 2-4 Minutes cu un procent de 18% și > 4 Minutes cu un procent de
33,7%.
Categoria cu procentul cel mai mare din nodul 3 este “> 4 Minutes”, ceea ce înseamnă că cei cu
venituri de 3420,8 dolari așteaptă cel mai mult pentru realizarea unei plăți.

În nodul 4 se observă că cei care au un venit mai mare de 3420,8 dolari timpul de așteptare
pentru realizarea unei plăți este < 1Minute cu un procent de 33,1%, între 1-2 Minutes cu un
procent de 30,2%, între 2-4 Minutes cu un procent de 19,3% și > 4 Minutes cu un procent de
17,5%.
Categoria cu procentul cel mai mare din nodul 4 este “<1 Minute”, ceea ce înseamnă că cei cu
venituri mai mari de 3420,8 dolari așteaptă cel mai mult pentru realizarea unei plăți.

Risk
Estimate Std. Error
.597 .013
Growing Method: CRT
Dependent Variable:
Time on Hold
*Sursa: SPSS

Classification
Predicted
<1 1-2 2-4 >4 Percent
Observed Minute Minutes Minutes Minutes Correct
< 1 Minute 91 0 0 188 32.6%
1-2 Minutes 83 0 0 269 0.0%
2-4 Minutes 53 0 0 254 0.0%
> 4 Minutes 48 0 0 514 91.5%
Overall
18.3% 0.0% 0.0% 81.7% 40.3%
Percentage
Growing Method: CRT
Dependent Variable: Time on Hold

*Sursa: SPSS

31
Tabel 6: Statistica descriptivă

Model Summary

Specifications Growing Method CRT

Dependent Variable Time on Hold

Independent Variables Customer Status, Revenue, Territory, Industry

Validation Cross Validation

Maximum Tree Depth 5

Minimum Cases in Parent


400
Node

Minimum Cases in Child


200
Node
Results Independent Variables
Revenue, Industry, Territory, Customer Status
Included

Number of Nodes 5

Number of Terminal Nodes 3

Depth 2

*Sursa: SPSS

În urma metodei Cross-Validation , ca variabila independeta inclusă a rămas doar „Revenue”, și


a rezultat un arbore cu 3 noduri , 2 noduri terminale si o adâncime de 1.

32
33
Risk

Method Estimate Std. Error

Resubstitution .597 .013


Cross-Validation .a .

Growing Method: CRT


Dependent Variable: Time on Hold
a. The cross-validated risk estimate is not
computed when pruning is performed

*Sursa: SPSS

Classification

Predicted

Observed < 1 Minute 1-2 Minutes 2-4 Minutes > 4 Minutes Percent Correct

< 1 Minute 91 0 0 188 32.6%


1-2 Minutes 83 0 0 269 0.0%
2-4 Minutes 53 0 0 254 0.0%
> 4 Minutes 48 0 0 514 91.5%
Overall Percentage 18.3% 0.0% 0.0% 81.7% 40.3%

Growing Method: CRT


Dependent Variable: Time on Hold

*Sursa: SPSS

Surrogates

Parent Node Independent Variable Improvement Association

0 Primary Revenue .015


2 Primary Revenue .003

Surrogate Industry .000 .050

Territory .000 .035

Customer Status .001 .032

Growing Method: CRT


Dependent Variable: Time on Hold
34
 Diferența dintre CHAID și CART constă în mare parte în utilizarea variabilelor surogat în
modelul CART. Tabelul Surrogates indică cum au fost folosite variabilele surogat în
model.
 La baza nodului 0 cea mai bună variabilă predictor este ”Revenue”
 Pentru cazurile în care înregistrăm valori lipsă pentru variabila ”Revenue” este folosită ca
și surogat variabila ”Industry”. Totuși nivelul de asociere este destul de scăzut 0,05. Dacă
și pentru variabila ”Industry” sunt înregistrate valori lipsă atunci este folosită ca și surogat
variabila ”Terirtory”. Și aceaste variabile au un nivel de asociere foarte scăzut de 0,035.
Dacă pentru variabila ”Teritory” sunt înregistrate valori lipsă atunci vom folosi ca și
surogat variabila ”Customer Status”. Aceste variabile prezintă un nivel de asociere foarte
scăzut de 0,032.

4. Metoda QUEST

Prezentare generală

Una dintre metodele frecvent utilizate pentru a dezvolta un arbore de decizie este cea
denumită QUEST— sau Quick, Unbiased, Efficient Statistical Tree (arbore statistic rapid,
nedeplasat și eficient), care este o metodă de clasificare binară pentru construirea arborilor de
decizie. O motivație majoră în dezvoltarea sa a fost reducerea timpului de procesare necesar
pentru analizele mari de C & R Tree, fie cu multe variabile, fie cu multe cazuri. Un al doilea
obiectiv al algoritmului QUEST a fost acela de a reduce tendința (engl. „tendency”) găsită în
metodele arborelui de clasificare pentru a favoriza intrările care permit mai multe împărțiri, adică
câmpurile de intrare continuă (intervalul numeric) sau cele cu mai multe categorii.
Algoritmul Quick, Unbiased, Efficient, Statistical Tree (QUEST) (Loh and Shih 1997; Lim
et al. 2000) a fost creat ca și o îmbunătățire semnificativă a algoritmului FACT. Ideea generală și
organizarea algoritmului rămân aceleași: metoda realizează algoritmul 2.3 care separă selectarea
caracteristicilor de determinarea divizării, apoi transformă caracteristicile simbolice în cele
numerice într-un mod similar, și utilizează teste statistice pentru a lua unele decizii.
Principalele modificări se referă la modul în care se obțin obiectivele specifice:

35
• Funcția de separare este selectată pe baza altei abordări pentru a estima importanța
caracteristicilor, vizând selecția imparțială;
• Împărțirea se face cu discriminare pătratică în loc de liniară;
• Arborele rezultat este binar, clasele sunt grupate înainte de divizare;
• Generalizarea se obține prin minimizarea complexității costurilor, precum în cazul CART
Loh și Shih (1997) susțin că modul în care convertesc trăsăturile simbolice la cele
continue este de asemenea diferit în algoritmul QUEST decât în FACT, totuși ei menționează că
metoda FACT convertește mai întai simbolurile caracteristice în vectori binari ’’dummy’’, și apoi
le transformă în numere reale cu o metodă care poate împărți nodul în mai mult de două
subnoduri, ceea ce nu este acceptat în QUEST. În mod evident se referă la altă versiune a metodei
FACT decât cea a lui Loh și Vanichsetakul (1988), deoarece, așa cum este descris mai sus, acesta
din urmă utilizează transformarea crimCoord pentru a converti simbolurile la valori numerice, și
același lucru se face și în QUEST. În mod natural , există o diferență între cele două metode și
ține de modul în care au fost împărțite caractersticile (engl. „split the features”) după divizare.
Ca și în metoda FACT, după ce divizarea este determinată pentru corespondența continuă (engl.
„continous counterpart”) a unei trăsături simbolice, ea poate fi reprodusă cu ușurință în limbajul
simbolurilor originale, astfel încât în arborele rezultat, caracteristica continuă generată în timpul
analizei nu este deloc vizibilă.
Cerințe:
Variabilele de intrare pot fi continue (intervale numerice), dar variabila țintă trebuie să fie
categorică (categorială). Toate divizările sunt binare. Orice câmp ordinal (set ordonat) utilizat în
model trebuie să aibă stocare numerică (nu string). Dacă este necesar, nodul de reclasificare poate
fi folosit pentru a le converti.

Puncte forte:
La fel ca CHAID, QUEST utilizează teste statistice pentru a decide dacă este sau nu
folosit un câmp de intrare (engl. “input field”). Se separă, de asemenea, problemele de selecție și
divizare a intrărilor, aplicând diferite criterii fiecăruia. Aceasta contrastează cu CHAID, în care
rezultatul testului statistic care determină selecția variabilei (engl. „variable selection”) produce,
de asemenea, împărțirea.
36
Fiind rapid, nedeplasat și eficient, algoritmul QUEST al arborelui de decizie suportă
divizări/ramificații liniare și univariate.
Pentru fiecare diviziune/ramificație, asocierea dintre fiecare atribut de intrare și atribut
țintă se calculează utilizând testul F (din) ANOVA sau testul Levene (pentru atributele ordinale și
continue) sau testul Chi-square Pearson (pentru atributele nominale).
Se calculează o statistică F ANOVA pentru fiecare atribut. Dacă valoarea calculată a
testului F depășește o valoare prag predefinită, atributul cu valoarea calculată a testului F mai
mare este selectată pentru a împărți nodul. În caz contrar, testul Levene pentru varianțe inegale
este calculat pentru fiecare atribut. Dacă valoarea calculată a testului Levene este mai mare decât
o valoare prag predefinită, atributul cu valoarea calculată a testului Levene mai mare este folosită
pentru a împărți nodul. Dacă niciun atribut nu depășește niciun prag, nodul este împărțit folosind
atributul cu cea mai mare valoare a testului F ANOVA.
Dacă atributul țintă este multinomial, gruparea cu două metode (engl.”two-means
clustering”) este utilizată pentru a crea două super-clase.
Atributul care obține cel mai mare grad de asociere cu atributul țintă este selectat pentru
divizare. Analiza discriminantă pătratică (QDA) (Quadratic Discriminant Analysis) este aplicată
pentru a găsi punctul optim de divizare pentru atributul de intrare. QUEST are o interfață
neglijabilă (engl. „bias”) și produce un arbore de decizie binar. Se folosește de 10 ori validarea
încrucișată pentru a tăia (engl. „ prune”) arborii.

4.1 Descrierea bazei de date

Baza noastră de date denumită alcohol.sav din SPSS File cuprinde 10 variabile din care:
- 4 variabile sunt categoriale
- 6 variabile sunt numerice

Cele 6 variabile categoriale sunt:

-status (Angajat, Pensionar”)


-statut(“Căsătorit”, “Necăsătorit”)
-employ (“DA”, “Nu”)
-d_famsize (“small”, “average”, “high”)

37
Cele 6 variabile numerice sunt:

- Unemrate
- Age
- Educ
- Beertax
- Cigtax
- Ethanol

Baza de date, QUEST

*Sursa: SPSS

4.2 Descrierea și argumentarea parametrilor fixați în clasificarea AD.

 Din meniul Analyze/Classify/Tree

38
 În fereastra Decision Tree alegem variabila dependentă și pe cele independente, iar la
Growing Method selectăm metoda QUEST.
 Click Validation

39
 Se selectează “ Split-sample...” pentru realizarea setului de training și a testării acestuia.
 Click Continue
 Click Criteria

 Pentru metoda QUEST putem specifica nivelul de încredere pentru realizarea împărțirii pe
noduri. Valoarea standard este 0,05. O valoare mai mică va tinde să excludă mai multe
variabile independente din modelul final.
 Se selecteaza tab-ul Pruning

40
 Pentru realizarea pruning-ului selectăm ”Prune tree to avoid overfitting”. Arborele va
crește până când va întâlnii criteriile de oprire. Riscul este exprimat de eroarea standard.
Valoarea nu trebuie să fie negativă.
 Click pe tab-ul Surogates

 Metoda QUEST permite utilizarea surogatelor pentru variabilele independente. Pentru


cazurile în care pentru o variabilă există multe valori lipsă și există o variabilă cu un nivel
foarte mare de asociere cu variabila orignală, variabila asociată poate fi folosită în
41
clasificare. Aceste variabile alternative sunt denumite variabile surogat. Putem specifica
numărul maxim de variabile surogat.

4.3 Prezentarea rezultatelor AD

Tabel 7: Statistica descriptivă

Model Summary

Specifications Growing Method QUEST

Dependent Variable d_famsize

Independent Variables beertax, ethanol, age, unemrate

Validation None

Maximum Tree Depth 5

Minimum Cases in Parent


100
Node

Minimum Cases in Child


50
Node
Results Independent Variables
age, beertax, ethanol, unemrate
Included

Number of Nodes 3

Number of Terminal Nodes 2

Depth 1

*Sursa: SPSS

Metoda folosită se numește „Quest”. Pentru aceasta metodă am ales ca variabilă


dependenta o variabilă categorială ( d_famsize),iar ca variabile independente avem: beertax,
ethanol, age, unemrate.
Adâncimea maximă a arborelui este de 5, iar cazurile minime de părinți si copii este de
100, respectiv 50. Dupa aplicarea metodei Quest, ca variabile independete au rămas: age, beertax,
ethanol, unemrate.
Avem un arbore cu 3 de noduri, 2 noduri terminale și o adâncime de 1.

42
Nodul 0 cuprinde cele 3 categorii ale variabilei “d_famsize” cu următoarele procente: average
(24,4%), high (6,5%), small (69,1%). Categoria cu cel mai mare procentaj este small.
Nodul 0 este împărțit de variabila “ age” în nodurile 1 și 2.
Nodul 1 include vârsta până în 46 ani și are următoarele procente: average(29,3%), high (7%) și
small (63,7%). În acest nod persoanele de până în 46 ani au un număr de membri de familie mic.
Nodul 2 include vârsta peste 46 ani și are următoarele procente: average(17,1%), high (5,7%) și
small (77,1%). În acest nod persoanele peste 46 ani au un număr de membri de familie mic.

43
Risk

Estimate Std. Error

,309 ,029

Growing Method: QUEST


Dependent Variable:
d_famsize

Classification

Observed Predicted

average high small Percent Correct

average 0 0 64 0,0%
high 0 0 17 0,0%
small 0 0 181 100,0%
Overall Percentage 0,0% 0,0% 100,0% 69,1%

Growing Method: QUEST


Dependent Variable: d_famsize

Riscul estimat este de 30,9% și înseamnă că procentul de clasificare de 69,1% este aproape de
pragul de 75 %.

44
Rezultate AD pentru Split Sample:

Tabel 8: Statistica descriptivă

Model Summary

Growing Method QUEST

Dependent Variable d_famsize

Independent Variables age, unemrate, ethanol, beertax

Specifications Validation Split Sample

Maximum Tree Depth 5

Minimum Cases in Parent Node 100

Minimum Cases in Child Node 50


Independent Variables Included age, ethanol, beertax, unemrate

Number of Nodes 3
Results
Number of Terminal Nodes 2

Depth 1

*Sursa: SPSS

În urma aplicării setului de traning am obținut un arbore cu 3 noduri, 2 noduri terminale și


o adâncime de 1.

Training Sample:

45
Test Sample:

46
Risk

Sample Estimate Std. Error

Training ,333 ,043


Test ,288 ,038

Growing Method: QUEST


Dependent Variable: d_famsize

Classification

Sample Observed Predicted

average high small Percent Correct

average 0 0 32 0,0%
high 0 0 9 0,0%
Training
small 0 0 82 100,0%

Overall Percentage 0,0% 0,0% 100,0% 66,7%


average 0 0 32 0,0%

high 0 0 8 0,0%
Test
small 0 0 99 100,0%

Overall Percentage 0,0% 0,0% 100,0% 71,2%

Growing Method: QUEST


Dependent Variable: d_famsize

*Sursa: SPSS

Setul de Training

Riscul estimat este de 33,3% și înseamnă că procentul de clasificare de 66,7% este aproape de
pragul de 75 %.

Setul de Test

Riscul estimat este de 28,8% și înseamnă că procentul de clasificare de 71,2% este aproape de
pragul de 75 %.

47
5. Bibliografie

1. OK_Lior-Rokach-Oded-MaimonData-Mining-With-Decision-Trees-Theory-and-
Applications-2nd-Edition
2. 2.-SPSS_Decision_Trees_21
3. Evgeny Antipov and Elena Pokryshevskaya, 2009, Applying CHAID for logistic
regression diagnostics and classification accuracy improvement, ed. The State
University Higher School of Economics;
4. David Olson, Yong Shi, 2007, Introduction to Business Data Mining,
ed.McGRAW – HILL international edition;
5. Gilbert Ritschard, 2010, CHAID and Earlier Supervised Tree Methods
6. Breiman, L., J. H. Friedman, R. A. Olshen, and C. J. Stone (1984). Classification
And Regression Trees. Ed. New York: Chapman and Hall.
7. Breiman L, Friedman JH, Olshen RA, Stone CJ. Classification and Regression
Trees. Chapman & Hall (Wadsworth, Inc.): New York, 1984.
8. Grabczewski.K., Meta-Learning in Decision Tree Induction, Chapter 2 Techniques
of Decision Tree Induction, pag. 23 – 26.

48
49

S-ar putea să vă placă și