Documente Academic
Documente Profesional
Documente Cultură
ARBORI DE DECIZIE
Prof. Coord:
Conf.univ.dr.Ciprian Ionel TURTUREAN
Studenți:
1
Cuprins
1. Metoda CHAID ........................................................................................................................... 3
1.2 Descrierea bazei de date .......................................................................................................... 6
1.3 Descrierea și argumentarea parametrilor fixați în clasificarea AD. ........................................ 7
1.4 Prezentarea rezultatelor AD metoda CHAID .......................................................................... 9
2. Prezentarea rezultatelor AD metoda CHAID Exhaustiv ............................................................ 17
2.1 Rezultate după realizarea spliting-ului. ................................................................................. 20
3. Metoda CART ............................................................................................................................ 24
3.1 Descrierea bazei de date ........................................................................................................ 25
3.2 Descrierea și argumentarea parametrilor fixați în clasificarea AD. ...................................... 25
4. Metoda QUEST .......................................................................................................................... 35
4.1 Descrierea bazei de date ........................................................................................................ 37
4.2 Descrierea și argumentarea parametrilor fixați în clasificarea AD. ...................................... 38
4.3 Prezentarea rezultatelor AD .................................................................................................. 42
5. Bibliografie ................................................................................................................................. 48
2
1. Metoda CHAID
Prezentare generală
3
categorici cu mai multe clase), a fost deosebit de popular în cercetarea de marketing, în contextul
a studiilor de segmentare a pieței.
Metoda CHAID diferă de metoda CART în modul cum alege ramificarea. Pentru
alegerea ramificării optimale, CHAID se bazează pe testul 𝜒 2 din tabelele de contingență pentru
a determina care predictor categorial este cel mai departe de independență cu valorile estimate.
Algoritmul CHAID este popular în cercetările de marketing în contextul studiilor de segmentare a
pieței. Putând fi utilizați atât pentru predicție cât și pentru clasificare, algoritmii CART și CHAID
pot fi aplicați pentru analiza problemelor de tip regresie sau de tip clasificare. Pașii urmați la
dezvoltarea algoritmului CHAID sunt:
Selectarea valorii de separare. Alegem variabila predictor de separare cu cea mai mică p-
valoare ajustată, adică variabila predictor care produce cea mai semnificativă separare;
dacă cea mai mică p-valoare ajustată (Bonferroni) pentru orice predictor este mai mare
decât o anumită valoare de separare, atunci nu va mai fi executată nici o separare și nodul
4
respectiv este o frunză. Acest proces continuă până când nu mai poate fi realizată nici o
separare.
Această procedură se oprește și atunci când se află una dintre următoarele condiții îndeplinite:
(1) Este atinsă adâncimea maximă a copacului.
(2) Numărul minim de cazuri dintr-un nod pentru a fi părinte este atins, deci nu poate fi împărțită
mai departe.
(3) Numărul minim de cazuri într-un nod pentru a fi un nod copil este atins. CHAID se ocupă de
valorile lipsă tratându-le pe toate ca pe un singur valabil categorie. CHAID nu efectuează tăierea.
Avantaje
-Este atinsă adâncimea maximă a arborelui;
-Este popular în cercetările de marketing în contextul studiilor de segmentarea pieței;
-Poate fi utilizat atât pentru predicție, cât și pentru clasificare.
5
Dezavantaje
Baza noastră de date denumită Demo.sav din SPSS File și cuprinde 13 variabile din care:
- 7 variabile sunt categoriale
- 6 variabile sunt numerice
6
Sursa: SPSS
7
Am setat numărul minim de cazuri la 400 pentru noduri părinți și 200 pentru nodurile
copil
Click CHAID tab
Putem controla valoarea nivelului de încredere (semnificație) pentru realizarea împărțirii
pe noduri ( ramificării) cât și pentru combinarea ( alipirea ) categoriilor.
Pentru împărțirea pe noduri valoarea trebuie sa fie mai mare decât 0 și mai mică decât 1.
O valoare mai mică tinde să producă mai puține noduri.
Pentru alipirea categoriilor valoarea trebuie sa fie mai mare decât 0 și mai mică decât 1.
Pentru a prevenii alipirea categoriilor valoarea trebuie să fie 1.
Pentru variabilele dependente calitative sau cantitative putem determina numărul maxim
de iterații (valoarea standard este 100) și minimul de schimbări ( frecvența minimă de
schimbări a celulelor).
8
Se selectează “ Split-sample...” pentru realizarea setului de training și a testării acestuia.
Validation None
Number of Nodes 26
Depth 3
*Sursa: SPSS
În analiza noastră metoda folosită se numește „Chaid”. Pentru aceasta metodă am ales ca
variabilă dependenta o variabilă numerică transformată în patru categorii menționate mai sus (
Income category in thousands), iar ca variabile independente avem: Age in years, Primary vehicle
price category, Level of education, job satisfaction, gender, years with current employer, marital
status si years at current address.
Adâncimea maximă a arborelui este de 3, iar cazurile minime de părinți si copii este de
400, respectiv 200. Dupa aplicarea metodei Chaid , ca variabile independete au rămas Primary
vehicle price category, age in years, job satisfaction, years with current employer, level of
education.
Avem un arbore cu 26 de noduri, 17 noduri terminale și o adâncime de 3.
10
11
Risk
Estimate Std. Error
.268 .006
Growing Method:
CHAID
Dependent Variable:
Income category in
thousands
*Sursa: SPSS
Classification
Predicted
Percent
Observed Under $25 $25 - $49 $50 - $74 $75+ Correct
Under $25 1073 101 0 0 91.4%
$25 - $49 525 1863 0 0 78.0%
$50 - $74 0 554 136 430 12.1%
$75+ 0 0 108 1610 93.7%
Overall
25.0% 39.3% 3.8% 31.9% 73.2%
Percentage
Growing Method: CHAID
Dependent Variable: Income category in thousands
*Sursa: SPSS
Nodul 0: conține cele 4 categorii ale variabilei “venit” cu următoarele procente: under 25$ are un
procent de 18,3%, 25$-49$ are un procent de 37,3%, 50$-74$ are un procent de 17,5% și $75$+
are un procent de 26,8%.
Ponderea cea mai mare o are categoria cu venitul cuprins între 25$-49$ (37,3%).
12
Cei care si-au achiziționat o mașina “Standard “ au un venit cuprins între 25$-49$ cu o pondere
de 75,6% și 50$-74$ cu o pondere de 24,4%.
Cei care si-au achiziționat o mașina “Luxury“ au un venit cuprins între 50$-74$ cu o pondere de
24,8% și 75$+ cu o pondere de 75,2%.
Nodul 1 este împărțit pe baza variabilei “Age in year” în nodurile 4, 5, 6 și 7.
Se observă că pentru cei care au achiziționat mașini din clasa “Economy”au cea mai mare
pondere ( 9,9%), au vârsta cuprinsă între 26-37 ani și au veniturile sub 25$ în proporție de 56,8%
și 25$-49$ în proporție de 43,2% din total.
Pentru cei care au lucrat între 3-10 ani au cea mai mare pondere (14, 8%). Au veniturile cuprinse
între 25$-49$ în proporție de 77,8 % și 50$-74$ în proporție de 22,2%.
Nodul 3 este împărțit pe baza variabilei “employ” în nodurile 12, 13, 14 și 15.
Cea mai mare pondere o au cei care au lucrat între 10-18 ani (10,1%) și au salariile cuprinse între
50$-74$ în proporție de 28,8% și peste 75$ în proporție de 71,2%.
Persoanele care nu sunt mulțumite de locul de muncă sunt în proporție de 3,6 % și un venitul sub
25$ (55,9%) și cuprins între 25$-49$ (44,1%).
Persoanele care sunt mulțumite de locul de muncă sunt în proporție de 3,8 % și un venitul sub
25$ (41,6%) și cuprins între 25$-49$ (58,4%).
Nodul 8,9 și 12 este împărțit pe baza variabilei “ed” în nodurile 18 și 19,20 și 21, 22 și 23.
Nodul 8
13
Tabel 2: Statistica descriptivă
Model Summary
Specification Growing Method CHAID
s Dependent Variable Income category in thousands
Independent Variables Age in years, Marital status, Level of
education, Job satisfaction, Gender,
Years with current employer, Primary
vehicle price category
Validation Split Sample
Maximum Tree Depth 3
Minimum Cases in
400
Parent Node
Minimum Cases in
200
Child Node
Results Independent Variables Primary vehicle price category, Age in
Included years, Marital status, Years with current
employer, Level of education
Number of Nodes 18
Number of Terminal
10
Nodes
Depth 3
*Sursa: SPSS
Training Sample
14
Test Sample
15
Risk
Sample Estimate Std. Error
Trainin
.277 .008
g
Test .281 .008
Growing Method: CHAID
Dependent Variable: Income
category in thousands
*Sursa: SPSS
Setul de Training
Riscul estimat este de 27,7% și înseamnă că procentul de clasificare de 72,3% este aproape de
pragul de 75 %. (aproape corect)
Setul de Test
Riscul estimat este de 28,1% și înseamnă că procentul de clasificare de 71,9% este aproape de
pragul de 75 %. (aproape corect)
Classification
Predicted
Percent
Sample Observed Under $25 $25 - $49 $50 - $74 $75+ Correct
Training Under $25 594 0 0 0 100.0%
$25 - $49 328 890 0 0 73.1%
$50 - $74 0 276 0 290 0.0%
$75+ 0 0 0 847 100.0%
Overall
28.6% 36.2% 0.0% 35.3% 72.3%
Percentage
16
Test Under $25 580 0 0 0 100.0%
$25 - $49 339 831 0 0 71.0%
$50 - $74 0 278 0 276 0.0%
$75+ 0 0 0 871 100.0%
Overall
28.9% 34.9% 0.0% 36.1% 71.9%
Percentasge
Growing Method: CHAID
Dependent Variable: Income category in thousands
*Sursa: SPSS
Depth 3
17
*Sursa: SPSS
18
19
Risk
,273 ,006
Growing Method:
EXHAUSTIVE CHAID
Dependent Variable: Income
category in thousands
Classification
Observed Predicted
Under $25 $25 - $49 $50 - $74 $75+ Percent Correct
*Sursa: SPSS
Depth 3
*Sursa: SPSS
Training Sample
*Sursa: SPSS
21
Test Sample
Risk
*Sursa: SPSS
22
Classification
*Sursa: SPSS
Setul de Training
Riscul estimat este de 27,3% și înseamnă că procentul de clasificare de 72,7% este aproape de
pragul de 75 %. (aproape corect)
Setul de Test
Riscul estimat este de 28,6% și înseamnă că procentul de clasificare de 71,4% este aproape de
pragul de 75 %. (aproape corect)
23
3. Metoda CART
Cunoscut sub denumirea de Classification And Regression Trees – CART – acest algoritm a fost
dezvoltat de Breiman, Friedman, Olshen și Stone în 1984 [1]. Scopul principal a fost introducerea
modelării bazate pe arbori în statistică, cu accent pe metoda cross-validation de alegere a unui
arbore optimal.
CART este una dintre tehnicile de modelare bazate pe arbori (CHAID, QUEST, C 5.0), cea
clasică. De altfel, se regăsește în modelarea predictivă din machine learning.
CART reprezintă un algoritm bazat pe arbori binari de decizie construiți prin divizarea unui nod
parinte în două noduri de tip fiu, în mod repetat/recursiv.
Avantaje
Neparametric (nici o ipoteză probabilistică),
Face automat selecția variabilelor,
Folosește orice combinație de variabile continue/discrete,
Tratează missing values cu variabile surogat,
Nu este afectat semnificativ de outlieri, în variabilele de input, predictive,
O modalitate foarte bună de a explora și vizualiza datele,
Descoperă interacțiuni între variabile și prin folosirea, mai mult decât o dată, a unei
variabile în arbore,
CART folosește testarea cu set de date de test dar și cross-validation pentru goodness of
fit,
Poate fi utilizat în conjuncție cu alte metode de predicție, pentru a selecta setul de
variabile de input,
Dezavantaje
Arborii formați pot fi instabili,
Structurile liniare nu sunt potrivite pentru CART,
Poate face split doar pentru o variabilă,
Modelul este de tip step function, și nu scor continuu; deci dacă un arbore are 10 noduri,
poți folosi 10 valori posibile,
Trebuie să faci un arbore mai complex, uneori, pentru a obține predicții bune, dar devine
greu de interpretat.
24
3.1 Descrierea bazei de date
Baza noastră de date se numește “sales.sav” preluată SPSS Files. Aceasta este formată din 5
variabile din care 4 sunt categoriale și 1 numerică.
*Sursa: SPSS
25
Se selectează “ Crossvalidation”
26
Am setat numărul minim de cazuri la 400 pentru noduri părinți și 200 pentru nodurile
copil
27
Am selectat “Custom” și am setat nivelul de adâncime la 5.
Click Continue
28
Tabel 5: Statistica descriptivă
Model Summary
Specification Growing Method CRT
s Dependent Variable Time on Hold
Independent Variables Industry, Customer Status, Revenue,
Territory
Validation None
Maximum Tree Depth 5
Minimum Cases in
400
Parent Node
Minimum Cases in
200
Child Node
Results Independent Variables Revenue, Industry, Territory, Customer
Included Status
Number of Nodes 5
Number of Terminal
3
Nodes
Depth 2
*Sursa: SPSS
29
Nodul 0: conține cele 4 categorii ale variabilei “Time on Hold” cu următoarele procente: <1
Minute are un procent de 18,6, 1-2 Minutes are un procent de 23,5%, 2-4 Minutes are un procent
de 20,5% și >4 Minutes are un procent de 37,5%.
Ponderea cea mai mare o are categoria “> 4 Minutes” cu o pondere de 37,5%.
În nodul 2 se observă că cei care au un venit de 2857,2 dolari timpul de așteptare pentru
realizarea unei plăți este < 1Minute cu un procent de 29,2%, între 1-2 Minutes cu un procent de
26,8%, între 2-4 Minutes cu un procent de 18,6 % și > 4 Minutes cu un procent de 25,5%.
Categoria cu procentul cel mai mare din nodul 2 este “< 1 Minute”, ceea ce înseamnă că cei cu
venituri de 2857,2 dolari așteaptă cel mai mult pentru realizarea unei plăți.
În nodul 4 se observă că cei care au un venit mai mare de 3420,8 dolari timpul de așteptare
pentru realizarea unei plăți este < 1Minute cu un procent de 33,1%, între 1-2 Minutes cu un
procent de 30,2%, între 2-4 Minutes cu un procent de 19,3% și > 4 Minutes cu un procent de
17,5%.
Categoria cu procentul cel mai mare din nodul 4 este “<1 Minute”, ceea ce înseamnă că cei cu
venituri mai mari de 3420,8 dolari așteaptă cel mai mult pentru realizarea unei plăți.
Risk
Estimate Std. Error
.597 .013
Growing Method: CRT
Dependent Variable:
Time on Hold
*Sursa: SPSS
Classification
Predicted
<1 1-2 2-4 >4 Percent
Observed Minute Minutes Minutes Minutes Correct
< 1 Minute 91 0 0 188 32.6%
1-2 Minutes 83 0 0 269 0.0%
2-4 Minutes 53 0 0 254 0.0%
> 4 Minutes 48 0 0 514 91.5%
Overall
18.3% 0.0% 0.0% 81.7% 40.3%
Percentage
Growing Method: CRT
Dependent Variable: Time on Hold
*Sursa: SPSS
31
Tabel 6: Statistica descriptivă
Model Summary
Number of Nodes 5
Depth 2
*Sursa: SPSS
32
33
Risk
*Sursa: SPSS
Classification
Predicted
Observed < 1 Minute 1-2 Minutes 2-4 Minutes > 4 Minutes Percent Correct
*Sursa: SPSS
Surrogates
4. Metoda QUEST
Prezentare generală
Una dintre metodele frecvent utilizate pentru a dezvolta un arbore de decizie este cea
denumită QUEST— sau Quick, Unbiased, Efficient Statistical Tree (arbore statistic rapid,
nedeplasat și eficient), care este o metodă de clasificare binară pentru construirea arborilor de
decizie. O motivație majoră în dezvoltarea sa a fost reducerea timpului de procesare necesar
pentru analizele mari de C & R Tree, fie cu multe variabile, fie cu multe cazuri. Un al doilea
obiectiv al algoritmului QUEST a fost acela de a reduce tendința (engl. „tendency”) găsită în
metodele arborelui de clasificare pentru a favoriza intrările care permit mai multe împărțiri, adică
câmpurile de intrare continuă (intervalul numeric) sau cele cu mai multe categorii.
Algoritmul Quick, Unbiased, Efficient, Statistical Tree (QUEST) (Loh and Shih 1997; Lim
et al. 2000) a fost creat ca și o îmbunătățire semnificativă a algoritmului FACT. Ideea generală și
organizarea algoritmului rămân aceleași: metoda realizează algoritmul 2.3 care separă selectarea
caracteristicilor de determinarea divizării, apoi transformă caracteristicile simbolice în cele
numerice într-un mod similar, și utilizează teste statistice pentru a lua unele decizii.
Principalele modificări se referă la modul în care se obțin obiectivele specifice:
35
• Funcția de separare este selectată pe baza altei abordări pentru a estima importanța
caracteristicilor, vizând selecția imparțială;
• Împărțirea se face cu discriminare pătratică în loc de liniară;
• Arborele rezultat este binar, clasele sunt grupate înainte de divizare;
• Generalizarea se obține prin minimizarea complexității costurilor, precum în cazul CART
Loh și Shih (1997) susțin că modul în care convertesc trăsăturile simbolice la cele
continue este de asemenea diferit în algoritmul QUEST decât în FACT, totuși ei menționează că
metoda FACT convertește mai întai simbolurile caracteristice în vectori binari ’’dummy’’, și apoi
le transformă în numere reale cu o metodă care poate împărți nodul în mai mult de două
subnoduri, ceea ce nu este acceptat în QUEST. În mod evident se referă la altă versiune a metodei
FACT decât cea a lui Loh și Vanichsetakul (1988), deoarece, așa cum este descris mai sus, acesta
din urmă utilizează transformarea crimCoord pentru a converti simbolurile la valori numerice, și
același lucru se face și în QUEST. În mod natural , există o diferență între cele două metode și
ține de modul în care au fost împărțite caractersticile (engl. „split the features”) după divizare.
Ca și în metoda FACT, după ce divizarea este determinată pentru corespondența continuă (engl.
„continous counterpart”) a unei trăsături simbolice, ea poate fi reprodusă cu ușurință în limbajul
simbolurilor originale, astfel încât în arborele rezultat, caracteristica continuă generată în timpul
analizei nu este deloc vizibilă.
Cerințe:
Variabilele de intrare pot fi continue (intervale numerice), dar variabila țintă trebuie să fie
categorică (categorială). Toate divizările sunt binare. Orice câmp ordinal (set ordonat) utilizat în
model trebuie să aibă stocare numerică (nu string). Dacă este necesar, nodul de reclasificare poate
fi folosit pentru a le converti.
Puncte forte:
La fel ca CHAID, QUEST utilizează teste statistice pentru a decide dacă este sau nu
folosit un câmp de intrare (engl. “input field”). Se separă, de asemenea, problemele de selecție și
divizare a intrărilor, aplicând diferite criterii fiecăruia. Aceasta contrastează cu CHAID, în care
rezultatul testului statistic care determină selecția variabilei (engl. „variable selection”) produce,
de asemenea, împărțirea.
36
Fiind rapid, nedeplasat și eficient, algoritmul QUEST al arborelui de decizie suportă
divizări/ramificații liniare și univariate.
Pentru fiecare diviziune/ramificație, asocierea dintre fiecare atribut de intrare și atribut
țintă se calculează utilizând testul F (din) ANOVA sau testul Levene (pentru atributele ordinale și
continue) sau testul Chi-square Pearson (pentru atributele nominale).
Se calculează o statistică F ANOVA pentru fiecare atribut. Dacă valoarea calculată a
testului F depășește o valoare prag predefinită, atributul cu valoarea calculată a testului F mai
mare este selectată pentru a împărți nodul. În caz contrar, testul Levene pentru varianțe inegale
este calculat pentru fiecare atribut. Dacă valoarea calculată a testului Levene este mai mare decât
o valoare prag predefinită, atributul cu valoarea calculată a testului Levene mai mare este folosită
pentru a împărți nodul. Dacă niciun atribut nu depășește niciun prag, nodul este împărțit folosind
atributul cu cea mai mare valoare a testului F ANOVA.
Dacă atributul țintă este multinomial, gruparea cu două metode (engl.”two-means
clustering”) este utilizată pentru a crea două super-clase.
Atributul care obține cel mai mare grad de asociere cu atributul țintă este selectat pentru
divizare. Analiza discriminantă pătratică (QDA) (Quadratic Discriminant Analysis) este aplicată
pentru a găsi punctul optim de divizare pentru atributul de intrare. QUEST are o interfață
neglijabilă (engl. „bias”) și produce un arbore de decizie binar. Se folosește de 10 ori validarea
încrucișată pentru a tăia (engl. „ prune”) arborii.
Baza noastră de date denumită alcohol.sav din SPSS File cuprinde 10 variabile din care:
- 4 variabile sunt categoriale
- 6 variabile sunt numerice
37
Cele 6 variabile numerice sunt:
- Unemrate
- Age
- Educ
- Beertax
- Cigtax
- Ethanol
*Sursa: SPSS
38
În fereastra Decision Tree alegem variabila dependentă și pe cele independente, iar la
Growing Method selectăm metoda QUEST.
Click Validation
39
Se selectează “ Split-sample...” pentru realizarea setului de training și a testării acestuia.
Click Continue
Click Criteria
Pentru metoda QUEST putem specifica nivelul de încredere pentru realizarea împărțirii pe
noduri. Valoarea standard este 0,05. O valoare mai mică va tinde să excludă mai multe
variabile independente din modelul final.
Se selecteaza tab-ul Pruning
40
Pentru realizarea pruning-ului selectăm ”Prune tree to avoid overfitting”. Arborele va
crește până când va întâlnii criteriile de oprire. Riscul este exprimat de eroarea standard.
Valoarea nu trebuie să fie negativă.
Click pe tab-ul Surogates
Model Summary
Validation None
Number of Nodes 3
Depth 1
*Sursa: SPSS
42
Nodul 0 cuprinde cele 3 categorii ale variabilei “d_famsize” cu următoarele procente: average
(24,4%), high (6,5%), small (69,1%). Categoria cu cel mai mare procentaj este small.
Nodul 0 este împărțit de variabila “ age” în nodurile 1 și 2.
Nodul 1 include vârsta până în 46 ani și are următoarele procente: average(29,3%), high (7%) și
small (63,7%). În acest nod persoanele de până în 46 ani au un număr de membri de familie mic.
Nodul 2 include vârsta peste 46 ani și are următoarele procente: average(17,1%), high (5,7%) și
small (77,1%). În acest nod persoanele peste 46 ani au un număr de membri de familie mic.
43
Risk
,309 ,029
Classification
Observed Predicted
average 0 0 64 0,0%
high 0 0 17 0,0%
small 0 0 181 100,0%
Overall Percentage 0,0% 0,0% 100,0% 69,1%
Riscul estimat este de 30,9% și înseamnă că procentul de clasificare de 69,1% este aproape de
pragul de 75 %.
44
Rezultate AD pentru Split Sample:
Model Summary
Number of Nodes 3
Results
Number of Terminal Nodes 2
Depth 1
*Sursa: SPSS
Training Sample:
45
Test Sample:
46
Risk
Classification
average 0 0 32 0,0%
high 0 0 9 0,0%
Training
small 0 0 82 100,0%
high 0 0 8 0,0%
Test
small 0 0 99 100,0%
*Sursa: SPSS
Setul de Training
Riscul estimat este de 33,3% și înseamnă că procentul de clasificare de 66,7% este aproape de
pragul de 75 %.
Setul de Test
Riscul estimat este de 28,8% și înseamnă că procentul de clasificare de 71,2% este aproape de
pragul de 75 %.
47
5. Bibliografie
1. OK_Lior-Rokach-Oded-MaimonData-Mining-With-Decision-Trees-Theory-and-
Applications-2nd-Edition
2. 2.-SPSS_Decision_Trees_21
3. Evgeny Antipov and Elena Pokryshevskaya, 2009, Applying CHAID for logistic
regression diagnostics and classification accuracy improvement, ed. The State
University Higher School of Economics;
4. David Olson, Yong Shi, 2007, Introduction to Business Data Mining,
ed.McGRAW – HILL international edition;
5. Gilbert Ritschard, 2010, CHAID and Earlier Supervised Tree Methods
6. Breiman, L., J. H. Friedman, R. A. Olshen, and C. J. Stone (1984). Classification
And Regression Trees. Ed. New York: Chapman and Hall.
7. Breiman L, Friedman JH, Olshen RA, Stone CJ. Classification and Regression
Trees. Chapman & Hall (Wadsworth, Inc.): New York, 1984.
8. Grabczewski.K., Meta-Learning in Decision Tree Induction, Chapter 2 Techniques
of Decision Tree Induction, pag. 23 – 26.
48
49