Documente Academic
Documente Profesional
Documente Cultură
Profesor coordonator:
Turturean Ciprian
Studenți:
Apetrei Raluca Mădălina
Pădure Maria Cristiana
Voloh Ana
Iași 2018
Cuprins
Introducere .......................................................................................................................... 3
Algoritmul CHAID (Chi-square Autimatic Interaction Detection) .................................... 4
Algoritmul CART(Classification and Regression Trees) ................................................... 5
Algoritmul C4.5 .................................................................................................................. 7
Algoritmul QUEST ............................................................................................................. 8
Descriere baze de date ........................................................................................................ 9
Descrierea și argumentarea parametrilor fixați în clasificarea Arborilor de Decizie din
SPSS .............................................................................................................................................. 13
Prezentarea rezultatelor Arborelui de Decizie .................................................................. 27
Bibliografie ....................................................................................................................... 65
2
Introducere
Caracteristici:
Algoritmii de decizie au caracteristici după cum urmează:
Etape:
Arborele de decizie are, de obicei, două etape:
• În primul rând, folosim setul de date de antrenament pentru învățare, după care construim
un model de clasificare.
• Al doilea pas este utilizarea identificării modelului pentru a clasifica seturile de date de
eșantion.
Pentru realizarea acestui proiect s-au folosit trei baze de date, din SPSS și Rdatasets. Baza
de date homesales conține doar variabile numerice, baza de date smoke conține doar variabile
categorile, iar ultima bază, Employee conține atât variabile numerice, cât și categoriale.
Potrivit lui Ripley, 1996, algoritmul CHAID este un descendent al THAID dezvoltat de
Morgan și Messenger, (1973). CHAID va construi arbori non-binari (adică arbori în care mai mult
de două ramificații se pot atașa la o singură rădăcină sau nod), pe baza unui algoritm relativ simplu,
care este deosebit de potrivit pentru analiza seturilor de date mai mari. De asemenea, deoarece
algoritmul CHAID generează adesea multe tabele de frecvențe multiple (de exemplu, când
clasificăm o variabilă de răspuns categoric cu mai multe categorii, pe baza unor predictori categorici
cu mai multe clase), a fost deosebit de popular în cercetarea de marketing, în contextul a studiilor
de segmentare a pieței.
Acronimul CHAID este un detector de interacțiune automată Chi-squared. Acest nume
derivă din algoritmul de bază care este folosit pentru a construi arbori (non-binari), care pentru
problemele de clasificare (atunci când variabila dependentă este categorică în natură) se bazează pe
testul Chi-pătrat pentru a determina cel mai bun split următor la fiecare pas; pentru problemele de
tip regresie (variabila dependentă continuă), programul va calcula efectiv testele F.
CHAID diferă de CART în modul cum alege ramificarea. Pentru alegerea ramificării
optimale, CHAID se bazează pe testul 2 din tabelele de contingență pentru a determina care
predictor categorial este cel mai departe de independență cu valorile estimate. Etapele procedurii
CHAID sunt:
3. Selectarea valorii de separare - Variabila predictor cu cea mai mica; p-value ajustată =>
cea mai semnificativă separare;
Avantaje: CHAID se ocupă de valorile lipsă tratându-le pe toate ca pe o singură categorie variabilă.
4
Cunoscut sub denumirea de Classification And Regression Trees – CART – acest algoritm
a fost dezvoltat de Breiman, Friedman, Olshen și Stone în 1984 [1]. Scopul principal a fost
introducerea modelării bazate pe arbori în statistică, cu accent pe metoda cross-validation de
alegere a unui arbore optimal.
CART reprezintă un algoritm bazat pe arbori binari de decizie construiți prin divizarea unui nod
parinte în două noduri de tip fiu, în mod repetat/recursiv.
În figura 1 este ilustrat procesul de obținere a nodurilor terminale prin utilizarea algoritmului
CART, fiind reprezentate: nodurile părinte, nodurile fiu și respectiv, nodurile terminale.
Conform [1], “CART builds classification and regression trees for predicting continuous dependent
variables (regression) and categorial predictor variables (classification)”.
Această definiție, o vom detalia sub forma unor întrebări cheie, puse când se dorește a alege
un algoritm de construcție arbori de decizie, dar particularizăm pentru cazul curent.
• Ce tip de model/arbore construiește? Atât de regresie (variabila dependentă este continua, ex.
un scor), dar și de clasificare (variabila target este categorială, ex. un label),
• Care este criteriul de splitting (cum se calculează variația)? Pentru arbore de clasificare:
Gini, Twoing, Twoing ordonat. Pentru arborii de regresie: metoda celor mai mici pătrate (sum
of squared errors - difference between the observed and predicted values)[2],
• Care este criteriul de oprire al algoritmului? Tipic, implică momentul când ai ajuns la un număr
minim/maxim de cazuri într-un nod, etc.
5
• Despre goodness of fit (cât de mult se potrivesc valorile prezise de un model cu valorile
observate/adevărate)? Pentru arborii de clasificare este misclassification rates; pentru arborii
de regresie sum of squared errors (metoda celor mai mici pătrate).
• Probabilități anterioare (prior probabilities) și misclassification costs? Există doar la arborii
de clasificare sunt sub forma parametrilor de tuning.
• Referitor la implementare software? Se regăsește în SPSS, cu denumirea CRT, în R ca pachet
rpart, precum și în SAS, S-Plus.
Algoritmul C4.5
6
Algoritmul C 4.5 oferă mai multe îmbunătățiri algoritmului ID3. Cele mai importante îmbunătățiri
sunt:
• C4.5 utilizeaza o procedură de tăiere care îndepărtează ramurile care nu contribuie la acuratețe și le
înlocuiește cu noduri de frunze .
• Permite ca valorile atributelor să lipsească
• Manipulează atributele continuie prin divizarea valorii atributului interval în două subseturi (binar
Split). În mod special , acesta caută cel mai bun prag care maximizează criteriul raportului de câștig . Toate
valorile de mai sus constituie primul subset iar celelalte constituie cel de-al doilea subset.
Avantaje și dezavantaje
Avantajele modelului C4.5 sunt: construiește modele care pot fi ușor interpretate,ușor de
implementat, poate utiliza atât valori categoriale, cât și valori continue.
Dezavantajele sunt: variațiile mici ale datelor pot duce la arbori de decizie diferiți (mai ales
atunci când variabilele sunt apropiate una de cealaltă în valoare), nu funcționează foarte bine pe un
set mic de date.
Algoritmul QUEST
Algoritmul Quick, Unbiased, Efficient, Statistical Tree (QUEST) (Loh and Shih 1997;
Lim et al. 2000) a fost creat ca și o îmbunătățire semnificativă a algoritmului FACT. Ideea generală
și organizarea algoritmului rămân aceleași: metoda realizează algoritmul 2.3 care separă selectarea
caracteristicilor de determinarea divizării, apoi transformă caracteristicile simbolice în cele
numerice într-un mod similar, și utilizează teste statistice pentru a lua unele decizii.
Variabilele de intrare pot fi continue (intervale numerice), dar variabila țintă trebuie să fie
categorică (categorială). Toate divizările sunt binare. Orice câmp ordinal (set ordonat) utilizat în
model trebuie să aibă stocare numerică (nu string). Dacă este necesar, nodul de reclasificare poate
fi folosit pentru a le converti.
Puncte forte
La fel ca CHAID, QUEST utilizează teste statistice pentru a decide dacă este sau nu folosit un
câmp de intrare (engl. “input field”). Se separă, de asemenea, problemele de selecție și divizare a
intrărilor, aplicând diferite criterii fiecăruia. Aceasta contrastează cu CHAID, în care rezultatul
testului statistic care determină selecția variabilei (engl. „variable selection”) produce, de
asemenea, împărțirea.
Fiind rapid, nedeplasat și eficient, algoritmul QUEST al arborelui de decizie suportă
divizări/ramificații liniare și univariate.
7
Pentru fiecare diviziune/ramificație, asocierea dintre fiecare atribut de intrare și atribut țintă se
calculează utilizând testul F (din) ANOVA sau testul Levene (pentru atributele ordinale și continue)
sau testul Chi-square Pearson (pentru atributele nominale).
Se calculează o statistică F ANOVA pentru fiecare atribut. Dacă valoarea calculată a testului
F depășește o valoare prag predefinită, atributul cu valoarea calculată a testului F mai mare este
selectată pentru a împărți nodul. În caz contrar, testul Levene pentru varianțe inegale este calculat
pentru fiecare atribut. Dacă valoarea calculată a testului Levene este mai mare decât o valoare prag
predefinită, atributul cu valoarea calculată a testului Levene mai mare este folosită pentru a împărți
nodul. Dacă niciun atribut nu depășește niciun prag, nodul este împărțit folosind atributul cu cea
mai mare valoare a testului F ANOVA.
Dacă atributul țintă este multinomial, gruparea cu două metode (engl.”two-means clustering”) este
utilizată pentru a crea două super-clase.
Atributul care obține cel mai mare grad de asociere cu atributul țintă este selectat pentru divizare.
Analiza discriminantă pătratică (QDA) (Quadratic Discriminant Analysis) este aplicată pentru a
găsi punctul optim de divizare pentru atributul de intrare. QUEST are o interfață neglijabilă (engl.
„bias”) și produce un arbore de decizie binar. Se folosește de 10 ori validarea încrucișată pentru a
tăia (engl. „ prune”) arborii.
8
9
Cea de-a doua bază de date poartă denumirea „Employee data” din programul SPSS. Baza
de date conține informații despre 474 de angajați și îi caracterizează în funcție de 10 variabile,
aceste variabile pot oferi suficiente informații printr-o gamă largă de tehnici statistice aplicate pe
aceste date. Pentru efectuarea analizelor, am descris variabilele utilizate. Variabilele utilizate din
baza de date „Employee data” sunt: „Gender”- sexul,”educ” ne arată nivelul de educație (în ani)și
a fost transformată în variaila cu 2 categorii( angajații cu sau fără studii superioare), ”jobcat” ne
arată în ce categorie se clasează angajatul (Clerical, Custodial, Manager) ,”salary”- salariul curent,
„minority” -clasificarea minorităților/ minoritate
10
Ultima bază de date aleasă este denumită „Smoke” și preluată din baza de date R Datasets.
Baza de date conține informații despre 807 indivizi, monitorizate în funcție de 5 varibile, care oferă
informații despre obiceiurile fumătorilor. Pentru efectuarea analizelor, am descris variabilele
utilizate.
Variabilele din baza de date „Smoke” sunt:
„White” care indică rasa indivizilor, ce are două categorii 0 – Nu, 1 – Da;
„Age” care indică vârsta indivizilor și are patru categorii. Prima categorie a indivizilor au
vârsta cuprinsă între 14 și 18 ani și sunt considerați adoleșcenți. A doua categorie a indivizilor au
vârsta cuprinsă între 19 și 25 ani și sunt considerați tineri. A treia categorie a indivizilor au vârsta
cuprinsă între 26 și 65 ani și sunt considerați adulți, iar ultima categorie a indivizilor au vârsta mai
mare decât 66 ani și sunt denumiți bătrâni;
„Educ” care indică anii de școlarizare ai individului, ce are trei categorii 1 – studii medii
nefinalizate pentru persoanele cu 10 ani de școală, 2 – studii medii finalizate pentru persoanele ce
au până la 12 ani de școală, 3 – studii superioare/postliceală pentru persoanele ce au peste 12 ani
de școală.
„Cigs” care indică numărul de țigări fumate de o persoană pe zi, ce are 3 categorii, 0 –
persoanele nefumătoare, 1 – persoane ce fumează sub medie (9 țigări pe zi), 2 - persoane ce fumează
peste medie;
„Restaurn” care indică dacă locul este interzis pentru fumători, are categoriile 0 – Nu, 1 – Da;
11
Descrierea și argumentarea parametrilor fixați în
clasificarea Arborilor de Decizie din SPSS
12
13
14
Algoritmul QUEST folosit pentru baza de date Employee
Pentru baza de date Employee, s-a ales variabila dependentă categorială gender cu cele două categorii
feminin și masculin.
Variabila independentă este reprezentată de variabilele independente Current Salary, Beginning Salary și
Previous Experience.
Mai jos sunt prezentați pașii ce urmează a fi efectuați pentru afișarea rezultatelor:
15
• Alegerea variabilelor independente și a variabilei dependente;
• Bifarea categoriilor ce prezintă interes pentru analiză;
• Alegerea procentului pentru formarea și testarea datelor;
16
17
18
19
Algoritmul CART folosit pentru baza de date Employee data.
Pentru baza de date Employee, s-a ales variabila dependentă o variabilă numerică și anume
salariul curent al angajatului (current salary) .
Variabilele independente sunt: nivelul de educație( cu sau fara studii medii), sexul persoanei,
minoritatea și funția pe care o are în firmă( manger, clerical sau custodial).
Mai jos sunt prezentați pașii ce urmează a fi efectuați pentru afișarea rezultatelor:
20
Alegem variabilele care le vom utiliza in acest algoritm( CART).Variabila
dependentă,numerică current salary, variabilele independente: gender, educ1, minority și
employement category. Algoritmul va exclude în mod automat toate variabilele care nu sunt
importante pentru modelul final.
Am definit regulile,exportam acest fișier pentru al folosi mai târziu la un alt Data File.
21
Pentru numărul minim de cazuri, introducem 400 pentru nodul părinte și 200 pentru nodul copil.
Pentru diviziunea nodului( node split) a fiecărei variabile independente, setarea automată(
Automatic) va lua în considerare toate celelalte variabile independente care au o anumită valoare
și care pot fi selectate. Din moment ce nu există vreo variabilă independentă în acest exemplu,
setarea automată este finală.
22
Importanța variabilelor independente în model.Graficul bar chart este utilizat pentru a
putea observa importanța variabilelor independente în model. Această opțiune este disponibilă doar
pentru algoritmul CART.
După ce s-a determinat că modelul este în mod rezonabil bun, putem aplica acest model
în alte fișiere de date care conțin variabile similare de gen, salariu,categorie ierarhică și nivel de
educație și generează o nouă variabilă care reprezintă salariul curent al angajatului estimat pentru
fiecare caz din acel fișier. Acest proces este adesea denumit scoring. Atunci când se creează un
model, se precizează că "regulile" de atribuire a valorii vor fi salvate într-un fișier text - sub forma
23
unei sintaxe de comandă. Acum vom folosi comenzile din acest fișier pentru a genera scoruri întrun
alt fișier de date.
După ce am rulat sintaxa de mai sus, am obținut 2 variabile noi în baza de date inițială:
24
În tabelul de mai sus am selectat variabilele current salary și pre_001 pentru a realiza o corelație
bivariată.
Algoritmul CHAID exhaustiv reprezintă modificarea CHAID care examinează toate împărțirile
posibile pentru fiecare predictor.
Pentru baza de date Smoke, s-a ales variabila categorială țigări_zi, cu cele trei categorii, nefumători,
fumători sub medie și fumători peste medie.
Variabila independentă este reprezentată de variabila țigari_zi, iar variabilele dependente sunt
următoarele: educație, vârstă.
Mai jos sunt prezentați pașii ce urmează a fi efectuați pentru afișarea rezultatelor:
• Alegerea variabilelor independente și a variabilei dependente;
• Bifarea categoriilor ce prezintă interes pentru analiză;
• Alegerea procentului pentru trainig și testarea datelor;
• Alegerea coeficientului Pearson pentru prelucrarea datelor;
25
Prezentarea rezultatelor Arborelui de Decizie
26
Secțiunea Rezultate afișează informații despre numărul de noduri totale și terminale,
adâncimea arborelui (numărul de niveluri sub nodul rădăcină) și variabile independente incluse în
modelul final.
Au fost specificate două variabile independente, ambele au fost incluse în modelul final.
Variabila dependentă este simbolizată de tigari_zi, iar independentele de educație și vârstă.
Model Summary
Growing Method
CHAID
Dependent Variable
tigari_zi
Independent Variables
Validation educatie, varsta
27
Diagrama arbore este o reprezentare grafică a arborelui de decizie. Această diagramă arbore
arată că:
Folosind metoda CHAID, vârsta este cel mai bun predictor al numărului de țigări fumate într-o
zi.
Pentru categoria bătrân, adolescent și tânăr, vârsta este singurul predictor semnificativ al
numărului de țigări consummate pe zi. Persoanele din aceaste categorii, 64% din adoleșcenți și
tineri sunt nefumători, iar pentru bătrâni 80% sunt nefumători. Deoarece nu există niciun nod
copil sub acesta, sunt considerate noduri terminale.
Pentru categoria adult, cel mai bun predictor este educația.
Peste 66% dintre persoane au studii superioare, în timp ce jumătate dintre cei cu studii medii
finalizate/Studii medii nefinalizate sunt adulți.
Tree Table
28
0
497 61.6% 36 4.5% 274 34.0% 807 100.0% Nefumatori
1
322 57.8% 22 3.9% 213 38.2% 557 69.0% Nefumatori 0 varsta .001 22.596 4 Adult
2 105 64.4% 12 7.4% 46 28.2% 163 20.2% Nefumatori 0 varsta .001 22.596 4 Adolescent; Tanar
4 168 66.7% 9 3.6% 75 29.8% 252 31.2% Nefumatori 1 educatie .002 15.063 2 Studii
suprioare/postliceala
154 50.5% 13 4.3% 138 45.2% 305 37.8% Nefumatori 1 educatie .002 15.063 2 Studii medii
finalizate; Studii
medii nefinalizate
5
Growing Method: CHAID
Dependent Variable: tigari_zi a.
Bonferroni adjusted
Tabela arbore, așa cum sugerează și numele, furnizează cea mai mare parte a informațiilor din
diagrama esențială din arbore sub formă de tabel. Pentru fiecare nod, tabelul afișează:
Numărul și procentul de cazuri din fiecare categorie a variabilei dependente.
Categoria prevăzută pentru variabila dependentă. În acest exemplu, categoria prevăzută este
categoria nefumători cu mai mult de 50% din cazuri în acest nod, deoarece există numai o singură
categorie luată în considerare, cea a nefumătorilor.
Nodul părinte pentru fiecare nod din arbore.
29
Tabelul de noduri oferă un rezumat al informațiilor despre nodurile terminale din model.
Numai nodurile terminale - nodurile la care arborele se oprește - sunt listate în acest tabel.
În mod frecvent, veți fi interesați numai de nodurile terminale, deoarece acestea reprezintă cele mai
bune predicții de clasificare pentru model.
În acest exemplu, există o singură categorie țintă, astfel încât există doar nefumatori pentru tabelul
nodurilor.
Nodul N este numărul de cazuri din fiecare nod terminal, iar Nodul Procent este procentul din
numărul total de cazuri din fiecare nod.
Gain N este numărul de cazuri din fiecare nod terminal din categoria țintă și Gain Procent
este procentul de cazuri din categoria țintă în raport cu numărul total de cazuri din categoria țintă -
în acest exemplu, numărul și procentul cazurilor persoanelor nefumătoare.
Pentru variabilele dependente categoriale, răspunsul este procentul cazurilor din nod din
categorie țintă specificată. În acest exemplu, acestea sunt aceleași procente afișate pentru diagrama
arborelui.
Pentru variabilele dependente categorice, Indexul este raportul dintre procentul de răspuns al
țintei în comparație cu procentul de răspuns pentru întregul eșantion.
30
Această diagramă indică faptul că modelul este unul destul de bun. Graficele cu câștiguri
cumulative încep întotdeauna la 0% și se termină la 100% pe măsură ce treceți de la un capăt la
altul. Pentru un model bun, graficul câștigurilor va crește abrupt până la 100% și apoi se va opri.
Un model care nu furnizează informații va urma linia de diagonală de referință. În concluzie
modelul este bun.
31
Diagrama index indică, de asemenea, că modelul este unul bun. Diagramele indexate cumulative au
tendința de a începe peste 100% și coboară treptat până când ajung la 100%.
Pentru un model bun, valoarea indicelui ar trebui să înceapă cu mult peste 100%. Pentru un
model care nu furnizează informații, linia se va deplasa în jur de 100% pentru întreaga diagramă.
Risk
.384 .017
Growing Method: CHAID
Dependent Variable: tigari_zi
Classification
32
Observed
Predicted
Nefumatori Percent Correct
Fumatori sub Fumatori peste
medie medie
100.0%
Nefumatori 497 0 0
0.0%
Fumatori sub medie 36 0 0
Model Summary
33
Specifi Growing Method cations CHAID
Dependent Variable
tigari_zi
Independent
varsta, educatie
Variables
Validation Split Sample
Maximum Tree
3
Depth
Minimum Cases in
100
Parent Node
Minimum Cases in
50
Child Node
Results Independent
educatie
Variables Included
3
Number of Nodes
Number of Terminal
2
Nodes
Depth 1
34
Diagrama arbore este o reprezentare grafică a arborelui de decizie. Această diagramă arbore
arată că:
Folosind metoda CHAID, nivelul studiilor este cel mai bun predictor al numărului de țigări
fumate într-o zi.
Pentru categoria nefumători, fumători sub medie și fumători peste medie, nivelul de
școlarizare este singurul predictor semnificativ al numărului de țigări consummate pe zi. Persoanele
din aceaste categorii, 59% din cei cu studii superioare și medii finalizate sunt nefumători, iar pentru
cei cu studii nefinalizate 56% sunt nefumători. Deoarece nu există niciun nod copil sub acesta, sunt
considerate noduri terminale.
35
Tabelul de noduri oferă un rezumat al informațiilor despre nodurile terminale din model.
Numai nodurile terminale - nodurile la care arborele se oprește - sunt listate în acest tabel.
În mod frecvent, veți fi interesați numai de nodurile terminale, deoarece acestea reprezintă cele mai
bune predicții de clasificare pentru model.
În acest exemplu, există o singură categorie țintă, astfel încât există doar nefumatori pentru tabelul
nodurilor.
Nodul N este numărul de cazuri din fiecare nod terminal, iar Nodul Procent este procentul din
numărul total de cazuri din fiecare nod.
Gain N este numărul de cazuri din fiecare nod terminal din categoria țintă și Gain Procent este
procentul de cazuri din categoria țintă în raport cu numărul total de cazuri din categoria țintă
Pentru variabilele dependente categorice, Indexul este raportul dintre procentul de răspuns
al țintei în comparație cu procentul de răspuns pentru întregul eșantion.
36
Această diagramă indică faptul că modelul este unul destul de bun. Graficele cu câștiguri
cumulative încep întotdeauna la 0% și se termină la 100% pe măsură ce treceți de la un capăt la
altul. Pentru un model bun, graficul câștigurilor va crește abrupt până la 100% și apoi se va opri.
Un model care nu furnizează informații va urma linia de diagonală de referință. În concluzie
modelul este bun.
37
Diagrama index indică, de asemenea, că modelul este unul bun. Diagramele indexate cumulative au
tendința de a începe peste 100% și coboară treptat până când ajung la 100%.
Pentru un model bun, valoarea indicelui ar trebui să înceapă cu mult peste 100%. Pentru un
model care nu furnizează informații, linia se va deplasa în jur de 100% pentru întreaga diagramă.
38
39
40
Risk
41
Classification
Predicted
g Fumatori
19 0 0 0.0%
sub medie
Fumatori
124 0 0 0.0%
peste medie
Overall
100.0% 0.0% 0.0% 64.2%
Percentage
Test
Nefumato 100.0
ri 241 0 0 %
Fumatori
17 0 0 0.0%
sub medie
Fumatori
150 0 0 0.0%
peste medie
Overall
100.0% 0.0% 0.0% 59.1%
Percentage
Growing Method: CHAID Dependent
Variable: tigari_zi
Rezultatele din tabelul de clasificare sunt în concordanță cu estimarea riscului. Se vede în tabelul
Classification că modelul clasifică corect aproximativ 59,1% din persoane.
42
Rezultate pentru aplicarea algoritmului QUEST folosit pe baza de date Employee.
Model Summary
QUEST
Growing Method
Gender
Dependent Variable
Beginning Salary, Previous Experience
Independent Variables (months), Current Salary
Validation None
Specifications
Maximum Tree Depth 5
Minimum Cases in Parent 100
Node
Minimum Cases in Child 50
Node
Independent Variables Current Salary, Beginning Salary, Previous
Included Experience (months)
Number of Nodes
Results 5
Number of Terminal Nodes
Depth 3
Tabelul sumar al modelului oferă câteva informații despre specificațiile utilizate pentru a construi
modelul.
Au fost specificate variabilele independente : Current Salary, Beginning Salary, Previous
Experience (months) și o varabilă dependenta: gender.
43
Diagrama arbore este o reprezentare grafică a arborelui de decizie. Această diagramă arbore
arată:
• Pentru categoria cu salariul mai mare ca 35674.4, genul masculin este singurul
predictor semnificativ al genului persoanei. Din totalul persoanelor care primesc
salariu mai mare ca 35674.4 , 85.2% sunt bărbați. Deoarece nu există niciun nod
copil de sub acesta, este considerat un nod terminal.
• 59.9% din persoanele ce dețin un salariu curent mai mic de 35674.4 sunt personae
de gen feminin iar 85.2% dintre cei ce dețin un salariu mai mare ca 35674.4 sunt
bărbați.
• Peste 86.6% dintre personaele ce au avut un salariu de începător mai mic sau egal cu
14169.7 sunt personae de gen feminin.
• Peste 76.9 dintre persoanele ce au avut un salariu de începător mai mare decât
14169.7 sunt persoane de gen masculin.
Training Sample
44
Nodul 0 afișează un procent al categoriei reprezentată de persoanele de sex feminin de 44.6%
și un procentaj al bărbaților de 55.4%.
Nodul 1, este reprezentat de persoanele cu un salariu curent mai mic sau egal cu 37107.5
și persoanele cu un salariu curent mai mare de 37107.5.
Nodul 3, este reprezentat de persoanele care au un salariu actual mai mic sau egal cu
37107.5$ și au avut un salariu de început mai mic sau egal cu 14179.7.
Test Sample
45
Nodul 0 afișează persoanele de sex feminin 46.6 într-un procent de și persoanele de sex masculin
într-un procent de 53.4
Nodul 1, este reprezentat de angajații care au un salariu mediu curent mai mic de
37107.5$, comparativ cu nodul 2, care este reprezentat de angajații ce au un salariu mediu curent
mai mare de 37107.5$.
Nodul 3, este reprezentat de persoanele care au un salariu mediu curent mai mic de
37107.5$ și au avut un salariu de început mai mic sau egal cu 14179.7$ spre deosebire de nodul 4,
care este reprezentat de persoanele , ce au un salariu mediu curent mai mic de 37107.5$ dar au
avut un salariu de început mai mare de 14179.7.
Prior Probabilities
46
Gender Prior Probability
Female ,456
Male ,544
Priors are obtained from the training
sample
Misclassification Costs
Observed
Predicted
Female Male
Female ,000
Male 1,000
1,000 ,000
Dependent Variable: Gender
N Percent N Percent
Tabelul de noduri oferă un rezumat al informațiilor despre nodurile terminale din model.
Tabelul include numărul de noduri, numărul de cazuri, index-ul Nodul 2 este format din 128 de
cazuri, nodul 3 din 193 de cazuri și nodul 4 din 153 de cazuri.
47
Target Category: Male
N Percent N Percent
Categoria țintă din acest table este reprezentată de numărul și procentul cazurilor
persoanelor de sex masculin. Tabelul include numărul de noduri, numărul de cazuri, index-ul.
Nodul 2 este format din 128 de cazuri, nodul 3 din 193 de cazuri și nodul 4 din 153 de cazuri.
Risk
,243 ,020
Growing Method: QUEST
Dependent Variable: Gender
Classification
Observed
Predicted
Tabelul Model Summary ne arată că doar 3 variabile independente au fost selectate din
totalul variabilelor independente, deoarece acestea au determinat o contributie semnificativa
suficienta pentru a fi incluse in modelul final.Variabilele selectate sunt: categoria ierarhică, sexul
și nivelul de educație.
Aceasta este o informație importantă pentru a o cunoaște dacă dorim să aplicăm acest
model altor fișiere de date, deoarece variabilele independente utilizate în model trebuie să fie
prezente în orice fișier de date pe care dorim să îl aplicăm modelului.
Tabelul Model Summary de asemenea ne arată că arborele nu este unul foarte complicat, complex
, deoarece avem 7 noduri și 4 noduri terminale.
49
CART
reprezintă un
algoritm bazat pe
arbori binari de
decizie construiți prin
divizarea unui nod
parinte în două
noduri de tip fiu, în
mod repetat/recursiv.
Nodul părinte este
reprezentat de
variabila numerică,
dependentă și anume
salariul curent al
angajatului( current
salary).
Pentru
variabilele dependente
de tip scală, fiecare nod arată
media și abaterea
standard a variabilei
dependente.
Nodul 0 afișează un
salariu mediu al angajatului de
aproximativ 34419.57$, cu o
abatere standard de
aproximativ 17075,661.
Nodul 1,
este reprezentat de
angajații din
categoria ierarhică
Clerical și Custodial
care au un salariu mediu
curent de doar
28053,18$,
comparativ cu nodul
2, care este reprezentat
de angajații din
categoria ierarhică
Manager, ce au un
salariu mediu curent
de 63977.8$.
50
Nodul 3, este reprezentat de persoanele ce au studii superioare care au un salariu mediu
curent de 32354.257$ spre deosebire de nodul 4, care este reprezentat de persoanele fară studii
superioare, ce au un salariu mediu curent de doar 25422.769$.
Nodul 5, este reprezentat de persoanele de sex M cu un salariu mediu curent de 28748.214$.
În contrast, nodul 6, care este reprezentat de persoanele de sex F, ce au un salariu mediu curent
de doar 23654,810$.
Acest tabel ne oferă informații sumare pentru fiecare nod din arbore, incluzând numărul
nodului părinte, valoarea (valorile) variabilei independente pentru nod, media și abaterea standard
pentru variabilele dependente de tip scală.
5 84 17.7% $28,748.21
51
Pentru variabilele dependente de tip scală, tabelul include numărul de noduri, numărul de
cazuri și valoarea medie a variabilei dependente.Nodul 2 este format din 84 de cazuri și are valoarea
medie a variabilei dependente, salariul current 63.977,80 $.Nodul 3 are valoarea medie a salariului
angajatului de 32354,26$, nodul 5 este format din 84 de cazuri și nodul 6-158 de cazuri.
În metoda CRT, nivelul fiecarei variabile dependente acordă importanța acesteia în model.Această
nu este posibilă pentru metodele QUEST sau CHAID.
Putem spune că cea mai importantă variabilă în arborele noastru este categoria ierahică,
urmată apoi de sex și de nivelul de educație. Variabila clasificarea minorităților foarte mica
importanță, din acest motiv am decis să o excludem din model.
Normalized
Independent Variable Importance Importance
Employment Category
190226211.579 100.0%
11567880.356 6.1%
Gender
52
Dependent Variable: Current Salary
Tabelul de risc
Risk
90473607.410 14746335.860
Growing Method: CRT
Dependent Variable: Current Salary
Nici unul dintre rezultatele pe care le-am examinat până acum nu ne spune dacă acesta
este un model deosebit de bun. Unul dintre indicatorii care descrie performanța modelului este
estimarea riscului. Pentru variabila dependent de tip scală, estimarea riscului este determinate de
măsura varianței din interiorul nodului, care, de la sine, nu ne poate da un rezultat bun.O variață
mică indică un model mai bun, dar varianța este relativă la unitatea de măsură.
Correlations
Current pre_0
Salary 01
Current Pearson Correlation .830**
1
53
Salary
Sig. (2-tailed)
.000
N
474 474
pre_001 Pearson Correlation .830**
1
Corelația de 0,83 indică o corelație pozitivă foarte puternică între salariul angajatului real și
cel prezis, ceea ce indică faptul că modelul funcționează bine.
Tabela Surrogates
54
Pentru nodul rădăcină( nodul 0), cea mai bună variabilă independentă(predictor ) este categoria
ierarhică.
Pentru nodul 1, pentru cazurile cu valori lipsă a variabilei educ1( nivelul de educație), genul(
gender) este folosit ca predictor surogat
Nodul 4, variabila categoria ierarhică este folosită ca predictor surogat, deoarece această variabilă
are o asociere mare (0,310) cu gender. Dacă un caz are, de asemenea, o valoare lipsă pentru
categoria ierarhică , atunci clasificarea minorităților este folosită ca surogat (deși are o valoare de
asociere destul de scăzută de numai 0,048)
Predicted
sub medie 1
328 99.7%
peste medie 62 83 57.2%
Overall 82. 17.7
% 86.7%
Percentage
3%
Growing Method: CRT
Dependent Variable: salary2
55
Setul de Training și de testare
56
Din meniu selectăm split-sample validation.
Putem afișa rezultate pentru setul de antrenament și pentru setul de testare, fie doar pentru proba
de testare.
57
Tabelul Model Summary ne arată că doar 3 variabile independente au fost selectate din
totalul variabilelor independente, deoarece acestea au determinat o contributie semnificativa
suficienta pentru a fi incluse in modelul final.Variabilele selectate sunt: categoria ierarhică, sexul
și nivelul de educație.
Aceasta este o informație importantă pentru a o cunoaște dacă dorim să aplicăm acest
model altor fișiere de date, deoarece variabilele independente utilizate în model trebuie să fie
prezente în orice fișier de date pe care dorim să îl aplicăm modelului.
Tabelul Model Summary de asemenea ne arată că arborele nu este unul foarte complicat, complex
, deoarece avem 5 noduri și 3 noduri terminale.
Training Sample
58
CART reprezintă un algoritm bazat pe arbori binari de decizie construiți prin divizarea unui
nod parinte în două noduri de tip fiu, în mod repetat/recursiv. Nodul părinte este reprezentat de
variabila numerică, dependentă și anume salariul curent al angajatului( current salary).
Pentru variabilele dependente de tip scală, fiecare nod arată media și abaterea standard a
variabilei dependente.
59
Nodul 1, este reprezentat de angajații din categoria ierarhică Clerical și Custodial care
au un salariu mediu curent de doar 28449,037$, comparativ cu nodul 2, care este reprezentat de
angajații din categoria ierarhică Manager, ce au un salariu mediu curent de 61292.315$.
Nodul 3, este reprezentat de persoanele ce au studii superioare care au un salariu mediu
curent de 33414.306$ spre deosebire de nodul 4, care este reprezentat de persoanele fară studii
superioare, ce au un salariu mediu curent de doar 25340.348$.
Test Sample
Pentru variabilele dependente de tip scală, tabelul include numărul de noduri, numărul de
cazuri și valoarea medie a variabilei dependente.
Tabelul Risc
61
Nici unul dintre rezultatele pe care le-am examinat până acum nu ne spune dacă acesta
este un model deosebit de bun. Unul dintre indicatorii care descrie performanța modelului este
estimarea riscului. Pentru variabila dependentă de tip scală, estimarea riscului este determinate de
măsura varianței din interiorul nodului, care, de la sine, nu ne poate da un rezultat bun.O variață
mică indică un model mai bun, dar varianța este relativă la unitatea de măsură.
Pentru a interpreta estimarea riscului vom parcurge următorii pași( setul de antrenament)
• Variația totală este egală cu varianța din interiorul nodului (error) plus varianța dintre nod
(explicată)
• Variația în nod este valoarea estimată a riscului: 80855502.851
• Varianța totală este varianța pentru variabilele dependente înainte de luarea în considerare
orice variabile independente, care este varianța la nodul rădăcină. Abaterea standard afișată
la nodul rădăcină este 16779,177; astfel încât varianța totală este acea valoare la pătrat:
281540780,8
• Proporția varianței datorată erorii (varianță inexplicabilă) este 80855502.851 / 281540780,8 =
0,28
• Proporția varianței explicate de model bazat pe setul de antrenament este 1 - 0,28 = 0,72 sau
72%, ceea ce indică faptul că acesta este un model destul de bun.
Estimarea riscului pentru setul de testare:
• Variația în nod este valoarea estimată a riscului: 109849085.659
• Varianța totală este varianța pentru variabilele dependente înainte de luarea în considerare
orice variabile independente, care este varianța la nodul rădăcină.
• Abaterea standard afișată la nodul rădăcină este 17295,783; astfel încât varianța totală este
acea valoare la pătrat: 299144109,58
• Proporția varianței datorată erorii (varianță inexplicabilă) este 109849085.659/ 299144109,58
= 0,36
• Proporția varianței explicate de model bazat pe setul de testare este 1 - 0,36 = 0,64 sau 64%,
ceea ce indică faptul că acesta este un model destul de bun.
În metoda CRT, nivelul fiecarei variabile dependente acordă importanța acesteia în model.Această
nu este posibilă pentru metodele QUEST sau CHAID
Tabelul Surrogates
63
Pentru nodul rădăcină( nodul 0), cea mai bună variabilă independentă(predictor ) este
categoria ierarhică.
Pentru nodul 1, pentru cazurile cu valori lipsă a variabilei educ1( nivelul de educație), genul(
gender) este folosit ca predictor surogat.
Tabelul Model Summary ne arată că dintre variabilele propuse pentru analiză, modelul lea
selectat pe toate.
Variabilele selectate sunt: vârsta și nivelul de educație.
Aceasta este o informație importantă pentru a o cunoaște dacă dorim să aplicăm acest
model altor fișiere de date, deoarece variabilele independente utilizate în model trebuie să fie
prezente în orice fișier de date pe care dorim să îl aplicăm modelului.
64
Tabelul Model Summary de asemenea ne arată că arborele este simplu și ușor de înțeles, deoarece
avem 6 noduri și 4 noduri terminale.
Folosind metoda CHAID Exhaustive, vârsta este cel mai bun predictor al numărului de țigări fumate
într-o zi.
Pentru categoria bătrân, adolescent și tânăr, vârsta este singurul predictor semnificativ al
numărului de țigări consummate pe zi. Persoanele din aceaste categorii, 64,4% din adoleșcenți și
tineri sunt nefumători, iar pentru bătrâni 80,5% sunt nefumători. Deoarece nu există niciun nod copil
sub acesta, sunt considerate noduri terminale.
Pentru categoria adult, cel mai bun predictor este educația.
Peste 66,7% dintre persoane au studii superioare, în timp ce jumătate din cei cu studii medii
finalizate/Studii medii nefinalizate sunt adulți.
65
Node Gain
3 130.6
87 10.8% 70 14.1% 80.5%
%
4 108.2
252 31.2% 168 33.8% 66.7%
%
2 104.6
163 20.2% 105 21.1% 64.4%
%
66
Diagrama indică, de asemenea, că modelul este unul bun. Graficele indexului cumulativ tind
să înceapă peste 100% și să coboare treptat până când ajung la 100%.
Pentru un model bun, valoarea indicelui ar trebui să înceapă cu mult peste 100%, să
rămână pe un platou în timp ce vă deplasați de-a lungul drumului și apoi să trageți brusc spre 100%.
Din graficul nostru, putem observa ca linia începe de la 114% Pentru un model care nu oferă nicio
informație, linia va trece peste 100% pentru întreaga diagramă.
67
Graficele cumulative încep întotdeauna la 0% și se termină la 100% pe măsură ce se trece
de la un capăt la altul.. Din modelul de mai sus, observăm o creștere până la 80% și apoi încet, încet
se stinge.
Diagrama indică, de asemenea, că modelul este unul bun. Graficele indexului cumulativ tind să
înceapă peste 100% și să coboare treptat până când ajung la 100%.
Pentru un model bun, valoarea indicelui ar trebui să înceapă cu mult peste 100%, să
rămână pe un platou în timp ce vă deplasați de-a lungul drumului și apoi să trageți brusc spre 100%.
Din graficul nostru, putem observa ca linia începe de la 125% cee ace ne demonstrează că e avem
un rezultat bun.
68
Graficele cumulative încep întotdeauna la 0% și se termină la 100% pe măsură ce se trece
de la un capăt la altul.. Din modelul de mai sus, observăm o creștere până la 60% și apoi încet, încet
se stinge.
69
Diagrama indică, de asemenea, că modelul este unul bun. Graficele indexului cumulativ tind să
înceapă peste 100% și să coboare treptat până când ajung la 100%.
Pentru un model bun, valoarea indicelui ar trebui să înceapă cu mult peste 100%, să rămână pe
un platou în timp ce vă deplasați de-a lungul drumului și apoi să trageți brusc spre
100%. Din graficul nostru, putem observa ca linia începe de la 132% ceea ce ne demonstrează că e
avem un rezultat bun.
Tabelul risc
Risk
.384 .017
Growing Method: EXHAUSTIVE CHAID Dependent
Variable: tigari_zi
70
Tabelul de clasificare
Classification
Predicted
Nefumatori
497 0 0 100.0%
36 0 0 0.0%
Fumatori sub medie
Training Sample
Test Sample
72
Folosind metoda CHAID EXH, vârsta este cel mai bun predictor al numărului de țigări fumate
într-o zi.
Pentru categoria bătrân și adolescent, vârsta este singurul predictor semnificativ al
numărului de țigări consummate pe zi. Persoanele din aceaste categorii, 72.9% din adolecenți și
bătrîni sunt nefumători, iar pentru adulți și tineri 57.8% sunt nefumători. Deoarece nu există
niciun nod copil sub acesta, sunt considerate noduri terminale.
Pentru categoria adult și tânăr cel mai bun predictor este educația.Peste 63.9% dintre
persoane au studii superioare, în timp ce jumătate dintre cei cu studii medii finalizate/Studii medii
nefinalizate sunt adulți și tineri.
73
Graficele cumulative încep întotdeauna la 0% și se termină la 100% pe măsură ce se trece
de la un capăt la altul. Pentru un model bun, câștigul schart va crește abrupt până la 100% și apoi
se va stinge. Pentru modelul Test Sample se obervă o foarte mica creștere, pentru training sample
obervăm o creștere până la 50% după se stinge ușor.
74
Diagrama indică, de asemenea, că modelul este unul bun. Graficele indexului cumulativ tind
să înceapă peste 100% și să coboare treptat până când ajung la 100%.
Pentru un model bun, valoarea indicelui ar trebui să înceapă cu mult peste 100%, să
rămână pe un platou în timp ce vă deplasați de-a lungul drumului și apoi să trageți brusc spre 100%.
Din graficul nostru, putem observa ca linia începe de la 118% atât pentru setul de antrenament cât
și pentru setul de testare. Pentru un model care nu oferă nicio informație, linia va trece peste 100%
pentru întreaga diagramă.
75
Graficele cumulative încep întotdeauna la 0% și se termină la 100% pe măsură ce se trece
de la un capăt la altul. Din modelul de mai sus, pentru setul de antrenament observăm o creștere
până la 60% și apoi încet, încet se stinge.Pentru setul de testare nu avem un rezultat bun.
Diagrama indică, de asemenea, că modelul este unul bun. Graficele indexului cumulativ tind
să înceapă peste 100% și să coboare treptat până când ajung la 100%.
Pentru un model bun, valoarea indicelui ar trebui să înceapă cu mult peste 100%, să
rămână pe un platou în timp ce vă deplasați de-a lungul drumului și apoi să trageți brusc spre 100%.
Din graficul nostru, putem observa ca linia începe peste 130% pentru ambele seturi.
76
Graficele cumulative încep întotdeauna la 0% și se termină la 100% pe măsură ce se trece
de la un capăt la altul. Pentru un model bun, câștigul schart va crește abrupt până la 100% și apoi
se va stinge. Din modelul de mai sus, observăm o creștere până la 80% și apoi încet, încet se stinge
pentru setul de antrenament și pentru testare.
77
Diagrama indică, de asemenea, că modelul este unul bun. Graficele indexului cumulativ tind
să înceapă peste 100% și să coboare treptat până când ajung la 100%.
Pentru un model bun, valoarea indicelui ar trebui să înceapă cu mult peste 100%, să
rămână pe un platou în timp ce vă deplasați de-a lungul drumului și apoi să trageți brusc spre 100%.
Din graficul nostru, putem observa ca linia începe de la 118% pentru ambele seturi de date
Pentru un model care nu oferă nicio informație, linia va trece peste 100% pentru întreaga diagramă.
Risk
Training
.367 .025
Test
.320 .024
Growing Method: EXHAUSTIVE CHAID Dependent
Variable: tigari_zi
Riscul estimat este de 0.367 pentru setul de antrenament ,ceea ce ne indică că categoria predictivă
a modelului( fumători, fumători sub medie și peste medie) este greșită pentru 36,7%.
78
"Riscul" de clasificare greșită a unei persoane este de aproximativ 32%.
Tabela de clasificare ne arată o rată generală de clasificare corectă de aproape 63.1% pentru
setul de antrenament și 60.0% pentru setul de testare.
Bibliografie
1. Breiman L, Friedman JH, Olshen RA, Stone CJ. Classification and Regression Trees. Chapman &
Hall (Wadsworth, Inc.): New York, 1984.
79
2. Classification and regression trees - Wei-Yin Loh
http://www.stat.wisc.edu/~loh/treeprogs/guide/wires11.pdf
3. A Survey on Decision Tree Algorithms of Classification in Data Mining - Himani Sharma, Sunil
Kumar - https://pdfs.semanticscholar.org/9307/1221663df46568d5e1edf3e0476d1d2422cc.pdf
4. Thales Sehn Korting, C4.5 algorithm and Multivariate Decision Trees;
5. FucaiChen, Xiaowei Li, Lixiong Liu, Improved C4.5 Decision Tree Algorithm Based on Sample
Selection;
6. Lior Rokach, Oded Maimon, Data Mining wirh Decision Trees Theory and Application, 2nd Edition,
World Scientific, 2015;
7. Evgeny Antipov and Elena Pokryshevskaya, 2009, Applying CHAID for logistic regression
diagnostics and classification accuracy improvement, ed. The State University Higher School of Economics;
8. David Olson, Yong Shi, 2007, Introduction to Business Data Mining, ed.McGRAW – HILL
international edition;
9. Gilbert Ritschard, 2010, CHAID and Earlier Supervised Tree Methods
10. Applying CHAID for logistic regression diagnostics and classification accuracy improvement
https://mpra.ub.uni-muenchen.de/21499/1/MPRA_paper_21499.pdf;
Model Summary
Specificatio Growing Method
CRT
Dependent Variable
ns Current Salary
Independent Variables
educ1, Minority Classification, Employment
Category, Gender
80
Node 100
7
Number of Nodes
Number of Terminal
4
Nodes
Depth 3
81
Gain Summary
for
Nodes
Per Mea
ode N cent n
17.7 $63,
84 % 977.80
31.2 $32,
148 % 354.26
17.7 $28,
84 % 748.21
33.3 $23,
% 654.81
158
Growing Method: CRT
Dependent Variable: Current Salary
Risk
82
Estima Std.
Method te Error
Resubstit
ution 90473 607.410 14746 335.860
Cross- 92734 340.760 15074 357.177
Validation
Gender 11567
6.1%
880.356
educ1 93086
4.9%
58.637
Minority 8176.4
0.0%
Classification 93
83
Surrogates
Parent
Associatio
Node Independent Variable Improvement n
0 Primary Employment Category 188179162.1
55
1 Primary educ1
9308658.637
Surroga Gender
te 8566238.017 .108
4 Primary Gender
3001642.339
84
Surroga Employment Category
2047049.424 .310
Minority Classification
te 8176.493 .048
Growing Method: CRT
Dependent Variable: Current Salary
85