Sunteți pe pagina 1din 85

UNIVERSITATEA ”ALEXANDRU IOAN CUZA”

FACULTATEA DE ECONOMIE ȘI ADMINISTRAREA AFACERILOR MASTER


DATA MINING

Proiect arbori de decizie

Profesor coordonator:
Turturean Ciprian

Studenți:
Apetrei Raluca Mădălina
Pădure Maria Cristiana
Voloh Ana

Iași 2018
Cuprins

Introducere .......................................................................................................................... 3
Algoritmul CHAID (Chi-square Autimatic Interaction Detection) .................................... 4
Algoritmul CART(Classification and Regression Trees) ................................................... 5
Algoritmul C4.5 .................................................................................................................. 7
Algoritmul QUEST ............................................................................................................. 8
Descriere baze de date ........................................................................................................ 9
Descrierea și argumentarea parametrilor fixați în clasificarea Arborilor de Decizie din
SPSS .............................................................................................................................................. 13
Prezentarea rezultatelor Arborelui de Decizie .................................................................. 27
Bibliografie ....................................................................................................................... 65

2
Introducere

Arborii de decizie repezintă un algoritm eficient și rapid al clasificării și predicției data


mining. În primul rând compară valoarea atributelor obiectelor și selectează atributul optim ca nod
radacină, apoi depinde de atribut determinarea frunzei ramurii arboreului începând de la nod în
jos.
Unul dintre cele mai mari avantaje ale algoritmului arborelui decizional este că nu are nevoie
de o mulțime de informații în învățarea procesului, atât timp cât prin exemple de formare, se ajunge
la concluzia modelului. Dupa acest proces, se poate utiliza algoritmul pentru învățare.

Caracteristici:
Algoritmii de decizie au caracteristici după cum urmează:

(1) structura arborelui de decizie este simplă, ușor de înțeles;


(2) arborele de decizie este mai adecvat pentru cazul unei cantități mari de formare;
(3) arborele de decizie are o mare precizie.

Etape:
Arborele de decizie are, de obicei, două etape:
• În primul rând, folosim setul de date de antrenament pentru învățare, după care construim
un model de clasificare.
• Al doilea pas este utilizarea identificării modelului pentru a clasifica seturile de date de
eșantion.

Pentru realizarea acestui proiect s-au folosit trei baze de date, din SPSS și Rdatasets. Baza
de date homesales conține doar variabile numerice, baza de date smoke conține doar variabile
categorile, iar ultima bază, Employee conține atât variabile numerice, cât și categoriale.

În funcție de analizele efectuate în SPSS s-au prezentat algoritmii folosiți și metoda de


aplicare a acestora pe bazele de date folosite în acest proiect. Rezultatele sunt prezentate în ultima
parte a proiectului, alături de interpretări.
Algoritmul CHAID (Chi-square Autimatic
3
Interaction Detection)

Potrivit lui Ripley, 1996, algoritmul CHAID este un descendent al THAID dezvoltat de
Morgan și Messenger, (1973). CHAID va construi arbori non-binari (adică arbori în care mai mult
de două ramificații se pot atașa la o singură rădăcină sau nod), pe baza unui algoritm relativ simplu,
care este deosebit de potrivit pentru analiza seturilor de date mai mari. De asemenea, deoarece
algoritmul CHAID generează adesea multe tabele de frecvențe multiple (de exemplu, când
clasificăm o variabilă de răspuns categoric cu mai multe categorii, pe baza unor predictori categorici
cu mai multe clase), a fost deosebit de popular în cercetarea de marketing, în contextul a studiilor
de segmentare a pieței.
Acronimul CHAID este un detector de interacțiune automată Chi-squared. Acest nume
derivă din algoritmul de bază care este folosit pentru a construi arbori (non-binari), care pentru
problemele de clasificare (atunci când variabila dependentă este categorică în natură) se bazează pe
testul Chi-pătrat pentru a determina cel mai bun split următor la fiecare pas; pentru problemele de
tip regresie (variabila dependentă continuă), programul va calcula efectiv testele F.
CHAID diferă de CART în modul cum alege ramificarea. Pentru alegerea ramificării
optimale, CHAID se bazează pe testul 2 din tabelele de contingență pentru a determina care
predictor categorial este cel mai departe de independență cu valorile estimate. Etapele procedurii
CHAID sunt:

1. Pregătirea predictorilor - Se construiesc predictorii categoriali din predictorii continui prin


împărțirea distribuției continue într-un număr de categorii cu un număr aproximativ egal de
observații.
2. Furnizarea categoriilor - Se parcurg repetat predictorii => perechea de categorii ale
predictorilor care este cel mai puțin semnificativă în raport cu variabila dependentă

3. Selectarea valorii de separare - Variabila predictor cu cea mai mica; p-value ajustată =>
cea mai semnificativă separare;

Avantaje: CHAID se ocupă de valorile lipsă tratându-le pe toate ca pe o singură categorie variabilă.

Dezavantaje: CHAID nu efectueză metoda Pruning-ul.

Algoritmul CART(Classification and Regression Trees)

4
Cunoscut sub denumirea de Classification And Regression Trees – CART – acest algoritm
a fost dezvoltat de Breiman, Friedman, Olshen și Stone în 1984 [1]. Scopul principal a fost
introducerea modelării bazate pe arbori în statistică, cu accent pe metoda cross-validation de
alegere a unui arbore optimal.
CART reprezintă un algoritm bazat pe arbori binari de decizie construiți prin divizarea unui nod
parinte în două noduri de tip fiu, în mod repetat/recursiv.

Figura 1. Arbore binar - CART

În figura 1 este ilustrat procesul de obținere a nodurilor terminale prin utilizarea algoritmului
CART, fiind reprezentate: nodurile părinte, nodurile fiu și respectiv, nodurile terminale.

Conform [1], “CART builds classification and regression trees for predicting continuous dependent
variables (regression) and categorial predictor variables (classification)”.

Această definiție, o vom detalia sub forma unor întrebări cheie, puse când se dorește a alege
un algoritm de construcție arbori de decizie, dar particularizăm pentru cazul curent.
• Ce tip de model/arbore construiește? Atât de regresie (variabila dependentă este continua, ex.
un scor), dar și de clasificare (variabila target este categorială, ex. un label),
• Care este criteriul de splitting (cum se calculează variația)? Pentru arbore de clasificare:
Gini, Twoing, Twoing ordonat. Pentru arborii de regresie: metoda celor mai mici pătrate (sum
of squared errors - difference between the observed and predicted values)[2],
• Care este criteriul de oprire al algoritmului? Tipic, implică momentul când ai ajuns la un număr
minim/maxim de cazuri într-un nod, etc.

5
• Despre goodness of fit (cât de mult se potrivesc valorile prezise de un model cu valorile
observate/adevărate)? Pentru arborii de clasificare este misclassification rates; pentru arborii
de regresie sum of squared errors (metoda celor mai mici pătrate).
• Probabilități anterioare (prior probabilities) și misclassification costs? Există doar la arborii
de clasificare sunt sub forma parametrilor de tuning.
• Referitor la implementare software? Se regăsește în SPSS, cu denumirea CRT, în R ca pachet
rpart, precum și în SAS, S-Plus.

Avantaje CART Dezavantaje CART


• Neparametric (nici o ipoteză • Arborii formați pot fi instabili,
probabilistică), • Structurile liniare nu sunt potrivite
• Face automat selecția variabilelor, pentru CART,
• Folosește orice combinație de • Poate face split doar pentru o
variabile continue/discrete, variabilă,
• Tratează missing values cu variabile • Modelul este de tip step function, și
surogat, nu scor continuu; deci dacă un arbore
• Nu este afectat semnificativ de are
outlieri, în variabilele de input, 10 noduri, poți folosi 10 valori
predictive, • posibile,
• O modalitate foarte bună de a explora Trebuie să faci un arbore mai
și vizualiza datele, complex, uneori, pentru a obține
• Descoperă interacțiuni între variabile predicții bune, dar devine greu de
și prin folosirea, mai mult decât o interpretat.
dată, a unei variabile în arbore,
• CART folosește testarea cu set de
date de test dar și cross-validation
pentru goodness of fit,
• Poate fi utilizat în conjuncție cu alte
metode de predicție, pentru a selecta
setul de variabile de input,

Algoritmul C4.5

C 4.5, o evoluție a ID3, utilizează raportul de câștig ca criterii de divizare . Divizarea


încetează atunci când numărul de cazuri care trebuie să fie divizat este sub un anumit prag. Procesul
de tăiere bazat pe erori se efectuează după faza de creștere . C4.5 poate gestiona atributele numerice.
Acesta poate , de asemenea, să determine dintr-un set de formare care încorporează valori lipsă
utilizând criterii de corecție a câștigului.

6
Algoritmul C 4.5 oferă mai multe îmbunătățiri algoritmului ID3. Cele mai importante îmbunătățiri
sunt:
• C4.5 utilizeaza o procedură de tăiere care îndepărtează ramurile care nu contribuie la acuratețe și le
înlocuiește cu noduri de frunze .
• Permite ca valorile atributelor să lipsească
• Manipulează atributele continuie prin divizarea valorii atributului interval în două subseturi (binar
Split). În mod special , acesta caută cel mai bun prag care maximizează criteriul raportului de câștig . Toate
valorile de mai sus constituie primul subset iar celelalte constituie cel de-al doilea subset.

Avantaje și dezavantaje

Avantajele modelului C4.5 sunt: construiește modele care pot fi ușor interpretate,ușor de
implementat, poate utiliza atât valori categoriale, cât și valori continue.
Dezavantajele sunt: variațiile mici ale datelor pot duce la arbori de decizie diferiți (mai ales
atunci când variabilele sunt apropiate una de cealaltă în valoare), nu funcționează foarte bine pe un
set mic de date.

Algoritmul QUEST

Algoritmul Quick, Unbiased, Efficient, Statistical Tree (QUEST) (Loh and Shih 1997;
Lim et al. 2000) a fost creat ca și o îmbunătățire semnificativă a algoritmului FACT. Ideea generală
și organizarea algoritmului rămân aceleași: metoda realizează algoritmul 2.3 care separă selectarea
caracteristicilor de determinarea divizării, apoi transformă caracteristicile simbolice în cele
numerice într-un mod similar, și utilizează teste statistice pentru a lua unele decizii.
Variabilele de intrare pot fi continue (intervale numerice), dar variabila țintă trebuie să fie
categorică (categorială). Toate divizările sunt binare. Orice câmp ordinal (set ordonat) utilizat în
model trebuie să aibă stocare numerică (nu string). Dacă este necesar, nodul de reclasificare poate
fi folosit pentru a le converti.
Puncte forte
La fel ca CHAID, QUEST utilizează teste statistice pentru a decide dacă este sau nu folosit un
câmp de intrare (engl. “input field”). Se separă, de asemenea, problemele de selecție și divizare a
intrărilor, aplicând diferite criterii fiecăruia. Aceasta contrastează cu CHAID, în care rezultatul
testului statistic care determină selecția variabilei (engl. „variable selection”) produce, de
asemenea, împărțirea.
Fiind rapid, nedeplasat și eficient, algoritmul QUEST al arborelui de decizie suportă
divizări/ramificații liniare și univariate.
7
Pentru fiecare diviziune/ramificație, asocierea dintre fiecare atribut de intrare și atribut țintă se
calculează utilizând testul F (din) ANOVA sau testul Levene (pentru atributele ordinale și continue)
sau testul Chi-square Pearson (pentru atributele nominale).
Se calculează o statistică F ANOVA pentru fiecare atribut. Dacă valoarea calculată a testului
F depășește o valoare prag predefinită, atributul cu valoarea calculată a testului F mai mare este
selectată pentru a împărți nodul. În caz contrar, testul Levene pentru varianțe inegale este calculat
pentru fiecare atribut. Dacă valoarea calculată a testului Levene este mai mare decât o valoare prag
predefinită, atributul cu valoarea calculată a testului Levene mai mare este folosită pentru a împărți
nodul. Dacă niciun atribut nu depășește niciun prag, nodul este împărțit folosind atributul cu cea
mai mare valoare a testului F ANOVA.
Dacă atributul țintă este multinomial, gruparea cu două metode (engl.”two-means clustering”) este
utilizată pentru a crea două super-clase.
Atributul care obține cel mai mare grad de asociere cu atributul țintă este selectat pentru divizare.
Analiza discriminantă pătratică (QDA) (Quadratic Discriminant Analysis) este aplicată pentru a
găsi punctul optim de divizare pentru atributul de intrare. QUEST are o interfață neglijabilă (engl.
„bias”) și produce un arbore de decizie binar. Se folosește de 10 ori validarea încrucișată pentru a
tăia (engl. „ prune”) arborii.

Descriere baze de date


Prima bază de date poarta denumirea ”homesales „preluată din programul SPSS. Baza de date
conține informații despre 2440 case vândute și le caracterizează în funcție de 5 variabile, aceste variabile
pot oferi suficiente informații printr-o gamă largă de tehnici statistice aplicate pe aceste date. Pentru
efectuarea analizelor, am descris variabilele utilizate. Variabilele utilizate din baza de date „homesales”
sunt: valoarea evaluată a terenului, valoarea evaluată a îmbunătățirilor,
valoarea totală evaluată, prețul de vânzare,
raportul de vânzare la valoarea totală estimată.

8
9
Cea de-a doua bază de date poartă denumirea „Employee data” din programul SPSS. Baza
de date conține informații despre 474 de angajați și îi caracterizează în funcție de 10 variabile,
aceste variabile pot oferi suficiente informații printr-o gamă largă de tehnici statistice aplicate pe
aceste date. Pentru efectuarea analizelor, am descris variabilele utilizate. Variabilele utilizate din
baza de date „Employee data” sunt: „Gender”- sexul,”educ” ne arată nivelul de educație (în ani)și
a fost transformată în variaila cu 2 categorii( angajații cu sau fără studii superioare), ”jobcat” ne
arată în ce categorie se clasează angajatul (Clerical, Custodial, Manager) ,”salary”- salariul curent,
„minority” -clasificarea minorităților/ minoritate

10
Ultima bază de date aleasă este denumită „Smoke” și preluată din baza de date R Datasets.
Baza de date conține informații despre 807 indivizi, monitorizate în funcție de 5 varibile, care oferă
informații despre obiceiurile fumătorilor. Pentru efectuarea analizelor, am descris variabilele
utilizate.
Variabilele din baza de date „Smoke” sunt:
„White” care indică rasa indivizilor, ce are două categorii 0 – Nu, 1 – Da;
„Age” care indică vârsta indivizilor și are patru categorii. Prima categorie a indivizilor au
vârsta cuprinsă între 14 și 18 ani și sunt considerați adoleșcenți. A doua categorie a indivizilor au
vârsta cuprinsă între 19 și 25 ani și sunt considerați tineri. A treia categorie a indivizilor au vârsta
cuprinsă între 26 și 65 ani și sunt considerați adulți, iar ultima categorie a indivizilor au vârsta mai
mare decât 66 ani și sunt denumiți bătrâni;
„Educ” care indică anii de școlarizare ai individului, ce are trei categorii 1 – studii medii
nefinalizate pentru persoanele cu 10 ani de școală, 2 – studii medii finalizate pentru persoanele ce
au până la 12 ani de școală, 3 – studii superioare/postliceală pentru persoanele ce au peste 12 ani
de școală.
„Cigs” care indică numărul de țigări fumate de o persoană pe zi, ce are 3 categorii, 0 –
persoanele nefumătoare, 1 – persoane ce fumează sub medie (9 țigări pe zi), 2 - persoane ce fumează
peste medie;
„Restaurn” care indică dacă locul este interzis pentru fumători, are categoriile 0 – Nu, 1 – Da;

11
Descrierea și argumentarea parametrilor fixați în
clasificarea Arborilor de Decizie din SPSS

Algoritmul CHAID folosit pentru baza de date Smoke.


Pentru baza de date Smoke, s-a ales variabila categorială țigări_zi, cu cele trei categorii, nefumători,
fumători sub medie și fumători peste medie.
Variabila independentă este reprezentată de variabila țigari_zi, iar variabilele dependente sunt
următoarele: educație, vârstă.
Mai jos sunt prezentați pașii ce urmează a fi efectuați pentru afișarea rezultatelor:
• Alegerea variabilelor independente și a variabilei dependente;
• Bifarea categoriilor ce prezintă interes pentru analiză;
• Alegerea procentului pentru trainig și testarea datelor;
• Alegerea coeficientului Pearson pentru prelucrarea datelor;

12
13
14
Algoritmul QUEST folosit pentru baza de date Employee
Pentru baza de date Employee, s-a ales variabila dependentă categorială gender cu cele două categorii
feminin și masculin.
Variabila independentă este reprezentată de variabilele independente Current Salary, Beginning Salary și
Previous Experience.
Mai jos sunt prezentați pașii ce urmează a fi efectuați pentru afișarea rezultatelor:
15
• Alegerea variabilelor independente și a variabilei dependente;
• Bifarea categoriilor ce prezintă interes pentru analiză;
• Alegerea procentului pentru formarea și testarea datelor;

16
17
18
19
Algoritmul CART folosit pentru baza de date Employee data.
Pentru baza de date Employee, s-a ales variabila dependentă o variabilă numerică și anume
salariul curent al angajatului (current salary) .
Variabilele independente sunt: nivelul de educație( cu sau fara studii medii), sexul persoanei,
minoritatea și funția pe care o are în firmă( manger, clerical sau custodial).
Mai jos sunt prezentați pașii ce urmează a fi efectuați pentru afișarea rezultatelor:

• Alegerea variabilelor independente și a variabilei dependente


• Bifarea categoriilor ce prezintă interes pentru analiză;
• Alegerea procentului pentru trainig și testarea datelor;
• Aplicarea modelului pentru al alt fișier de date;
• Importanța variabilelor independente în model;

20
Alegem variabilele care le vom utiliza in acest algoritm( CART).Variabila
dependentă,numerică current salary, variabilele independente: gender, educ1, minority și
employement category. Algoritmul va exclude în mod automat toate variabilele care nu sunt
importante pentru modelul final.

Am definit regulile,exportam acest fișier pentru al folosi mai târziu la un alt Data File.

21
Pentru numărul minim de cazuri, introducem 400 pentru nodul părinte și 200 pentru nodul copil.

Pentru diviziunea nodului( node split) a fiecărei variabile independente, setarea automată(
Automatic) va lua în considerare toate celelalte variabile independente care au o anumită valoare
și care pot fi selectate. Din moment ce nu există vreo variabilă independentă în acest exemplu,
setarea automată este finală.

22
Importanța variabilelor independente în model.Graficul bar chart este utilizat pentru a
putea observa importanța variabilelor independente în model. Această opțiune este disponibilă doar
pentru algoritmul CART.

Aplicarea modelului la un alt Data File

După ce s-a determinat că modelul este în mod rezonabil bun, putem aplica acest model
în alte fișiere de date care conțin variabile similare de gen, salariu,categorie ierarhică și nivel de
educație și generează o nouă variabilă care reprezintă salariul curent al angajatului estimat pentru
fiecare caz din acel fișier. Acest proces este adesea denumit scoring. Atunci când se creează un
model, se precizează că "regulile" de atribuire a valorii vor fi salvate într-un fișier text - sub forma
23
unei sintaxe de comandă. Acum vom folosi comenzile din acest fișier pentru a genera scoruri întrun
alt fișier de date.

După ce am rulat sintaxa de mai sus, am obținut 2 variabile noi în baza de date inițială:

24
În tabelul de mai sus am selectat variabilele current salary și pre_001 pentru a realiza o corelație
bivariată.

Algoritmul CHAID EXHAUSTIVE folosit pentru baza de date Smoke.

Algoritmul CHAID exhaustiv reprezintă modificarea CHAID care examinează toate împărțirile
posibile pentru fiecare predictor.
Pentru baza de date Smoke, s-a ales variabila categorială țigări_zi, cu cele trei categorii, nefumători,
fumători sub medie și fumători peste medie.
Variabila independentă este reprezentată de variabila țigari_zi, iar variabilele dependente sunt
următoarele: educație, vârstă.
Mai jos sunt prezentați pașii ce urmează a fi efectuați pentru afișarea rezultatelor:
• Alegerea variabilelor independente și a variabilei dependente;
• Bifarea categoriilor ce prezintă interes pentru analiză;
• Alegerea procentului pentru trainig și testarea datelor;
• Alegerea coeficientului Pearson pentru prelucrarea datelor;

25
Prezentarea rezultatelor Arborelui de Decizie

Rezultate pentru aplicarea algoritmului CHAID folosit pe baza de date Smoke.


Tabelul sumar al modelului oferă câteva informații despre specificațiile utilizate pentru a construi
modelul.
Secțiunea Specificații oferă informații despre setările utilizate pentru generarea arborelui, inclusiv
variabilele utilizate în analiză.

26
Secțiunea Rezultate afișează informații despre numărul de noduri totale și terminale,
adâncimea arborelui (numărul de niveluri sub nodul rădăcină) și variabile independente incluse în
modelul final.
Au fost specificate două variabile independente, ambele au fost incluse în modelul final.
Variabila dependentă este simbolizată de tigari_zi, iar independentele de educație și vârstă.

Model Summary

Growing Method
CHAID
Dependent Variable
tigari_zi
Independent Variables
Validation educatie, varsta

Maximum Tree Depth None


Specifications Minimum Cases in Parent
3
Node
100
Minimum Cases in Child
Node
50

Independent Variables varsta, educatie


Included
Number of Nodes
Results 6
Number of Terminal Nodes
4
Depth

27
Diagrama arbore este o reprezentare grafică a arborelui de decizie. Această diagramă arbore
arată că:
Folosind metoda CHAID, vârsta este cel mai bun predictor al numărului de țigări fumate într-o
zi.
Pentru categoria bătrân, adolescent și tânăr, vârsta este singurul predictor semnificativ al
numărului de țigări consummate pe zi. Persoanele din aceaste categorii, 64% din adoleșcenți și
tineri sunt nefumători, iar pentru bătrâni 80% sunt nefumători. Deoarece nu există niciun nod
copil sub acesta, sunt considerate noduri terminale.
Pentru categoria adult, cel mai bun predictor este educația.
Peste 66% dintre persoane au studii superioare, în timp ce jumătate dintre cei cu studii medii
finalizate/Studii medii nefinalizate sunt adulți.
Tree Table

Node Nefumatori Total Predicted Parent Primary Independent Variable


Fumatori Fumatori
Category Node
sub medie peste medie

N Percent N Percent N Percent N Percent Variable Sig.a df Split Values


Chi-
Square

28
0
497 61.6% 36 4.5% 274 34.0% 807 100.0% Nefumatori
1
322 57.8% 22 3.9% 213 38.2% 557 69.0% Nefumatori 0 varsta .001 22.596 4 Adult

2 105 64.4% 12 7.4% 46 28.2% 163 20.2% Nefumatori 0 varsta .001 22.596 4 Adolescent; Tanar

3 70 80.5% 2 2.3% 15 17.2% 87 10.8% Nefumatori 0 varsta .001 22.596 4 Batran

4 168 66.7% 9 3.6% 75 29.8% 252 31.2% Nefumatori 1 educatie .002 15.063 2 Studii

suprioare/postliceala

154 50.5% 13 4.3% 138 45.2% 305 37.8% Nefumatori 1 educatie .002 15.063 2 Studii medii
finalizate; Studii
medii nefinalizate
5
Growing Method: CHAID
Dependent Variable: tigari_zi a.
Bonferroni adjusted

Tabela arbore, așa cum sugerează și numele, furnizează cea mai mare parte a informațiilor din
diagrama esențială din arbore sub formă de tabel. Pentru fiecare nod, tabelul afișează:
Numărul și procentul de cazuri din fiecare categorie a variabilei dependente.
Categoria prevăzută pentru variabila dependentă. În acest exemplu, categoria prevăzută este
categoria nefumători cu mai mult de 50% din cazuri în acest nod, deoarece există numai o singură
categorie luată în considerare, cea a nefumătorilor.
Nodul părinte pentru fiecare nod din arbore.

29
Tabelul de noduri oferă un rezumat al informațiilor despre nodurile terminale din model.
Numai nodurile terminale - nodurile la care arborele se oprește - sunt listate în acest tabel.
În mod frecvent, veți fi interesați numai de nodurile terminale, deoarece acestea reprezintă cele mai
bune predicții de clasificare pentru model.

În acest exemplu, există o singură categorie țintă, astfel încât există doar nefumatori pentru tabelul
nodurilor.

Nodul N este numărul de cazuri din fiecare nod terminal, iar Nodul Procent este procentul din
numărul total de cazuri din fiecare nod.

Gain N este numărul de cazuri din fiecare nod terminal din categoria țintă și Gain Procent
este procentul de cazuri din categoria țintă în raport cu numărul total de cazuri din categoria țintă -
în acest exemplu, numărul și procentul cazurilor persoanelor nefumătoare.

Pentru variabilele dependente categoriale, răspunsul este procentul cazurilor din nod din
categorie țintă specificată. În acest exemplu, acestea sunt aceleași procente afișate pentru diagrama
arborelui.

Pentru variabilele dependente categorice, Indexul este raportul dintre procentul de răspuns al
țintei în comparație cu procentul de răspuns pentru întregul eșantion.

30
Această diagramă indică faptul că modelul este unul destul de bun. Graficele cu câștiguri
cumulative încep întotdeauna la 0% și se termină la 100% pe măsură ce treceți de la un capăt la
altul. Pentru un model bun, graficul câștigurilor va crește abrupt până la 100% și apoi se va opri.
Un model care nu furnizează informații va urma linia de diagonală de referință. În concluzie
modelul este bun.

31
Diagrama index indică, de asemenea, că modelul este unul bun. Diagramele indexate cumulative au
tendința de a începe peste 100% și coboară treptat până când ajung la 100%.
Pentru un model bun, valoarea indicelui ar trebui să înceapă cu mult peste 100%. Pentru un
model care nu furnizează informații, linia se va deplasa în jur de 100% pentru întreaga diagramă.

Risk

Estimate Std. Error

.384 .017
Growing Method: CHAID
Dependent Variable: tigari_zi

Classification

32
Observed
Predicted
Nefumatori Percent Correct
Fumatori sub Fumatori peste
medie medie
100.0%
Nefumatori 497 0 0
0.0%
Fumatori sub medie 36 0 0

Fumatori peste medie 274 0 0 0.0%

Overall Percentage 100.0% 0.0% 0.0% 61.6%


Growing Method: CHAID
Dependent Variable: tigari_zi

Tabelele de risc și de clasificare oferă o evaluare rapidă a performanței modelului.


Estimarea riscului de 0,384 indică faptul că categoria prevăzută de model (nefumatori,
fumatori sub medie și fumători peste medie) este greșită pentru 38,4% din cazuri. Deci, "riscul" de
clasificare greșită a unei persoane este de aproximativ 38%.
Rezultatele din tabelul de clasificare sunt în concordanță cu estimarea riscului. Se vede în tabelul
Classification că modelul clasifică corect aproximativ 61,6% din persoane.
Setul de antrenament și de testarea CHAID
Tabelul sumar al modelului oferă câteva informații despre specificațiile utilizate pentru a construi
modelul.
Secțiunea Specificații oferă informații despre setările utilizate pentru generarea arborelui, inclusiv
variabilele utilizate în analiză.
Secțiunea Rezultate afișează informații despre numărul de noduri totale și terminale,
adâncimea arborelui (numărul de niveluri sub nodul rădăcină) și variabile independente incluse în
modelul final.
Au fost specificate două variabile independente, ambele au fost incluse în modelul final.
Variabila dependentă este simbolizată de tigari_zi, iar independentele de educație și vârstă.

Model Summary

33
Specifi Growing Method cations CHAID
Dependent Variable
tigari_zi

Independent
varsta, educatie
Variables
Validation Split Sample

Maximum Tree
3
Depth

Minimum Cases in
100
Parent Node

Minimum Cases in
50
Child Node
Results Independent
educatie
Variables Included
3
Number of Nodes

Number of Terminal
2
Nodes

Depth 1

34
Diagrama arbore este o reprezentare grafică a arborelui de decizie. Această diagramă arbore
arată că:
Folosind metoda CHAID, nivelul studiilor este cel mai bun predictor al numărului de țigări
fumate într-o zi.
Pentru categoria nefumători, fumători sub medie și fumători peste medie, nivelul de
școlarizare este singurul predictor semnificativ al numărului de țigări consummate pe zi. Persoanele
din aceaste categorii, 59% din cei cu studii superioare și medii finalizate sunt nefumători, iar pentru
cei cu studii nefinalizate 56% sunt nefumători. Deoarece nu există niciun nod copil sub acesta, sunt
considerate noduri terminale.

35
Tabelul de noduri oferă un rezumat al informațiilor despre nodurile terminale din model.
Numai nodurile terminale - nodurile la care arborele se oprește - sunt listate în acest tabel.
În mod frecvent, veți fi interesați numai de nodurile terminale, deoarece acestea reprezintă cele mai
bune predicții de clasificare pentru model.

În acest exemplu, există o singură categorie țintă, astfel încât există doar nefumatori pentru tabelul
nodurilor.

Nodul N este numărul de cazuri din fiecare nod terminal, iar Nodul Procent este procentul din
numărul total de cazuri din fiecare nod.

Gain N este numărul de cazuri din fiecare nod terminal din categoria țintă și Gain Procent este
procentul de cazuri din categoria țintă în raport cu numărul total de cazuri din categoria țintă

- în acest exemplu, numărul și procentul cazurilor persoanelor nefumătoare.


Pentru variabilele dependente categoriale, răspunsul este procentul cazurilor din nod din
categorie țintă specificată. În acest exemplu, acestea sunt aceleași procente afișate pentru diagrama
arborelui.

Pentru variabilele dependente categorice, Indexul este raportul dintre procentul de răspuns
al țintei în comparație cu procentul de răspuns pentru întregul eșantion.

36
Această diagramă indică faptul că modelul este unul destul de bun. Graficele cu câștiguri
cumulative încep întotdeauna la 0% și se termină la 100% pe măsură ce treceți de la un capăt la
altul. Pentru un model bun, graficul câștigurilor va crește abrupt până la 100% și apoi se va opri.
Un model care nu furnizează informații va urma linia de diagonală de referință. În concluzie
modelul este bun.

37
Diagrama index indică, de asemenea, că modelul este unul bun. Diagramele indexate cumulative au
tendința de a începe peste 100% și coboară treptat până când ajung la 100%.
Pentru un model bun, valoarea indicelui ar trebui să înceapă cu mult peste 100%. Pentru un
model care nu furnizează informații, linia se va deplasa în jur de 100% pentru întreaga diagramă.

38
39
40
Risk

Sample Estimate Std. Error

Training .358 .024


Test .409 .024

Growing Method: CHAID


Dependent Variable: tigari_zi

41
Classification

Predicted

Nefumato Fumato Fumato Percen


e Sampl Observed ri ri sub medie ri peste medie t Correct
Trainin
Nefumato 100.0
ri 256 0 0 %

g Fumatori
19 0 0 0.0%
sub medie

Fumatori
124 0 0 0.0%
peste medie

Overall
100.0% 0.0% 0.0% 64.2%
Percentage
Test
Nefumato 100.0
ri 241 0 0 %

Fumatori
17 0 0 0.0%
sub medie
Fumatori
150 0 0 0.0%
peste medie
Overall
100.0% 0.0% 0.0% 59.1%
Percentage
Growing Method: CHAID Dependent
Variable: tigari_zi

Tabelele de risc și de clasificare oferă o evaluare rapidă a performanței modelului.


Estimarea riscului de 0,384 pentru training indică faptul că categoria prevăzută de model
(nefumatori, fumatori sub medie și fumători peste medie) este greșită pentru 38,4% din cazuri.
Deci, "riscul" de clasificare greșită a unei persoane este de aproximativ 38%.
Estimarea riscului de 0,409 pentru training indică faptul că categoria prevăzută de model
(nefumatori, fumatori sub medie și fumători peste medie) este greșită pentru 40,9% din cazuri.
Deci, "riscul" de clasificare greșită a unei persoane este de aproximativ 40%.

Rezultatele din tabelul de clasificare sunt în concordanță cu estimarea riscului. Se vede în tabelul
Classification că modelul clasifică corect aproximativ 59,1% din persoane.

42
Rezultate pentru aplicarea algoritmului QUEST folosit pe baza de date Employee.

Model Summary

QUEST
Growing Method
Gender
Dependent Variable
Beginning Salary, Previous Experience
Independent Variables (months), Current Salary

Validation None
Specifications
Maximum Tree Depth 5
Minimum Cases in Parent 100
Node
Minimum Cases in Child 50
Node
Independent Variables Current Salary, Beginning Salary, Previous
Included Experience (months)
Number of Nodes
Results 5
Number of Terminal Nodes
Depth 3

Tabelul sumar al modelului oferă câteva informații despre specificațiile utilizate pentru a construi
modelul.
Au fost specificate variabilele independente : Current Salary, Beginning Salary, Previous
Experience (months) și o varabilă dependenta: gender.

43
Diagrama arbore este o reprezentare grafică a arborelui de decizie. Această diagramă arbore
arată:
• Pentru categoria cu salariul mai mare ca 35674.4, genul masculin este singurul
predictor semnificativ al genului persoanei. Din totalul persoanelor care primesc
salariu mai mare ca 35674.4 , 85.2% sunt bărbați. Deoarece nu există niciun nod
copil de sub acesta, este considerat un nod terminal.
• 59.9% din persoanele ce dețin un salariu curent mai mic de 35674.4 sunt personae
de gen feminin iar 85.2% dintre cei ce dețin un salariu mai mare ca 35674.4 sunt
bărbați.
• Peste 86.6% dintre personaele ce au avut un salariu de începător mai mic sau egal cu
14169.7 sunt personae de gen feminin.
• Peste 76.9 dintre persoanele ce au avut un salariu de începător mai mare decât
14169.7 sunt persoane de gen masculin.

Training Sample
44
Nodul 0 afișează un procent al categoriei reprezentată de persoanele de sex feminin de 44.6%
și un procentaj al bărbaților de 55.4%.
Nodul 1, este reprezentat de persoanele cu un salariu curent mai mic sau egal cu 37107.5
și persoanele cu un salariu curent mai mare de 37107.5.
Nodul 3, este reprezentat de persoanele care au un salariu actual mai mic sau egal cu
37107.5$ și au avut un salariu de început mai mic sau egal cu 14179.7.

Test Sample

45
Nodul 0 afișează persoanele de sex feminin 46.6 într-un procent de și persoanele de sex masculin
într-un procent de 53.4

Nodul 1, este reprezentat de angajații care au un salariu mediu curent mai mic de
37107.5$, comparativ cu nodul 2, care este reprezentat de angajații ce au un salariu mediu curent
mai mare de 37107.5$.
Nodul 3, este reprezentat de persoanele care au un salariu mediu curent mai mic de
37107.5$ și au avut un salariu de început mai mic sau egal cu 14179.7$ spre deosebire de nodul 4,
care este reprezentat de persoanele , ce au un salariu mediu curent mai mic de 37107.5$ dar au
avut un salariu de început mai mare de 14179.7.

Prior Probabilities

46
Gender Prior Probability

Female ,456
Male ,544
Priors are obtained from the training
sample

Misclassification Costs

Observed
Predicted

Female Male

Female ,000
Male 1,000
1,000 ,000
Dependent Variable: Gender

Target Category: Female

Gains for Nodes

Node Response Index


Node Gain

N Percent N Percent

3 193 40,7% 147 68,1% 76,2% 167,1%

4 153 32,3% 50 23,1% 32,7% 71,7%


2 128 27,0% 19 8,8% 14,8% 32,6%

Growing Method: QUEST


Dependent Variable: Gender

Tabelul de noduri oferă un rezumat al informațiilor despre nodurile terminale din model.
Tabelul include numărul de noduri, numărul de cazuri, index-ul Nodul 2 este format din 128 de
cazuri, nodul 3 din 193 de cazuri și nodul 4 din 153 de cazuri.

Indexul reprezintă raportul dintre procentul de răspuns al țintei în comparație cu procentul de


răspuns pentru întregul eșantion.

47
Target Category: Male

Gains for Nodes

Node Response Index


Node Gain

N Percent N Percent

2 128 27,0% 109 42,2% 85,2% 156,4%


4 153 32,3% 103 39,9% 67,3% 123,7%

3 193 40,7% 46 17,8% 23,8% 43,8%


Growing Method: QUEST
Dependent Variable: Gender

Categoria țintă din acest table este reprezentată de numărul și procentul cazurilor
persoanelor de sex masculin. Tabelul include numărul de noduri, numărul de cazuri, index-ul.
Nodul 2 este format din 128 de cazuri, nodul 3 din 193 de cazuri și nodul 4 din 153 de cazuri.

Risk

Estimate Std. Error

,243 ,020
Growing Method: QUEST
Dependent Variable: Gender

Classification

Observed
Predicted

Female Male Percent Correct

Female 147 69 68,1%


Male 46 212 82,2%

Overall Percentage 40,7% 59,3% 75,7%


Growing Method: QUEST
Dependent Variable: Gender

Tabelele de risc și clasificare oferă o evaluare rapidă a performanței modelului.


48
Estimarea riscului de 0,243 indică faptul că categoria prevăzută de model (masculin ,și
feminin) este greșit pentru 24,3% din cazuri. Deci, "riscul" de clasificare greșită a unei persoane
este de aproximativ 24%.Rezultatele din tabelul de clasificare sunt în concordanță cu estimarea
riscului. Se observă în tabelul Classification că modelul clasifică corect aproximativ 75,7% din
persoane.

Rezultate pentru aplicarea algoritmului CART folosit pe baza de date Employee.

Tabelul Model Summary ne arată că doar 3 variabile independente au fost selectate din
totalul variabilelor independente, deoarece acestea au determinat o contributie semnificativa
suficienta pentru a fi incluse in modelul final.Variabilele selectate sunt: categoria ierarhică, sexul
și nivelul de educație.
Aceasta este o informație importantă pentru a o cunoaște dacă dorim să aplicăm acest
model altor fișiere de date, deoarece variabilele independente utilizate în model trebuie să fie
prezente în orice fișier de date pe care dorim să îl aplicăm modelului.
Tabelul Model Summary de asemenea ne arată că arborele nu este unul foarte complicat, complex
, deoarece avem 7 noduri și 4 noduri terminale.

49
CART
reprezintă un
algoritm bazat pe
arbori binari de
decizie construiți prin
divizarea unui nod
parinte în două
noduri de tip fiu, în
mod repetat/recursiv.
Nodul părinte este
reprezentat de
variabila numerică,
dependentă și anume
salariul curent al
angajatului( current
salary).
Pentru
variabilele dependente
de tip scală, fiecare nod arată
media și abaterea
standard a variabilei
dependente.

Nodul 0 afișează un
salariu mediu al angajatului de
aproximativ 34419.57$, cu o
abatere standard de
aproximativ 17075,661.

Nodul 1,
este reprezentat de
angajații din
categoria ierarhică
Clerical și Custodial
care au un salariu mediu
curent de doar
28053,18$,
comparativ cu nodul
2, care este reprezentat
de angajații din
categoria ierarhică
Manager, ce au un
salariu mediu curent
de 63977.8$.

50
Nodul 3, este reprezentat de persoanele ce au studii superioare care au un salariu mediu
curent de 32354.257$ spre deosebire de nodul 4, care este reprezentat de persoanele fară studii
superioare, ce au un salariu mediu curent de doar 25422.769$.
Nodul 5, este reprezentat de persoanele de sex M cu un salariu mediu curent de 28748.214$.
În contrast, nodul 6, care este reprezentat de persoanele de sex F, ce au un salariu mediu curent
de doar 23654,810$.

Arborele în formă de tabel

Acest tabel ne oferă informații sumare pentru fiecare nod din arbore, incluzând numărul
nodului părinte, valoarea (valorile) variabilei independente pentru nod, media și abaterea standard
pentru variabilele dependente de tip scală.

Tabelul Gain Summary for Nodes

Gain Summary for Nodes

Node N Percent Mean


2
84 17.7% $63,977.80
3 148 31.2% $32,354.26

5 84 17.7% $28,748.21

6 158 33.3% $23,654.81

Growing Method: CRT


Dependent Variable: Current Salary

51
Pentru variabilele dependente de tip scală, tabelul include numărul de noduri, numărul de
cazuri și valoarea medie a variabilei dependente.Nodul 2 este format din 84 de cazuri și are valoarea
medie a variabilei dependente, salariul current 63.977,80 $.Nodul 3 are valoarea medie a salariului
angajatului de 32354,26$, nodul 5 este format din 84 de cazuri și nodul 6-158 de cazuri.

Importanța variabilelor independente în model

În metoda CRT, nivelul fiecarei variabile dependente acordă importanța acesteia în model.Această
nu este posibilă pentru metodele QUEST sau CHAID.
Putem spune că cea mai importantă variabilă în arborele noastru este categoria ierahică,
urmată apoi de sex și de nivelul de educație. Variabila clasificarea minorităților foarte mica
importanță, din acest motiv am decis să o excludem din model.

Independent Variable Importance

Normalized
Independent Variable Importance Importance
Employment Category
190226211.579 100.0%
11567880.356 6.1%
Gender

educ1 9308658.637 4.9%

Minority Classification 8176.493 0.0%

Growing Method: CRT

52
Dependent Variable: Current Salary

Tabelul de risc

Risk

Estimate Std. Error

90473607.410 14746335.860
Growing Method: CRT
Dependent Variable: Current Salary

Nici unul dintre rezultatele pe care le-am examinat până acum nu ne spune dacă acesta
este un model deosebit de bun. Unul dintre indicatorii care descrie performanța modelului este
estimarea riscului. Pentru variabila dependent de tip scală, estimarea riscului este determinate de
măsura varianței din interiorul nodului, care, de la sine, nu ne poate da un rezultat bun.O variață
mică indică un model mai bun, dar varianța este relativă la unitatea de măsură.

Pentru a interpreta estimarea riscului vom parcurge următorii pași:


• Variația totală este egală cu varianța din interiorul nodului (error) plus varianța dintre nod
(explicată)
• Variația în nod este valoarea estimată a riscului: 90473607.410
• Varianța totală este varianța pentru variabilele dependente înainte de luarea în considerare
orice variabile independente, care este varianța la nodul rădăcină.
• Abaterea standard afișată la nodul rădăcină este 71075,661; astfel încât varianța totală este
acea valoare la pătrat: 291578198,58
• Proporția varianței datorată erorii (varianță inexplicabilă) este 90473607.410 / 291578198,58
= 0,30
• Proporția varianței explicate de model este 1 - 0,3 = 0,7 sau 70%, ceea ce indică faptul că
acesta este un model destul de bun. (Aceasta are o interpretare similară cu rata globală
corectă de clasificare pentru o variabilă dependentă categorială.)

Corelația dintre valoarea actuală și predictivă a salariului current al angajatului

Correlations

Current pre_0
Salary 01
Current Pearson Correlation .830**
1

53
Salary
Sig. (2-tailed)
.000

N
474 474
pre_001 Pearson Correlation .830**
1

Sig. (2-tailed) .000


N
474 474
**. Correlation is significant at the 0.01 level (2-tailed).

Variabilele noi adăugate în baza de date:


 Nod_001 conține numărul nodului terminal prevăzut de model pentru fiecare caz
 Pre_001 conține valoarea estimată/predictivă pentru salariul current al angajatului pentru fiecare
caz.

Corelația de 0,83 indică o corelație pozitivă foarte puternică între salariul angajatului real și
cel prezis, ceea ce indică faptul că modelul funcționează bine.

Tabela Surrogates

54
 Pentru nodul rădăcină( nodul 0), cea mai bună variabilă independentă(predictor ) este categoria
ierarhică.
 Pentru nodul 1, pentru cazurile cu valori lipsă a variabilei educ1( nivelul de educație), genul(
gender) este folosit ca predictor surogat
 Nodul 4, variabila categoria ierarhică este folosită ca predictor surogat, deoarece această variabilă
are o asociere mare (0,310) cu gender. Dacă un caz are, de asemenea, o valoare lipsă pentru
categoria ierarhică , atunci clasificarea minorităților este folosită ca surogat (deși are o valoare de
asociere destul de scăzută de numai 0,048)

Pentru a face clasificare, am transformat variabila dependentă numerică în variabilă


categorială binară ( salariul current a fost împărțit in 2 nivele: sub medie și peste medie).
Classification

Predicted

sub peste Percen


Observed medie medie t Correct

sub medie 1
328 99.7%
peste medie 62 83 57.2%
Overall 82. 17.7
% 86.7%
Percentage
3%
Growing Method: CRT
Dependent Variable: salary2

 Tabela de clasificare ne arată o rată generală de clasificare corectă de aproape 87%.


 Rata de clasificare corectă pentru salariul sub medie este de 99.7%
 Rata de clasificare corectă pentru salariul peste medie este de 57.2%

55
Setul de Training și de testare

56
Din meniu selectăm split-sample validation.

Cu split-sample validation, modelul este generat utilizând un eșantion de antrenament și testat pe


un eșantion de așteptare.

Putem afișa rezultate pentru setul de antrenament și pentru setul de testare, fie doar pentru proba
de testare.

Tabelul Model Summary

57
Tabelul Model Summary ne arată că doar 3 variabile independente au fost selectate din
totalul variabilelor independente, deoarece acestea au determinat o contributie semnificativa
suficienta pentru a fi incluse in modelul final.Variabilele selectate sunt: categoria ierarhică, sexul
și nivelul de educație.
Aceasta este o informație importantă pentru a o cunoaște dacă dorim să aplicăm acest
model altor fișiere de date, deoarece variabilele independente utilizate în model trebuie să fie
prezente în orice fișier de date pe care dorim să îl aplicăm modelului.
Tabelul Model Summary de asemenea ne arată că arborele nu este unul foarte complicat, complex
, deoarece avem 5 noduri și 3 noduri terminale.

Training Sample

58
CART reprezintă un algoritm bazat pe arbori binari de decizie construiți prin divizarea unui
nod parinte în două noduri de tip fiu, în mod repetat/recursiv. Nodul părinte este reprezentat de
variabila numerică, dependentă și anume salariul curent al angajatului( current salary).
Pentru variabilele dependente de tip scală, fiecare nod arată media și abaterea standard a
variabilei dependente.

Nodul 0 afișează un salariu mediu al angajatului de aproximativ 35808,121$, cu o abatere


standard de aproximativ 16779.177.

59
Nodul 1, este reprezentat de angajații din categoria ierarhică Clerical și Custodial care
au un salariu mediu curent de doar 28449,037$, comparativ cu nodul 2, care este reprezentat de
angajații din categoria ierarhică Manager, ce au un salariu mediu curent de 61292.315$.
Nodul 3, este reprezentat de persoanele ce au studii superioare care au un salariu mediu
curent de 33414.306$ spre deosebire de nodul 4, care este reprezentat de persoanele fară studii
superioare, ce au un salariu mediu curent de doar 25340.348$.

Test Sample

Nodul 0 afișează un salariu mediu al angajatului de aproximativ 32983.348$, cu o abatere standard


de aproximativ 17295.783.
60
Nodul 1, este reprezentat de angajații din categoria ierarhică Clerical și Custodial care
au un salariu mediu curent de doar 27688.522$, comparativ cu nodul 2, care este reprezentat de
angajații din categoria ierarhică Manager, ce au un salariu mediu curent de 68811.667$.
Nodul 3, este reprezentat de persoanele ce au studii superioare care au un salariu mediu
curent de 31350$ spre deosebire de nodul 4, care este reprezentat de persoanele fară studii
superioare, ce au un salariu mediu curent de doar 25497.402$.

Tabelul Gain Summary pentru noduri( setul de antrenament și setul de testare)

Pentru variabilele dependente de tip scală, tabelul include numărul de noduri, numărul de
cazuri și valoarea medie a variabilei dependente.

Pentru setul de antrenament:


Nodul 2 este format din 54 de cazuri și are valoarea medie a variabilei dependente, salariul
current de 61292.31 $.Nodul 3 are valoarea medie a salariului angajatului de 33414,31$ și nodul
4 este format din 115 de cazuri și are valoarea medie a salariului current de 25340.35$.

Pentru setul de testare:


Nodul 2 este format din 30 de cazuri și are valoarea medie a variabilei dependente, salariul
current de 68811.67 $.Nodul 3 are valoarea medie a salariului angajatului de 31350$ și nodul 4
este format din 127 de cazuri și are valoarea medie a salariului current de 25497.4$.

Tabelul Risc

61
Nici unul dintre rezultatele pe care le-am examinat până acum nu ne spune dacă acesta
este un model deosebit de bun. Unul dintre indicatorii care descrie performanța modelului este
estimarea riscului. Pentru variabila dependentă de tip scală, estimarea riscului este determinate de
măsura varianței din interiorul nodului, care, de la sine, nu ne poate da un rezultat bun.O variață
mică indică un model mai bun, dar varianța este relativă la unitatea de măsură.
Pentru a interpreta estimarea riscului vom parcurge următorii pași( setul de antrenament)
• Variația totală este egală cu varianța din interiorul nodului (error) plus varianța dintre nod
(explicată)
• Variația în nod este valoarea estimată a riscului: 80855502.851
• Varianța totală este varianța pentru variabilele dependente înainte de luarea în considerare
orice variabile independente, care este varianța la nodul rădăcină. Abaterea standard afișată
la nodul rădăcină este 16779,177; astfel încât varianța totală este acea valoare la pătrat:
281540780,8
• Proporția varianței datorată erorii (varianță inexplicabilă) este 80855502.851 / 281540780,8 =
0,28
• Proporția varianței explicate de model bazat pe setul de antrenament este 1 - 0,28 = 0,72 sau
72%, ceea ce indică faptul că acesta este un model destul de bun.
Estimarea riscului pentru setul de testare:
• Variația în nod este valoarea estimată a riscului: 109849085.659
• Varianța totală este varianța pentru variabilele dependente înainte de luarea în considerare
orice variabile independente, care este varianța la nodul rădăcină.
• Abaterea standard afișată la nodul rădăcină este 17295,783; astfel încât varianța totală este
acea valoare la pătrat: 299144109,58
• Proporția varianței datorată erorii (varianță inexplicabilă) este 109849085.659/ 299144109,58
= 0,36
• Proporția varianței explicate de model bazat pe setul de testare este 1 - 0,36 = 0,64 sau 64%,
ceea ce indică faptul că acesta este un model destul de bun.

Importanța variabilelor independente în model


62
Putem spune că cea mai importantă variabilă atât în setul de antrenament cât și în setul de testare
este categoria ierahică, urmată apoi nivelul de educație și de gen.

În metoda CRT, nivelul fiecarei variabile dependente acordă importanța acesteia în model.Această
nu este posibilă pentru metodele QUEST sau CHAID

Tabelul Surrogates
63
 Pentru nodul rădăcină( nodul 0), cea mai bună variabilă independentă(predictor ) este
categoria ierarhică.
 Pentru nodul 1, pentru cazurile cu valori lipsă a variabilei educ1( nivelul de educație), genul(
gender) este folosit ca predictor surogat.

Rezultate CHAID EXHAUSTIVE


Tabelul Model Summary

Tabelul Model Summary ne arată că dintre variabilele propuse pentru analiză, modelul lea
selectat pe toate.
Variabilele selectate sunt: vârsta și nivelul de educație.
Aceasta este o informație importantă pentru a o cunoaște dacă dorim să aplicăm acest
model altor fișiere de date, deoarece variabilele independente utilizate în model trebuie să fie
prezente în orice fișier de date pe care dorim să îl aplicăm modelului.
64
Tabelul Model Summary de asemenea ne arată că arborele este simplu și ușor de înțeles, deoarece
avem 6 noduri și 4 noduri terminale.

Folosind metoda CHAID Exhaustive, vârsta este cel mai bun predictor al numărului de țigări fumate
într-o zi.
Pentru categoria bătrân, adolescent și tânăr, vârsta este singurul predictor semnificativ al
numărului de țigări consummate pe zi. Persoanele din aceaste categorii, 64,4% din adoleșcenți și
tineri sunt nefumători, iar pentru bătrâni 80,5% sunt nefumători. Deoarece nu există niciun nod copil
sub acesta, sunt considerate noduri terminale.
Pentru categoria adult, cel mai bun predictor este educația.
Peste 66,7% dintre persoane au studii superioare, în timp ce jumătate din cei cu studii medii
finalizate/Studii medii nefinalizate sunt adulți.

Target Category: Nefumatori

Gains for Nodes

65
Node Gain

N Perce Perce Respons


ode N nt N nt e Index

3 130.6
87 10.8% 70 14.1% 80.5%
%

4 108.2
252 31.2% 168 33.8% 66.7%
%

2 104.6
163 20.2% 105 21.1% 64.4%
%

5 37.8% 154 31.0% 82.0%


305 50.5%
Growing Method: EXHAUSTIVE CHAID
Dependent Variable: tigari_zi

Graficele cumulative încep întotdeauna la 0% și se termină la 100% pe măsură ce se trece


de la un capăt la altul. Pentru un model bun, câștigul schart va crește abrupt până la 100% și apoi
se va stinge. Din modelul de mai sus, observăm o creștere până la 80% și apoi încet, încet se stinge.

66
Diagrama indică, de asemenea, că modelul este unul bun. Graficele indexului cumulativ tind
să înceapă peste 100% și să coboare treptat până când ajung la 100%.
Pentru un model bun, valoarea indicelui ar trebui să înceapă cu mult peste 100%, să
rămână pe un platou în timp ce vă deplasați de-a lungul drumului și apoi să trageți brusc spre 100%.
Din graficul nostru, putem observa ca linia începe de la 114% Pentru un model care nu oferă nicio
informație, linia va trece peste 100% pentru întreaga diagramă.

67
Graficele cumulative încep întotdeauna la 0% și se termină la 100% pe măsură ce se trece
de la un capăt la altul.. Din modelul de mai sus, observăm o creștere până la 80% și apoi încet, încet
se stinge.

Diagrama indică, de asemenea, că modelul este unul bun. Graficele indexului cumulativ tind să
înceapă peste 100% și să coboare treptat până când ajung la 100%.
Pentru un model bun, valoarea indicelui ar trebui să înceapă cu mult peste 100%, să
rămână pe un platou în timp ce vă deplasați de-a lungul drumului și apoi să trageți brusc spre 100%.
Din graficul nostru, putem observa ca linia începe de la 125% cee ace ne demonstrează că e avem
un rezultat bun.

68
Graficele cumulative încep întotdeauna la 0% și se termină la 100% pe măsură ce se trece
de la un capăt la altul.. Din modelul de mai sus, observăm o creștere până la 60% și apoi încet, încet
se stinge.

69
Diagrama indică, de asemenea, că modelul este unul bun. Graficele indexului cumulativ tind să
înceapă peste 100% și să coboare treptat până când ajung la 100%.
Pentru un model bun, valoarea indicelui ar trebui să înceapă cu mult peste 100%, să rămână pe
un platou în timp ce vă deplasați de-a lungul drumului și apoi să trageți brusc spre
100%. Din graficul nostru, putem observa ca linia începe de la 132% ceea ce ne demonstrează că e
avem un rezultat bun.

Tabelul de risc și de clasificare ne arată cât de bine funcționează modelul

Tabelul risc

Risk

Estimate Std. Error

.384 .017
Growing Method: EXHAUSTIVE CHAID Dependent
Variable: tigari_zi

Riscul estimat este de 0.384 ceea ce ne indică că categoria predictivă a modelului(


fumători, fumători sub medie și peste medie) este greșită pentru 38.4%. "Riscul" de clasificare
greșită a unei persoane este de aproximativ 38%.

70
Tabelul de clasificare
Classification

Predicted

Nefuma Fumatori Fumatori Percent


Observed tori sub medie peste medie Correct

Nefumatori
497 0 0 100.0%
36 0 0 0.0%
Fumatori sub medie

Fumatori peste medie 274 0 0 0.0%

100.0% 0.0% 0.0% 61.6%


Overall Percentage

Growing Method: EXHAUSTIVE CHAID


Dependent Variable: tigari_zi

 Tabela de clasificare ne arată o rată generală de clasificare corectă de aproape 61.6%.

2. Set de antrenament si de testare


Tabelul Model Summary

Tabelul Model Summary ne arată că în urma aplicării splite-sample, pentru setul de


antrenament și de testare au fost selectate din variabilele propuse doar variabila vârstă. Aceasta este
71
o informație importantă pentru a o cunoaște dacă dorim să aplicăm acest model altor fișiere de date,
deoarece variabilele independente utilizate în model trebuie să fie prezente în orice fișier de date
pe care dorim să îl aplicăm modelului. Tabelul Model Summary de asemenea ne arată că arborele
este simplu și ușor de înțeles, deoarece avem 5 noduri și 3 noduri terminale.

Training Sample

Test Sample
72
Folosind metoda CHAID EXH, vârsta este cel mai bun predictor al numărului de țigări fumate
într-o zi.
Pentru categoria bătrân și adolescent, vârsta este singurul predictor semnificativ al
numărului de țigări consummate pe zi. Persoanele din aceaste categorii, 72.9% din adolecenți și
bătrîni sunt nefumători, iar pentru adulți și tineri 57.8% sunt nefumători. Deoarece nu există
niciun nod copil sub acesta, sunt considerate noduri terminale.
Pentru categoria adult și tânăr cel mai bun predictor este educația.Peste 63.9% dintre
persoane au studii superioare, în timp ce jumătate dintre cei cu studii medii finalizate/Studii medii
nefinalizate sunt adulți și tineri.

73
Graficele cumulative încep întotdeauna la 0% și se termină la 100% pe măsură ce se trece
de la un capăt la altul. Pentru un model bun, câștigul schart va crește abrupt până la 100% și apoi
se va stinge. Pentru modelul Test Sample se obervă o foarte mica creștere, pentru training sample
obervăm o creștere până la 50% după se stinge ușor.

74
Diagrama indică, de asemenea, că modelul este unul bun. Graficele indexului cumulativ tind
să înceapă peste 100% și să coboare treptat până când ajung la 100%.
Pentru un model bun, valoarea indicelui ar trebui să înceapă cu mult peste 100%, să
rămână pe un platou în timp ce vă deplasați de-a lungul drumului și apoi să trageți brusc spre 100%.
Din graficul nostru, putem observa ca linia începe de la 118% atât pentru setul de antrenament cât
și pentru setul de testare. Pentru un model care nu oferă nicio informație, linia va trece peste 100%
pentru întreaga diagramă.

75
Graficele cumulative încep întotdeauna la 0% și se termină la 100% pe măsură ce se trece
de la un capăt la altul. Din modelul de mai sus, pentru setul de antrenament observăm o creștere
până la 60% și apoi încet, încet se stinge.Pentru setul de testare nu avem un rezultat bun.

Diagrama indică, de asemenea, că modelul este unul bun. Graficele indexului cumulativ tind
să înceapă peste 100% și să coboare treptat până când ajung la 100%.
Pentru un model bun, valoarea indicelui ar trebui să înceapă cu mult peste 100%, să
rămână pe un platou în timp ce vă deplasați de-a lungul drumului și apoi să trageți brusc spre 100%.
Din graficul nostru, putem observa ca linia începe peste 130% pentru ambele seturi.
76
Graficele cumulative încep întotdeauna la 0% și se termină la 100% pe măsură ce se trece
de la un capăt la altul. Pentru un model bun, câștigul schart va crește abrupt până la 100% și apoi
se va stinge. Din modelul de mai sus, observăm o creștere până la 80% și apoi încet, încet se stinge
pentru setul de antrenament și pentru testare.

77
Diagrama indică, de asemenea, că modelul este unul bun. Graficele indexului cumulativ tind
să înceapă peste 100% și să coboare treptat până când ajung la 100%.
Pentru un model bun, valoarea indicelui ar trebui să înceapă cu mult peste 100%, să
rămână pe un platou în timp ce vă deplasați de-a lungul drumului și apoi să trageți brusc spre 100%.
Din graficul nostru, putem observa ca linia începe de la 118% pentru ambele seturi de date
Pentru un model care nu oferă nicio informație, linia va trece peste 100% pentru întreaga diagramă.

Risk

Sample Estimate Std. Error

Training
.367 .025
Test
.320 .024
Growing Method: EXHAUSTIVE CHAID Dependent
Variable: tigari_zi

Riscul estimat este de 0.367 pentru setul de antrenament ,ceea ce ne indică că categoria predictivă
a modelului( fumători, fumători sub medie și peste medie) este greșită pentru 36,7%.

"Riscul" de clasificare greșită a unei persoane este de aproximativ 37%.


Riscul estimat este de 0.320 pentru setul de testare ,ceea ce ne indică că categoria predictivă a
modelului( fumători, fumători sub medie și peste medie) este greșită pentru 32%.

78
"Riscul" de clasificare greșită a unei persoane este de aproximativ 32%.

 Tabela de clasificare ne arată o rată generală de clasificare corectă de aproape 63.1% pentru
setul de antrenament și 60.0% pentru setul de testare.

Bibliografie

1. Breiman L, Friedman JH, Olshen RA, Stone CJ. Classification and Regression Trees. Chapman &
Hall (Wadsworth, Inc.): New York, 1984.
79
2. Classification and regression trees - Wei-Yin Loh
http://www.stat.wisc.edu/~loh/treeprogs/guide/wires11.pdf
3. A Survey on Decision Tree Algorithms of Classification in Data Mining - Himani Sharma, Sunil
Kumar - https://pdfs.semanticscholar.org/9307/1221663df46568d5e1edf3e0476d1d2422cc.pdf
4. Thales Sehn Korting, C4.5 algorithm and Multivariate Decision Trees;
5. FucaiChen, Xiaowei Li, Lixiong Liu, Improved C4.5 Decision Tree Algorithm Based on Sample
Selection;
6. Lior Rokach, Oded Maimon, Data Mining wirh Decision Trees Theory and Application, 2nd Edition,
World Scientific, 2015;
7. Evgeny Antipov and Elena Pokryshevskaya, 2009, Applying CHAID for logistic regression
diagnostics and classification accuracy improvement, ed. The State University Higher School of Economics;
8. David Olson, Yong Shi, 2007, Introduction to Business Data Mining, ed.McGRAW – HILL
international edition;
9. Gilbert Ritschard, 2010, CHAID and Earlier Supervised Tree Methods
10. Applying CHAID for logistic regression diagnostics and classification accuracy improvement
https://mpra.ub.uni-muenchen.de/21499/1/MPRA_paper_21499.pdf;

11. CHAID and Earlier Supervised Tree Methods


http://www.unige.ch/ses/dsec/repec/files/2010_02.pdf;

12. Popular Decision Tree: CHAID Analysis, Automatic Interaction Detection


http://www.statsoft.com/Textbook/CHAID-Analysis;
Anexa
Algoritmul CART ( Cross Validation)

Model Summary
Specificatio Growing Method
CRT
Dependent Variable
ns Current Salary
Independent Variables
educ1, Minority Classification, Employment

Category, Gender

Validation Cross Validation

Maximum Tree Depth


5

Minimum Cases in Parent

80
Node 100

Minimum Cases in Child


Results Node 50
Employment Category, educ1, Gender, Minority
Independent Variables
Included Classification

7
Number of Nodes
Number of Terminal
4
Nodes

Depth 3

81
Gain Summary
for
Nodes
Per Mea
ode N cent n

17.7 $63,
84 % 977.80

31.2 $32,
148 % 354.26

17.7 $28,
84 % 748.21
33.3 $23,
% 654.81
158
Growing Method: CRT
Dependent Variable: Current Salary

Risk

82
Estima Std.
Method te Error

Resubstit
ution 90473 607.410 14746 335.860
Cross- 92734 340.760 15074 357.177
Validation

Growing Method: CRT


Dependent Variable: Current Salary Independent Variable Importance

Independent Import Normal


Variable ance ized Importance

Employment 19022 6211.579 100.0


Category %

Gender 11567

6.1%
880.356

educ1 93086
4.9%
58.637
Minority 8176.4
0.0%
Classification 93

Growing Method: CRT


Dependent Variable: Current Salary

83
Surrogates

Parent
Associatio
Node Independent Variable Improvement n
0 Primary Employment Category 188179162.1

55

1 Primary educ1
9308658.637
Surroga Gender

te 8566238.017 .108
4 Primary Gender
3001642.339

84
Surroga Employment Category
2047049.424 .310

Minority Classification
te 8176.493 .048
Growing Method: CRT
Dependent Variable: Current Salary

85

S-ar putea să vă placă și