MachineLearning DM Cap3b

DATA MINING
MACHINE LEARNING.
Arbori de Decizie Algoritmul ID3/C4.5
3.3. Arbori de decizie

3.3.1. Definiie i terminologie
nvarea, utiliznd arbori de decizie este o metod pentru aproximarea
funciilor int cu valori discrete, n care funcia de nvare este reprezentat printr-un
arbore de decizie. Arborii decizionali execut multe teste i apoi ncearc s ajung la
cea mai bun secven pentru precizarea scopului. Fiecare test creeaz ramuri care
conduc la mai multe testri, pn cnd testarea se termin ntr-un nod. Calea de la
nodul rdcin la nodul frunz int este regula care clasific scopul. Regulile sunt
exprimate sub form de reguli if-then.
Ramur
Decizia 1
DA
NU
Decizia 2
Decizia 3
DA
DA
NU
NU
Decizia 4
DA
Decizia 5
NU
DA
NU
Frunze
Un arbore de decizie const dintr-o structur de tip arbore n care:

Nodurile interne ale arborelui indic un test pe un atribut;
Ramurile reprezint un rezultat al unui test;
Nodurile frunz ale arborelui reprezint etichete ale claselor;
4.3.2. Inducia arborelui de decizie
Procesul care creeaz arborele de decizie este numit inducie i cere un numr
mic de treceri prin setul de antrenare. Cei mai muli algoritmi de generarea a arborilor
de decizie trec prin dou faze:
faza de construire (cretere) a arborelui (prin divizare, splitting) urmat de
faza de tiere (pruning).
Faza de construire a arborelui este un proces iterativ care implic divizarea
progresiv a datelor n subseturi mai mici. Prima iteraie consider c nodul rdcin
conine toate datele. Urmtoarea iteraie lucreaz pe noduri derivate care vor conine
subseturi de date. La fiecare divizare, variabilele sunt analizate i cea mai bun
42
DATA MINING
MACHINE LEARNING.
divizare este aleas. O important caracteristic a divizrii este aceea c ea este de tip
(greedy) ceea ce nseamn c algoritmul nu se uit nainte n arbore s vad dac o alt
decizie ar produce un rezultat final mai bun. Faza de tiere identific i mut ramurile
care reflect zgomote sau excepii.
Arborii de decizie sunt utilizai pentru clasificarea exemplelor necunoscute
prin testarea valorilor atributelor exemplelor prin arborele de decizie. Un exemplu de
arbore de decizie pentru problema cumprtorilor de calculatoare este prezentat n
figura Fig. 3.3.
V rsta?
< = 30
overcas
30..40
t
>40
DA
student?
N ivel_creditare?
NU
DA
excelent
NU
DA
NU
norm al
DA
Fig. 3.3. Un arbore de decizie pentru cumprtori de calculatoare

Algoritmii de construire a arborelui au de obicei cteva reguli de oprire. Aceste
reguli sunt n general bazate pe civa factori incluznd adncimea maxim a
arborelui, numrul minimal de elemente dintr-un nod care este considerat pentru
divizare, sau numrul minim de elemente care trebuie s fie ntr-un nod nou. n cele
mai multe implementri utilizatorul poate modifica parametri asociai cu aceste reguli.
Civa algoritmi ncep prin construirea arborilor la adncimea maxim a lor. n timp
ce astfel de arbore poate preciza exact toate exemplele din setul de antrenare
(exceptnd nregistrrile conflictuale), problema cu astfel de arbore este aceea, c mai
mult dect probabil, este o potrivire excesiv asupra datelor respective.
Algoritmul de inducie al arborelui de decizie const din algoritmul de baz
(algoritm greedy) i din condiiile de oprire a partiionrii.
Algoritmul de baz numit i algoritm greedy const din urmtorii pai:
43
DATA MINING
MACHINE LEARNING.
Arborele este construit ntr-o manier divide i cucerete (divide-andconquer) recursiv de sus n jos;
La nceput, toate exemplele de nvare sunt n nodul rdcin;
Atributele sunt de tip enumerare discrete sau continue (dac valorile sunt
continue, atunci mai nti ele sunt discretizate);
Exemplele sunt partiionate recursiv bazat pe atributele selectate;
Atributele de test sunt selectate pe baza unei msuri euristice sau statistice
(exemplu, informaie ctigat).
Condiiile pentru oprirea partiionrii:

Toate exemplele pentru un anumit nod aparin unei aceleiai clase;
Nu mai exist nici un atribut pentru partiionri ulterioare;
Nu rmne nici un exemplu.
Dup ce arborele este complet, se poate explora modelul pentru a gsi nodurile de
ieire sau sub arborii care sunt de nedorit, sau regulile care sunt apreciate ca
neadecvate.
4.3.2. Extragerea de reguli din arbore
Dup ce a fost antrenat, un arbore poate prezice o instan nou de date
ncepnd de la nodul rdcin i urmnd o cale n jos pe ramur pn la ntlnirea unui
nod frunz. Calea este determinat prin evaluarea regulilor de tiere (salt) bazndu-se
pe valorile variabilelor independente din noua instan.
Arborii de decizie pot avea utilitate att pentru modele predictive ct i
descriptive. Predicia poate fi fcut caz cu caz prin navigarea arborelui. De cele mai
multe ori, predicia poate fi realizat prin procesarea cazurilor noi prin arbore sau prin
setul de reguli automat i genernd un fiier de ieire cu valorile precizate sau
adugnd clase. Multe implementri ofer opiunea de exportare a regulilor pentru a fi
utilizate extern sau nglobate n alte aplicaii.
Extragerea de reguli de clasificare din arbore poate fi sintetizat astfel:
Reprezentarea cunotinelor sub form de reguli IF-THEN;
O regul este creat pentru fiecare cale de la nodul rdcin la un nod
frunz;
Fiecare pereche de valori de atribute de-a lungul cii formeaz o
conjuncie;
Nodul frunz conine clas prediciei;
Exemple de reguli extrase din arborele din figura 3.3 :
IF vrsta = <=30 AND student = nu THEN cumparator_computer = nu
IF vrsta = <=30 AND student = da THEN cumparator_computer = da
IF vrsta = 3140 THEN cumparator_computer = da
IF vrsta = >40 AND nivel_creditare = excelent THEN cumparator_computer
= nu
44
DATA MINING
MACHINE LEARNING.
IF vrsta = >40 AND nivel_creditare = normal THEN cumparator_computer =
da
3.3.3. Algoritmi de decizie
Algoritmii des ntlnii care implementeaz arbori de decizie sunt:
CHAID (Chi-squared Automatic Interaction Detection),
CART (Classification and Regression Trees),
C4.5 i C5.0.. Toi algoritmii sunt potrivii pentru clasificare; civa
sunt adaptai pentru regresie.
Algoritmii C4.5 i C5.0 includ metode de generalizare a regulilor asociate
unui arbore, aceasta ndeprtnd redundanele. Ali algoritmi ntr-un mod
simplu cumuleaz toate testele dintre nodul rdcin i nodul frunz pentru a
produce reguli. Caracteristicile diferite dintre algoritmii care implementeaz
arbori de decizie sunt redate n tabelul Tabel 3.4.
Algoritmi
CART
ID3/C4.5
i C5.0
CHAID
SLIQ
SPRINT
Caracteristici
Divizare binar bazat pe GINI (partiionare recursiv motivat printr-o
predicie statistic), are 2 ramuri de la oricare nod ne terminal (care nu e
nod frunz). Tierea este bazat pe msurarea complexitii arborelui.
Suport clasificarea i regresia. Trateaz variabile continue, i necesit
pregtirea datelor.
Produce arbori cu multiple ramuri pentru un nod. Numrul de ramuri este
egal cu numrul de categorii de preziceri. Combin arbori decizionali
multipli ntr-un singur clasificator. Utilizeaz informaia ctigat pentru
divizare. Tierea este bazat pe o rat de eroare la fiecare frunz.
Divizarea utilizeaz teste chi-square (detectarea relaiilor statistice
complexe). Numrul de ramuri variaz de la dou la numrul de categorii
de preziceri.
Clasificator scalabil rapid. Algoritm de tiere a arborelui rapid.
Pentru seturi de date mari. Divizarea este bazat pe valoarea unui singur
atribut. nltur toate restriciile de memorie prin utilizarea structurii de date
list de atribute.
Tabel 3.4. Diferene ale algoritmilor arborilor de decizie.
Dintre aceti algoritmi cel mai des ntlnit este algoritmul ID3/C4.5.
Algoritmul ID3/C4.5
O parte fundamentala a oricrui algoritm care construiete un arbore de decizie
dintr-un set de date este modalitatea prin care se selecteaz atributele la nivelul
fiecrui nod din arbore. Acesta problema este extrem de importanta deoarece
atributele care definesc o nregistrare au contribuii mai mult sau mai puin importante
la construirea clasificatorului. Rezulta ca este necesara gsirea unui criteriu de selecie
a atributelor cele mai semnificative. Astfel, punctul central al algoritmilor privind
45
DATA MINING
MACHINE LEARNING.
arborii decizionali constau in selectarea atributului ce urmeaz a fi testat la fiecare
nod. Pentru alegerea atributului cu cea mai neomogena clasa de distribuie algoritmul
utilizeaz conceptul de entropie.
Criteriul de estimare la algoritmii ce utilizeaz arbori decizionali este selecia unui
atribut pentru testare fiecrui nod de decizie din arbore.
Indicele de calitate care se utilizeaz este cel de ctig informaional information gain
A crui rol este de a msura cat de bine un atribut dat separa exemplele date dup un
criteriu de clasificare.
Entropia - o msur a omogenitii unui set de exemple
Din punct de vedere fizic entropia este o mrime care msoar gradul de
dezordine a unui sistem. Extinsa la nivelul unui set de date entropia va msura cat de
dezordonat este setul de date respectiv. Ca urmare o entropie mai mare a unui set de date
are ca rezultat direct faptul ca e nevoie de mai multa informaie pentru a descrie setul in
cauza.
Entropia se calculeaz astfel :
Fiind dat un set S, coninnd doar exemple pozitive si negative a unui concept dorit,
entropia setului S este:
Entropie( S ) = p p log 2 p p pn log 2 pn

unde:
pn - proporia exemplelor negative din S
pp - proporia exemplelor pozitive din S
Pentru exemplificare se presupunem ca S este o colecie de 25 de exemple din care 15
pozitive si 10 negative:
15
15 10
10
Entropie( S ) = log 2 log 2 = 0.97
25
25 25
25
46
DATA MINING
MACHINE LEARNING.
Se observa ca entropia este :
- 0 daca toi membrii lui S aparin aceleai clase.
- 1 cnd exista un numr egal de exemple pozitive si negative.
- cuprins intre 0 si 1 daca numrul de exemple este inegal.
In figura este reprezentata funcia de entropie, dup cum proporia de exemple pozitive
variaz intre 0 si 1.
Pana acum am prezentat entropia in cazul special al clasificrii binare. Daca atributul are
c valori diferite , entropia are formula :
E ntropie ( S ) =
p
i =1
log 2 p i
unde pi este numrul de atribute de acelai tip (valoare) din setul de c tipuri
Information gain Ctigul Informaional
Construirea arborelui impune utilizarea unui indice cantitativ care sa cuantizeze
efectul mpririi setului de date folosind un atribut particular. Acesta poarta numele de
information gain si calculeaz reducerea entropiei care rezulta din mprirea datelor
dup atributul A
Pentru un anumit atribut A, ctigul informaional produs de selectarea acestuia ca
rdcina a arborelui de decizie este egal cu coninutul total de informaie din arbore
minus coninutul de informaie necesar pentru terminarea clasificrii (construirii
arborelui) dup selectarea atributului A ca rdcina.
Information gain - ctigul informaional reprezint reducerea ateptata in entropie
cauzata de segmentare. Mai precis, information gain, Gain(S, A) a unui atribut A in
raport cu o colecie S este definit ca:
Gain( S , A) = Entropie( S )
vValori ( A )
unde:
Sv
Entropie( Sv )
S
Valori(A) este un set de posibile valori pentru atributul A ,

Sv este o submulime a lui S pentru care atributul A are valoarea v
Sv = {s S | A(s) = v}
Primul termen din Gain este entropia lui S, iar
Cel de-al doilea termen e valoarea ateptat pentru entropie dup ce S este
segmentat folosind atributul A, deci este suma entropiilor pentru fiecare
submulime Sv, nmulita cu fracia |Sv|/|S|. Procesul continua alegnd un nou
atribut si repetnd segmentarea cu fiecare nod ne terminal. Procesul se repeta
pana cnd una din cele doua condiii este satisfcuta:
1.
toate atributele au fost deja incluse in parcurgerea arborelui;
2.
exemplele antrenate asociate cu nodul frunza au toate aceeai valoare de atribut
(entropia lor e 0).
47
DATA MINING
MACHINE LEARNING.
Algoritmul 1R, Arbori de Decizie
Adenda
Dicionarele definesc conceptul de energie ca fiind capacitatea unui sistem
fizic de a efectua lucru mecanic, la trecerea dintr-o stare n alt stare. Etimologic,
cuvntul energie are la baz cuvintele de origine latin energia i de origine
greac enerhia, care aveau nelesul de activitate.
Utilizarea diferitelor forme de energie implic cunoaterea transformrilor
dintr-o form de energie n alta. S-a descoperit astfel, legea fundamental privind
ireversibilitatea n timp a fenomenelor reale, ce ne permite s aflm ct energie
disponibil avem. Astfel s-a introdus noiunea de entropie (evoluie) a crei cretere n
timpul proceselor fizice determin ireversibilitatea.
Energia definete calitatea proceselor, entropia definete sensul evoluiei
proceselor. Cunoaterea proprietilor sistemelor fizice i a legilor de desfurare a
proceselor se face folosind noiunile i principiile termodinamicii (care sunt
exprimrile matematice ale legii conservrii i legii entropiei). Se consider c
reprezentrile macroscopice constituie un sistem teoretic destul de cuprinztor pentru
nelegerea general a lucrurilor.
Algoritmul ID3/C4.5
Input: S eantion din populaia pentru care se construiete modelul de tip arbore de
Decizie. Fiecare obiect (nregistrare) are n atribute
Output: A arbore decizie
Begin
Repeat
Calculeaz entropia fiecrui atribut pentru toate obiectele eantionului
Selecteaz atributul si valorile acestuia cu entropia cea mai mica (ctigul
informaional cel mai mare)
Reduce eantionul pstrnd numai obiectele care prezint valorile atributului
selectat anterior. Reduce numrul de atribute ce definesc obiectele din eantion
cu cel selectat.
until
Toate exemplele pentru un anumit nod aparin unei aceleiai clase;
Nu mai exist nici un atribut pentru partiionri ulterioare;
Nu rmne nici un exemplu.
end
In continuare prezentam un exemplu de construire a unui arbore decizional folosindune de entropie. Eantionul este format 8 obiecte fiecare fiind definit 5 atribute, din
care ultimul va defini structura de clase.
42
DATA MINING
MACHINE LEARNING.
Nume
Sarah
Dana
Alex
Annie
Emily
Pete
John
Katie
Par
Blonda
Blonda
Bruneta
Blonda
Rocat
Bruneta
Bruneta
Blonda
nlime
Medie
nalt
Mica
Mica
Medie
nalt
Medie
Mica
Greutate
Mica
Medie
Medie
Medie
Mare
Mare
Mare
Mica
Loiune
Nu
Da
Da
Nu
Nu
Nu
Nu
Da
Rezultat - Clasa
Ars de soare (pozitiv)
Nu
(negativ)
Nu
Ars de soare
Ars de soare
Nu
Nu
Nu
Construirea arborelui de decizie

1. Calculeaz entropia medie a setului de date complet pentru fiecare din cele 4
atribute
- Calcul entropie pentru atributul : Culoare Par
Atribut
Culoare par
Valoare
Clasa
blond
2 pozitive
2 negative
rocat
1 pozitiv
brunet
3 negative
Entropie= 0.50
n
Entropie(CuloarePar ) = b
b nt

4 2
3
2 2
2 1
Entropie(CuloarePar ) = log 2 log 2 + ( log 2 1) + ( log 2 1)
8 4
8
4 4
4 8
nbc

c nn
nbc
log 2
nn
4 2
2 2
2
Entropie(CuloarePar ) = log 2 log 2
8 4
4 4
4
Entropie(CuloarePar ) = 0.50
- Calcul entropie pentru atributul : nlime
Atribut
nlime
Valoare
Clasa
mica
1 pozitiv
2 negative
medie
2 pozitive
1 negativ
mare
2 negative
Entropie= 0.69
43
DATA MINING
MACHINE LEARNING.
3 1
1 2
2
Entropie( Inaltime) = log 2 log 2 +
8 3
3 3
3
3 2
2 1
1
log 2 log 2 +
8 3
3 3
3
2
( 0)
8
1
1 1
2 1
2 1
1
Entropie( Inaltime) = log 2 log 2 log 2 log 2
8
3 4
3 4
3 8
3
1
1 1
2
Entropie( Inaltime) = log 2 log 2
4
3 2
3
1
2
log10
log10
1
3 1
3
Entropie( Inaltime) =
4 log10 ( 2 ) 2 log10 ( 2 )
Entropie( Inaltime) = 0.3962 + 0.2925

Entropie( Inaltime) = 0.69
- Calcul entropie pentru atributul : Greutate
Atribut
Greutate
Valoare
Clasa
mica
2 pozitive
2 negative
medie
1 pozitiv
mare
3 negative
Entropie= 0.9450
2 1
1 1
1
Entropie(Greutate) = log 2 log 2 +
8 2
2 2
2
3 1
1 2
2
log 2 log 2 +
8 3
3 3
3
3 1
1 2
2
log 2 log 2
8 3
3 3
3
44
DATA MINING
MACHINE LEARNING.
1
1 1
1 1
2 1
1 1
2
Entropie(Greutate) = log 2 log 2 log 2 log 2 log 2
8
4 8
3 4
3 8
3 4
3
1
1 1
1 1
2
Entropie(Greutate) = log 2 log 2 log 2
8
4 4
3 2
3
1
1
2
log10
log10
log10
1
4 1
3 1
3
Entropie(Greutate) =
8 log10 ( 2 ) 4 log10 ( 2 ) 2 log10 ( 2 )
Entropie(Greutate) = 0.25 + 0.3962 + 0.2925

Entropie(Greutate) = 0.94
- Calcul entropie pentru atributul : Loiune
Atribut
Loiune
Valoare Clasa
nu
3 pozitive
2 negative
da
3 negative
Entropie= 0.61
5 3
3 2
2 3
Entropie( Lotiune) = log 2 log 2 + ( 0 )
8 5
5 5
5 8
3
3 1
2
Entropie( Lotiune) = log 2 log 2
8
5 4
5
3
2
log10
log10
3
5 1
5
Entropie( Lotiune) =
8 log10 ( 2 ) 4 log10 ( 2 )
Entropie( Lotiune)) = 0.2764 + 0.3305

Entropie( Lotiune) = 0.61
In final se obin urmtoarele rezultate pentru entropia celor 4 atribute
Atribute
Valoare Entropie
Culoarea parului
0.50
nlime
0.69
Greutate
0.94
Loiune
0.61
45
DATA MINING
MACHINE LEARNING.
Atributul Culoarea Parului are entropia cea mai mica. In continuare se
procedeaz la reducerea eantionului, prin luarea in considerare numai a acelor obiecte
pentru care entropia este minima (implicit ctig informaional mare). Pentru
exemplul dat se iau in calcul numai obiectele pentru care atributul culoare par are
valoarea blond, in noul eantion vor fi prezente acum 4 obiecte respectiv: Sarah,
Dana, Annie, Katie.
2. Se procedeaz similar ca in etapa anterioara pe eantionul rezultat de 4 obiecte
pentru care se calculeaz entropia pentru toate atributele ramase. Se va obine:
Atribute Entropie
nlime
0.50
Greutate
1.00
Loiune
0.00
Atributul loiune este selectat deoarece el are entropia cea mai mica n selecia
ramurii par blond. Astfel, folosind mpreuna testele pentru culoarea parului si
loiune asigura identificarea corecta a tuturor exemplelor din tabelul iniial
obinndu-se urmtorul arbore de decizie
ESANTION
Lotiune
Greutate
Inaltime
Culoare par
Da 3p 2n
Nu
3n
Entropie=0.61
Blond 2p 2n
Roscat 1p
Brunet 3n
Mica 1p 1n
Medie 1p 2n
Mare 1p 2n
Mica 1p 2n
Medie 2p 1n
Inalta
2n
Entropie=0.69
Entropie=0.50
Entropie=0.94
Se restrange esantionul la
obiectele unde atributul are
valoare Blond
46
DATA MINING
MACHINE LEARNING.
Esantion NOU
Annie Sarh Dana
Katie
Lotiune
Inaltime
Greutate
Entropie=1.0
Entropie=0
CLASIFICATORUL
If culoare par = blond and
lotiune = da then ars de soare
else nu
Entropie=0.50
Observaii
n este negativ NU aparine clasei ars de soare
p este pozitiv
3.5. Avantaje i dezavantaje ale arborilor de decizie.

Arborii de decizie produc modele care sunt uor de neles i nu sunt afectai de
valorile lips din date. Arborii de decizie impun anumite restricii pe datele care sunt
analizate. n primul rnd, arborii de decizie permit numai o singur variabil
dependent. Pentru a prezice mai mult dect o variabil dependent, fiecare variabil
cere un model separat. De asemenea, cei mai muli algoritmi pentru arborii de decizie
cer ca datele continue s fie grupate sau convertite la date de tip enumerare.
Avantaje
- sunt capabili sa genereze reguli uor de interes;
- fac clasificri fora a necesita prea mult calcul
- pot lucra att cu variabile continue cat si cu variabile absolute
- furnizeaz explicit care cmpuri sunt cele mai importante pentru Clasificare
- timp execuie rapid
- regulile generate sunt uor interpretabile
- arhitectura optima pentru set date mari
- poate trata date de dimensiuni mari
Dezavantaje:
- nu sunt recomandate pentru tratarea cazurilor in care atributele au valorii continue;
- nu releva corelaiile intre atribute
- nu sunt recomandai in clasificri cu multe clase si numr relativ mic de exemple;
47
DATA MINING
MACHINE LEARNING.
3.6. Exemplu de utilizare a arborilor decizionali

O companie trebuie s ia n considerare dac particip sau nu la o licitaie
pentru dou contracte (MS1 i MS2) oferite de o instituie guvernamental pentru
aprovizionarea cu anumite componente. Compania are trei opiuni:
1. Licitaie numai pentru contractul MS1 (cost $50,000); sau
2. Licitaie numai pentru contractul MS2 (cost $14,000); sau
3. Licitaie att pentru contractul MS1 ct i MS2 (cost $55,000).
Dac licitaia este cu succes, costul aprovizionrii ar fi:
1. $18,000 numai pentru MS1
2. $12,000 numai pentru MS2
3. $24,000 pentru ambele
n plus, au fost realizate evaluri subiective despre probabilitatea de obinere a
contractului la un pre de licitaie particular afiat n tabela Tabel 3.5. Trebuie
menionat faptul c, compania poate s prezinte numai o singur ofert i nu poate de
exemplu s participe cu dou oferte (la diferite preuri) pentru acelai contract.
Opiunea
numai MS1
numai MS2
MS1 i MS2
Posibil pre de licitaie ($)

130,000
115,000
70,000
65,000
60,000
190,000
140,000
Probabilitatea de obinere a
contractului
0,20
0,85
0,15
0,80
0,95
0,05
0,65
Tabel 3.5. Costuri relative i probabilitatea de obinere a contractelor

n eventualitatea c, compania liciteaz pentru ambele contracte MS1 i
MS2, ea va fi fie ctigtoarea ambelor contracte (la preul afiat mai sus) sau a
nici unuia. Riscul este acela c dac o ofert este fr succes compania va pierde.
Arborele de decizie pentru acest exemplu este dat n figura 3.3. Fiecare nod frunz
gri este un nod ctigtor. Calea la nodurile ctigtoare este de exemplu :
Calea la nodul terminal 12: licitarea numai pentru MS1 (cost 50), la un
pre de 130 i dac licitarea este cu succes, aceasta include costuri de
aprovizionare, care sunt 18. Total profit: 130-50-18 = 62.
48
DATA MINING
MACHINE LEARNING.
Calea la nodul terminal 16: licitarea numai pentru MS2 (cost 14), la un
pre de 70, i dac licitarea este cu succes, aceasta include costuri de
aprovizionare, care sunt 12. Total profit 70-14-12 = 44.
Calea la nodul terminal 22: licitarea pentru MS1 i MS2 (cost 55), la un
pre de 190, i dac licitarea este cu succes, aceasta include costuri de
aprovizionare, care sunt 24. Total profit 190-55-24 = 111.
Att la calcularea profitului ct i n reprezentarea arborelui am simplificat prin

nlturarea ultimelor trei zerouri.
Utiliznd probabilitile pentru luarea deciziilor la nodul 2:
Nodul 5: 0.2 *(62) + 0.8 * (-50) = -27.6

Nodul 6: 0.85* (47) + 0.15 *(-50) = 32.45
Astfel cea mai bun decizie de la nodul 2 este licitarea la preul de 115 000$.
D EC IZ IE
M S1 (-50 )
PR E
-18
+130
+70
0.15
14
-50
+65
0.95
13
PR E
-12
0.2
0.2
2
+115
12
M S2 (-14 )
15
+47 -50
16
0.20
17
18
M S1 & M S2
(-55 )
-24
+190
+60
0.95
19
PR E
20
+44 -14 +39 -14 +34 -14
+140
10
0.05
21 22
+111 -55
11
0.65
23 24
+61
25
-55
Fig. 3.3. Arbore de decizie pentru ofertantul contractelor.
49

MachineLearning DM Cap3b

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

MachineLearning DM Cap3b

Încărcat de

Drepturi de autor:

Formate disponibile

DATA MINING

3.3. Arbori de decizie

Un arbore de decizie const dintr-o structur de tip arbore n care:

Fig. 3.3. Un arbore de decizie pentru cumprtori de calculatoare

Algoritmul de baz numit i algoritm greedy const din urmtorii pai:

Condiiile pentru oprirea partiionrii:

Entropie( S ) = p p log 2 p p pn log 2 pn

Valori(A) este un set de posibile valori pentru atributul A ,

Construirea arborelui de decizie

Entropie( Inaltime) = 0.3962 + 0.2925

Entropie(Greutate) = 0.25 + 0.3962 + 0.2925

Entropie( Lotiune)) = 0.2764 + 0.3305

3.5. Avantaje i dezavantaje ale arborilor de decizie.

3.6. Exemplu de utilizare a arborilor decizionali

Posibil pre de licitaie ($)

Tabel 3.5. Costuri relative i probabilitatea de obinere a contractelor

Att la calcularea profitului ct i n reprezentarea arborelui am simplificat prin

Nodul 5: 0.2 (62) + 0.8 (-50) = -27.6

+44 -14 +39 -14 +34 -14

Fig. 3.3. Arbore de decizie pentru ofertantul contractelor.

S-ar putea să vă placă și