Documente Academic
Documente Profesional
Documente Cultură
MACHINE LEARNING.
Arbori de Decizie Algoritmul ID3/C4.5
Decizia 1
DA
NU
Decizia 2
Decizia 3
DA
DA
NU
NU
Decizia 4
DA
Decizia 5
NU
DA
NU
Frunze
42
DATA MINING
MACHINE LEARNING.
Arbori de Decizie Algoritmul ID3/C4.5
divizare este aleas. O important caracteristic a divizrii este aceea c ea este de tip
(greedy) ceea ce nseamn c algoritmul nu se uit nainte n arbore s vad dac o alt
decizie ar produce un rezultat final mai bun. Faza de tiere identific i mut ramurile
care reflect zgomote sau excepii.
Arborii de decizie sunt utilizai pentru clasificarea exemplelor necunoscute
prin testarea valorilor atributelor exemplelor prin arborele de decizie. Un exemplu de
arbore de decizie pentru problema cumprtorilor de calculatoare este prezentat n
figura Fig. 3.3.
V rsta?
< = 30
overcas
30..40
t
>40
DA
student?
N ivel_creditare?
NU
DA
excelent
NU
DA
NU
norm al
DA
43
DATA MINING
MACHINE LEARNING.
Arbori de Decizie Algoritmul ID3/C4.5
Arborele este construit ntr-o manier divide i cucerete (divide-andconquer) recursiv de sus n jos;
La nceput, toate exemplele de nvare sunt n nodul rdcin;
Atributele sunt de tip enumerare discrete sau continue (dac valorile sunt
continue, atunci mai nti ele sunt discretizate);
Exemplele sunt partiionate recursiv bazat pe atributele selectate;
Atributele de test sunt selectate pe baza unei msuri euristice sau statistice
(exemplu, informaie ctigat).
44
DATA MINING
MACHINE LEARNING.
Arbori de Decizie Algoritmul ID3/C4.5
IF vrsta = >40 AND nivel_creditare = normal THEN cumparator_computer =
da
3.3.3. Algoritmi de decizie
Algoritmii des ntlnii care implementeaz arbori de decizie sunt:
CHAID (Chi-squared Automatic Interaction Detection),
CART (Classification and Regression Trees),
C4.5 i C5.0.. Toi algoritmii sunt potrivii pentru clasificare; civa
sunt adaptai pentru regresie.
Algoritmii C4.5 i C5.0 includ metode de generalizare a regulilor asociate
unui arbore, aceasta ndeprtnd redundanele. Ali algoritmi ntr-un mod
simplu cumuleaz toate testele dintre nodul rdcin i nodul frunz pentru a
produce reguli. Caracteristicile diferite dintre algoritmii care implementeaz
arbori de decizie sunt redate n tabelul Tabel 3.4.
Algoritmi
CART
ID3/C4.5
i C5.0
CHAID
SLIQ
SPRINT
Caracteristici
Divizare binar bazat pe GINI (partiionare recursiv motivat printr-o
predicie statistic), are 2 ramuri de la oricare nod ne terminal (care nu e
nod frunz). Tierea este bazat pe msurarea complexitii arborelui.
Suport clasificarea i regresia. Trateaz variabile continue, i necesit
pregtirea datelor.
Produce arbori cu multiple ramuri pentru un nod. Numrul de ramuri este
egal cu numrul de categorii de preziceri. Combin arbori decizionali
multipli ntr-un singur clasificator. Utilizeaz informaia ctigat pentru
divizare. Tierea este bazat pe o rat de eroare la fiecare frunz.
Divizarea utilizeaz teste chi-square (detectarea relaiilor statistice
complexe). Numrul de ramuri variaz de la dou la numrul de categorii
de preziceri.
Clasificator scalabil rapid. Algoritm de tiere a arborelui rapid.
Pentru seturi de date mari. Divizarea este bazat pe valoarea unui singur
atribut. nltur toate restriciile de memorie prin utilizarea structurii de date
list de atribute.
Tabel 3.4. Diferene ale algoritmilor arborilor de decizie.
Dintre aceti algoritmi cel mai des ntlnit este algoritmul ID3/C4.5.
Algoritmul ID3/C4.5
O parte fundamentala a oricrui algoritm care construiete un arbore de decizie
dintr-un set de date este modalitatea prin care se selecteaz atributele la nivelul
fiecrui nod din arbore. Acesta problema este extrem de importanta deoarece
atributele care definesc o nregistrare au contribuii mai mult sau mai puin importante
la construirea clasificatorului. Rezulta ca este necesara gsirea unui criteriu de selecie
a atributelor cele mai semnificative. Astfel, punctul central al algoritmilor privind
45
DATA MINING
MACHINE LEARNING.
Arbori de Decizie Algoritmul ID3/C4.5
arborii decizionali constau in selectarea atributului ce urmeaz a fi testat la fiecare
nod. Pentru alegerea atributului cu cea mai neomogena clasa de distribuie algoritmul
utilizeaz conceptul de entropie.
Criteriul de estimare la algoritmii ce utilizeaz arbori decizionali este selecia unui
atribut pentru testare fiecrui nod de decizie din arbore.
Indicele de calitate care se utilizeaz este cel de ctig informaional information gain
A crui rol este de a msura cat de bine un atribut dat separa exemplele date dup un
criteriu de clasificare.
Entropia - o msur a omogenitii unui set de exemple
Din punct de vedere fizic entropia este o mrime care msoar gradul de
dezordine a unui sistem. Extinsa la nivelul unui set de date entropia va msura cat de
dezordonat este setul de date respectiv. Ca urmare o entropie mai mare a unui set de date
are ca rezultat direct faptul ca e nevoie de mai multa informaie pentru a descrie setul in
cauza.
Entropia se calculeaz astfel :
Fiind dat un set S, coninnd doar exemple pozitive si negative a unui concept dorit,
entropia setului S este:
46
DATA MINING
MACHINE LEARNING.
Arbori de Decizie Algoritmul ID3/C4.5
Se observa ca entropia este :
- 0 daca toi membrii lui S aparin aceleai clase.
- 1 cnd exista un numr egal de exemple pozitive si negative.
- cuprins intre 0 si 1 daca numrul de exemple este inegal.
In figura este reprezentata funcia de entropie, dup cum proporia de exemple pozitive
variaz intre 0 si 1.
Pana acum am prezentat entropia in cazul special al clasificrii binare. Daca atributul are
c valori diferite , entropia are formula :
E ntropie ( S ) =
p
i =1
log 2 p i
unde pi este numrul de atribute de acelai tip (valoare) din setul de c tipuri
Information gain Ctigul Informaional
Construirea arborelui impune utilizarea unui indice cantitativ care sa cuantizeze
efectul mpririi setului de date folosind un atribut particular. Acesta poarta numele de
information gain si calculeaz reducerea entropiei care rezulta din mprirea datelor
dup atributul A
Pentru un anumit atribut A, ctigul informaional produs de selectarea acestuia ca
rdcina a arborelui de decizie este egal cu coninutul total de informaie din arbore
minus coninutul de informaie necesar pentru terminarea clasificrii (construirii
arborelui) dup selectarea atributului A ca rdcina.
Information gain - ctigul informaional reprezint reducerea ateptata in entropie
cauzata de segmentare. Mai precis, information gain, Gain(S, A) a unui atribut A in
raport cu o colecie S este definit ca:
Gain( S , A) = Entropie( S )
vValori ( A )
unde:
Sv
Entropie( Sv )
S
DATA MINING
MACHINE LEARNING.
Algoritmul 1R, Arbori de Decizie
Adenda
Dicionarele definesc conceptul de energie ca fiind capacitatea unui sistem
fizic de a efectua lucru mecanic, la trecerea dintr-o stare n alt stare. Etimologic,
cuvntul energie are la baz cuvintele de origine latin energia i de origine
greac enerhia, care aveau nelesul de activitate.
Utilizarea diferitelor forme de energie implic cunoaterea transformrilor
dintr-o form de energie n alta. S-a descoperit astfel, legea fundamental privind
ireversibilitatea n timp a fenomenelor reale, ce ne permite s aflm ct energie
disponibil avem. Astfel s-a introdus noiunea de entropie (evoluie) a crei cretere n
timpul proceselor fizice determin ireversibilitatea.
Energia definete calitatea proceselor, entropia definete sensul evoluiei
proceselor. Cunoaterea proprietilor sistemelor fizice i a legilor de desfurare a
proceselor se face folosind noiunile i principiile termodinamicii (care sunt
exprimrile matematice ale legii conservrii i legii entropiei). Se consider c
reprezentrile macroscopice constituie un sistem teoretic destul de cuprinztor pentru
nelegerea general a lucrurilor.
Algoritmul ID3/C4.5
Input: S eantion din populaia pentru care se construiete modelul de tip arbore de
Decizie. Fiecare obiect (nregistrare) are n atribute
Output: A arbore decizie
Begin
Repeat
Calculeaz entropia fiecrui atribut pentru toate obiectele eantionului
Selecteaz atributul si valorile acestuia cu entropia cea mai mica (ctigul
informaional cel mai mare)
Reduce eantionul pstrnd numai obiectele care prezint valorile atributului
selectat anterior. Reduce numrul de atribute ce definesc obiectele din eantion
cu cel selectat.
until
Toate exemplele pentru un anumit nod aparin unei aceleiai clase;
Nu mai exist nici un atribut pentru partiionri ulterioare;
Nu rmne nici un exemplu.
end
In continuare prezentam un exemplu de construire a unui arbore decizional folosindune de entropie. Eantionul este format 8 obiecte fiecare fiind definit 5 atribute, din
care ultimul va defini structura de clase.
42
DATA MINING
MACHINE LEARNING.
Algoritmul 1R, Arbori de Decizie
Nume
Sarah
Dana
Alex
Annie
Emily
Pete
John
Katie
Par
Blonda
Blonda
Bruneta
Blonda
Rocat
Bruneta
Bruneta
Blonda
nlime
Medie
nalt
Mica
Mica
Medie
nalt
Medie
Mica
Greutate
Mica
Medie
Medie
Medie
Mare
Mare
Mare
Mica
Loiune
Nu
Da
Da
Nu
Nu
Nu
Nu
Da
Rezultat - Clasa
Ars de soare (pozitiv)
Nu
(negativ)
Nu
Ars de soare
Ars de soare
Nu
Nu
Nu
Valoare
Clasa
blond
2 pozitive
2 negative
rocat
1 pozitiv
brunet
3 negative
Entropie= 0.50
n
Entropie(CuloarePar ) = b
b nt
4 2
3
2 2
2 1
Entropie(CuloarePar ) = log 2 log 2 + ( log 2 1) + ( log 2 1)
8 4
8
4 4
4 8
nbc
c nn
nbc
log 2
nn
4 2
2 2
2
Entropie(CuloarePar ) = log 2 log 2
8 4
4 4
4
Entropie(CuloarePar ) = 0.50
- Calcul entropie pentru atributul : nlime
Atribut
nlime
Valoare
Clasa
mica
1 pozitiv
2 negative
medie
2 pozitive
1 negativ
mare
2 negative
Entropie= 0.69
43
DATA MINING
MACHINE LEARNING.
Algoritmul 1R, Arbori de Decizie
3 1
1 2
2
Entropie( Inaltime) = log 2 log 2 +
8 3
3 3
3
3 2
2 1
1
log 2 log 2 +
8 3
3 3
3
2
( 0)
8
1
1 1
2 1
2 1
1
Entropie( Inaltime) = log 2 log 2 log 2 log 2
8
3 4
3 4
3 8
3
1
1 1
2
Entropie( Inaltime) = log 2 log 2
4
3 2
3
1
2
log10
log10
1
3 1
3
Entropie( Inaltime) =
4 log10 ( 2 ) 2 log10 ( 2 )
Valoare
Clasa
mica
2 pozitive
2 negative
medie
1 pozitiv
mare
3 negative
Entropie= 0.9450
2 1
1 1
1
Entropie(Greutate) = log 2 log 2 +
8 2
2 2
2
3 1
1 2
2
log 2 log 2 +
8 3
3 3
3
3 1
1 2
2
log 2 log 2
8 3
3 3
3
44
DATA MINING
MACHINE LEARNING.
Algoritmul 1R, Arbori de Decizie
1
1 1
1 1
2 1
1 1
2
Entropie(Greutate) = log 2 log 2 log 2 log 2 log 2
8
4 8
3 4
3 8
3 4
3
1
1 1
1 1
2
Entropie(Greutate) = log 2 log 2 log 2
8
4 4
3 2
3
1
1
2
log10
log10
log10
1
4 1
3 1
3
Entropie(Greutate) =
8 log10 ( 2 ) 4 log10 ( 2 ) 2 log10 ( 2 )
Valoare Clasa
nu
3 pozitive
2 negative
da
3 negative
Entropie= 0.61
5 3
3 2
2 3
Entropie( Lotiune) = log 2 log 2 + ( 0 )
8 5
5 5
5 8
3
3 1
2
Entropie( Lotiune) = log 2 log 2
8
5 4
5
3
2
log10
log10
3
5 1
5
Entropie( Lotiune) =
8 log10 ( 2 ) 4 log10 ( 2 )
45
DATA MINING
MACHINE LEARNING.
Algoritmul 1R, Arbori de Decizie
Atributul Culoarea Parului are entropia cea mai mica. In continuare se
procedeaz la reducerea eantionului, prin luarea in considerare numai a acelor obiecte
pentru care entropia este minima (implicit ctig informaional mare). Pentru
exemplul dat se iau in calcul numai obiectele pentru care atributul culoare par are
valoarea blond, in noul eantion vor fi prezente acum 4 obiecte respectiv: Sarah,
Dana, Annie, Katie.
2. Se procedeaz similar ca in etapa anterioara pe eantionul rezultat de 4 obiecte
pentru care se calculeaz entropia pentru toate atributele ramase. Se va obine:
Atribute Entropie
nlime
0.50
Greutate
1.00
Loiune
0.00
Atributul loiune este selectat deoarece el are entropia cea mai mica n selecia
ramurii par blond. Astfel, folosind mpreuna testele pentru culoarea parului si
loiune asigura identificarea corecta a tuturor exemplelor din tabelul iniial
obinndu-se urmtorul arbore de decizie
ESANTION
Lotiune
Greutate
Inaltime
Culoare par
Da 3p 2n
Nu
3n
Entropie=0.61
Blond 2p 2n
Roscat 1p
Brunet 3n
Mica 1p 1n
Medie 1p 2n
Mare 1p 2n
Mica 1p 2n
Medie 2p 1n
Inalta
2n
Entropie=0.69
Entropie=0.50
Entropie=0.94
Se restrange esantionul la
obiectele unde atributul are
valoare Blond
46
DATA MINING
MACHINE LEARNING.
Algoritmul 1R, Arbori de Decizie
Esantion NOU
Annie Sarh Dana
Katie
Lotiune
Inaltime
Greutate
Entropie=1.0
Entropie=0
CLASIFICATORUL
If culoare par = blond and
lotiune = da then ars de soare
else nu
Entropie=0.50
Observaii
n este negativ NU aparine clasei ars de soare
p este pozitiv
Avantaje
- sunt capabili sa genereze reguli uor de interes;
- fac clasificri fora a necesita prea mult calcul
- pot lucra att cu variabile continue cat si cu variabile absolute
- furnizeaz explicit care cmpuri sunt cele mai importante pentru Clasificare
- timp execuie rapid
- regulile generate sunt uor interpretabile
- arhitectura optima pentru set date mari
- poate trata date de dimensiuni mari
Dezavantaje:
- nu sunt recomandate pentru tratarea cazurilor in care atributele au valorii continue;
- nu releva corelaiile intre atribute
- nu sunt recomandai in clasificri cu multe clase si numr relativ mic de exemple;
47
DATA MINING
MACHINE LEARNING.
Algoritmul 1R, Arbori de Decizie
Opiunea
numai MS1
numai MS2
MS1 i MS2
Probabilitatea de obinere a
contractului
0,20
0,85
0,15
0,80
0,95
0,05
0,65
Calea la nodul terminal 12: licitarea numai pentru MS1 (cost 50), la un
pre de 130 i dac licitarea este cu succes, aceasta include costuri de
aprovizionare, care sunt 18. Total profit: 130-50-18 = 62.
48
DATA MINING
MACHINE LEARNING.
Algoritmul 1R, Arbori de Decizie
Calea la nodul terminal 16: licitarea numai pentru MS2 (cost 14), la un
pre de 70, i dac licitarea este cu succes, aceasta include costuri de
aprovizionare, care sunt 12. Total profit 70-14-12 = 44.
Calea la nodul terminal 22: licitarea pentru MS1 i MS2 (cost 55), la un
pre de 190, i dac licitarea este cu succes, aceasta include costuri de
aprovizionare, care sunt 24. Total profit 190-55-24 = 111.
Astfel cea mai bun decizie de la nodul 2 este licitarea la preul de 115 000$.
D EC IZ IE
M S1 (-50 )
PR E
-18
+130
+70
0.15
14
-50
+65
0.95
13
PR E
-12
0.2
0.2
2
+115
12
M S2 (-14 )
15
+47 -50
16
0.20
17
18
M S1 & M S2
(-55 )
-24
+190
+60
0.95
19
PR E
20
+140
10
0.05
21 22
+111 -55
11
0.65
23 24
+61
25
-55
49