Documente Academic
Documente Profesional
Documente Cultură
Arbori de clasificare
10.3. Arborii de clasificare
Arborii de clasificare sunt probabil cele mai cunoscute i cele mai larg utilizate
metode de nvare din aplicaiile de tip data mining. Popularitatea lor st n simplitatea lor
conceptual, uurina n utilizare, viteza de calcul, robusteea lor cu privire la lipsa unor date
i a valorilor extreme i, mai ales, uurina de a interpreta regulile generate de acestea. Pentru
a separa observaiile aparinnd diferitelor clase, metodele bazate pe arbori obin reguli simple
i lmuritoare pentru relaia existent ntre variabila int i variabilele de previziune.
Observaiile antrenrii setate iniial coninute n nodul radcin ale arborelui sunt
divizate n subseturi disjuncte care sunt plasate provizoriu n dou sau mai multe noduri
descendente (ramificare). La fiecare nod determinat astfel, se aplic un control pentru a
verifica dac sunt ntmpinate condiiile pentru oprirea dezvoltrii nodului. Dac cel puin una
din aceste condiii este ntmpinat, nu se mai realizeaz nici o subivizare iar nodul devine o
frunz a arborelui. Altfel, subdivizarea observaiilor coninute n cadrul nodului este
continuat. La sfritul procedurii, cnd nici un nod al arorelui nu mai poate fi subdivizat mai
departe, fiecare nod frunz este etichetat cu valoarea clasei creia i aparin majoritatea
observaiilor din nod, potrivit unui criteriu numit votul majoritii.
Subdivizarea exemplelor din fiecare nod este realizat pe baza unei reguli de
mprire, denumit i regul de separare, ce va fi selectat pe baza unei funii specifice de
evaluare. Prin schimbarea parametrlor utilizai pentru identificarea regulii de mprire, se pot
obinte versiuni diferite ale arborelui de clasificare. Majoritatea acriteriilor de evaluare
propuse mpart obiectivul de maximizare a uniformitii clasei int pentru observaiile care
sunt plasate n fiecare nod generat prin separare. Regulile diferite de mprire sunt de obicei
bazate pe valoarea unor variabile explicative care descriu observaiile, n concordan cu
metodele specifice care vor fi discutate n seciunea urmtoare.
La sfritul procedurii, setul de reguli de mprire care se pot gsi dea lungul cii care
conecteaz rdcina copacului cu un nod frunz constituie o regul de clasificare 1.
n timpul fazei de previziune, pentru a atribui clasa int unei noi observaii, o cale este
urmat de la nodul rdcin ctre nodul frunz prin respectarea secvenei de reguli aplicate
valorilor atributelor observaiei noi. Clasa int anticipat, astfel atins, coincide apoi clasei cu
care a fost etichetat nodul frunz n timpul fazei de dezvoltare, adic clasa cu majoritatea
observaiilor din setul de antrenament care au czut n acel nod frunz.
Dup cum s-a observat, schema generrii arborilor de clasificare descris n procedura
10.1 este un cadru general i necesit ca unii pai s fie specificai nainte de a se deriva un
algoritm de clasificare implementabil. n urmtoarele seciuni vom examina componentele
induciei de tip top-down a procedurii arborilor de decizie.
1
O caracteristic a arborilor garanteaz c exist o singur cale care conecteaz nodul rdcin cu toate
celelate noduri, n mod particular cu nodurile frunz.
Criteriul de oprire. La fiecare nod al arborelui diferite criterii de oprire sunt aplicate
pentru a stabili dac dezvoltarea ar trebui continuat recursiv sau dac nodul ar trebui
considerat ca fiind frunz. n acest caz de asemenea, diferite criterii au fost propuse, care au
ca rezultat topologii diferiteale arborilor generai, toate celelalte elemente fiind egale.
Criterii de tiere. n final, este cazul s se aplice cteva criterii de tiere, mai nti
pentru a evita creterea excesiv a arborelui n timpul fazei de dezvoltare (pre tiere), apoi
pentru a reduce numrul de noduri dup ce arborele a fost generat (post tiere).
Figura 10.7 arat un arbore de clasificare obinut pentru setul de date descris n
exemplul 5.2, privind analiza loialitii n industria telefoniei mobile, ce va fi analizat n
detaliu n seciunea 10.3.3.
Arborii Binari. Un arbore este numit binar dac fiecare nod are cel mult dou ramuri.
Arborii binari reprezint n mod natural subdivizarea observaiilor coninute ntr-un nod
bazate pe valoarea uni atribut explicativ de tip binar. De exemplu, clienii care au autorizat
trimiterea de materiale promoionale prin pot pot fi plasai n nodul descendent drept iar
clienii care au refuzat astfel de materiale n nodul stng. Cnd avem de-a face cu atribute
categorice cu mai mult de dou clase, arborii binari trebuie s formeze dou grupuri de
categorii pentru a reliza o mprire. De exemplu, clienii din zonele {1, 2} pot fi plasai n
ramura dreapt iar cei din zonele {3, 4} pot fi plasai n ramura stng. Atributele numerice
pot fi separate pe baza unei valori prag. De exemplu, clienii cu vrsta mai mic de 45 de ani
pot fi plasai n nodul drept iar cei cu vrsta mai mare n nodul stng. n final, arborii binari
pot fi de asemenea folosii pentru a dezvolta clasificarea de tip multicategorie.
O alt distincie relevant din cadrul metodei arborilor de clasificare implic modul n
care atributele explicative contribuie la definiia regulii de mprire la fiecare nod. n
particular, putem face distincie ntre arbori univariai i multivariai.
Figura Error! No text of specified style in document..9 Impartirea univariata a unui atribut nominal
Figura Error! No text of specified style in document..10 Impartirea univariata a unui atribut numeric
Figura Error! No text of specified style in document..11 Clasificarea pe baza regulilor de impartire univariate
(axe paralele). Fiecare linie corespunde unei reguli de impartire generata la un nod in dezvoltarea arborelui.
unde valoarea prag b i coeficienii w1,w2,...,wn ale combinaiei liniare trebuie s fie
determinate, de exempu prin rezolvarea unei probleme de optimizare pentru fiecare nod, la ca
pentru arborii de clasificare generai prin intermediul varibilelor discrete ale vectorilor de
sprijin. Arborii multivariai sunt de asemenea cunoscui ca arbori de decizie oblici, deoarece
genereaz partiii poligonale a spaiului observaiilor prin separarea hiperplanurilor, dup cum
reiese din figura 10.12.
Figura Error! No text of specified style in document..12 Clasificarea pe baza regulilor de impartire
multivariate (drepte oblice). Fiecare linie dreapta corespunde unei reguli de impartire generata la un nod in
dezvoltarea arborelui.
Arborii oblici sunt de obicei caracterizai de o acuratee de previziune mai mare dect
arborii univariai, puse n faa unei interpretabiliti reduse a regulilor de clasificare generate.
n multe cazuri, un numr limitat de separare a hiperplanurilor poate fi de ajuns pentru a
clasifica cu acuratee nalt instanele, n vreme ce pentru a obine acelai rezultat un arbore
univariat ar avea nevoie de partiia spaiului observaiilor n mai multe hiper dreptunghiuri.
Figura 10.13 arat un exemplu de dataset bidimensional pentru care cele dou clase int pot
fi uor separate de o singur linie oblic, n vreme de ar avea nevoie de un numr mare de
reguli univariate.
Figura Error! No text of specified style in document..13 Clasificarea pe baza unei singuri reguli de impartire
multivariate (drepte oblice) pentru un set de date care nu poate fi impartit cu acuratete prin reguli univariate
Componenta principal care difereniaz variantele arborilor de clasificare univariai
propui pn acum este regula de mprire, utilizat pentru a identifica cel mai bun atribut
explicativ din cele disponibile i de a selecta cel mai eficient criteriu de partiionare dintre
cele pe care le induce. De obicei, ambele alegeri sunt fcute calculnd o funcie de evaluare,
pentru fiecare atribut i pentru fiecare partiie posibil, lucru care furnizeaz o msur de
eterogenitate n valorile clasei int intre exemplele aparinnd nodului printe i cele
aparinnd descendenilor. Maximizarea funciei de evaluare identific aadar partiia care
genereaz nodurile descendente mai omogene dect nodul printe.
Fie ph propoia de exemple a clasei int vh, h , la un nod q dat i fie Q numrul
total de instane ale lui q. Vom avea
= 1
=1
Indexul de eterogenitate I(q) al unui nod este de obicei o funcie a frecvenelor relative ph,
h , a valorilor clasei int pentru exemplele nodului, i trebuie s ndeplineasc trei cerine:
trebuie s aib valoarea maxim cnd exemplele de la nod sunt distribuite omogen printre
toate clasele; trebuie s aib valoarea minim cnd toate instanele de la nod aparin unei
singure clase; i trebuie s fie o funcie simetric cu privire la frecvenele relative ph, h .
Miscl() = 1 max
Gini(q) = 1 p2h
h=1
ntr-o problem de clasificare binar msurile de impuritate definite mai sus ating valoarea lor
maxim cnd p1=p2=1-p1=0.5, i sunt 0 atunci cnd p1=0 sau p1=1, dup cum reiese din
Figura 10.14.
Fie I(.) unul din indicii de impuritate definii anterior, presupunem c o regul de
mprire separ exemplele coninute de un nod q n K noduri descendente {q1, q2,,qk},
fiecare coninnd Qk instane. Dac am analiza partiia provenit de la un atribut categoric Xj
lund Hj valori distincte, setul de exemple de la q pot fi separate n Hj subseturi disjuncte,
dup cum reiese din Figura 10.9. n acest mod avem K=Hj, iar nodul descendent qj conine
exemplele pentru care variabila explicativ Xj ia valoarea vj . Dac Hj > 2 , aceast partiie
este posibil doar dac arborele este de tip general. Dac un arbore binar este dezvoltat, este
necesar divizarea valorilor Hj n dou seturi care s nu fie goale i apoi calcularea indicelui
de eterogenitate pentru toate 2 1 partiii posibile. n final, dac atributul Xj este numeric,
exemplele pt fi subdivizate pe intervale de valori, dup cum reiese i din figura 10.10. Pentru
a evita analiza tuturor valorilor prag posibile pentru separare, algoritmul realizeaz o cutare
binar printre valorile luate de atributul Xj n setul de date D.
Algoritmii pentru dezvoltarea arborilor univariai selecteaz pentru fiecare nod regula
i atributul corespunztor care determin valoarea minim a expresiei (10.21). Aceast alegere
este echivalentul maximizrii ctigului de informaii (.), definit ca
1
(, 1 , 2 , , ) = () (, 1 , 2 , , ) = () ( )
=1
Observatii
Un arbore de clasificare este folosit in luarea deciziilor, acesta partiioneaz m mod recursiv
mulimea de antrenament pna la obinerea nodurilor finale, care conin fie numai elemente
din aceiai categorie fie elemente din categoria dominant.
Utilizarea unui arbore de decizie ajut la buna clasificare a rezultatelor dar i la luarea unor
decizii optime prin obinerea unor reguli uor de neles i explicat.